Few-shot 3D reconstruction of body parts with deep neural networks

Autor/a

Ramon Maldonado, Eduard

Director/a

Giró Nieto, Xavier

Codirector/a

Moreno-Noguer, Francesc

Garcia Giraldez, Jaime

Fecha de defensa

2022-09-15

Páginas

82 p.



Departamento/Instituto

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Programa de doctorado

DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)

Resumen

(English) In this thesis, we study the problem of reconstructing objects from a concrete category in 3D when few images are available as input, i.e. less than 10. We apply our findings to digitalizing human body parts such as heads and torsos for medical applications. The first part of the thesis explores systems that rely on 3D Morphable Models. When approaching a concrete task, training such systems requires expensive manual hyperparameter tuning of both the architecture and the loss, which is time consuming. We focus on designing novel losses without hyperparameters and modular architectures that allow to train models without tuning efforts. We also aim at providing a fine alignment between the 3D space and the image space by estimating camera poses with a low reprojection error that further improve the texturing process in 3D modelling applications or the rendering process in augmented reality applications. Our findings lead to systems that are very stable and that naturally scale to different scenes. While 3D Morphable Models are fast and robust, they are still very limited in terms of accuracy and expressiveness, which might be prohibitive for applications that require high fidelity. A promising alternative to 3D Morphable Models are implicit functions, which in combination with differentiable rendering techniques have shown impressive results at reconstructing 3D surfaces. However, the later require large sets of images at test time to obtain satisfactory results. In the second part of the thesis, we propose to use a probabilistic model that represents a distribution of implicit surfaces in combination with a differentiable renderer to reduce the number of images required at test time. The resulting 3D reconstruction system is highly accurate and allows to reconstruct a wide variety of human head shapes when only 3 images are available.


(Català) En aquesta tesi, s'estudia el problema de reconstrucció d'objectes en 3D d'una categoria en concret quan es disposa de poques imatges, per exemple menys de 10. Els diferents mètodes els hem aplicat a digitalitzar parts del cos humà, com per exemple caps, per a aplicacions mèdiques. La primera part de la tesi explora sistemes basats en models deformables en 3D. Quan s'entrenen sistemes basats en models deformables per una tasca concreta, és necessari ajustar hiperparàmetres tant de l'arquitectura com de la funció de cost, la qual cosa requereix temps. El nostre objectiu és dissenyar noves funcions de cost sense hiperparàmetres i arquitectures simples i modulars que permetin entrenar models sense necessitat d'ajustar hiperparàmetres. Un altre dels propòsits és obtenir un alineat precís entre l'espai 3D i l'espai imatge, estimant posicions de càmera que tinguin errors de re-projecció baixos. Això permet millorar el procés posterior pel qual es genera la textura, i també beneficia el procés de renderitzat en aplicacions de realitat augmentada. Els mètodes proposats permeten obtenir sistemes que són molt estables i que escalen bé a diferents escenes. Tot i que els models deformables en 3D són ràpids i robustos, encara estan molt limitats pel que fa a precisió i expressivitat, la cual cosa pot ser prohibitiva per certes aplicacions que requereixen una alta fidelitat. Una alternativa prometedora als models deformables són les funcions implícites que, en combinació amb tècniques de renderitzat diferenciable, han mostrat ser molt precises per a la reconstrucció de superfícies 3D. En la segona part de la tesi, proposem utilitzar un model probabilístic que representa una distribució de funcions implícites, en combinació amb un renderitzador diferenciable, amb l’objectiu de reduir el nombre d'imatges necessari al moment de reconstruir una nova escena. Aquest nou sistema de reconstrucció 3D és molt precís i permet representar una gran varietat de formes de caps humans amb tan sols 3 imatges.

Materias

004 - Informática

Área de conocimiento

Àrees temàtiques de la UPC::Informàtica

Nota

Tesi amb menció de Doctorat Industrial (Generalitat de Catalunya)

Documentos

Este documento contiene ficheros embargados hasta el dia 14-09-2024

Derechos

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)