Few-shot 3D reconstruction of body parts with deep neural networks

Author

Ramon Maldonado, Eduard

Director

Giró Nieto, Xavier

Codirector

Moreno-Noguer, Francesc

Garcia Giraldez, Jaime

Date of defense

2022-09-15

Pages

82 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Doctorate programs

DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)

Abstract

(English) In this thesis, we study the problem of reconstructing objects from a concrete category in 3D when few images are available as input, i.e. less than 10. We apply our findings to digitalizing human body parts such as heads and torsos for medical applications. The first part of the thesis explores systems that rely on 3D Morphable Models. When approaching a concrete task, training such systems requires expensive manual hyperparameter tuning of both the architecture and the loss, which is time consuming. We focus on designing novel losses without hyperparameters and modular architectures that allow to train models without tuning efforts. We also aim at providing a fine alignment between the 3D space and the image space by estimating camera poses with a low reprojection error that further improve the texturing process in 3D modelling applications or the rendering process in augmented reality applications. Our findings lead to systems that are very stable and that naturally scale to different scenes. While 3D Morphable Models are fast and robust, they are still very limited in terms of accuracy and expressiveness, which might be prohibitive for applications that require high fidelity. A promising alternative to 3D Morphable Models are implicit functions, which in combination with differentiable rendering techniques have shown impressive results at reconstructing 3D surfaces. However, the later require large sets of images at test time to obtain satisfactory results. In the second part of the thesis, we propose to use a probabilistic model that represents a distribution of implicit surfaces in combination with a differentiable renderer to reduce the number of images required at test time. The resulting 3D reconstruction system is highly accurate and allows to reconstruct a wide variety of human head shapes when only 3 images are available.


(Català) En aquesta tesi, s'estudia el problema de reconstrucció d'objectes en 3D d'una categoria en concret quan es disposa de poques imatges, per exemple menys de 10. Els diferents mètodes els hem aplicat a digitalitzar parts del cos humà, com per exemple caps, per a aplicacions mèdiques. La primera part de la tesi explora sistemes basats en models deformables en 3D. Quan s'entrenen sistemes basats en models deformables per una tasca concreta, és necessari ajustar hiperparàmetres tant de l'arquitectura com de la funció de cost, la qual cosa requereix temps. El nostre objectiu és dissenyar noves funcions de cost sense hiperparàmetres i arquitectures simples i modulars que permetin entrenar models sense necessitat d'ajustar hiperparàmetres. Un altre dels propòsits és obtenir un alineat precís entre l'espai 3D i l'espai imatge, estimant posicions de càmera que tinguin errors de re-projecció baixos. Això permet millorar el procés posterior pel qual es genera la textura, i també beneficia el procés de renderitzat en aplicacions de realitat augmentada. Els mètodes proposats permeten obtenir sistemes que són molt estables i que escalen bé a diferents escenes. Tot i que els models deformables en 3D són ràpids i robustos, encara estan molt limitats pel que fa a precisió i expressivitat, la cual cosa pot ser prohibitiva per certes aplicacions que requereixen una alta fidelitat. Una alternativa prometedora als models deformables són les funcions implícites que, en combinació amb tècniques de renderitzat diferenciable, han mostrat ser molt precises per a la reconstrucció de superfícies 3D. En la segona part de la tesi, proposem utilitzar un model probabilístic que representa una distribució de funcions implícites, en combinació amb un renderitzador diferenciable, amb l’objectiu de reduir el nombre d'imatges necessari al moment de reconstruir una nova escena. Aquest nou sistema de reconstrucció 3D és molt precís i permet representar una gran varietat de formes de caps humans amb tan sols 3 imatges.

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Note

Tesi amb menció de Doctorat Industrial (Generalitat de Catalunya)

Documents

This document contains embargoed files until 2024-09-14

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)