Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
Programa de doctorat en Tecnologies de la Informació i les Comunicacions
In this thesis, we address the problem of reconstructing the 3D facial geometry of babies from uncalibrated 2D images. This topic has many different applications, but it is especially relevant for the early diagnosis of developmental disorders. It has been found that such disorders can often alter the facial morphology of patients, thus facial analysis may serve as a pre-screening tool. Furthermore, by recovering the 3D face from 2D images, the need for specialised machinery for obtaining a 3D facial image is avoided, which makes the diagnosis much more accessible. Unfortunately, the 3D face reconstruction problem is ill-posed: a 2D image is not sufficient to recover the 3D facial geometry, as it collapses one dimension, hence the 3D face cannot be recovered unequivocally without further information. A tool that has been widely used to resolve these ambiguities are the 3D morphable models (3DMMs), which are statistical models that encode the geometric variability present in a given population. Although there are several 3DMMs publicly available, they were built from populations that consist mainly of adults, and, in some cases, include also children, but not babies. As a consequence, these 3DMMs are not adequate to model the 3D facial geometry of babies, which differs much from that of adults, and thus they cannot represent the characteristic facial features of babies. For this reason, given the importance of 3DMMs for 3D face reconstruction, we address the construction of a 3D facial model of babies, the Baby Face Model (BabyFM), which is the first 3DMM build exclusively from babies and will be made publicly available to the research community. To achieve this, we propose a novel pipeline for the construction of a 3DMM that addresses the specific issues that arise when dealing with baby data, such as occlusions or extreme expressions. The pipeline consists of two phases. Firstly, we establish dense correspondences among the training faces using spectral methods, which provide a more robust theoretical background than state-of-the-art methods, and, indeed, will be shown to lead to more accurate correspondences. Secondly, we propose a data augmentation technique that reduces the effect of moderate-size training sets by combining two different sources of information: the geometric variability related to identity, and the geometric variability related to asymmetry. This data augmentation technique is integrated within a cutting-edge framework based on Gaussian processes, which provides a theoretically sound means to combine different sources of variability. The construction of the BabyFM opens the possibility of addressing the 3D baby face reconstruction problem from the most recent trend in the literature, which is incorporating deep learning algorithms. Deep learning has shown great potential in capturing both the global facial shape and facial details more accurately than classical strategies, but requires sufficiently large training sets of 2D and 3D corresponding data, which are hard to find for adult faces, and even harder for babies. To overcome this lack of data, we create a synthetic training set by sampling from the BabyFM, following a strategy that has been widely used in the literature for adult data. With such synthetic training set, we train the first 3D face reconstruction system that specifically targets baby geometry, the BabyNet. It consists of a combination of a 3D autoencoder that learns a low-dimensional non-linear latent space of the geometric variability of the baby face, and a 2D encoder that maps image features to the same latent space so that their 3D geometry can be reconstructed by the 3D decoder. This architecture, in combination with our synthetic training set, yields a 3D reconstruction system that recovers the 3D facial geometry of babies with remarkable results. The BabyNet outperforms complex deep learning-based approaches that have been trained with adult data and are not able to reproduce the characteristic facial features of babies, and it also improves the state-of-the-art results obtained with 3DMM fitting approaches, even when the BabyFM is used to recover the 3D face from the input images. The results of this thesis confirm the need for baby-specific approaches when addressing facial analysis of babies, and open the door to further research. On the one hand, the BabyFM allows us to generate a synthetic dataset with which to train the BabyNet, but it can also be used in many other research fields and applications. For example, it can serve as a reference of the normal morphology of babies in the detection of craniofacial dysmorphology patterns. On the other hand, the promising results obtained with the BabyNet suggest that it can be used in any of the applications of 3D face reconstruction, such as facial animation of babies in the computer graphics field or medical diagnosis of developmental disorders.
En aquesta tesi, abordem la reconstrucció de la geometria facial en 3D de nadons a partir d'imatges 2D sense calibrar. Aquest camp té moltes aplicacions diferents, però és especialment rellevant per al diagnòstic precoç de trastorns del desenvolupament. S'ha trobat que aquests trastorns sovint poden alterar la morfologia facial dels pacients, per tant l'anàlisi facial pot servir com a eina de preselecció. A més, reconstruir la geometria facial en 3D a partir d'imatges 2D permet evitar la necessitat de maquinària especialitzada per a l'obtenció d'una imatge facial 3D, fent la diagnosi molt més accessible. Malauradament, la reconstrucció de cares en 3D és un problema no determinat, és a dir, una imatge en 2D no és suficient per a recuperar la geometria facial en 3D, ja que col·lapsa una dimensió, i per tant, la cara en 3D no es pot recuperar de manera inequívoca sense més informació. Una eina que s'ha utilitzat àmpliament per resoldre aquestes ambigüitats són els 3D morphable models (3DMMs), que són models estadístics que codifiquen la variabilitat geomètrica present en una població determinada. Tot i que hi ha diversos 3DMM disponibles, aquests es van crear a partir de poblacions formades principalment per adults i, en alguns casos, també inclouen nens, però no nadons. Com a conseqüència, aquests 3DMMs no són adequats per a modelitzar la geometria facial 3D dels nadons, que difereix molt de la dels adults, i per tant no poden representar els trets facials característics dels nadons. Per aquest motiu, donada la importància dels 3DMMs per a la reconstrucció de cares en 3D, abordem la construcció d'un model facial 3D de nadons, el Baby Face Model (BabyFM), que és el primer 3DMM construït exclusivament a partir de nadons i que estarà disponible per a la comunitat investigadora. Per aconseguir-ho, proposem un nou mètode per a la construcció d'un 3DMM que abordi les qüestions específiques que es plantegen a l'hora de tractar amb dades de nadons, com oclusions o expressions extremes. Aquest mètode consta de dues fases. En primer lloc, establim correspondències denses entre les cares d'entrenament mitjançant mètodes espectrals, que proporcionen una base teòrica més sòlida que els mètodes preexistents i, de fet, es demostrarà que condueixen a correspondències més precises. En segon lloc, proposem una tècnica d'augment de dades que redueix l'efecte dels conjunts d'entrenament de mida moderada combinant dues fonts d'informació diferents: la variabilitat geomètrica relacionada amb la identitat i la variabilitat geomètrica relacionada amb l'asimetria. Aquesta tècnica d'augment de dades s'integra dins d'un marc basat en processos gaussians que s'ha proposat recentment i que proporciona una eina teòricament sòlida per a combinar diferents fonts de variabilitat. La construcció del BabyFM obre la possibilitat de reconstruir la cara de nadons en 3D des de l'estratègia més recent de la bibliografia, que és incorporar algorismes d'aprenentatge profund (AP). L'AP ha mostrat un gran potencial per capturar tant la forma facial global com els detalls facials amb més precisió que les estratègies clàssiques, però requereix conjunts d'entrenament suficientment grans formats per parelles de dades en 3D i 2D que són difícils de trobar per a adults, i encara més difícils per a nadons. Per vorejar aquesta manca de dades, creem un conjunt d'entrenament sintètic mitjançant el mostreig del BabyFM, seguint una estratègia àmpliament utilitzada a la bibliografia per a dades d'adults. Amb aquest conjunt d'entrenament sintètic, entrenem el primer sistema de reconstrucció facial en 3D específic per a la geometria del nadó, la BabyNet. Consisteix en una combinació d'un autoencoder 3D que aprèn un espai latent no lineal i de dimensió reduïda de la variabilitat geomètrica de la cara del nadó, i un encoder 2D que extreu característiques de la imatge en el mateix espai latent, i així la seva geometria 3D es pugui reconstruir mitjançant el decoder 3D. Aquesta arquitectura, en combinació amb el nostre conjunt d'entrenament sintètic, dóna un sistema de reconstrucció 3D que recupera la geometria facial dels nadons amb resultats destacables. La BabyNet supera mètodes complexos basats en l'aprenentatge profund que s'han entrenat amb dades d'adults i no són capaços de reproduir els trets facials característics dels nadons, i també millora els resultats obtinguts amb mètodes d'ajust d'un 3DMM, fins i tot quan el BabyFM s'utilitza per recuperar la cara 3D a partir de les imatges d'entrada. Els resultats d'aquesta tesi confirmen la necessitat de mètodes específics a l'hora de fer anàlisi facial de nadons i obren la porta a més investigacions en aquest camp i en d'altres. D'una banda, el BabyFM ens permet generar un conjunt de dades sintètic amb el qual entrenar el BabyNet, però també es pot utilitzar en molts altres camps de recerca i aplicacions. Per exemple, pot servir com a referència de la morfologia normal dels nadons en la detecció de patrons de dismorfologia craniofacial. D'altra banda, els resultats prometedors obtinguts amb la BabyNet suggereixen que es pot utilitzar en qualsevol de les aplicacions de reconstrucció facial 3D, com l'animació facial de nadons en l'àmbit de la computació gràfica o el diagnòstic mèdic de trastorns del desenvolupament.
Statistical facial modelling; 3D face reconstruction; 3D morphable model; Modelització facial estadística; Reconstrucció facial en 3D
62 - Ingeniería. Tecnología