Towards Handling 3D Shape, Terrain Elevation, and Visual Relocalization with Implicit Neural Representation

Autor/a

Yao, Shun

Director/a

Cheng , Yongmei

Mozerov, Mikhail G.

Tutor/a

Mozerov, Mikhail G.

Data de defensa

2024-11-07

Pàgines

127 p.



Programa de doctorat

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resum

El nostre món real es troba en l’espai físic; tanmateix, els humans necessiten quantificar propietats físiques en aplicacions de visió per computador. Per exemple, representem la informació visual com a intensitat RGB, el terreny com a valors d’elevació, les formes estereoscòpiques com a superfícies i les entitats com a volums ocupats, etc. Amb els avenços en la tecnologia d’aprenentatge automàtic, els models de representació neuronal implícita (INR), que parametrizen aquestes propietats físiques mitjançant funcions de mapeig basades en coordenades, ofereixen solucions prometedores que són més precises, de major fidelitat, més expressives, més ràpides d’implementar i més eficients en l’ús de memòria. Aquesta dissertació se centra en el desenvolupament de models INR per a la representació de formes 3D, la representació de l’elevació del terreny, la superresolució multiescala de DEM i la relocalització visual en múltiples escenes. En el cas de la representació de formes 3D, explorem l’ús d’estructures jeràrquiques i topològiques per a aprendre representacions latents de dades geomètriques en 3D. Observant les limitacions de les xarxes de convolució de grafs existents pel que fa a la resolució i la complexitat estructural, introduïm INR per a millorar la granularitat i la flexibilitat de la representació. Per a millorar l’eficiència de l’aprenentatge i reduir els paràmetres d’entrenament, proposem un model INR que utilitza múltiples codis latents per a aprendre geometries locals en lloc de tota la forma 3D. A més, introduïm una xarxa de convolució de grafs auxiliar per a transmetre aquests codis latents a parts específiques de la forma i proposem una nova funció de pèrdua geomètrica per a facilitar l’aprenentatge mutu entre els codis latents. Per a la representació de l’elevació del terreny, estudiem el problema de la precisió de la representació causat per la discretització dels models digitals d’elevació (DEM) existents. A més, diferents aplicacions requereixen representacions discretes específiques, la qual cosa fa necessàries conversions de format. No obstant això, aquestes conversions inevitablement comprometen la fidelitat de les dades d’elevació. Per a solucionar aquests problemes que condueixen a una representació inexacta de les dades d’elevació, desenvolupem un nou model de representació contínua (CDEM), un model INR que permet obtenir valors d’altura en qualsevol posició de consulta arbitrària, amb l’objectiu de preservar la continuïtat de les dades d’elevació topogràfica en el món real. A continuació, entrenem una xarxa codificador-decodificador per a aprendre CDEM a partir de dades d’elevació discretes per a tasques de superresolució DEM multiescala. Per a millorar la precisió del model, proposem predir el biaix dels valors d’elevació entre la posició de consulta i la seva posició coneguda més propera. Per a facilitar la capacitat del model per a predir variacions d’alta freqüència, introduïm la codificació posicional per a mapar les posicions de consulta en un espai de major dimensió. Per a la relocalització visual en múltiples escenes, ens centrem en l’aprenentatge eficient sense utilitzar informació de geometria d’escena preparada ni representacions de escenaris preconstruïdes que consumeixen molt de temps. Proposem representar múltiples escenes dins d’un sistema de coordenades de referència global i entrenar un model de regressió SC (és a dir, un model INR) utilitzant imatges posades de totes les escenes simultàniament. Per a reduir l’impacte de les ambigüitats visuals, introduïm la incrustació d’escena com a condició prèvia per a les nostres prediccions del model. Per a millorar la generalització del nostre model en múltiples escenes, proposem el mòdul d’ajust de regressió condicional a l’escena (SCRA), que genera dinàmicament paràmetres que s’adapten de manera flexible a la incrustació de l’escena. A més, introduïm mòduls de modulació i complement per a millorar l’aplicabilitat del model tant a nivell de mostra d’imatge com a nivell d’escena.


Nuestro mundo real se encuentra en el campo del espacio físico; sin embargo, los seres humanos necesitan cuantificar propiedades físicas en aplicaciones de visión por computadora. Por ejemplo, representamos la información visual como intensidad RGB, el terreno como valores de elevación, las formas estéreo como superficies, y las entidades como volúmenes ocupados, etc. Con los avances en la tecnología de aprendizaje automático, los modelos de representación implícita neuronal (INR), que parametrizan estas propiedades físicas utilizando funciones de mapeo basadas en coordenadas, ofrecen soluciones prometedoras que son más precisas, de mayor fidelidad, más expresivas, más rápidas de implementar y más eficientes en cuanto a memoria. Esta disertación se centra en el desarrollo de modelos INR para la representación de formas 3D, la representación de elevación del terreno, la superresolución multiescala de DEM, y la relocalización visual en múltiples escenas. En el caso de la representación de formas 3D, exploramos el uso de estructuras jerárquicas y topológicas para aprender representaciones latentes de datos geométricos en 3D. Notando las limitaciones de las redes de convolución de grafos existentes en cuanto a resolución y complejidad estructural, introducimos INRs para mejorar la granularidad y flexibilidad de la representación. Para mejorar la eficiencia del aprendizaje y reducir los parámetros de entrenamiento, proponemos un modelo INR que utiliza múltiples códigos latentes para aprender geometrías locales en lugar de toda la forma 3D. Además, introducimos una red de convolución de grafos auxiliar para transmitir estos códigos latentes a partes específicas de la forma y proponemos una nueva función de pérdida geométrica para facilitar el aprendizaje mutuo entre los códigos latentes. Para la representación de la elevación del terreno, estudiamos el problema de precisión de la representación causado por la discretización de los modelos digitales de elevación (DEM) existentes. Además, diferentes aplicaciones requieren representaciones discretas específicas, lo que hace necesario realizar conversiones de formato. Sin embargo, estas conversiones inevitablemente comprometen la fidelidad de los datos de elevación. Para resolver los problemas mencionados que conducen a una representación inexacta de los datos de elevación, desarrollamos un nuevo modelo de representación continua (CDEM), un modelo INR que permite obtener valores de altura en cualquier posición de consulta arbitraria, con el objetivo de preservar la continuidad de los datos de elevación topográfica en el mundo real. A continuación, entrenamos una red codificador-decodificador para aprender CDEM a partir de datos de elevación discretos para tareas de superresolución DEM multiescala. Para mejorar la precisión del modelo, proponemos predecir el sesgo de los valores de elevación entre la posición de consulta y su posición conocida más cercana. Para facilitar la capacidad del modelo para predecir variaciones de alta frecuencia, introducimos la codificación posicional para mapear las posiciones de consulta en un espacio de mayor dimensión. Para la relocalización visual en múltiples escenas, nos centramos en el aprendizaje eficiente sin utilizar información de geometría de escena preparada ni representaciones de escenarios preconstruidas que consumen mucho tiempo. Proponemos representar múltiples escenas dentro de un sistema de coordenadas de referencia global y entrenar un modelo de regresión SC (es decir, un modelo INR) utilizando imágenes posadas de todas las escenas simultáneamente. Para reducir el impacto de las ambigüedades visuales, introducimos la incrustación de escena como una condición previa para nuestras predicciones del modelo. Para mejorar la generalización de nuestro modelo en múltiples escenas, proponemos el módulo de ajuste de regresión condicional a la escena (SCRA), que genera dinámicamente parámetros que se adaptan de manera flexible a la incrustación de la escena. Además, introducimos módulos de modulación y complemento para mejorar la aplicabilidad del modelo tanto a nivel de muestra de imagen como a nivel de escena.


Our real world is located in the physical space field, however, humans need to quantify physical properties in computer vision applications. For example, we represent the visual information as RGB intensity, terrain as elevation values, stereo shapes as surfaces, entities as occupied volumes, etc. With advances in machine learning technology, implicit neural representation (INR) models, which parameterize these physical properties using coordinate-based mapping functions, offer promising solutions that are more accurate, higher fidelity, more expressive, faster to implement, and more memory-efficient. This dissertation focuses on developing INR models for 3D shape representation, terrain elevation representation, multi-scale DEM super-resolution, and multi-scene visual relocalization. In the case of 3D shape representation, we explore the use of hierarchical and topological structures to learn latent representations of 3D geometric data. Noting the limitations of existing graph convolution networks in resolution and structural complexity, we introduce INRs to improve representation granularity and flexibility. Instead of using explicit formats like points, lines, and surfaces, the INR aims to regress the signed distance from any arbitrary 3D point to the shape's surface. The 3D shape is then represented as an iso-surface extracted from the predicted signed distances. However, directly using a single neural network to approximate the entire 3D shape would result in long training times and require numerous network parameters. To improve learning efficiency and reduce training parameters, we propose an INR model that uses multiple latent codes to learn local geometries rather than the entire 3D shape. Additionally, we introduce an auxiliary graph convolution network to transmit these latent codes to specific shape parts and propose a novel geometric loss function to facilitate mutual learning among the latent codes. For terrain elevation representation, we study the representation precision problem caused by the discretization of existing digital elevation models. Furthermore, different applications require specific discrete representations, necessitating format conversions. However, these conversions inevitably compromise the fidelity of elevation data. To solve the above problems that lead to inaccurate representation of elevation data, we develop a new continuous representation model (CDEM), an INR model that allows height values to be obtained at any arbitrary query position, aiming to preserve the continuity of topographic elevation data in the real world. Next, we train an encoder-decoder network to learn CDEM from discrete elevation data for multi-scale DEM super-resolution tasks. To improve model accuracy, we propose predicting the bias of elevation values between the query position and its closest known position. To facilitate the model’s ability to predict high-frequency variations, we introduce positional encoding to map query positions into a higher-dimensional space. Our experiments demonstrate that our model can achieve more accurate elevation values and preserve more detailed terrain structures than other methods. For visual relocalization across multiple scenes, we focus on efficient learning without using prepared scene geometry information and time-consuming pre-built scenario representations. Extending SC regression models to multiple scenes typically requires retraining model parameters or using pre-built reference landmarks, both of which are time-consuming. To enhance efficiency and avoid this process, we propose representing multiple scenes within a global reference coordinate and training an SC regression model (ie, an INR model) using posed images from all scenes simultaneously. To reduce the impact of visual ambiguities, we introduce scene embedding as a prior condition for our model predictions. To enhance our model’s generalizability across multiple scenes, we propose the scene-conditional regression-adjust (SCRA) module, which dynamically generates parameters to adapt flexibly to the scene embedding. Additionally, we introduce modulation and complement modules to enhance the model’s applicability at both the image sample and scene levels.

Paraules clau

Representació de formes 3D; 3D shape representation; Representación de formas en 3D; Superresolució DEM; DEM super-resolution; Superresolución DEM; Relocalització visual; Visual relocalization; Relocalización visual

Matèries

004 - Informàtica

Àrea de coneixement

Tecnologies

Documents

sy1de1.pdf

16.92Mb

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)