Improving Mapping and Localization using Deep Learning

dc.contributor.author
Altillawi, Mohammad
dc.date.accessioned
2024-12-13T08:59:56Z
dc.date.available
2024-12-13T08:59:56Z
dc.date.issued
2024-10-11
dc.identifier.uri
http://hdl.handle.net/10803/692818
dc.description.abstract
Localitzar una càmera des d'una única imatge en una àrea visitada prèviament te aplicació en en molts camps, com ara la robòtica, la conducció autònoma i la realitat augmentada/virtual. En aquesta tesi, proposem solucions per utilitzar l'aprenentatge profund per millorar la re-localització de la càmera des d'una sola imatge. Després del capítol introductori, definim i afrontem les limitacions dels enfocaments actuals i proporcionem solucions impulsades per Dades en els següents capítols. En el segon capítol proposem un mètode que aprèn un prior geomètric per a detectar regions fiables en una escena determinada. Aquest mètode selecciona característiques de píxels fiables de la imatge única d' entrada i estima les seves coordenades 3D corresponents directament per a l'estimació de la posició i orientació de la càmera. Evita seleccionar punts clau (per tant, els punts 3D corresponents) de regions d'imatge no discriminats com el cel i els arbres, objectes dinàmics com cotxes i vianants, i les oclusions. En evitar aquestes fonts atípiques, el mètode proposat selecciona un nombre controlable de correspondències, millorant l'eficiència de la localització i la seva precisió. En el tercer capítol proposem aprofitar una nova xarxa de restriccions geomètriques espacials i temporals en forma de poses de càmera relativa que s'obtenen de càmeres adjacents i distants per tal de guiar la formació d'una xarxa profunda per a la localització. En aquest context, la xarxa profunda actua com el mapa de l'escena. Utilitzant les nostres restriccions, guiem la xarxa per codificar aquestes restriccions geomètriques en els seus pesos. En el quart capítol proposem una nova estratègia per a utilitzar les etiquetes mínimes disponibles (és a dir, la pose) per a un mètode d'estimació de posició impulsada per dades per obtenir la geometria de l'escena. El marc de treball proposat utilitza un mòdul d'alineació rígid diferenciable per passar gradients a la xarxa profunda per tal d'ajustar la geometria apresa. Aprèn dues representacions geomètriques en 3D (coordenades X, Y, Z) de l'escena, una en el marc de coordenades de la càmera i l'altra en el marc de coordenades global. Com a resultat, el mètode proposat aprèn i incorpora restriccions geomètriques per a una estimació de posició més precisa. En el cinquè capítol proposem explorar la potència dels models generatius per a la generació de dades per a la localització basada en dades. Contribuïm així amb un nou mètode de centrat en dades per a generar correspondències en diferents condicions de visualització i il·luminació per potenciar la robustesa de la localització cap a canvis a llarg termini (dia-nit, meteorològic, estacional). El mètode proposat representa l'escena amb un nombre de representacions implícites (basades en NeRFs), cadascuna correspon a una condició d'il·luminació diferent. En conseqüència, utilitza la geometria subjacent basada en aquestes representacions per generar correspondències precises entre les diferents variacions d'il·luminació. En utilitzar aquestes correspondències millora la localització davant dels canvis a llarg termini. En el sisè capítol proposem un model generatiu basat en punts per sintetitzar punts de vista novells. El treball proposat apunta i resol un problema desajustament entre la geometria (núvol de punt) i l'aparença (imatges), que genera representacions degradades. El mètode proposat utilitza un gràfic de connectivitat entre aparença i geometria. En contrast amb l'ús de tot el núvol de punts d'una escena, recupera punts d'un gran núvol de punts que s'observen des de la perspectiva de la càmera actual i els utilitza per a la representació. Això fa que el mètode de representació sigui més ràpida i escalable. La nostra proposta utilitza la reconstrucció d'imatges amb un entrenament adversari generatiu per millorar la qualitat de representació.
dc.description.abstract
Localizar una cámara a partir de una sola imagen en una zona previamente visitada permite aplicaciones en muchos campos, como la robótica, la conducción autónoma y la realidad aumentada/virtual. En esta tesis, proponemos soluciones para utilizar el aprendizaje profundo para mejorar la relocalización de la cámara a partir de una sola imagen. Después del capítulo introductorio, definimos y abordamos las limitaciones de los enfoques actuales y proporcionamos soluciones basadas en datos en los siguientes capítulos En el segundo capítulo proponemos un método que aprende un prior geométrico para detectar regiones fiables en una escena dada. Selecciona características de píxeles fiables de la imagen única de entrada y estima sus correspondientes coordenadas 3D directamente para la estimación de la pose. Evita seleccionar puntos clave (y por tanto los correspondientes puntos 3D) de regiones de la imagen no informativas, como el cielo y los árboles, objetos dinámicos como coches y peatones, y oclusiones. Al evitar estas fuentes atípicas, el método propuesto selecciona un número controlable de correspondencias, mejorando la eficiencia y la precisión de la localización. En el capítulo tres proponemos aprovechar una novedosa red de restricciones geométricas espaciales y temporales en forma de poses relativas de cámara que se obtienen de cámaras adyacentes y distantes para guiar el entrenamiento de una red profunda para la localización. Al emplear nuestras restricciones, guiamos a la red para que codifique estas restricciones geométricas en sus pesos. Al englobar estas restricciones codificadas, el proceso de localización obtiene una mayor precisión en la inferencia. En el capítulo cuarto proponemos un nuevo proceso para utilizar las etiquetas mínimas disponibles (es decir, poses) para un proceso de estimación de poses basado en datos para obtener la geometría de la escena. Aprende dos representaciones geométricas 3D (coordenadas X, Y, Z) de la escena, una en el marco de coordenadas de la cámara y la otra en el marco de coordenadas global. Dada una única imagen en la inferencia, el conducto propuesto activa la red profunda para obtener las dos representaciones geométricas de la escena observada y las alinea para estimar la pose de la cámara. Como resultado, el método propuesto aprende e incorpora restricciones geométricas para una estimación de pose más precisa. En el capítulo quinto proponemos explorar el poder de los modelos generativos para la generación de datos para la localización basada en datos. Así, contribuimos con un novedoso método centrado en los datos para generar correspondencias a través de diferentes condiciones de visión e iluminación para mejorar la robustez de la localización frente a cambios a largo plazo. El método propuesto representa la escena con una serie de representaciones implícitas (basadas en NeRFs), cada una de las cuales corresponde a diferentes condiciones de iluminación. En consecuencia, utiliza la geometría subyacente basada en estas representaciones para generar correspondencias precisas a través de las diferentes variaciones de iluminación. El uso de estas correspondencias mejora la localización a través de cambios a largo plazo. En el capítulo sexto proponemos un modelo generativo basado en puntos para sintetizar nuevas vistas. El trabajo propuesto señala y resuelve un problema de desajuste entre la geometría (nube de puntos) y la apariencia (imágenes), que genera visualizaciones degradadas. El método propuesto emplea un gráfico de conectividad entre la apariencia y la geometría. En lugar de utilizar toda la nube de puntos de una escena, recupera puntos de una gran nube de puntos que se observan desde la perspectiva de la cámara actual y los utiliza para el renderizado. Esto hace que el proceso de renderizado sea más rápido y escalable. Nuestra propuesta emplea la reconstrucción de imágenes con entrenamiento generativo adversario para mejorar la calidad del renderizado.
dc.description.abstract
In this PhD dissertation, we have addressed the problem of camera localization. Specifically, we aimed to use deep learning to improve the accuracy of camera localization under the constraints of localizing from a single image while maintaining real runtime. In chapter two, we propose a method that learns a geometric prior to inform about reliable regions in a given scene. It selects reliable pixel features from the input single image and estimates their corresponding 3D Coordinates directly for pose estimation. In essence, the proposed method does not consider the whole image as useful for localization. It avoids selecting keypoints (thus the corresponding 3D points) from non-discriminative image regions such as the sky and trees, dynamic objects such as cars and pedestrians, and occlusions. By bypassing these outlier sources, the proposed method selects a controllable number of correspondences, enhancing localization efficiency and accuracy. In chapter three, we propose to leverage a novel network of spatial and temporal geometric constraints in the form of relative camera poses that are obtained from adjacent and distant cameras to guide the training of a deep network for localization. In this context, the deep network acts as the map of the scene. By employing our constraints, we guide the network to encode these geometric constraints in its weights. By encompassing these encoded constraints, the localization pipeline obtains better accuracy at inference. In chapter four, we propose a novel pipeline to utilize the minimal available labels (i.e., poses) for a data-driven pose estimation pipeline to obtain the scene's geometry. The proposed framework uses a differentiable rigid alignment module to pass gradients into the deep network to adjust the learned geometry. It learns two 3D geometric representations (xyz coordinates) of the scene, one in camera coordinate frame and the other in global coordinate frame. Given a single image at inference, the proposed pipeline triggers the deep network to obtain the two geometric representations of the observed scene and aligns them to estimate the pose of the camera. As a result, the proposed method learns and incorporates geometric constraints for a more accurate pose estimation. In chapter five, we propose to explore the power of generative models for data generation for data-driven localization. We thus contribute with a novel data-centric method to generate correspondences across different viewing and illumination conditions to enhance the robustness of localization towards long-term changes (daytime, weather, season). The proposed method represents the scene with a number of implicit representations (based on NeRFs), each corresponds to different illumination condition. Consequently, it utilizes the underlying geometry based on these representations to generate accurate correspondences across the different illumination variations. Using these correspondences enhances localization across long-term changes. Besides, we built an evaluation benchmark to assess and evaluate the performances of feature extraction and description networks towards localization across long-term illumination changes. Our work serves as a substantial stride toward robust long-term localization. In chapter six, we propose a point-based generative model to synthesize novel views. The proposed work points out and solves a mismatch issue between geometry (point cloud) and appearance (images), which generates degraded renderings. The proposed method employs a connectivity graph between appearance and geometry. In contrast to using the whole point cloud of a scene, it retrieves points from a large point cloud that are observed from the current camera perspective and uses them for rendering. This makes the rendering pipeline faster and more scalable. We emphasize as well the power of this connectivity graph to the recent 3D Gaussian splatting scene representation. Our proposal employs image reconstruction with generative adversarial training for enhanced rendering quality. The pipeline can be used to generate more data for localization.
dc.format.extent
168 p.
dc.language.iso
eng
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Localització de la càmera
dc.subject
Camera Localization
dc.subject
Localización de cámaras
dc.subject.other
Tecnologies
dc.title
Improving Mapping and Localization using Deep Learning
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2024-12-13T08:59:55Z
dc.subject.udc
004
dc.contributor.director
Li , Shile
dc.contributor.tutor
Serrat Gual, Joan
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica


Documents

ma1de1.pdf

46.04Mb PDF

This item appears in the following Collection(s)