Supervised Monocular Depth Estimation Based on Machine and Deep Learning Models

Autor/a

Abdulwahab, Saddam

Director/a

Puig Valls, Domènec Savi

Abdellatif Fatahallah Ibrahim Mahmoud, Hatem

Fecha de defensa

2023-04-27

Páginas

271 p.



Departamento/Instituto

Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques

Resumen

L'estimació de profunditat fa referència a mesurar la distància de cada píxel en relació amb la càmera. L'estimació de la profunditat és crucial per a moltes aplicacions, com ara la comprensió i reconstrucció d'escenes, la visió robotitzada i els cotxes autònoms. Els mapes de profunditat es poden estimar mitjançant imatges estèreo o monoculars. L'estimació de la profunditat es realitza normalment a través de la visió estèreo seguint diverses etapes que requereixen temps, com ara la geometria epipolar, la rectificació i la concordança. Tanmateix, predir mapes de profunditat a partir d'imatges RGB individuals encara és un repte, ja que s'han de deduir les formes dels objectes a partir d'imatges d'intensitat fortament afectades pels canvis de punt de vista, el contingut de la textura i les condicions de llum. A més, la càmera només captura una projecció en 2D del món 3D. Tot i que la mida aparent i la posició dels objectes a la imatge poden variar significativament en funció de la seva distància a la càmera. En conseqüència, aquesta tesi contribueix a dues línies de recerca en l'estimació de mapes de profunditat (també coneguts com a imatges de profunditat): la primera línia estima la profunditat a partir de l'objecte present en una escena per reduir la complexitat de l'escena completa. Així, hem desenvolupat noves tècniques i conceptes basats en mètodes tradicionals i d'aprenentatge profund per aconseguir aquesta tasca.


La estimación de profundidad se refiere a medir la distancia de cada píxel en relación con la cámara. La estimación de la profundidad es crucial para muchas aplicaciones como la comprensión y reconstrucción de escenas, la visión robotizada y los coches autónomos. Los mapas de profundidad se pueden estimar mediante imágenes estéreo o monoculares. La estimación de la profundidad se realiza normalmente a través de la visión estéreo siguiendo diversas etapas que requieren tiempo, tales como la geometría epipolar, la rectificación y la concordancia. Sin embargo, predecir mapas de profundidad a partir de imágenes RGB individuales todavía es un reto, ya que deben deducirse las formas de los objetos a partir de imágenes de intensidad fuertemente afectadas por los cambios de punto de vista, el contenido de la textura y las condiciones de luz. Además, la cámara sólo captura una proyección en 2D del mundo 3D. Aunque el tamaño aparente y la posición de los objetos en la imagen pueden variar significativamente en función de su distancia a la cámara. En consecuencia, esta tesis contribuye a dos líneas de investigación en la estimación de mapas de profundidad (también conocidos como imágenes de profundidad): la primera línea estima la profundidad a partir del objeto presente en una escena para reducir la complejidad de la escena completa. Así, hemos desarrollado nuevas técnicas y conceptos basados en métodos tradicionales y de aprendizaje profundo para conseguir esta tarea.


Depth Estimation refers to measuring the distance of each pixel relative to the camera. Depth estimation is crucial for many applications, such as scene understanding and reconstruction, robot vision, and self-driving cars. Depth maps can be estimated using stereo or monocular images. Depth estimation is typically performed through stereo vision following several time-consuming stages, such as epipolar geometry, rectification, and matching. However, predicting depth maps from single RGB images is still challenging as object shapes are to be inferred from intensity images strongly affected by viewpoint changes, texture content, and light conditions. Additionally, the camera only captures a 2D projection of the 3D world. While the apparent size and position of objects in the image can vary significantly based on their distance from the camera. Consequently, this thesis attempts to contribute to two research lines in estimating depth maps (also known as depth images): the first line estimates the depth based on the object present in a scene to reduce the complexity of the complete scene. Thus, we developed new techniques and concepts based on traditional and deep learning methods to achieve this task. The second research line estimates the depth based on a complete scene from a monocular camera. We have developed more comprehensive techniques with a high precision rate and acceptable computational timing to get more precise depth maps.

Palabras clave

Aprenentatge profund; Visió per ordinador; Imatges de profunditat; Aprendizaje profundo; Visión por computador; Imágenes de profundidad; Deep Learning; Computer Vision; Depth Images

Materias

004 - Informática; 51 - Matemáticas; 62 - Ingeniería. Tecnología

Área de conocimiento

Enginyeria i Arquitectura

Documentos

TESI Saddam Abdulwahab.pdf

45.60Mb

 

Derechos

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)