Enhancing Distance Prediction through Monocular Depth Estimation based on Graph Convolutional Networks

Author

Masoumian, Armin

Director

Puig Valls, Domènec Savi

Codirector

Cristiano Rodríguez, Julián Efrén

Abdellatif Fatahallah Ibrahim Mahmoud, Hatem

Date of defense

2024-02-07

Pages

180 p.



Department/Institute

Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques

Abstract

A mesura que la robòtica i els vehicles autònoms avancen, la necessitat de mesures precises de profunditat és més destacada. L'estimació de la profunditat, una tasca fonamental en la visió per ordinador, és crucial per assolir aquesta precisió. Les tècniques d'aprenentatge profund, especialment l'estimació de la profunditat monocular autoaprenent (MDE), ofereixen una solució innovadora, permetent estimar la profunditat d'objectes en una imatge sense necessitat de càmeres estereoscòpiques o 3D costoses. Les xarxes de convolució de grafs (GCNs) han millorat encara més la precisió dels models d'estimació de profunditat mitjançant l'adaptació de dades no euclidianes, i la combinació de diverses funcions de pèrdua ha millorat la fiabilitat de les prediccions de profunditat. Aquest estudi explora les àmplies aplicacions de l'estimació de profunditat monocular autoaprenent i ofereix una revisió completa dels avenços recents en aquest àmbit mitjançant tècniques d'aprenentatge profund. També aborda les limitacions dels models de MDE basats en aprenentatge profund, incloent reptes com la precisió, l'eficiència computacional, la viabilitat en temps real, l'adaptació a dominis i la generalització. A més, la recerca presenta una innovadora aproximació de MDE que fa servir GCNs per estimar mapes de profunditat a partir de vídeos monoculars, superant els mètodes estat de l'art existents. També s'introdueix un nou marc d'aprenentatge profund que integra l'estimació de profunditat i la detecció d'objectes en una sola imatge, aconseguint una precisió impressionant, especialment a l'aire lliure. En resum, aquest estudi destaca l'eficàcia de l'aproximació MDE autoaprenent basada en xarxes de convolució de grafs i compara els resultats amb els mètodes estat de l'art, posant l'èmfasi en les notables avantatges de la tècnica proposada d'estimació de la profunditat.


A medida que avanzan la robótica y los vehículos autónomos, se hace más evidente la necesidad de mediciones precisas de profundidad. La estimación de profundidad (EP), una tarea fundamental en visión por computadora, desempeña un papel crucial en lograr esta precisión. Las técnicas de aprendizaje profundo (DL) ofrecen una solución viable, especialmente la estimación de profundidad monocular auto-supervisada (MDE), que permite estimar la profundidad de objetos en una escena a partir de una sola imagen, eliminando la necesidad de cámaras costosas. Las redes de convolución de grafos (GCNs) han mejorado la precisión de los modelos de EP al manejar datos no euclidianos, y la combinación de múltiples funciones de pérdida ha mejorado la confiabilidad de las predicciones de profundidad. Este estudio explora las amplias aplicaciones de MDE auto-supervisada y revisa los avances recientes en el campo utilizando técnicas de DL. Examina aspectos clave como las formas de los datos de entrada, los métodos de entrenamiento y los criterios de evaluación, al tiempo que aborda las limitaciones de los modelos de MDE basados en DL, como desafíos de precisión, eficiencia computacional, viabilidad en tiempo real, adaptación de dominio y generalización. La investigación presenta un enfoque innovador de MDE que utiliza GCNs para estimar mapas de profundidad a partir de videos monoculares, superando a los métodos existentes. Además, se presenta un nuevo marco de aprendizaje profundo que integra la EP y la detección de objetos en una sola imagen, logrando una precisión impresionante, especialmente en escenarios al aire libre. En resumen, este estudio resalta la eficiencia del enfoque de MDE auto-supervisada basado en redes de convolución de grafos y ofrece comparaciones cuantitativas y cualitativas con los métodos actuales, subrayando las notables ventajas de la técnica propuesta para la predicción de profundidad.


As the field of robotics and autonomous vehicles advances, the demand for precise depth measurements becomes increasingly pronounced. Depth estimation (DE), a fundamental task in computer vision, plays a pivotal role in achieving this accuracy, with deep learning (DL) techniques offering a viable solution. Particularly, self-supervised monocular depth estimation (MDE) represents cutting-edge technology, allowing the estimation of object depth in a scene from a single image, eliminating the need for expensive stereoscopic or 3D cameras. Graph convolutional networks (GCNs) have further improved the accuracy of DE models by accommodating non-Euclidean data, while combining multiple loss functions has enhanced the reliability of depth predictions. This study explores the extensive applications of self-supervised MDE and provides a comprehensive review of recent advancements in the field using DL techniques. It delves into key aspects like input data shapes, training methods, and evaluation criteria while also addressing the limitations of DL-based MDE models, including challenges related to accuracy, computational efficiency, real-time feasibility, domain adaptation, and generalization. Furthermore, the research introduces an innovative MDE approach leveraging GCNs for estimating depth maps from monocular videos, outperforming existing state-of-the-art methods. Additionally, a novel deep learning framework is presented, seamlessly integrating DE and object detection within a single image, achieving impressive accuracy, particularly in outdoor scenarios. In summary, this study underscores the efficiency of the self-supervised MDE approach based on graph convolutional networks, providing both quantitative and qualitative comparisons with state-of-the-art methods, emphasizing the considerable advantages of the proposed depth prediction technique.

Keywords

Aprenentatge Profund; Visió per Computador; Estimació de la Profunditat; Aprendizaje Profundo; Visión por Computador; Estimación de la Profundidad; Deep Learning; Computer Vision; Depth Estimation

Subjects

004 - Computer science and technology. Computing. Data processing; 51 - Mathematics; 62 - Engineering. Technology in general

Knowledge Area

Ciències

Documents

TESI Armin Masoumian .pdf

29.78Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)