Advancing Vision-based End-to-End Autonomous Driving

Autor/a

Xiao, Yi

Director/a

López Peña, Antonio M. (Antonio Manuel)

Tutor/a

López Peña, Antonio M. (Antonio Manuel)

Data de defensa

2023-07-10

Pàgines

128 p.



Programa de doctorat

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resum

En conducció autònoma, una intel·ligència artificial (IA) processa l'entorn per conduir el vehicle a la destinació desitjada. Actualment, hi ha diferents paradigmes que aborden el desenvolupament de conductors dotats d'IA. D'una banda, trobem sistemes modulars, que divideixen la tasca de conducció en sub-tasques com ara la percepció i la planificació i control de maniobres. D'altra banda, trobem enfocaments de conducció extrema-a-extrem que intenten aprendre un mapeig directe de les dades en cru dels sensors d'entrada als senyals que controlen la maniobra del vehicle. Aquests darrers enfocaments estan relativament menys estudiats, però estan guanyant popularitat ja que són menys exigents en termes d'etiquetatge manual de dades. Per tant, en aquesta tesi, el nostre objectiu és investigar la conducció autònoma basada en models d'extrem-a-extrem. Estudiem tres aspectes. En primer lloc, ens centrem en les dades sensorials d’entrada. Considerem afegir informació de profunditat com a complement a la informació d'aparença (imatge RGB), per tenir en compte així la capacitat de l'ésser humà d'estimar la distància als obstacles. Al món real, aquests mapes de profunditat es poden obtenir d'un sensor LiDAR o d'un model d'estimació de profunditat monocular, de formar que, en cap cas, no cal etiquetatge manual de dades. En segon lloc, basant-nos en la hipòtesi que l'espai latent dels models extrem-a-extrem codifica informació rellevant per a la conducció, fem servir aquest espai latent com a coneixement previ per entrenar un model de conducció basat en affordances. Aquest model pot conduir correctament, el seu entrenament requereix menys dades etiquetades manualment que els sistemes modulars i millora la interpretabilitat de les maniobres executades. En tercer lloc, presentem un nou model de conducció extrem-a-extrem basat en visió, anomenat CIL++, que s'entrena mitjançant imitació. CIL ++ utilitza un camp de visió horitzontal i un mecanisme d'auto-atenció, que l'ajuden a comprendre millor l'escena i imitar millor els conductors humans. Així, usant dades d'entrenament sense etiquetatge manual, CIL++ condueix gairebé al nivell d'un expert, com demostra a les proves CARLA NoCrash, rivalitzant amb models de l'estat de l'art que sí que requereixen grans quantitats de dades etiquetades manualment per al seu entrenament.


En conducción autónoma, una inteligencia artificial (IA) procesa el entorno para conducir el vehículo al destino deseado. En la actualidad, existen diferentes paradigmas que abordan el desarrollo de conductores dotados de IA. Por un lado, encontramos pipelines modulares, que dividen la tarea de conducción en subtareas como la percepción y la planificación y control de maniobras. Por otro lado, encontramos enfoques de conducción extremo-a-extremo que intentan aprender un mapeo directo de los datos en crudo de los sensores de entrada a las señales que controlan la maniobra del vehículo. Estos últimos enfoques están relativamente menos estudiados, pero están ganando popularidad ya que son menos exigentes en términos de etiquetado manual de datos. Por lo tanto, en esta tesis, nuestro objetivo es investigar la conducción autónoma basada en modelos de extremo-a-extremo. Estudiamos tres aspectos. En primer lugar, nos centramos en los datos sensoriales de entrada. Consideramos agregar información de profundidad como complemento a la información de apariencia (imagen RGB), para así tener en cuenta la capacidad del ser humano de estimar la distancia a los obstáculos. En el mundo real, estos mapas de profundidad se pueden obtener de un sensor LiDAR o de un modelo de estimación de profundidad monocular, de formar que, en ningún caso, se necesita etiquetado manual de datos. En segundo lugar, basándonos en la hipótesis de que el espacio latente de los modelos extremo-a-extremo codifica información relevante para la conducción, usamos ese espacio latente como conocimiento previo para entrenar un modelo de conducción basado en affordances. Este modelo puede conducir correctamente, su entrenamiento requiere menos datos etiquetados manualmente que los pipelines modulares, y mejora la interpretabilidad de las maniobras ejecutadas. En tercer lugar, presentamos un nuevo modelo de conducción de extremo a extremo basado en visión, denominado CIL++, que se entrena mediante imitación. CIL ++ usa un campo de visión horizontal y un mecanismo de auto-atención, que le ayudan a comprender mejor la escena e imitar mejor a los conductores humanos. Así, usando datos de entrenamiento sin etiquetado manual, CIL++ conduce casi al nivel de un experto, como demuestra en las pruebas CARLA NoCrash, rivalizando con modelos del estado del arte que sí requieren grandes cantidades de datos etiquetados manualmente para su entrenamiento.


In autonomous driving, artificial intelligence (AI) processes the traffic environment to drive the vehicle to a desired destination. Currently, there are different paradigms that address the development of AI-enabled drivers. On the one hand, we find modular pipelines, which divide the driving task into sub-tasks such as perception, maneuver planning, and control. On the other hand, we find end-to-end driving approaches that attempt to learn the direct mapping of raw data from input sensors to vehicle control signals. The latter are relatively less studied but are gaining popularity as they are less demanding in terms of data labeling. Therefore, in this thesis, our goal is to investigate end-to-end autonomous driving. We propose to evaluate three approaches to tackle the challenge of end-to-end autonomous driving. First, we focus on the input, considering adding depth information as complementary to RGB data, in order to mimic the human being's ability to estimate the distance to obstacles. Notice that, in the real world, these depth maps can be obtained either from a LiDAR sensor, or a trained monocular depth estimation module, where human labeling is not needed. Then, based on the intuition that the latent space of end-to-end driving models encodes relevant information for driving, we use it as prior knowledge for training an affordance-based driving model. In this case, the trained affordance-based model can achieve good performance while requiring less human-labeled data, and it can provide interpretability regarding driving actions. Finally, we present a new pure vision-based end-to-end driving model termed CIL++, which is trained by imitation learning. CIL++ leverages modern best practices, such as a large horizontal field of view and a self-attention mechanism, which are contributing to the agent's understanding of the driving scene and bringing a better imitation of human drivers. Using training data without any human labeling, our model yields almost expert performance in the CARLA NoCrash benchmark and could rival SOTA models that require large amounts of human-labeled data.

Paraules clau

Conducció autònoma; Autonomous driving; Conducción autónoma

Matèries

004 - Informàtica

Àrea de coneixement

Tecnologies

Documents

yixi1de1.pdf

15.54Mb

 

Drets

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)