Advancing Vision-based End-to-End Autonomous Driving

dc.contributor.author
Xiao, Yi
dc.date.accessioned
2024-05-23T08:22:01Z
dc.date.available
2024-05-23T08:22:01Z
dc.date.issued
2023-07-10
dc.identifier.uri
http://hdl.handle.net/10803/690948
dc.description.abstract
En conducció autònoma, una intel·ligència artificial (IA) processa l'entorn per conduir el vehicle a la destinació desitjada. Actualment, hi ha diferents paradigmes que aborden el desenvolupament de conductors dotats d'IA. D'una banda, trobem sistemes modulars, que divideixen la tasca de conducció en sub-tasques com ara la percepció i la planificació i control de maniobres. D'altra banda, trobem enfocaments de conducció extrema-a-extrem que intenten aprendre un mapeig directe de les dades en cru dels sensors d'entrada als senyals que controlen la maniobra del vehicle. Aquests darrers enfocaments estan relativament menys estudiats, però estan guanyant popularitat ja que són menys exigents en termes d'etiquetatge manual de dades. Per tant, en aquesta tesi, el nostre objectiu és investigar la conducció autònoma basada en models d'extrem-a-extrem. Estudiem tres aspectes. En primer lloc, ens centrem en les dades sensorials d’entrada. Considerem afegir informació de profunditat com a complement a la informació d'aparença (imatge RGB), per tenir en compte així la capacitat de l'ésser humà d'estimar la distància als obstacles. Al món real, aquests mapes de profunditat es poden obtenir d'un sensor LiDAR o d'un model d'estimació de profunditat monocular, de formar que, en cap cas, no cal etiquetatge manual de dades. En segon lloc, basant-nos en la hipòtesi que l'espai latent dels models extrem-a-extrem codifica informació rellevant per a la conducció, fem servir aquest espai latent com a coneixement previ per entrenar un model de conducció basat en affordances. Aquest model pot conduir correctament, el seu entrenament requereix menys dades etiquetades manualment que els sistemes modulars i millora la interpretabilitat de les maniobres executades. En tercer lloc, presentem un nou model de conducció extrem-a-extrem basat en visió, anomenat CIL++, que s'entrena mitjançant imitació. CIL ++ utilitza un camp de visió horitzontal i un mecanisme d'auto-atenció, que l'ajuden a comprendre millor l'escena i imitar millor els conductors humans. Així, usant dades d'entrenament sense etiquetatge manual, CIL++ condueix gairebé al nivell d'un expert, com demostra a les proves CARLA NoCrash, rivalitzant amb models de l'estat de l'art que sí que requereixen grans quantitats de dades etiquetades manualment per al seu entrenament.
dc.description.abstract
En conducción autónoma, una inteligencia artificial (IA) procesa el entorno para conducir el vehículo al destino deseado. En la actualidad, existen diferentes paradigmas que abordan el desarrollo de conductores dotados de IA. Por un lado, encontramos pipelines modulares, que dividen la tarea de conducción en subtareas como la percepción y la planificación y control de maniobras. Por otro lado, encontramos enfoques de conducción extremo-a-extremo que intentan aprender un mapeo directo de los datos en crudo de los sensores de entrada a las señales que controlan la maniobra del vehículo. Estos últimos enfoques están relativamente menos estudiados, pero están ganando popularidad ya que son menos exigentes en términos de etiquetado manual de datos. Por lo tanto, en esta tesis, nuestro objetivo es investigar la conducción autónoma basada en modelos de extremo-a-extremo. Estudiamos tres aspectos. En primer lugar, nos centramos en los datos sensoriales de entrada. Consideramos agregar información de profundidad como complemento a la información de apariencia (imagen RGB), para así tener en cuenta la capacidad del ser humano de estimar la distancia a los obstáculos. En el mundo real, estos mapas de profundidad se pueden obtener de un sensor LiDAR o de un modelo de estimación de profundidad monocular, de formar que, en ningún caso, se necesita etiquetado manual de datos. En segundo lugar, basándonos en la hipótesis de que el espacio latente de los modelos extremo-a-extremo codifica información relevante para la conducción, usamos ese espacio latente como conocimiento previo para entrenar un modelo de conducción basado en affordances. Este modelo puede conducir correctamente, su entrenamiento requiere menos datos etiquetados manualmente que los pipelines modulares, y mejora la interpretabilidad de las maniobras ejecutadas. En tercer lugar, presentamos un nuevo modelo de conducción de extremo a extremo basado en visión, denominado CIL++, que se entrena mediante imitación. CIL ++ usa un campo de visión horizontal y un mecanismo de auto-atención, que le ayudan a comprender mejor la escena e imitar mejor a los conductores humanos. Así, usando datos de entrenamiento sin etiquetado manual, CIL++ conduce casi al nivel de un experto, como demuestra en las pruebas CARLA NoCrash, rivalizando con modelos del estado del arte que sí requieren grandes cantidades de datos etiquetados manualmente para su entrenamiento.
dc.description.abstract
In autonomous driving, artificial intelligence (AI) processes the traffic environment to drive the vehicle to a desired destination. Currently, there are different paradigms that address the development of AI-enabled drivers. On the one hand, we find modular pipelines, which divide the driving task into sub-tasks such as perception, maneuver planning, and control. On the other hand, we find end-to-end driving approaches that attempt to learn the direct mapping of raw data from input sensors to vehicle control signals. The latter are relatively less studied but are gaining popularity as they are less demanding in terms of data labeling. Therefore, in this thesis, our goal is to investigate end-to-end autonomous driving. We propose to evaluate three approaches to tackle the challenge of end-to-end autonomous driving. First, we focus on the input, considering adding depth information as complementary to RGB data, in order to mimic the human being's ability to estimate the distance to obstacles. Notice that, in the real world, these depth maps can be obtained either from a LiDAR sensor, or a trained monocular depth estimation module, where human labeling is not needed. Then, based on the intuition that the latent space of end-to-end driving models encodes relevant information for driving, we use it as prior knowledge for training an affordance-based driving model. In this case, the trained affordance-based model can achieve good performance while requiring less human-labeled data, and it can provide interpretability regarding driving actions. Finally, we present a new pure vision-based end-to-end driving model termed CIL++, which is trained by imitation learning. CIL++ leverages modern best practices, such as a large horizontal field of view and a self-attention mechanism, which are contributing to the agent's understanding of the driving scene and bringing a better imitation of human drivers. Using training data without any human labeling, our model yields almost expert performance in the CARLA NoCrash benchmark and could rival SOTA models that require large amounts of human-labeled data.
dc.format.extent
128 p.
dc.language.iso
eng
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Conducció autònoma
dc.subject
Autonomous driving
dc.subject
Conducción autónoma
dc.subject.other
Tecnologies
dc.title
Advancing Vision-based End-to-End Autonomous Driving
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2024-05-23T08:22:01Z
dc.subject.udc
004
dc.contributor.director
López Peña, Antonio M. (Antonio Manuel)
dc.contributor.tutor
López Peña, Antonio M. (Antonio Manuel)
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica


Documents

yixi1de1.pdf

15.54Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)