Synth-to-real semi-supervised learning for visual tasks

Autor/a

Gómez Zurita, Jose Luis

Director/a

López Peña, Antonio M. (Antonio Manuel)

Data de defensa

2023-03-23

Pàgines

161 p.



Programa de doctorat

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resum

Aquest PhD se centra a aplicar l’aprenentatge semisupervisat (SSL) en problemes d’adaptació de domini sense supervisió (UDA) per tasques visuals relacionades amb la conducció autònoma. Comencem adreçant el problema de sintètic a real en UDA per detecció d’objectes (vianants i cotxes) en sistemes de visió a bord, que és una tasca crítica en conducció autònoma i sistemes de conducció assistida. En particular, proposem l’aplicació d’una tècnica de SSL coneguda com a co-training (entrenament cooperatiu), el qual adaptem per treballar amb models profunds que processen dades d’entrada multimode, La multimodalitat consisteix en l’aparença visual d’imatges (RGB) i l’estimació monocular de profunditat. Aquest coneixement previ és el punt d’inici de la tècnica de co-training, que iterativament etiqueta dades reals sense etiquetar (pseudo-etiquetes) i les utilitza (en aquest cas quadrícules al voltant d’objectes amb classe assignada) progressivament per millorar el resultat de l’etiquetatge. Durant el transcurs d’aquest procés, dos models col·laboren per etiquetar automàticament les imatges, de mode que un model compensa les carències de l’altre i al revés, evitant propagació d’errors. A més a més, mostrem que el co-training multi-mode millora l’etiquetació en comparació al mode únic (només vista RGB), mantenint-se competitiu amb l’etiquetació per humans. Gràcies a l’èxit del co-training en detecció d’objectes, adaptem aquesta tècnica a la segmentació semàntica. De fet, un humà pot trigar a etiquetar una sola imatge de 30 a 90 minuts, depenent del contingut d’aquesta. En particular, el nou framework de co-training adreça sintètic a real en UDA per mitjà d’una fase inicial d’auto etiquetatge. Models intermedis són creats a partir d’aquesta fase que s’utilitza per començar el procés de co-training, pel qual hem elaborat una política de col·laboració entre tots dos models que realitzen l’etiquetatge automàtic. A més a més, aquest mètode és agnòstic a la funció de cost utilitzada per entrenar models de segmentació semàntica que realitzen etiquetatges automàticament. Finalment, mostrem que aconseguim l’estat de l’art en datasets disponibles públicament i seguim mostrant que ens mantenim competitius amb l’etiquetatge humà. Finalment, amb l’experiència obtinguda prèviament, hem dissenyat i implementat un nou mètode de SSL per UDA en el context de la segmentació semàntica. En aquest cas, imitem la metodologia d’etiquetatge que faria servir un humà. En particular, en comptes d’etiquetar tota la imatge de cop, definim categories de classes semàntiques i tan sols etiquetem aquestes d’una passada. Les pseudo-etiquetes obtingudes per cada categoria són finalment fusionades per obtenir automàticament la imatge totalment etiquetada. En aquest context, també hem contribuït al desenvolupament d’un nou dataset foto-realista d’imatges sintètiques renderitzades amb path-tracing. El nostre mètode de SSL aprofita perfectament datasets sintètics disponibles públicament junts al nostre, per assolir l’estat de l’art en resultats en UDA de sintètic a real per segmentació semàntica. Mostrem que el nostre nou dataset ens permet assolir millor precisió en l’etiquetatge que amb previs datasets existents, al mateix temps que els complementa adequadament quan els combinem. A més a més, també demostrem que la nostra nova tècnica de SSL inspirada en humans supera al co-training.


Este PhD se centra en aplicar aprendizaje semi-supervisado (SSL) a problemas de adaptación de dominio sin supervisión (UDA) para tareas visuales relacionadas con la conducción autónoma Empezamos abordando el problema de sintético a real en UDA para detección de objetos (peatones y coches) en sistema de visión a bordo, que es una tarea crítica en conducción autónoma y sistemas de conducción asistida. En particular, proponemos la aplicación de una técnica de SSL conocida como co-training (entrenamiento cooperativo), el cual adaptamos para trabajar con modelos profundos que procesan datos de entrada multi-modo. La multi-modalidad consiste en la apariencia visual de imágenes (RGB) y su estimación monocular de profundidad. Este conocimiento a priori es el punto de partida de la técnica de co-training, que iterativamente etiqueta datos reales sin etiquetar (pseudo-etiquetas) y las usa (en este caso cuadrículas alrededor de objetos con clase asignada) para progresivamente mejorar el resultado del etiquetado. A lo largo de este proceso, dos modelos colaboran para etiquetar automáticamente las imágenes, de modo que un modelo compensa las carencias del otro y viceversa, evitando propagación de errores. Además, mostramos que el co-training multi-modo mejora la etiquetación en comparación al modo único (solo una vista RGB), manteniéndose competitivo con la etiquetación por humanos. Debido al éxito del co-training en detección de objetos, adaptamos esta técnica a la segmentación semántica. De hecho, etiquetar una sola imagen puede llevar de 30 a 90 minutos para un anotador humano, dependiendo del contenido de la imagen. En particular, el nuevo framework de co-training aborda sintético a real en UDA mediante una fase inicial de auto etiquetado. Modelos intermedios son creados a partir de esta fase que se utilizan para empezar el proceso de co-training, para el cual hemos elaborado una política de colaboración entre los dos modelos que realizan el etiquetado automático. Además, este método es agnóstico a la función de coste usada para entrenar modelos de segmentación semántica que realizan la anotación automáticamente. Finalmente, mostramos que conseguimos el estado del arte en datasets disponibles públicamente y seguimos mostrando que nos mantenemos competitivos con el etiquetado humano. Finalmente, con la experiencia obtenida previamente, hemos diseñado e implementado un nuevo método de SSL para UDA en el contexto de la segmentación semántica. En este caso, imitamos la metodología de etiquetado que utilizaría un humano. En particular, definimos categorías de clases semánticas y solo estas son etiquetadas de una pasada. A continuación, estas capas etiquetadas son combinadas para obtener una etiquetación global de las imágenes. Las pseudo-etiquetas obtenidas para cada categoría son finalmente fusionadas para obtener automáticamente la imagen totalmente etiquetada. En este contexto, también hemos contribuido al desarrollo de un nuevo dataset foto-realista de imágenes sintéticas renderizado con path-tracing. Nuestro nuevo método de SSL aprovecha perfectamente datasets sintéticos disponibles públicamente junto al nuestro para obtener el estado del arte en resultados para UDA de sintético a real para segmentación semántica. Mostramos que nuestro nuevo dataset nos permite alcanzar mejor precisión en el etiquetado que con previos datasets existentes, al mismo tiempo que los complementa adecuadamente cuando los combinamos. Además, también demostramos que nuestra nueva técnica SSL inspirada en humanos supera al co-training.


This PhD focuses on applying semi-supervised learning (SSL) to unsupervised domain adaptation (UDA) problems for onboard visual tasks related to autonomous driving. We start by addressing the synth-to-real UDA problem on onboard vision-based object detection (pedestrians and cars), a critical task for autonomous driving and driving assistance. In particular, we propose to apply an SSL technique known as co-training, which we adapt to work with deep models that process a multi-modal input. The multi-modality consists of the visual appearance of the images (RGB) and their monocular depth estimation. The synthetic data we use as the source domain contains both, object bounding boxes and depth information. This prior knowledge is the starting point for the co-training technique, which iteratively labels unlabeled real-world data and uses such pseudo-labels (here bounding boxes with an assigned object class) to progressively improve the labeling results. Along this process, two models collaborate to automatically label the images, in a way that one model compensates for the errors of the other, so avoiding error drift. While this automatic labeling process is done offline, the resulting pseudo-labels can be used to train object detection models that must perform in real-time onboard a vehicle. We show that multi-modal co-training improves the labeling results compared to single-modal co-training, remaining competitive compared to human labeling. Given the success of co-training in the context of object detection, we have also adapted this technique to a more crucial and challenging visual task, namely, onboard semantic segmentation. In fact, providing labels for a single image can take from 30 to 90 minutes for a human labeler, depending on the content of the image. Thus, developing automatic labeling techniques for this visual task is of great interest to the automotive industry. In particular, the new co-training framework addresses synth-to-real UDA by an initial stage of self-training. Intermediate models arising from this stage are used to start the co-training procedure, for which we have elaborate an accurate collaboration policy between the two models performing the automatic labeling. Moreover, our co-training seamlessly leverages datasets from different synthetic domains. In addition, the co-training procedure is agnostic to the loss function used to train the semantic segmentation models which perform the automatic labeling. We achieve state-of-the-art results on publicly available benchmark datasets, again, remaining competitive compared to human labeling. Finally, on the ground of our previous experience, we have designed and implemented a new SSL technique for UDA in the context of visual semantic segmentation. In this case, we mimic the labeling methodology followed by human labelers. In particular, rather than labeling full images at a time, categories of semantic classes are defined and only those are labeled in a labeling pass. In fact, different human labelers can become specialists in labeling different categories. Afterward, these per-category-labeled layers are combined to provide fully labeled images. Our technique is inspired by this methodology since we perform synth-to-real UDA per category, using the self-training stage previously developed as part of our co-training framework. The pseudo-labels obtained for each category are finally fused to obtain fully automatically labeled images. In this context, we have also contributed to the development of a new photo-realistic synthetic dataset based on path-tracing rendering. Our new SSL technique seamlessly leverages publicly available synthetic datasets as well as this new one to obtain state-of-the-art results on synth-to-real UDA for semantic segmentation. We show that the new dataset allows us to reach better labeling accuracy than previously existing datasets, at the same time that it complements well them when combined. Moreover, we also show that the new human-inspired SSL technique outperforms co-training.

Paraules clau

Adaptació de domini; Adaptación de dominio; Domain adaptation; Aprenentatge semisupervisat; Aprendizaje semi-supervisado; Semi-supervised learning; Conducció autònoma; Conducción autónoma; Autonomous driving

Matèries

004 - Informàtica

Àrea de coneixement

Tecnologies

Documents

jlgz1de1.pdf

42.34Mb

 

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)