Towards Unsupervised Representation Learning: Learning, Evaluating and Transferring Visual Representations

Author

Stuhr, Bonifaz

Director

Brauer, Jurgen, 1957-

Gonzàlez i Sabaté, Jordi

Tutor

Gonzàlez i Sabaté, Jordi

Date of defense

2023-11-13

Pages

224 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

L'aprenentatge de representacions no supervisat té com a objectiu trobar mètodes que aprenguin representacions a partir de dades sense senyals basats en anotacions. Abstindre's de les anotacions no només comporta beneficis econòmics, sinó que també pot, i en certa mesura ja ho fa, comportar avantatges en la estructura de la representació, la robustesa i la capacitat de generalització a diferents tasques. A llarg termini, s'espera que els mètodes no supervisats superin les seves contraparts supervisades a causa de la reducció de la intervenció humana i de l'enfocament inherentment més general que no biaixi l'optimització cap a un objectiu que prové de senyals específics basats en anotacions. Tot i que recentment s'han observat avantatges importants de l'aprenentatge de representacions no supervisat en el processament del llenguatge natural, els mètodes supervisats encara dominen en els dominis de la visió per a la majoria de les tasques. En aquesta tesi, contribuïm al camp de l'aprenentatge de representacions (visuals) no supervisades des de tres perspectives: (i) Aprenentatge de representacions: Dissenyem Xarxes Neuronals Autoorganitzades Convolucionals (CSNNs) no supervisades i lliures de retropropagació que utilitzen regles d'aprenentatge basades en autoorganització i en Hebb, per aprendre nuclis convolucionals i màscares amb l'objectiu d'assolir models més profunds sense retropropagació. Observem que els mètodes basats en retropropagació i lliures de retropropagació poden patir d'una manca de coincidència de la funció objectiu entre la tasca de pretext no supervisada i la tasca objectiu, la qual cosa pot portar a una disminució en el rendiment per a la tasca objectiu. (ii) Avaluació de la representació: Ens basem en el protocol d'avaluació (no) lineal àmpliament utilitzat per definir mètriques independents de la tasca de pretext i la tasca objectiu per a mesurar la manca de coincidència de la funció objectiu. Amb aquestes mètriques, avaluem diverses tasques de pretext i objectiu i revelem les dependències de la manca de coincidència de la funció objectiu en diferents parts de l'entrenament i la configuració del model. (iii) Transferència de representacions: Contribuïm amb CARLANE, el primer banc de proves d'adaptació de domini sim-to-real de 3 vies per a la detecció de carrils 2D. Adoptem diversos mètodes coneguts d'adaptació de domini no supervisat com a referència i proposem un mètode basat en l'aprenentatge auto-supervisat prototípic entre dominis. Finalment, ens centrem en l'adaptació de domini no supervisat basada en píxels i contribuïm amb un mètode de traducció d'imatge a imatge no aparellat consistent en contingut que utilitza màscares, discriminadors globals i locals, i mostreig de similitud per mitigar les inconsistències de contingut, així com la denormalització atenta a característiques per fusionar estadístiques basades en contingut en la seqüència del generador. A més, proposem la mètrica cKVD per incorporar inconsistències de contingut específiques de classes en mètriques perceptuals per a mesurar la qualitat de la traducció.


El aprendizaje de representaciones no supervisado tiene como objetivo encontrar métodos que aprendan representaciones a partir de datos sin señales basadas en anotaciones. Abstenerse de las anotaciones no solo conlleva beneficios económicos, sino que también puede, y en cierta medida ya lo hace, resultar en ventajas en cuanto a la estructura de la representación, la robustez y la capacidad de generalización a diferentes tareas. A largo plazo, se espera que los métodos no supervisados superen a sus contrapartes supervisadas debido a la reducción de la intervención humana y al enfoque inherentemente más general que no sesga la optimización hacia un objetivo que proviene de señales específicas basadas en anotaciones. Si bien recientemente se han observado ventajas importantes del aprendizaje de representaciones no supervisadas en el procesamiento del lenguaje natural, los métodos supervisados todavía dominan en los dominios de la visión para la mayoría de las tareas. En esta tesis, contribuimos al campo del aprendizaje de representaciones (visuales) no supervisadas desde tres perspectivas: (i) Aprendizaje de representaciones: Diseñamos Redes Neuronales Autoorganizadas Convolucionales (CSNNs) no supervisadas y libres de retropropagación que utilizan reglas de aprendizaje basadas en autoorganización y en Hebb, para aprender núcleos convolucionales y máscaras con el fin de lograr modelos más profundos sin retropropagación. Observamos que los métodos basados en retropropagación y libres de retropropagación pueden sufrir de una falta de coincidencia de la función objetivo entre la tarea de pretexto no supervisada y la tarea objetivo, lo que puede llevar a disminuciones en el rendimiento para la tarea objetivo. (ii) Evaluación de representación: Nos basamos en el protocolo de evaluación (no) lineal ampliamente utilizado para definir métricas independientes de la tarea de pretexto y la tarea objetivo para medir la falta de coincidencia de la función objetivo. Con estas métricas, evaluamos varias tareas de pretexto y objetivo y revelamos las dependencias de la falta de coincidencia de la función objetivo en diferentes partes del entrenamiento y la configuración del modelo. Y (iii) Transferencia de representaciones: Contribuimos con CARLANE, el primer banco de pruebas de adaptación de dominio sim-to-real de 3 vías para la detección de carriles 2D. Adoptamos varios métodos conocidos de adaptación de dominio no supervisado como referencia y proponemos un método basado en el aprendizaje auto-supervisado prototípico entre dominios. Por último, nos enfocamos en la adaptación de dominio no supervisada basada en píxeles y contribuimos con un método de traducción de imagen a imagen no emparejado consistente en contenido que utiliza máscaras, discriminadores globales y locales, y muestreo de similitud para mitigar las inconsistencias de contenido, así como la denormalización atenta a características para fusionar estadísticas basadas en contenido en la secuencia del generador. Además, proponemos la métrica cKVD para incorporar inconsistencias de contenido específicas de clases en métricas perceptuales para medir la calidad de la traducción.


Unsupervised representation learning aims at finding methods that learn representations from data without annotation-based signals. Abstaining from annotations not only leads to economic benefits but may - and to some extent already does - result in advantages regarding the representation's structure, robustness, and generalizability to different tasks. In the long run, unsupervised methods are expected to surpass their supervised counterparts due to the reduction of human intervention and the inherently more general setup that does not bias the optimization towards an objective originating from specific annotation-based signals. While major advantages of unsupervised representation learning have been recently observed in natural language processing, supervised methods still dominate in vision domains for most tasks. In this dissertation, we contribute to the field of unsupervised (visual) representation learning from three perspectives: (i) Learning representations: We design unsupervised, backpropagation-free Convolutional Self-Organizing Neural Networks (CSNNs) that utilize self-organization- and Hebbian-based learning rules to learn convolutional kernels and masks to achieve deeper backpropagation-free models. Thereby, we observe that backpropagation-based and -free methods can suffer from an objective function mismatch between the unsupervised pretext task and the target task. This mismatch can lead to performance decreases for the target task. (ii) Evaluating representations: We build upon the widely used (non-)linear evaluation protocol to define pretext- and target-objective-independent metrics for measuring the objective function mismatch. With these metrics, we evaluate various pretext and target tasks and disclose dependencies of the objective function mismatch concerning different parts of the training and model setup. (iii) Transferring representations: We contribute CARLANE, the first 3-way sim-to-real domain adaptation benchmark for 2D lane detection. We adopt several well-known unsupervised domain adaptation methods as baselines and propose a method based on prototypical cross-domain self-supervised learning. Finally, we focus on pixel-based unsupervised domain adaptation and contribute a content-consistent unpaired image-to-image translation method that utilizes masks, global and local discriminators, and similarity sampling to mitigate content inconsistencies, as well as feature-attentive denormalization to fuse content-based statistics into the generator stream. In addition, we propose the cKVD metric to incorporate class-specific content inconsistencies into perceptual metrics for measuring translation quality.

Keywords

Aprenentatge no supervisat; Unsupervised learning; Aprendizaje no supervisado; Aprenentatge de representacion; Representation learning; Aprendizaje de representación; Visió per computador; Computer vision; Visión por computador

Subjects

004 - Computer science

Knowledge Area

Tecnologies

Documents

bs1de1.pdf

55.65Mb

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)