Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
Tot i que aconsegueixen un gran èxit, les xarxes neuronals profundes solen requerir una gran quantitat de dades etiquetades per a la formació. Tanmateix, recollir dades etiquetades sovint és laboriós i costós. Per tant, seria ideal que el coneixement obtingut a partir de conjunts de dades rics en etiquetes es pogués transferir a dades sense etiquetar. Tanmateix, les xarxes profundes són febles per generalitzar-se a dominis invisibles, fins i tot quan les diferències només són subtils entre els conjunts de dades. En situacions del món real, un factor típic que perjudica la capacitat de generalització del model és el canvi de distribució entre dades de diferents dominis, que és un problema de llarga data que se sol denominar adaptació de domini (no supervisada). Un requisit crucial en la metodologia d'aquests mètodes d'adaptació del domini és que requereixen accés a les dades del domini font durant el procés d'adaptació al domini objectiu. L'accessibilitat a les dades font d'un model font entrenat sovint és impossible en aplicacions del món real, per exemple, quan es desplega algorismes d'adaptació de domini en dispositius mòbils on la capacitat computacional és limitada o en situacions en què les regles de privadesa de dades limiten l'accés a les dades del domini font. .Sense accés a les dades del domini d'origen, els mètodes existents pateixen un rendiment inferior. Així, en aquesta tesi, investiguem l'adaptació del domini sense dades font (anomenada adaptació del domini sense font) en múltiples escenaris diferents que se centren en tasques de classificació d'imatges. Primer estudiem el problema d'adaptació de dominis sense font en un entorn tancat, on l'espai d'etiquetes de diferents dominis és idèntic. Accedint només al model font preentrenat, proposem abordar l'adaptació del domini sense font des de la perspectiva de l'agrupació no supervisada. Ho aconseguim basant-nos en l'agrupació de barris més propers. D'aquesta manera, podem transferir la difícil tasca d'adaptació del domini sense fonts a un tipus de problema d'agrupació. L'objectiu final d'optimització és un límit superior que conté només dos termes simples, que es poden explicar com a discriminabilitat i diversitat. Mostrem que això ens permet relacionar diversos altres mètodes d'adaptació de dominis, agrupació no supervisada i aprenentatge contrastiu des de la perspectiva de la discriminabilitat i la diversitat. Seguint la configuració d'adaptació del domini sense font, també investiguem el problema de l'oblit catastròfic després de l'adaptació, on el model adaptat hauria de mantenir un bon rendiment a la font o a tots els dominis entrenats. Per abordar el problema de l'oblit, proposem utilitzar màscares d'atenció de domini generades aleatòriament per regularitzar l'actualització del model durant l'adaptació. Això aconsegueix mantenir el coneixement en dominis antics sense influir en l'adaptació a dominis objectiu nous. A les aplicacions del món real, podria haver-hi algunes categories no vistes a les dades objectiu; sense processament addicional, el model no pot gestionar aquestes classes obertes. Per preparar el mètode per generalitzar-se a entorns objectiu on hi pugui haver categories no vistes, proposem una solució elegant i senzilla inserint una dimensió addicional al capçal del classificador. Juntament amb una pèrdua d'entropia creuada addicional durant l'entrenament previ a la font, el model té un fort rendiment de reconeixement obert, que es podria utilitzar directament per a l'adaptació d'objectius i destaca per distingir classes obertes durant l'adaptació.
Aunque las redes neuronales profundas logran un gran éxito, suelen requerir una enorme cantidad de datos etiquetados para su entrenamiento. Sin embargo, la recopilación de datos etiquetados a menudo es laboriosa y costosa. Sería ideal si el conocimiento obtenido de conjuntos de datos ricos en etiquetas pudiera transferirse a datos no etiquetados. Sin embargo, las redes profundas son débiles para generalizarse a dominios no vistos, incluso cuando las diferencias entre los conjuntos de datos sean sutiles. En situaciones reales, un factor típico que afecta a la capacidad de generalización del modelo es el cambio de distribución entre los datos de diferentes dominios, lo que es un problema de larga data generalmente denominado adaptación de dominio (no supervisada). Un requisito crucial en la metodología de estos métodos de adaptación de dominio es que requieren acceso a los datos del dominio fuente durante el proceso de adaptación al dominio objetivo. El acceso a los datos fuente de un modelo fuente entrenado a menudo es imposible en aplicaciones del mundo real, por ejemplo, al implementar algoritmos de adaptación de dominio en dispositivos móviles donde la capacidad computacional es limitada o en situaciones donde las reglas de privacidad de los datos limitan el acceso a los datos del dominio fuente. Sin acceso a los datos del dominio fuente, los métodos existentes sufren un rendimiento inferior. Por lo tanto, en esta tesis, investigamos la adaptación de dominio sin datos fuente (denominada como adaptación de dominio sin fuente) en múltiples escenarios diferentes que se centran en tareas de clasificación de imágenes. Primero estudiamos el problema de adaptación de dominio sin fuente en un entorno de conjunto cerrado, donde el espacio de etiquetas de diferentes dominios es idéntico. Solo accediendo al modelo fuente pre-entrenado, proponemos abordar la adaptación de dominio sin fuente desde la perspectiva de la agrupación no supervisada. Lo logramos basándonos en la agrupación de vecinos más cercanos. De esta manera, podemos transferir la desafiante tarea de adaptación de dominio sin fuente a un tipo de problema de agrupamiento. El objetivo de optimización final es una cota superior que contiene solo dos términos simples, que pueden explicarse como discriminabilidad y diversidad. Mostramos que esto nos permite relacionar varios otros métodos en la adaptación de dominio, la agrupación no supervisada y el aprendizaje contrastivo a través de la perspectiva de discriminabilidad y diversidad. Siguiendo la configuración de adaptación de dominio sin fuente, también investigamos el problema de olvido catastrófico después de la adaptación, donde el modelo adaptado debe mantener un buen rendimiento en el dominio fuente o en todos los dominios entrenados. Para abordar el problema de olvido, proponemos utilizar máscaras de atención de dominio generadas al azar para regularizar la actualización del modelo durante la adaptación. Esto logra mantener el conocimiento de los dominios antiguos sin influir en la adaptación a los nuevos dominios objetivo. En aplicaciones del mundo real, puede haber algunas categorías no vistas en los datos objetivo; sin un procesamiento adicional, el modelo no puede manejar estas clases abiertas. Para preparar el método para generalizarse a entornos objetivo donde puedan existir categorías no vistas, proponemos una solución elegante y simple mediante la inserción de una dimensión adicional en la cabeza del clasificador. Junto con una pérdida adicional de entropía cruzada durante el preentrenamiento de origen, el modelo está capacitado con un fuerte desempeño de reconocimiento de conjunto abierto, que se puede utilizar directamente para la adaptación del objetivo y sobresale en la distinción de clases abiertas durante la adaptación.
Though they achieve great success, deep neural networks typically require a huge amount of labeled data for training. However, collecting labeled data is often laborious and expensive. It would, therefore, be ideal if the knowledge obtained from label-rich datasets could be transferred to unlabeled data. However, deep networks are weak at generalizing to unseen domains, even when the differences are only subtle between the datasets. In real-world situations, a typical factor impairing the model generalization ability is the distribution shift between data from different domains, which is a long-standing problem usually termed as (unsupervised) domain adaptation. A crucial requirement in the methodology of these domain adaptation methods is that they require access to source domain data during the adaptation process to the target domain. Accessibility to the source data of a trained source model is often impossible in real-world applications, for example, when deploying domain adaptation algorithms on mobile devices where the computational capacity is limited or in situations where data privacy rules limit access to the source domain data. Without access to the source domain data, existing methods suffer from inferior performance. Thus, in this thesis, we investigate domain adaptation without source data (termed as source-free domain adaptation) in multiple different scenarios that focus on image classification tasks. We first study the source-free domain adaptation problem in a closed-set setting, where the label space of different domains is identical. Only accessing the pretrained source model, we propose to address source-free domain adaptation from the perspective of unsupervised clustering. We achieve this based on nearest neighborhood clustering. In this way, we can transfer the challenging source-free domain adaptation task to a type of clustering problem. The final optimization objective is an upper bound containing only two simple terms, which can be explained as discriminability and diversity. We show that this allows us to relate several other methods in domain adaptation, unsupervised clustering and contrastive learning via the perspective of discriminability and diversity. Following the source-free domain adaptation setting, we also investigate the catastrophic forgetting issue after adaptation, where the adapted model should keep good performance on the source or all trained domains. To address the forgetting issue, we propose to use randomly generated domain attention masks to regularize the model updating during adaptation. This succeeds to keep the knowledge on old domains while not influence adaptation to new target domains. In real-world applications, there could be some unseen categories in the target data; without extra processing, the model cannot handle these open classes. To prepare the method to generalize to target environments where there may exist unseen categories, we propose an elegant and simple solution by inserting an additional dimension into the classifier head. Together with an additional cross-entropy loss during source pretraining, the model is empowered with strong open-set recognition performance, which could be directly used for target adaptation and excels at distinguishing open classes during adaptation.
Adaptació del domini; Domain adaptation; Adaptación de domini
004 - Computer science
Tecnologies
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.