Lifelong Learning of Neural Networks: Detecting Novelty and Adapting to New Domains without Forgetting

Author

Masana Castrillo, Marc

Director

Weijer, Joost van de

Bagdanov, Andrew D.

Date of defense

2020-12-11

Pages

166 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

La visió per computador ha experimentat canvis considerables en l’última dècada, ja que les xarxes neuronals han passat a ser d’ús comú. A mesura que les capacitats computacionals disponibles han crescut, les xarxes neuronals han aconseguit avenços en moltes tasques de visió per computador i fins i tot han superat el rendiment humà en altres. Un camp de recerca que ha experimentat un notable augment de l’interès és la dels sistemes d’aprenentatge continuat. Aquests sistemes haurien de ser capaços de realitzar tasques de manera eficient, identificar-ne i aprendre’n de noves, a més de ser capaços de desplegar versions més compactes d’ells mateixos que siguin experts en tasques específiques. En aquesta tesi, contribuïm a la investigació sobre l’aprenentatge continuat i abordem la compressió i adaptació de xarxes a dominis més petits, l’aprenentatge incremental de xarxes enfrontades a diverses tasques i, finalment, la detecció d’anomalies i novetats en temps d’inferència. Explorem com es pot transferir el coneixement des de grans models pre-entrenats a xarxes amb tasques més específiques, capaces d’executar-se en dispositius més limitats extraient la informació més rellevant. L’ús d’un model pre-entrenat proporciona representacions més robustes i una inicialització més estable quan s’aprèn una tasca més específica, cosa que comporta un rendiment més alt i es coneix com a adaptació de domini. Tanmateix, aquests models són massa grans per a determinades aplicacions que cal desplegar en dispositius amb poca memòria i poca capacitat de càlcul. En aquesta tesi demostrem que, després de realitzar l’adaptació de domini, algunes activacions apreses amb prou feines contribueixen a les prediccions del model. Per tant, proposem aplicar la compressió de xarxa basada en la descomposició de matrius de baix rang mitjançant les estadístiques de les activacions. Això es tradueix en una reducció significativa de la mida del model i del cost computacional. Igual que la intel·ligència humana, el machine learning pretén tenir la capacitat d’aprendre i recordar el coneixement. Tot i això, quan una xarxa neuronal ja entrenada aprèn una nova tasca, s’acaba oblidant de les anteriors. Això es coneix com a oblit catastròfic i s’estudia la seva prevenció en l’aprenentatge continu. El treball presentat en aquesta tesi estudia àmpliament les tècniques d’aprenentatge continu com una aproximació per evitar oblits catastròfics en escenaris d’aprenentatge seqüencial. La nostra tècnica es basa en l’ús de màscares ternàries per tal d’actualitzar una xarxa a tasques noves, reutilitzant el coneixement d’altres anteriors sense oblidar res d’elles. A diferència dels treballs anteriors, les nostres màscares s’apliquen a les activacions de cada capa en lloc dels pesos. Això redueix considerablement el nombre de paràmetres que s’afegiran per a cada nova tasca. A més, analitzem l’estat de l’art en aprenentatge incremental sense accés a l’identificador de tasca. Això proporciona informació sobre les direccions de recerca actuals que se centren a evitar l’oblit catastròfic mitjançant la regularització, l’assaig de tasques anteriors des d’una petita memòria externa o compensant el biaix de la tasca més recent. Les xarxes neuronals entrenades amb una funció de cost basada en entropia creuada obliguen les sortides del model a tendir cap a un vector codificat de sortida única. Això fa que els models tinguin massa confiança quan intenten predir imatges o classes que no estaven presents a la distribució original. La capacitat d’un sistema per ser conscient dels límits de les tasques apreses i identificar anomalies o classes que encara no s’han après és clau per a l’aprenentatge continu i els sistemes autònoms. En aquesta tesi, presentem un enfocament d’aprenentatge mètric per a la detecció d’anomalies que aprèn la tasca en un espai mètric.


La visión por computador ha experimentado cambios considerables en la última década a medida que las redes neuronales se han vuelto de uso común. Debido a que las capacidades computacionales disponibles han ido aumentando, las redes neuronales han logrado avances en muchas tareas de visión por computador e incluso han superado el rendimiento humano en otras. Una dirección de investigación que ha experimentado un aumento notable en interés son los sistemas de aprendizaje continuado. Estos sistemas deben ser capaces de realizar tareas de manera eficiente, identificar y aprender otras nuevas y, además, deben poder implementar versiones más compactas de sí mismos que sean expertos en tareas específicas. En esta tesis, contribuimos a la investigación sobre el aprendizaje continuado y abordamos la compresión y adaptación de redes a pequeños dominios, el aprendizaje incremental de redes ante una variedad de tareas y, finalmente, la detección de anomalías y novedades durante la inferencia. Exploramos cómo se puede transferir el conocimiento de grandes modelos pre-entrenados a redes con tareas más específicas capaces de ejecutarse en dispositivos más pequeños. El uso de un modelo pre-entrenado proporciona representaciones más robustas y una inicialización más estable al aprender una tarea más pequeña, lo que conduce a un mayor rendimiento y se conoce como adaptación de dominio. Sin embargo, esos modelos son demasiado grandes para ciertas aplicaciones que deben implementarse en dispositivos con memoria y capacidad computacional limitadas. En esta tesis mostramos que, después de realizar la adaptación de dominio, algunas activaciones aprendidas apenas contribuyen a las predicciones del modelo. Por lo tanto, proponemos aplicar compresión de redes basada en la descomposición matricial de bajo rango utilizando las estadísticas de las activaciones. Esto da como resultado una reducción significativa del tamaño del modelo y del coste computacional. Al igual que la inteligencia humana, el machine learning tiene como objetivo tener la capacidad de aprender y recordar conocimientos. Sin embargo, cuando una red neuronal ya entrenada aprende una nueva tarea, termina olvidando las anteriores. Esto se conoce como olvido catastrófico y su prevención se estudia en el aprendizaje continuo. El trabajo presentado en esta tesis analiza ampliamente las técnicas de aprendizaje continuo y presenta un enfoque para evitar el olvido catastrófico en escenarios de aprendizaje secuencial de tareas. Nuestra técnica se basa en utilizar máscaras ternarias cuando la red tiene que aprender nuevas tareas, reutilizando los conocimientos de las anteriores sin olvidar nada de ellas. A diferencia otros trabajos, nuestras máscaras se aplican a las activaciones de cada capa en lugar de a los pesos. Esto reduce considerablemente el número de parámetros que se agregarán para cada nueva tarea. Además, el análisis de una amplia gama de trabajos sobre aprendizaje incremental sin acceso a la identificación de la tarea, proporciona información sobre los enfoques actuales del estado del arte que se centran en evitar el olvido catastrófico mediante el uso de la regularización, el ensayo de tareas anteriores con memorias externas, o compensando el sesgo hacia la tarea más reciente. Las redes neuronales entrenadas con una función de coste basada en entropía cruzada obligan a las salidas del modelo a tender hacia un vector de salida única. Esto hace que los modelos tengan demasiada confianza cuando se les presentan imágenes o clases que no estaban presentes en la distribución del entrenamiento. La capacidad de un sistema para conocer los límites de las tareas aprendidas e identificar anomalías o clases que aún no se han aprendido es clave para el aprendizaje continuado y los sistemas autónomos. En esta tesis, presentamos un enfoque de aprendizaje con métricas para la detección de anomalías que aprende la tarea en un espacio métrico.


Computer vision has gone through considerable changes in the last decade as neural networks have come into common use. As available computational capabilities have grown, neural networks have achieved breakthroughs in many computer vision tasks, and have even surpassed human performance in others. With accuracy being so high, focus has shifted to other issues and challenges. One research direction that saw a notable increase in interest is on lifelong learning systems. Such systems should be capable of efficiently performing tasks, identifying and learning new ones, and should moreover be able to deploy smaller versions of themselves which are experts on specific tasks. In this thesis, we contribute to research on lifelong learning and address the compression and adaptation of networks to small target domains, the incremental learning of networks faced with a variety of tasks, and finally the detection of out-of-distribution samples at inference time. We explore how knowledge can be transferred from large pretrained models to more task-specific networks capable of running on smaller devices by extracting the most relevant information based on activation statistics. Using a pretrained model provides more robust representations and a more stable initialization when learning a smaller task, which leads to higher performance and is known as domain adaptation. However, those models are too large for certain applications that need to be deployed on devices with limited memory and computational capacity. In this thesis we show that, after performing domain adaptation, some learned activations barely contribute to the predictions of the model. Therefore, we propose to apply network compression based on low-rank matrix decomposition using the activation statistics. This results in a significant reduction of the model size and the computational cost. Like human intelligence, machine intelligence aims to have the ability to learn and remember knowledge. However, when a trained neural network is presented with learning a new task, it ends up forgetting previous ones. This is known as catastrophic forgetting and its avoidance is studied in continual learning. The work presented in this thesis extensively surveys continual learning techniques (both when knowing the task-ID at test time or not) and presents an approach to avoid catastrophic forgetting in sequential task learning scenarios. Our technique is based on using ternary masks in order to update a network to new tasks, reusing the knowledge of previous ones while not forgetting anything about them. In contrast to earlier work, our masks are applied to the activations of each layer instead of the weights. This considerably reduces the number of mask parameters to be added for each new task; with more than three orders of magnitude for most networks. Furthermore, the analysis on a wide range of work on incremental learning without access to the task-ID, provides insight on current state-of-the-art approaches that focus on avoiding catastrophic forgetting by using regularization, rehearsal of previous tasks from a small memory, or compensating the task-recency bias. We also consider the problem of out-of-distribution detection. Neural networks trained with a cross-entropy loss force the outputs of the model to tend toward a one-hot encoded vector. This leads to models being too overly confident when presented with images or classes that were not present in the training distribution. The capacity of a system to be aware of the boundaries of the learned tasks and identify anomalies or classes which have not been learned yet is key to lifelong learning and autonomous systems. In this thesis, we present a metric learning approach to out-of-distribution detection that learns the task at hand on an embedding space.

Keywords

Compressió de xarxes neuronals; Compresión de redes neuronales; Neural network compression; Detecció d'anomalies; Detección de anomalías; Out-of-distribution detection; Aprenentatge continu; Aprendizaje continuo; Continual learning

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

mmc1de1.pdf

10.08Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)