Understanding the Causes of Forgetting in Continually Learned Neural Networks

Autor/a

Soutif-Cormerais, Albin

Director/a

Weijer, Joost van de

Tutor/a

Weijer, Joost van de

Fecha de defensa

2024-05-23

Páginas

133 p.



Programa de doctorado

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resumen

L'ús de l'aprenentatge profund ha crescut en popularitat els darrers anys en molts camps d'aplicació com el de la visió per computador i el processament del llenguatge natural. Actualment, la majoria de les tasques en aquests camps es resolen de manera més eficaç mitjançant l'aprenentatge profund que amb tècniques clàssiques, sempre que hi hagi prou dades disponibles. No obstant això, els algorismes d'aprenentatge profund manquen encara d'una propietat crucial, no són capaços d'acumular eficaçment nous coneixements en un model existent. En lloc d'això, quan aprenen amb noves dades sense revisar les dades passades, experimenten un oblit catastròfic. Aquesta propietat és el principal focus dels subcamps de l'Aprenentatge Continu. L'absència d'aquesta propietat porta a diverses conseqüències pràctiques. Entre elles, la naturalesa computacionalment cara dels algorismes d'aprenentatge que revisiten totes les dades vistes anteriorment, el que comporta un cost energètic no negligible, i els problemes de privadesa relacionats amb la necessitat d'emmagatzemar dades antigues per a un entrenament posterior. En aquesta tesi, investiguem l'impacte de l'aprenentatge continu en el rendiment de les xarxes neuronals, en especial, per a tasques de classificació en visió per ordinador. Investiguem les causes de l'oblit catastròfic dins de diversos escenaris comuns d'aprenentatge continu. Estudiem l'entorn d'aprenentatge continu on les dades associades a conjunts diferents de classes arriben incrementalment. En aquest context, investiguem com la dificultat d'aprendre característiques entre tasques explica la pèrdua de rendiment. Part de la tesi està dedicada a l'entorn més complex de l'aprenentatge continu en línia, i al problema de la pèrdua d'estabilitat. Investiguem l'impacte de l'agrupament temporal en la pèrdua d'estabilitat i observem que podem reduir-lo dràsticament aplicant un mètode d'assemblatge durant l'avaluació, sense influir en el procés d'entrenament. A més, realitzem una revisió dels mètodes d'aprenentatge continu en línia i concloem que podrien estar més afectats per un problema de subajust que pel procediment d'entrenament no iid. Finalment, ens centrem en models més grans que han tingut una primera experiència d'aprenentatge sòlida, i estudiem l'impacte de l'aprenentatge continu en experiències més petites utilitzant actualitzacions de paràmetres de baix rang.


El uso del aprendizaje profundo se ha vuelto muy popular en los últimos años en muchos campos de aplicación como la visión por computador o el procesamiento del lenguaje natural. La mayoría de las tareas en estos campos se resuelven de manera más eficiente usando estas técnicas en comparación con métodos clásicos, siempre y cuando haya suficientes datos disponibles. Sin embargo, los algoritmos de aprendizaje profundo carecen de una propiedad crucial: no son capaces de acumular conocimiento de manera eficiente sobre un modelo existente. En lugar de eso, cuando estos métodos aprenden con nuevos datos sin revisitar los previos, sufren de olvido catastrófico. Esta propiedad es el objeto principal de estudio del campo del aprendizaje continuo. La ausencia de esta propiedad conlleva varias consecuencias a la práctica. Entre ellas, el aumento de complejidad de cálculo por la necesidad de incorporar datos prévios para aprender con nuevos datos, lo que conlleva un costo energético importante, o la falta de privacidad por tener que guardar datos antiguos. En esta tesis, investigamos el impacto del aprendizaje continuo en el rendimiento de las redes neuronales, más específicamente en tareas de clasificación usando visión por computador. Investigamos las causas del olvido catastrófico dentro de varios escenarios comúnmente estudiados en el aprendizaje continuo. Analizamos el entorno de aprendizaje continuo donde los datos asociados a conjuntos de distintas clases llegan incrementalmente. En este contexto, investigamos cómo la dificultad para aprender características entre tareas afecta la pérdida de rendimiento. Parte de la tesis se dedica al entorno más complejo del aprendizaje continuo en línea y al problema de la brecha de estabilidad. Estudiamos el impacto de los conjuntos temporales de modelos en la brecha de estabilidad y observamos que, durante la evaluación, podemos reducirla drásticamente aplicando un método de ensamblado de modelos, sin influir en el proceso de entrenamiento. Además, realizamos una revisión de métodos de aprendizaje continuo en línea y concluimos que pueden verse más afectados por un problema de subajuste que por el procedimiento de entrenamiento con un flujo de datos no independiente e idénticamente distribuido (i.i.d). Finalmente, nos centramos en modelos más grandes que han tenido una experiencia de aprendizaje inicial sólida, y estudiamos el impacto del aprendizaje continuo en experiencias más pequeñas al usar actualizaciones de parámetros de bajo rango.


The use of deep learning has become increasingly popular in the last years in many application fields such as the ones of computer vision and natural language processing. Most of the tasks in these fields are now tackled more efficiently by deep learning than by more classical techniques, provided that enough data is available. However, deep learning algorithms still lack a crucial property, they are not able to efficiently accumulate new knowledge into an existing model. Instead, when learning on new data without revisiting past data they experience catastrophic forgetting. This property is the main focus of the sub-field of Continual Learning. The absence of this property leads to various practical consequences. Among them, the computationally expensive nature of learning algorithms that revisit all previously seen data, which comes at a non-negligible energy cost, and privacy issues related to the requirement to store old data for later training. In this thesis, we investigate the impact of learning in a continual manner on the performance of neural networks, more specifically for classification tasks in computer vision. We investigate the causes of catastrophic forgetting within several commonly studied setups of continual learning. We study the continual learning setting where data associated to distinct set of classes arrive incrementally. Under this setting, we investigate how the difficulty of learning cross-task features accounts for the loss in performance. Part of the thesis is dedicated to the more complex setting of online continual learning, and the problem of the stability gap. We investigate the impact of temporal ensembling on the stability gap and see that we can drastically reduce it by applying an ensembling method at evaluation time, not influencing the training process. In addition, we realise a survey of online continual learning methods and conclude that they might be more affected by an under-fitting problem than by the non-iid training procedure. Finally, we focus on bigger models that have had a strong first learning experience, and study the impact of continual learning on smaller experiences when using low-rank parameter updates.

Palabras clave

Aprenentatge continu; Continual learning; Aprendizaje continuo; Aprenentatge profund; Deep learning; Aprendizaje profundo; Aprenentatge en línia; Online learning; Aprendizaje en línea

Materias

004 - Informática

Área de conocimiento

Tecnologies

Documentos

asc1de1.pdf

9.209Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)