Towards Robustness in Computer-based Image Understanding

Author

Velazquez Dorta, Diego Alejandro

Director

Rodríguez López, Pau

Gonfaus Sitjes, Josep Maria

Gonzàlez i Sabaté, Jordi

Tutor

Gonzàlez i Sabaté, Jordi

Date of defense

2023-07-14

Pages

141 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

En el context de l'aprenentatge profund, la robustesa es refereix a la capacitat d'un model per mantenir el seu rendiment quan s'enfronta a diverses formes de pertorbacions. Aquestes pertorbacions podrien ser en forma de soroll d'entrada, atacs adversaris o canvis en la distribució de dades. Per tant, un model robust és aquell que pot generalitzar de manera efectiva des de les seves dades d'entrenament a dades no vistes, mantenir el seu rendiment en diferents condicions de funcionament i resistir la manipulació per part d'entrades adversàries. La millora dels casos extrems, com ara la detecció d'objectes petits a les imatges, contribueix a la robustesa millorant la capacitat del model per gestionar una gamma més àmplia d'escenaris. En aplicacions del món real, els objectes d'interès poden variar significativament en mida i sovint poden ser petits en relació a la mida de la imatge. En millorar el rendiment del model en aquests casos de vora, ens assegurem que el rendiment del model no depèn massa de la mida dels objectes, millorant així la seva robustesa. El rendiment fora de la distribució és un altre aspecte crític de la robustesa. A les aplicacions del món real, les dades que troba un model poden no seguir sempre la mateixa distribució que les dades d'entrenament. Millorar el rendiment fora de la distribució d'un model garanteix que pugui mantenir el seu rendiment fins i tot davant d'aquestes dades, millorant així la seva robustesa. L'explicabilitat en els models d'aprenentatge profund és un factor crucial en la robustesa. Tot i que els models d'aprenentatge profund sovint es consideren "caixes negres" a causa de les seves arquitectures complexes i en capes, els esforços per millorar la seva explicabilitat poden conduir a models més robusts. En entendre com un model pren les seves decisions, podem identificar possibles debilitats o biaixos del model i abordar-los, millorant així la seva robustesa. Finalment, la creació de models de fonamentació també pot contribuir a la robustesa. Els models de fundació són models a gran escala entrenats en dades diverses, destinats a servir com a punt de partida per a models més específics. Començant amb un model bàsic, podem aprofitar les àmplies capacitats de generalització que aquests models han après. Això pot ajudar a crear models més robusts, ja que el model de base ja ha après a gestionar una àmplia gamma de variacions de dades. En aquesta tesi s'aprofundeix en cadascuna d'aquestes àrees, explorant els reptes i oportunitats que presenten, i proposant noves solucions per millorar la robustesa dels models de visió per computador. A través de les nostres investigacions, pretenem superar els límits del que es pot aconseguir actualment en visió per ordinador, obrint el camí per a aplicacions més fiables i robustes en el futur.


En el contexto del aprendizaje profundo, la robustez se refiere a la capacidad de un modelo para mantener su rendimiento cuando se enfrenta a diversas formas de perturbaciones. Estas perturbaciones pueden tener la forma de ruido de entrada, ataques de adversarios o cambios en la distribución de datos. Un modelo robusto, por lo tanto, es aquel que puede generalizar efectivamente desde sus datos de entrenamiento a datos no vistos, mantener su desempeño bajo diferentes condiciones operativas y resistir la manipulación por parte de los adversarios. Mejorar los casos límite, como la detección de objetos pequeños en las imágenes, contribuye a la solidez al mejorar la capacidad del modelo para manejar una gama más amplia de escenarios. En las aplicaciones del mundo real, los objetos de interés pueden variar significativamente en tamaño y, a menudo, pueden ser pequeños en relación con el tamaño de la imagen. Al mejorar el rendimiento del modelo en estos casos extremos, nos aseguramos de que el rendimiento del modelo no dependa demasiado del tamaño de los objetos, mejorando así su solidez. El rendimiento fuera de distribución es otro aspecto crítico de la robustez. En las aplicaciones del mundo real, es posible que los datos que encuentra un modelo no siempre sigan la misma distribución que los datos de entrenamiento. Mejorar el rendimiento fuera de distribución de un modelo garantiza que pueda mantener su rendimiento incluso cuando se enfrenta a dichos datos, lo que mejora su solidez. La explicabilidad en los modelos de aprendizaje profundo es un factor crucial en la robustez. Si bien los modelos de aprendizaje profundo a menudo se ven como "cajas negras" debido a sus arquitecturas complejas y en capas, los esfuerzos para mejorar su explicabilidad pueden conducir a modelos más sólidos. Al comprender cómo un modelo toma sus decisiones, podemos identificar posibles debilidades o sesgos en el modelo y abordarlos, mejorando así su solidez. Finalmente, la creación de modelos de base también puede contribuir a la solidez. Los modelos básicos son modelos a gran escala entrenados en diversos datos, destinados a servir como punto de partida para modelos más específicos. Al comenzar con un modelo básico, podemos aprovechar las amplias capacidades de generalización que han aprendido estos modelos. Esto puede ayudar a crear modelos más sólidos, ya que el modelo base ya ha aprendido a manejar una amplia gama de variaciones de datos. En esta disertación, profundizamos en cada una de estas áreas, explorando los desafíos y oportunidades que presentan, y proponiendo soluciones novedosas para mejorar la solidez de los modelos de visión artificial. A través de nuestras investigaciones, nuestro objetivo es ampliar los límites de lo que se puede lograr actualmente en la visión por computadora, allanando el camino para aplicaciones más confiables y sólidas en el futuro.


In the context of deep learning, robustness refers to the ability of a model to maintain its performance when faced with various forms of perturbations. These perturbations could be in the form of input noise, adversarial attacks, or changes in the data distribution. A robust model, therefore, is one that can effectively generalize from its training data to unseen data, maintain its performance under different operating conditions, and resist manipulation by adversarial inputs. Improving edge cases, such as the detection of small objects in images, contributes to robustness by enhancing the model's ability to handle a wider range of scenarios. In real-world applications, objects of interest can vary significantly in size and may often be small relative to the image size. By improving the model's performance on these edge cases, we ensure that the model's performance is not overly dependent on the size of the objects, thereby enhancing its robustness. Out-of-distribution performance is another critical aspect of robustness. In real-world applications, the data that a model encounters may not always follow the same distribution as the training data. Improving a model's out-of-distribution performance ensures that it can maintain its performance even when faced with such data, thereby enhancing its robustness. Explainability in deep learning models is a crucial factor in robustness. While deep learning models are often seen as "black boxes" due to their complex, layered architectures, efforts to improve their explainability can lead to more robust models. By understanding how a model makes its decisions, we can identify potential weaknesses or biases in the model and address them, thereby enhancing its robustness. Finally, the creation of foundation models can also contribute to robustness. Foundation models are large-scale models trained on diverse data, intended to serve as a starting point for more specific models. By starting with a foundation model, we can leverage the broad generalization capabilities that these models have learned. This can help in creating more robust models, as the foundation model has already learned to handle a wide range of data variations. In this dissertation, we delve into each of these areas, exploring the challenges and opportunities they present, and proposing novel solutions to enhance the robustness of computer vision models. Through our investigations, we aim to push the boundaries of what is currently achievable in computer vision, paving the way for more reliable and robust applications in the future.

Keywords

Visio computador; Computer vision; Vision computador

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

dvd1de1.pdf

2.561Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)