Guiding AI attention for driving and creative generation

dc.contributor.author
Porres Bustamante, Diego Adolfo
dc.date.accessioned
2025-01-03T12:35:32Z
dc.date.issued
2024-12-05
dc.identifier.uri
http://hdl.handle.net/10803/693252
dc.description.abstract
La intel·ligència artificial (IA) ha accelerat l'avenç de nombrosos camps, especialment on les dades i els recursos computacionals són fàcilment accessibles. Aquesta tesi explora dos d'aquests dominis: la conducció autònoma i les arts visuals, centrant-se en millorar l'eficiència, la interpretabilitat i el potencial creatiu a través d'aplicacions innovadores de mecanismes d'atenció i percepció visual. A l'àmbit de la conducció autònoma, abordem el desafiament d'entrenar models d'una manera més eficient respecte a la utilització de dades d'entrenament, evitant alhora una sobrecàrrega computacional durant la pròpia conducció autònoma. Presentem una nova funció de cost basada en el concepte d'atenció guiada per a models profunds tipus extrem a extrem, millorant significativament l'eficiència i la interpretabilitat durant l'ús. Aquest enfocament elimina la necessitat de xarxes d'emmascarament dedicades, cosa que redueix els requisits computacionals sense perjudicar el rendiment. A més, investiguem l'estabilitat en la conducció de models d'extrem a extrem, proposant una nova funció de cost que separa l'atenció en objectes dinàmics i regles de trànsit, millorant la transparència dels processos de presa de decisions i aplanant el camí per a la integració de dades basades en la mirada humana. Alhora, abordem els desafiaments que planteja la IA generativa en les arts visuals. Tot i la immensa quantitat de dades i de requisits computacionals per entrenar models generatius per crear imatges mai abans vistes, observem una preocupant manca de dades d'entrenament noves, cosa que podria portar a conseqüències catastròfiques. La nostra feina se centra a explotar els models existents de manera més eficaç mitjançant el desenvolupament de nous mètodes d'interacció i la reutilització dels components del model per a tasques que van més enllà de l'entrenament original. Presentem noves tècniques per millorar les capacitats creatives dels models generatius, proposem mètodes per avaluar el seu impacte en la comunitat artística i explorem interfícies innovadores per a la col·laboració entre humans i IA en la creació d'art. Mitjançant experiments extensos i anàlisis crítiques, demostrem que els nostres enfocaments fan avançar l'estat de l'art en els seus camps respectius i revelen sinergies inesperades entre els sistemes autònoms i les aplicacions creatives d'IA. Aquesta tesi contribueix al desenvolupament de sistemes de conducció autònoma més interpretables i eficients, alhora que amplia els límits de la creació d'art assistida per IA de formes que respecten i milloren la creativitat humana.
dc.description.abstract
La inteligencia artificial (IA) ha acelerado el avance de numerosos campos, en particular donde los datos y los recursos computacionales son fácilmente accesibles. Esta tesis explora dos de estos dominios: la conducción autónoma y las artes visuales, centrándose en mejorar la eficiencia, la interpretabilidad y el potencial creativo a través de aplicaciones innovadoras de mecanismos de atención y percepción visual. En el ámbito de la conducción autónoma, abordamos el desafío de entrenar modelos de una manera más eficiente respecto a la utilización de datos de entrenamiento, evitando al mismo tiempo una sobrecarga computacional durante la conducción autónoma propiamente. Presentamos una nueva función de coste basada en el concepto de atención guiada para modelos profundos tipo extremo a extremo, mejorando significativamente la eficiencia y la interpretabilidad durante su uso. Este enfoque elimina la necesidad de redes de enmascaramiento dedicadas, lo que reduce los requisitos computacionales sin perjudicar el rendimiento. Además, investigamos la estabilidad en la conducción de modelos de extremo a extremo, proponiendo una nueva función de coste que separa la atención en objetos dinámicos y reglas de tráfico, mejorando la transparencia de los procesos de toma de decisiones y allanando el camino para la integración de datos basados en la mirada humana. Al mismo tiempo, abordamos los desafíos que plantea la IA generativa en las artes visuales. A pesar de la inmensa cantidad de datos y de requisitos computacionales para entrenar modelos generativos para crear imágenes nunca antes vistas, observamos una preocupante falta de datos de entrenamiento nuevos, lo que podría llevar a consecuencias catastróficas. Nuestro trabajo se centra en explotar los modelos existentes de manera más eficaz mediante el desarrollo de nuevos métodos de interacción y la reutilización de los componentes del modelo para tareas que van más allá de su entrenamiento original. Presentamos técnicas novedosas para mejorar las capacidades creativas de los modelos generativos, proponemos métodos para evaluar su impacto en la comunidad artística y exploramos interfaces innovadoras para la colaboración entre humanos e IA en la creación de arte. A través de experimentos extensos y análisis críticos, demostramos que nuestros enfoques hacen avanzar el estado del arte en sus respectivos campos y revelan sinergias inesperadas entre los sistemas autónomos y las aplicaciones creativas de IA. Esta tesis contribuye al desarrollo de sistemas de conducción autónoma más interpretables y eficientes, al tiempo que amplía los límites de la creación de arte asistida por IA de formas que respetan y mejoran la creatividad humana.
dc.description.abstract
Artificial Intelligence (AI) has accelerated the advancement of numerous fields, particularly where data and computational resources are readily accessible. This thesis explores two of these domains: autonomous driving and visual arts, focusing on enhancing efficiency, interpretability, and creative potential through innovative applications of attention mechanisms and visual perception. In the realm of autonomous driving, we address the challenge of training models in a more data-efficient manner while avoiding additional computational overhead during deployment. We introduce a novel Attention Loss that optimizes attention weights in end-to-end models, significantly improving sample efficiency and interpretability. This approach eliminates the need for dedicated masking networks, reducing computational requirements while maintaining performance. Furthermore, we investigate the stability of driving quality in end-to-end models, proposing a new loss function that separates attention into dynamic objects and traffic rules, enhancing the transparency of decision-making processes and paving the way for integrating human gaze data. Concurrently, we tackle the challenges posed by generative AI in visual arts. Despite the immense data and computational requirements for training generative models to create unseen images, we observe a concerning lack of fresh data, potentially leading to catastrophic implications. Our work focuses on exploiting existing models more effectively by developing new interaction methods and repurposing model components for tasks beyond their original training. We introduce novel techniques to enhance the creative capabilities of generative models, propose methods for evaluating their impact on the artistic community, and explore innovative interfaces for human-AI collaboration in art creation. Through extensive experiments and critical analysis, we demonstrate that our approaches advance the state-of-the-art in their respective fields and reveal unexpected synergies between autonomous systems and creative AI applications. This thesis contributes to developing more interpretable and efficient autonomous driving systems, while also pushing the boundaries of AI-assisted art creation in ways that respect and enhance human creativity.
dc.format.extent
143 p.
dc.language.iso
eng
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by/4.0/
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Conducció autònoma
dc.subject
Autonomous driving
dc.subject
Conducción autónoma
dc.subject.other
Tecnologies
dc.title
Guiding AI attention for driving and creative generation
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2025-01-03T12:35:31Z
dc.subject.udc
04
dc.contributor.director
López Peña, Antonio M. (Antonio Manuel)
dc.contributor.tutor
López Peña, Antonio M. (Antonio Manuel)
dc.embargo.terms
24 mesos
dc.date.embargoEnd
2026-12-05T01:00:00Z
dc.rights.accessLevel
info:eu-repo/semantics/embargoedAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica


Documents

This document contains embargoed files until 2026-12-05

This item appears in the following Collection(s)