Advancing Transfer Learning and Control of Generative Image Models

Author

Laria Mantecón, Héctor

Director

Raducanu , Bogdan Mihai

Gómez Villa, Alexandra

Weijer, Joost van de

Tutor

Weijer, Joost van de

Date of defense

2025-07-08

Pages

183 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

Els models generatius profunds han revolucionat la síntesi d'imatges, possibilitant capacitats sense precedents en la creació de contingut a través de diversos àmbits. Malgrat els avenços significatius, aquests models s'enfronten a diversos reptes fonamentals que limiten les seves aplicacions pràctiques, incloent la transferència eficient de coneixement, la generació coherent amb consciència 3D, la robustesa davant la personalització i el control precís d'atributs. Aquesta tesi investiga i aborda aquests reptes, amb l'objectiu d'avançar en l'estat de l'art dels models generatius per a la síntesi d'imatges. En primer lloc, explorem la transferència eficient de coneixement des de GANs incondicionals a condicionals, una direcció sovint menystinguda donada la disponibilitat de models incondicionals preentrenats d'alta qualitat. Introduïm la hipermodulació, una tècnica que aprofita les xarxes hiperneturals per generar eficientment paràmetres de modulació de pesos sobre la marxa, permetent sortides específiques per a cada classe mentre es preserva la qualitat de generació i s'exploten les similituds entre classes. El nostre enfocament demostra un rendiment superior en múltiples conjunts de dades, superant significativament els mètodes existents. En segon lloc, abordem la integració de la consciència 3D amb les capacitats d'edició guiada per text en models generatius. Presentem NeRF-Diffusion, un marc que combina un Camp de Radiància Neuronal per a les formes prèvies amb un model de difusió per a la generació de contingut, enllaçats per un token de consistència compartit. Aquest enfocament manté la coherència d'identitat a través de diferents punts de vista mentre permet l'edició basada en text, equilibrant eficaçment la consistència geomètrica amb la flexibilitat creativa. En tercer lloc, investiguem l'oblit en la personalització de models de difusió, on fins i tot adaptacions mínimes al model original poden causar una degradació generalitzada del coneixement. Mitjançant una anàlisi exhaustiva, caracteritzem tant la deriva semàntica com la d'aparença, i introduïm un enfocament de regularització funcional que preserva les capacitats originals mentre s'adapta a nous conceptes. El nostre mètode redueix significativament la degradació del coneixement sense comprometre la qualitat de generació o l'eficàcia de la personalització. Finalment, abordem el repte del control precís del color en models de difusió. En descobrir i aprofitar la vinculació d'atributs semàntics dins dels marcs IP-Adapter, desenvolupem ColorWave, un enfocament sense necessitat d'entrenament que permet l'especificació exacta del color a nivell RGB durant la inferència. Aquest mètode elimina la necessitat de processos d'optimització computacionalment costosos mentre manté la qualitat de generació i respecta altres aspectes de les consignes d'entrada. Les nostres contribucions avancen l'estat de l'art en la síntesi generativa d'imatges mitjançant la millora de la transferibilitat, consistència, robustesa i controlabilitat dels models, fent en última instància que aquestes poderoses tecnologies siguin més accessibles i fiables per a aplicacions pràctiques.


Los modelos generativos profundos han revolucionado la síntesis de imágenes, permitiendo capacidades sin precedentes en la creación de contenido a través de diversos dominios. A pesar significativos avances, estos modelos enfrentan varios desafíos fundamentales que limitan sus aplicaciones prácticas, incluyendo la transferencia eficiente de conocimiento, la generación coherente con consciencia 3D, la robustez ante la personalización y el control preciso de atributos. Esta tesis investiga y aborda estos desafíos, con el objetivo de avanzar el estado del arte en modelos generativos para la síntesis de imágenes. En primer lugar, exploramos la transferencia eficiente de conocimiento desde GANs incondicionales a condicionales, una dirección poco estudiada dada la ya alta disponibilidad de modelos incondicionales preentrenados de alta calidad. Introducimos la hiper-modulación, una técnica que aprovecha las hiperredes para generar eficientemente parámetros de modulación de pesos en tiempo real, permitiendo salidas específicas para cada clase mientras preserva la calidad de generación y explota similitudes entre clases. Nuestro enfoque demuestra un rendimiento superior en múltiples conjuntos de datos, superando significativamente a los métodos existentes. En segundo lugar, abordamos la integración de la consciencia 3D con capacidades de edición guiadas por texto en modelos generativos. Presentamos NeRF-Diffusion, un marco que combina un Campo de Radiancia Neural para obtener información previa sobre la forma, con un modelo de difusión para la generación de contenido, unidos mediante un token de consistencia compartido. Este enfoque mantiene la coherencia de identidad a través de diferentes puntos de vista mientras permite la edición basada en texto, equilibrando efectivamente la consistencia geométrica con la flexibilidad creativa. En tercer lugar, investigamos el olvido en la personalización de modelos de difusión, donde incluso adaptaciones mínimas en el modelo original pueden causar una degradación generalizada del conocimiento. A través de un análisis exhaustivo, caracterizamos tanto la deriva semántica como la de apariencia, e introducimos un enfoque de regularización funcional que preserva las capacidades originales mientras incorpora nuevos conceptos. Nuestro método reduce significativamente la degradación del conocimiento sin comprometer la calidad de generación o la efectividad de la personalización. Finalmente, abordamos el desafío del control preciso del color en modelos de difusión. Al descubrir y aprovechar la vinculación de atributos semánticos dentro de los IP-Adapters, desarrollamos ColorWave, un enfoque que no requiere entrenamiento y que permite la especificación exacta a nivel RGB durante la inferencia. Este método elimina la necesidad de procesos de optimización computacionalmente costosos mientras mantiene la calidad de generación y respeta otros aspectos de las instrucciones de entrada. Nuestras contribuciones avanzan el estado del arte en la síntesis generativa de imágenes al mejorar la transferibilidad, consistencia, robustez y controlabilidad de los modelos, haciendo estas poderosas tecnologías más accesibles y confiables para aplicaciones prácticas.


Deep generative models have revolutionized image synthesis, enabling unprecedented capabilities in content creation across diverse domains. Despite significant advances, these models face several fundamental challenges that limit their practical applications, including efficient knowledge transfer, consistent 3D-aware generation, robustness to customization, and precise attribute control. This thesis investigates and addresses these challenges, aiming to advance state-of-the-art generative models for image synthesis. First, we explore efficient knowledge transfer from unconditional to conditional GANs, an overlooked direction given the availability of high-quality pretrained unconditional models. We introduce hyper-modulation, a technique leveraging hypernetworks to efficiently generate weight modulation parameters on-the-fly, enabling class-specific outputs while preserving generation quality and exploiting inter-class similarities. Our approach demonstrates superior performance across multiple datasets, significantly outperforming existing methods. Second, we tackle the integration of 3D awareness with text-guided editing capabilities in generative models. We present NeRF-Diffusion, a framework that combines a Neural Radiance Field for shape priors with a diffusion model for content generation, bridged by a shared consistency token. This approach maintains identity coherence across viewpoints while enabling text-based editing, effectively balancing geometric consistency with creative flexibility. Third, we investigate forgetting in diffusion model customization, where even minimal adaptations to the original model can cause widespread knowledge degradation. Through comprehensive analysis, we characterize both semantic and appearance drift, and introduce a functional regularization approach that preserves original capabilities while accommodating new concepts. Our method significantly reduces knowledge degradation without compromising generation quality or personalization effectiveness. Finally, we address the challenge of precise color control in diffusion models. By discovering and leveraging semantic attribute binding within IP-Adapter frameworks, we develop ColorWave, a training-free approach that enables exact RGB-level color specification during inference. This method eliminates the need for computationally expensive optimization processes while maintaining generation quality and respecting other aspects of input prompts. Our contributions advance the state-of-the-art in generative image synthesis by enhancing model transferability, consistency, robustness, and controllability, ultimately making these powerful technologies more accessible and reliable for practical applications.

Keywords

Xarxes generatives antagònique; Generative adversarial network; Redes generativas antagónicas; Models de difusió; Diffusion models; Modelos de difusión; Aprenentatge per transferència; Transfer learning; Aprendizaje por transferencia

Subjects

04

Knowledge Area

Tecnologies

Documents

hlm1de1.pdf

19.43Mb

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)