Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
Aquesta tesi té com a objectiu explorar una solució global per a que els efectes de la llum a les imatges siguin comprensibles i editables fent servir tècniques de descomposició intrínseca i re-il·luminació. Els reptes que es plantegen inclouen la manca de conjunts de dades adequats i arquitectures de xarxes que puguin generalitzar a escenaris més diversos. Per abordar aquests reptes s'exploren tres aproximacions diferents. En primer lloc, proposem un marc de treball bàsic per a l'edició d'imatges que permet variar els colors dels objectes i la seva il·luminació a partir d'una sola imatge, garantint una coherència física global. Per aconseguir això, introduïm un conjunt d'imatges sintètiques i una sèrie d'arquitectures basades en la descomposició intrínseca. La proposta dona bons resultats en les tasques d'edició esmentades, i demostra l'efectivitat de la descomposició intrínseca com a estratègia. Dona bons resultats en imatges reals si es fa un entrenament afinat de les dades, tot i que la proposta està limatada a escenaris específics. En segon lloc, i per a superar les limitacions anteriors. Explorem més a fons la re-iluminació a partir d'una sola imatge tant des de la perspectiva de les dades com com metodològiques. Proposem dos nous conjunts de dades: un sintètic amb components intrínsecs i un altre real sota llums múltiples, adquirit en condicions de laboratori. Per incorporar més coherència física al procés de re-iluminació, establim una xarxa amb dues fases, basada en la descomposició intrínseca, proporcionant sortides en passos intermedis i restriccions addicionals. Quan el conjunt d'entrenament no té components intrínsecs, introduïm un mòdul no supervisat per a millorar l'entrenament de les components. En termes de re-iluminació, el nostre mètode millora els mètodes de l'estat de l'art, tant sobre conjunts de dades existents com en els nous desenvolupats. A més a més, demostrem que el pre-entrenament dels nostres mètodes i els anteriors en el nostre conjunt de dades sintètic pot millorar el seu rendiment en altres conjunts de dades. Tot i així, concloem amb les limitacions de l'esquema d'una sola imatge que impedeix una re-il·luminació perfecte. Per superar aquestes limitacions, passem a utilitzar imatges d'entrenament amb múltiples vistes i múltiples llums per a escenes individuals. Proposem MLI-NeRF, que integra la informació de múltiples llums en els camps de radiància neural dels components intrínsecs. Aprofitant la informació de l'escena proporcionada per les múltiples fonts de llum, es generen imatges de pseudo-etiquetes per a la reflectància i l'ombrejat que permeten guiar la descomposició de la imatge sense necessitat de dades de referència. El nostre mètode introdueix una supervisió senzilla per a la separació de components intrínsecs i assegura robustesa en diversos tipus d'escenes. Validem el nostre enfocament en conjunts de dades sintètics i reals, superant els mètodes més avançats. Aquesta tesi no només millora la comprensió dels efectes de llum en les imatges, sinó que també proporciona eines robustes per a aplicacions pràctiques d'edició de llum. Les contribucions inclouen nous conjunts de dades, marcs i models que aborden desafiaments clau en el camp, obrint el camí per a futures investigacions i aplicacions.
Esta tesis doctoral tiene como objetivo desarrollar una solución integral para hacer que los efectos de la luz en las imágenes sean comprensibles y editables mediante el uso de técnicas de descomposición intrínseca y re-iluminación. Los retos incluyen la falta de conjuntos de datos adecuados y arquitecturas de red que se generalicen a escenarios más diversos. Esta tesis aborda estos retos mediante la exploración de tres enfoques. En primer lugar, proponemos un marco de referencia básico para la edición de imágenes que puede modificar los colores y las condiciones de iluminación de los objetos en una sola imagen mientras se asegura la coherencia física global. Para lograr esto, introducimos un conjunto de datos sintético y una serie de arquitecturas basadas en la descomposición intrínseca. Nuestro marco logra con éxito las tareas de edición mencionadas, demostrando la efectividad de la descomposición intrínseca como estrategia. Además, logramos resultados satisfactorios en imágenes reales mediante entrenamiento fino, aunque estos están limitados a escenarios específicos. En un segundo enfoque, nos proponemos superar las limitaciones anteriores. Exploramos más a fondo la re-iluminación a partir de una sola imagen tanto desde desde la perspectiva de los conjuntos de datos como de los métodos. Proponemos dos nuevos conjuntos de datos: uno sintético con componentes intrínsecos de referencia y otro real con múltiples fuentes deluz adquiridas en condiciones de laboratorio. Para incorporar más coherencia física al proceso de re-iluminación, proponemos un modelo en dos fases basado en la descomposición intrínseca, proporcionando salidas en pasos intermedios y restricciones adicionales. Cuando el conjunto de entrenamiento carece de componentes intrínsecos de referencia, introducimos un módulo no supervisado para mejorar el entrenamiento de las salidas intrínsecas. En términos de re-iluminación, nuestro método supera el estado del arte, tanto sobre datos existentes como en los nuevos conjuntos desarrollados. Además, demostramos que el pre-entrenamiento de nuestros métodos y los anteriores en nuestro conjunto de datos sintético puede mejorar su rendimiento en otros conjuntos de datos. Aún así, apuntamos algunas limitaciones del esquema basado en una imagen que impide una re-iluminación perfecta. Para superar estas limitaciones, pasamos a usar imágenes de entrenamiento de múltiples vistas y múltiples luces para escenas individuales. Proponemos MLI-NeRF, que integra información de múltiples luces en campos de radiancia neural. Aprovechando la información de la escena proporcionada por diferentes fuentes de luz, generamos imágenes de pseudo-etiquetas para la reflectancia y el sombreado para guiar la descomposición de la imagen intrínseca sin necesidad de datos de referencia. Nuestro método introduce una supervisión sencilla para la separación de componentes intrínsecos y asegura robustez en diversos tipos de escenas. Validamos nuestro enfoque en conjuntos de datos sintéticos y del mundo real, superando los resultados del estado del arte. Esta tesis no solo mejora la comprensión de los efectos de la luz en las imágenes, sino que también proporciona herramientas robustas para aplicaciones prácticas de edición de luz. Las contribuciones incluyen nuevos conjuntos de datos, marcos y modelos que abordan desafíos clave en el campo, allanando el camino para futuras investigaciones y aplicaciones.
This thesis aims to develop a comprehensive solution to make image light effects both understandable and editable by leveraging intrinsic decomposition and relighting techniques. The challenges include a lack of suitable datasets and network architectures that generalize to more diverse scenarios. This thesis tackles these challenges through the exploration of three approaches. Firstly, we propose a baseline framework for image editing that can modify the colors and lighting conditions of objects in a single image while ensuring global physical coherence. To achieve this, we introduce a synthetic dataset and a series of architectures based on intrinsic decomposition. Our framework successfully accomplishes the aforementioned editing tasks, demonstrating the effectiveness of intrinsic decomposition as a strategy. Additionally, we achieve satisfactory results on real images through fine-tuning, although these are confined to specific scenarios. In a second approach we aim to overcome previous limitations. We further explore relighting from a single image from both the datasets and methodological perspectives. We propose two new datasets: a synthetic one with ground truth intrinsic components and a multi-light real one collected under laboratory conditions. To incorporate more physical consistency in the relighting pipeline, we establish a two-stage network based on intrinsic decomposition, providing outputs at intermediate steps and additional constraints. When the training set lacks ground truth for intrinsic components, we introduce an unsupervised module to enhance the training of the intrinsic outputs. In terms of relighting, our method outperforms state-of-the-art methods, as tested on both existing and newly developed datasets. Furthermore, we show that pre-training our and prior methods on our synthetic dataset can enhance their performance on other datasets. Nevertheless, we demonstrate the limitations of the single-image scheme that prevents perfect relighting. To overcome these limitations, we move to use multi-view and multi-light training images for individual scenes. We propose MLI-NeRF, which integrates multiple light information in intrinsic-aware neural radiance fields. By leveraging scene information provided by different light source positions, we generate pseudo-label images for reflectance and shading to guide intrinsic image decomposition without the need for ground truth data. Our method introduces straightforward supervision for intrinsic component separation and ensures robustness across diverse scene types. We validate our approach on both synthetic and real-world datasets, outperforming existing state-of-the-art methods. This thesis not only enhances the understanding of light effects in images but also provides robust tools for practical light editing applications. The contributions include new datasets, frameworks, and models that address key challenges in the field, paving the way for future research and applications.
Descomposició intrínseca; Intrinsic decomposition; Descomposición intrínseca; Re-iluminació; Relighting; Re-iluminación; Aprenentatge profund; Deep Learning; Aprendizaje profundo
004 - Computer science
Tecnologies