Estimating Light Effects from a Single Image: Deep Architectures and Ground-Truth Generation

Author

Sial, Hassan Ahmed

Director

Baldrich i Caselles, Ramon

Vanrell i Martorell, Maria Isabel

Date of defense

2021-09-27

Pages

153 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

En aquesta tesi explorem com estimar els efectes de la llum que interactua amb els objectes d’una escena a partir d’una sola imatge. Per assolir aquest objectiu, ens centrem en la recuperació de components intrínseques com ara la reflectància, les ombres o altres propietats de la llum, com el color i la posició, tot això fent servir arquitectures de xarxes neuronals profundes. L’èxit d’aquest enfocament es basa en bona part en la formació de bases de dades d’imatges grans i diversificades. Les contribucions que presentem són les següents: (a) una tècnica d’augment de dades per a l’entranament; (b) un Ground-truth per a un conjunt de dades multi-il·luminant ja existent; (c) una família de bases de dades sintètiques, SID (Surreal Intrinsic Dataset), amb fons molt diversos i condicions de llum coherents; i (d) una metodologia pràctica per a crear Ground-Truths híbrids per superar la complexitat d’adquirir escenes físiques reals de manera massiva. Paral·lelament a la creació de bases de dades d’imatges, hem construït diferents arquitectures profundes de tipus codificador-descodificador molt flexibles i que incorporen restriccions físiques dels models de formació d’imatges. A la darrera part de la tesi, apliquem tota l’experiència anterior a dos problemes diferents. En primer lloc, creem una gran base de dades d’imatges, Doc3DShade, híbrid amb ombres reals i reflectància sintètica sota condicions d’il·luminació complexes, i que s’utilitza per entrenar una arquitectura de dues fases que millora la tasca de reconeixement de caràcters en condicions d’il·luminació complexa de documents arrugats. En segon lloc, abordem el problema de la re-il·luminació d’escenes a partir d’una sola imatge, això es fa ampliant el conjunt de dades SID per representar múltiples efectes d’ombres i estudiant diverses arquitectures profundes que inclouen l’ús de components intrínseques per millorar la generació de les re-il·luminacions.


En esta tesis se explora cómo estimar los efectos de la luz que interactúa con los objetos de la escena a partir de una sola imagen. Para lograr este objetivo, nos enfocamos en recuperar componentes intrínsecos como reflectancia, sombreado o propiedades de luz como el color y la posición utilizando arquitecturas de redes neuronales profundas. El éxito de estos enfoques se basa en el entrenamiento sobre grandes bases de datos de imágenes muy diversificadas. Se presentan las siguientes contribuciones: (a) una técnica de aumento de datos para entrenamiento; (b) un Ground-truth para una base de datos de imágenes existente con múltiples iluminantes; (c) una familia de bases de datos de imágenes sintéticas, que llamamos SID (Surreal Intrinsic Datasets), con escenas muy diversificadas y condiciones de luz coherentes; y (d) una metodología para la creación de Ground-truth híbridos que permiten superar la complejidad de adquirir escenas físicas de manera masiva. Paralelamente a la creación de conjuntos de datos, entrenamos diferentes arquitecturas profundas de tipo codificador-decodificador muy flexibles y que incorporan restricciones físicas de los modelos de formación de imágenes. En la última parte de la tesis, aplicamos toda la experiencia previa a dos aplicaciones diferentes. Primero, creamos una base de datos de imágenes híbrida, Doc3DShade con sombreado real y reflectancia sintética bajo condiciones de iluminación complejas, que ha sido utilizada para entrenar una arquitectura en dos pasos que mejora la tarea de reconocimiento de caracteres en condiciones de iluminación complejas de documentos arrugados. En segundo lugar, abordamos el problema de la re-iluminación de escenas a partir de una sola imagen, ampliamos el conjunto de datos SID para poder representar múltiples efectos de sombras, y estudiamos diversas arquitecturas profundas que incluyen el uso de componentes intrínsecos para poder mejorar la re-iluminación generada.


In this thesis, we explore how to estimate the effects of the light interacting with the scene objects from a single image. To achieve this goal, we focus on recovering intrinsic components like reflectance, shading, or light properties such as color and position using deep architectures. The success of these approaches relies on training on large and diversified image datasets. Therefore, we present several contributions on this such as: (a) a data-augmentation technique; (b) a ground-truth for an existing multi-illuminant dataset; (c) a family of synthetic datasets, SID for Surreal Intrinsic Datasets, with diversified backgrounds and coherent light conditions; and (d) a practical pipeline to create hybrid ground-truths to overcome the complexity of acquiring realistic light conditions in a massive way. In parallel with the creation of datasets, we trained different flexible encoder-decoder deep architectures incorporating physical constraints from the image formation models. In the last part of the thesis, we apply all the previous experience to two different problems. Firstly, we create a large hybrid Doc3DShade dataset with real shading and synthetic reflectance under complex illumination conditions, that is used to train a two-stage architecture that improves the character recognition task in complex lighting conditions of unwrapped documents. Secondly, we tackle the problem of single image scene relighting by extending both, the SID dataset to present stronger shading and shadows effects, and the deep architectures to use intrinsic components to estimate new relit images.

Keywords

Imatges intrínseques; Imágenes intrínsecas; Intrinsic images; CNN; Generació de ground-truth; Generación de ground-truth; Ground-truth generation

Subjects

004 - Computer science

Knowledge Area

Tecnologies

Documents

has1de1.pdf

9.369Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)