Estimating Light Effects from a Single Image: Deep Architectures and Ground-Truth Generation

dc.contributor.author
Sial, Hassan Ahmed
dc.date.accessioned
2022-04-02T08:21:17Z
dc.date.available
2022-04-02T08:21:17Z
dc.date.issued
2021-09-27
dc.identifier.uri
http://hdl.handle.net/10803/673963
dc.description.abstract
En aquesta tesi explorem com estimar els efectes de la llum que interactua amb els objectes d’una escena a partir d’una sola imatge. Per assolir aquest objectiu, ens centrem en la recuperació de components intrínseques com ara la reflectància, les ombres o altres propietats de la llum, com el color i la posició, tot això fent servir arquitectures de xarxes neuronals profundes. L’èxit d’aquest enfocament es basa en bona part en la formació de bases de dades d’imatges grans i diversificades. Les contribucions que presentem són les següents: (a) una tècnica d’augment de dades per a l’entranament; (b) un Ground-truth per a un conjunt de dades multi-il·luminant ja existent; (c) una família de bases de dades sintètiques, SID (Surreal Intrinsic Dataset), amb fons molt diversos i condicions de llum coherents; i (d) una metodologia pràctica per a crear Ground-Truths híbrids per superar la complexitat d’adquirir escenes físiques reals de manera massiva. Paral·lelament a la creació de bases de dades d’imatges, hem construït diferents arquitectures profundes de tipus codificador-descodificador molt flexibles i que incorporen restriccions físiques dels models de formació d’imatges. A la darrera part de la tesi, apliquem tota l’experiència anterior a dos problemes diferents. En primer lloc, creem una gran base de dades d’imatges, Doc3DShade, híbrid amb ombres reals i reflectància sintètica sota condicions d’il·luminació complexes, i que s’utilitza per entrenar una arquitectura de dues fases que millora la tasca de reconeixement de caràcters en condicions d’il·luminació complexa de documents arrugats. En segon lloc, abordem el problema de la re-il·luminació d’escenes a partir d’una sola imatge, això es fa ampliant el conjunt de dades SID per representar múltiples efectes d’ombres i estudiant diverses arquitectures profundes que inclouen l’ús de components intrínseques per millorar la generació de les re-il·luminacions.
en_US
dc.description.abstract
En esta tesis se explora cómo estimar los efectos de la luz que interactúa con los objetos de la escena a partir de una sola imagen. Para lograr este objetivo, nos enfocamos en recuperar componentes intrínsecos como reflectancia, sombreado o propiedades de luz como el color y la posición utilizando arquitecturas de redes neuronales profundas. El éxito de estos enfoques se basa en el entrenamiento sobre grandes bases de datos de imágenes muy diversificadas. Se presentan las siguientes contribuciones: (a) una técnica de aumento de datos para entrenamiento; (b) un Ground-truth para una base de datos de imágenes existente con múltiples iluminantes; (c) una familia de bases de datos de imágenes sintéticas, que llamamos SID (Surreal Intrinsic Datasets), con escenas muy diversificadas y condiciones de luz coherentes; y (d) una metodología para la creación de Ground-truth híbridos que permiten superar la complejidad de adquirir escenas físicas de manera masiva. Paralelamente a la creación de conjuntos de datos, entrenamos diferentes arquitecturas profundas de tipo codificador-decodificador muy flexibles y que incorporan restricciones físicas de los modelos de formación de imágenes. En la última parte de la tesis, aplicamos toda la experiencia previa a dos aplicaciones diferentes. Primero, creamos una base de datos de imágenes híbrida, Doc3DShade con sombreado real y reflectancia sintética bajo condiciones de iluminación complejas, que ha sido utilizada para entrenar una arquitectura en dos pasos que mejora la tarea de reconocimiento de caracteres en condiciones de iluminación complejas de documentos arrugados. En segundo lugar, abordamos el problema de la re-iluminación de escenas a partir de una sola imagen, ampliamos el conjunto de datos SID para poder representar múltiples efectos de sombras, y estudiamos diversas arquitecturas profundas que incluyen el uso de componentes intrínsecos para poder mejorar la re-iluminación generada.
en_US
dc.description.abstract
In this thesis, we explore how to estimate the effects of the light interacting with the scene objects from a single image. To achieve this goal, we focus on recovering intrinsic components like reflectance, shading, or light properties such as color and position using deep architectures. The success of these approaches relies on training on large and diversified image datasets. Therefore, we present several contributions on this such as: (a) a data-augmentation technique; (b) a ground-truth for an existing multi-illuminant dataset; (c) a family of synthetic datasets, SID for Surreal Intrinsic Datasets, with diversified backgrounds and coherent light conditions; and (d) a practical pipeline to create hybrid ground-truths to overcome the complexity of acquiring realistic light conditions in a massive way. In parallel with the creation of datasets, we trained different flexible encoder-decoder deep architectures incorporating physical constraints from the image formation models. In the last part of the thesis, we apply all the previous experience to two different problems. Firstly, we create a large hybrid Doc3DShade dataset with real shading and synthetic reflectance under complex illumination conditions, that is used to train a two-stage architecture that improves the character recognition task in complex lighting conditions of unwrapped documents. Secondly, we tackle the problem of single image scene relighting by extending both, the SID dataset to present stronger shading and shadows effects, and the deep architectures to use intrinsic components to estimate new relit images.
en_US
dc.format.extent
153 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Imatges intrínseques
en_US
dc.subject
Imágenes intrínsecas
en_US
dc.subject
Intrinsic images
en_US
dc.subject
CNN
en_US
dc.subject
Generació de ground-truth
en_US
dc.subject
Generación de ground-truth
en_US
dc.subject
Ground-truth generation
en_US
dc.subject.other
Tecnologies
en_US
dc.title
Estimating Light Effects from a Single Image: Deep Architectures and Ground-Truth Generation
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
en_US
dc.contributor.authoremail
hasial@cvc.uab.cat
en_US
dc.contributor.director
Baldrich i Caselles, Ramon
dc.contributor.director
Vanrell i Martorell, Maria Isabel
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica


Documents

has1de1.pdf

9.369Mb PDF

This item appears in the following Collection(s)