Estimating Light Effects from a Single Image: Deep Architectures and Ground-Truth Generation

Sial, Hassan Ahmed

Estimating Light Effects from a Single Image: Deep Architectures and Ground-Truth Generation

dc.contributor.author

Sial, Hassan Ahmed

dc.date.accessioned

2022-04-02T08:21:17Z

dc.date.available

2022-04-02T08:21:17Z

dc.date.issued

2021-09-27

dc.identifier.uri

http://hdl.handle.net/10803/673963

dc.description.abstract

En aquesta tesi explorem com estimar els efectes de la llum que interactua amb els objectes d’una escena a partir d’una sola imatge. Per assolir aquest objectiu, ens centrem en la recuperació de components intrínseques com ara la reflectància, les ombres o altres propietats de la llum, com el color i la posició, tot això fent servir arquitectures de xarxes neuronals profundes. L’èxit d’aquest enfocament es basa en bona part en la formació de bases de dades d’imatges grans i diversificades. Les contribucions que presentem són les següents: (a) una tècnica d’augment de dades per a l’entranament; (b) un Ground-truth per a un conjunt de dades multi-il·luminant ja existent; (c) una família de bases de dades sintètiques, SID (Surreal Intrinsic Dataset), amb fons molt diversos i condicions de llum coherents; i (d) una metodologia pràctica per a crear Ground-Truths híbrids per superar la complexitat d’adquirir escenes físiques reals de manera massiva. Paral·lelament a la creació de bases de dades d’imatges, hem construït diferents arquitectures profundes de tipus codificador-descodificador molt flexibles i que incorporen restriccions físiques dels models de formació d’imatges. A la darrera part de la tesi, apliquem tota l’experiència anterior a dos problemes diferents. En primer lloc, creem una gran base de dades d’imatges, Doc3DShade, híbrid amb ombres reals i reflectància sintètica sota condicions d’il·luminació complexes, i que s’utilitza per entrenar una arquitectura de dues fases que millora la tasca de reconeixement de caràcters en condicions d’il·luminació complexa de documents arrugats. En segon lloc, abordem el problema de la re-il·luminació d’escenes a partir d’una sola imatge, això es fa ampliant el conjunt de dades SID per representar múltiples efectes d’ombres i estudiant diverses arquitectures profundes que inclouen l’ús de components intrínseques per millorar la generació de les re-il·luminacions.

en_US

dc.description.abstract

En esta tesis se explora cómo estimar los efectos de la luz que interactúa con los objetos de la escena a partir de una sola imagen. Para lograr este objetivo, nos enfocamos en recuperar componentes intrínsecos como reflectancia, sombreado o propiedades de luz como el color y la posición utilizando arquitecturas de redes neuronales profundas. El éxito de estos enfoques se basa en el entrenamiento sobre grandes bases de datos de imágenes muy diversificadas. Se presentan las siguientes contribuciones: (a) una técnica de aumento de datos para entrenamiento; (b) un Ground-truth para una base de datos de imágenes existente con múltiples iluminantes; (c) una familia de bases de datos de imágenes sintéticas, que llamamos SID (Surreal Intrinsic Datasets), con escenas muy diversificadas y condiciones de luz coherentes; y (d) una metodología para la creación de Ground-truth híbridos que permiten superar la complejidad de adquirir escenas físicas de manera masiva. Paralelamente a la creación de conjuntos de datos, entrenamos diferentes arquitecturas profundas de tipo codificador-decodificador muy flexibles y que incorporan restricciones físicas de los modelos de formación de imágenes. En la última parte de la tesis, aplicamos toda la experiencia previa a dos aplicaciones diferentes. Primero, creamos una base de datos de imágenes híbrida, Doc3DShade con sombreado real y reflectancia sintética bajo condiciones de iluminación complejas, que ha sido utilizada para entrenar una arquitectura en dos pasos que mejora la tarea de reconocimiento de caracteres en condiciones de iluminación complejas de documentos arrugados. En segundo lugar, abordamos el problema de la re-iluminación de escenas a partir de una sola imagen, ampliamos el conjunto de datos SID para poder representar múltiples efectos de sombras, y estudiamos diversas arquitecturas profundas que incluyen el uso de componentes intrínsecos para poder mejorar la re-iluminación generada.

en_US

dc.description.abstract

In this thesis, we explore how to estimate the effects of the light interacting with the scene objects from a single image. To achieve this goal, we focus on recovering intrinsic components like reflectance, shading, or light properties such as color and position using deep architectures. The success of these approaches relies on training on large and diversified image datasets. Therefore, we present several contributions on this such as: (a) a data-augmentation technique; (b) a ground-truth for an existing multi-illuminant dataset; (c) a family of synthetic datasets, SID for Surreal Intrinsic Datasets, with diversified backgrounds and coherent light conditions; and (d) a practical pipeline to create hybrid ground-truths to overcome the complexity of acquiring realistic light conditions in a massive way. In parallel with the creation of datasets, we trained different flexible encoder-decoder deep architectures incorporating physical constraints from the image formation models. In the last part of the thesis, we apply all the previous experience to two different problems. Firstly, we create a large hybrid Doc3DShade dataset with real shading and synthetic reflectance under complex illumination conditions, that is used to train a two-stage architecture that improves the character recognition task in complex lighting conditions of unwrapped documents. Secondly, we tackle the problem of single image scene relighting by extending both, the SID dataset to present stronger shading and shadows effects, and the deep architectures to use intrinsic components to estimate new relit images.

en_US

dc.format.extent

153 p.

en_US

dc.format.mimetype

application/pdf

dc.language.iso

eng

en_US

dc.publisher

Universitat Autònoma de Barcelona

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Imatges intrínseques

en_US

dc.subject

Imágenes intrínsecas

en_US

dc.subject

Intrinsic images

en_US

dc.subject

CNN

en_US

dc.subject

Generació de ground-truth

en_US

dc.subject

Generación de ground-truth

en_US

dc.subject

Ground-truth generation

en_US

dc.subject.other

Tecnologies

en_US

dc.title

Estimating Light Effects from a Single Image: Deep Architectures and Ground-Truth Generation

en_US

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

004

en_US

dc.contributor.authoremail

hasial@cvc.uab.cat

en_US

dc.contributor.director

Baldrich i Caselles, Ramon

dc.contributor.director

Vanrell i Martorell, Maria Isabel

dc.embargo.terms

cap

en_US

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Documents

has1de1.pdf

9.369Mb PDF

This item appears in the following Collection(s)

Programa de Doctorat en Informàtica [66]