Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
Els valors dels píxels de les imatges són el resultat d'una combinació d'informacions visuals provinents de múltiples fonts. Recuperar la informació dels múltiples factors que han produït una imatge sembla un problema molt difícil. Tanmateix, és important fixar-se que els éssers humans desenvolupem l'habilitat d'interpretar les imatges i de reconèixer i aïllar determinades propietats físiques de l'escena. Les imatges que descriuen una sola característica física d'una escena s'anomenen imatges intrínseques. Aquestes imatges serien molt útils per la majoria de processos de la visió per computador, que sovint es veuen afectats pels diversos efectes que normalment trobem en les imatges naturals (ombres, especularitats, interreflexions, etc.) En aquesta tesi s'analitza el problema de l'estimació d'imatges intrínseques des de diferents punts de vista, com per exemple la formulació teòrica del problema, les cues visuals que poden ser útils per a estimar certes imatges intrínseques o els mecanismes d'avaluació del problema. Primer introduïm breument l'origen del problema de l'estimació d'imatges intrínseques i també parlem del seu context i d'alguns temes relacionats. Llavors, presentem una revisió exhaustiva de la bibliografia d'imatges intrínseques en el camp de la visió per computador, proporcionant una descripció detallada i organitzada de les tècniques per a l'estimació d'imatges intrínseques que han aparegut fins ara. D'altra banda, també examinem els mecanismes d'avaluació d'imatges intrínseques que s'han utilitzat fins ara, estudiant les bases de dades i les mètriques existents. A més a més, analitzem l'evolució del problema i identifiquem les tendències actuals d'aquest camp de recerca. Sovint, en el camp de la visió per computador, la informació del color ha estat ignorada. Tanmateix, el color ha resultat ser molt útil en l'estimació d'imatges intrínseques. En aquest treball presentem un mètode de descomposició d'imatges intrínseques que estima la reflectància i el shading d'una imatge utilitzant observacions de dos atributs de color que es combinen en un marc probabilístic. D'altra banda, la majoria dels mètodes de descomposició d'imatges intrínseques fins ara han assumit que les escenes estan il·luminades per una ``llum blanca'' i han ignorat completament els efectes dels sensors de la càmera en les imatges. Tots dos factors, però, afecten els valors de les imatges resultants durant el procés d'adquisició. En aquest treball analitzem la formulació teòrica del problema de descomposició d'imatges intrínseques i proposem un nou marc, més general, on es modelitzen els efectes tant dels sensors de la càmera com del color de l'il·luminant. En aquesta nova formulació hi introduïm un nou component, anomenat reflectància absoluta, que és invariant a tots dos efectes. A més a més, demostrem que qualsevol coneixement sobre el color de l'il·luminant o sobre els sensors de la càmera es pot utilitzar per millorar les reflectàncies estimades dels diferents mètodes de descomposició d'imatges intrínseques. Finalment, analitzem els mecanismes d'avaluació d'imatges intrínseques, que han evolucionat constantment durant aquesta última dècada. En aquesta tesi presentem dues bases de dades per a l'avaluació d'imatges intrínseques. Una d'elles és una base de dades calibrada que inclou informació sobre l'il·luminant de l'escena i els sensors de la càmera. Aquesta base de dades s'ha utilitzat per validar experimentalment el marc teòric per a la descomposició d'imatges intrínseques presentat en aquesta tesi. La segona base de dades s'ha construït mitjançant tècniques de gràfics per computador i conté imatges, tant d'objectes simples com d'escenes complexes, adquirides amb diferents condicions d'il·luminació. En aquest treball es demostra que amb programari de gràfics per computador i motors de representació gràfica, és possible construir bases de dades molt grans i realistes per a l'avaluació d'imatges intrínseques.
Image values are the result of a combination of visual information coming from multiple sources. Recovering information from the multiple factors that produced an image seems a hard and ill-posed problem. However, it is important to observe that human beings develop the ability to interpret images and recognize and isolate specific physical properties of the scene. Images describing a single physical characteristic of an scene are called intrinsic images. These images would benefit most computer vision tasks which are often affected by the multiple complex effects that are usually found in natural images (cast shadows, specularities, interreflections...). In this thesis we will analyze the problem of intrinsic image estimation from different perspectives, including the theoretical formulation of the problem, the visual cues that can be used to estimate the intrinsic components and the evaluation mechanisms of the problem. We first give a brief introduction on the background and the nature of the problem of intrinsic image estimation and some of its closely related topics. Then, we present an exhaustive review of the literature of intrinsic images in the field of computer vision, giving a comprehensive and organized description of the existing techniques for intrinsic image estimation. We also examine the evaluation mechanisms that have been used so far in this problem. We analyze the existing databases and metrics, discuss the evolution of the problem and identify the recent trends in the field. Color information has been frequently ignored in the field of computer vision. In this work we present a method for intrinsic image decomposition which estimates the intrinsic reflectance and shading components of a single input image using observations from two different color attributes combined in a probabilistic framework. One of them, based on the semantic description of color used by humans, provides a sparse description of reflectances in an image. The other, based on an analysis of color distributions in the histogram space which connects local maxima, gives us a consistent description of surfaces sharing the same reflectance, providing stability of color-names in shadowed or near highlight regions of the image. Moreover, most methods for intrinsic image decomposition have usually assumed ``white light'' in the scenes and have completely ignored the effect of camera sensors in images. However, both factors strongly influence the resulting image values during the acquisition process. In this work we analyze the theoretical formulation underlying the decomposition problem and propose a generalized framework where we model the effects of both the camera sensors and the color of the illuminant. In this novel formulation we introduce a new reflectance component, called absolute reflectance, which is invariant to both effects. Furthermore, we demonstrate that any knowledge of the color of the illuminant or the camera sensors from input images can be used to improve the reflectance estimates of different existing methods for intrinsic image decomposition. Finally, we analyze the evaluation mechanisms of intrinsic images, which have continuously evolved during the last decade. In this thesis we present two datasets for intrinsic image evaluation. One is a calibrated dataset which includes ground truth information about the illuminant of the scene and the camera sensors. This dataset is used in this work to experimentally validate the theoretical framework for intrinsic image decomposition proposed in this thesis. The second dataset uses synthetic data and contains both simple objects and complex scenes under different illumination conditions. In this work we demonstrate that it is possible to build large and realistic datasets for intrinsic image evaluation using computer graphics software and rendering engines.
Imatges intrínseques; Intrinsic images; Reflectància; Reflectance; Color
004 - Informática
Tecnologies