Universitat Autònoma de Barcelona. Departament d'Informàtica
El color y la textura son dos estímulos visuales importantes para la interpretación de las imágenes. La definición de descriptores computacionales que combinan estas dos características es aún un problema abierto. La dificultad se deriva esencialmente de la propia naturaleza de ambas, mientras que la textura es una propiedad de una región, el color es una propiedad de un punto.<br/>Hasta ahora se han utilizado tres los tipos de aproximaciones para la combinación, (a) se describe la textura directamente en cada uno de los canales color, (b) se describen textura y color por separado y se combinan al final, y (c) la combinación se realiza con técnicas de aprendizaje automático. Considerando que este problema se resuelve en el sistema visual humano en niveles muy tempranos, en esta tesis se propone estudiar el problema a partir de la implementación directa de una teoría perceptual, la teoría de los textons, y explorar así su extensión a color.<br/>Puesto que la teoría de los textons se basa en la descripción de la textura a partir de las densidades de los atributos locales, esto se adapta perfectamente al marco de trabajo de los descriptores holísticos (bag-of-words). Se han estudiado diversos descriptores basados en diferentes espacios de textons, y diferentes representaciones de las imágenes. Asimismo se ha estudiado la viabilidad de estos descriptores en una representación conceptual de nivel intermedio.<br/>Los descriptores propuestos han demostrado ser muy eficientes en aplicaciones de recuperación y clasificación de imágenes, presentando ventajas en la generación de vocabularios. Los vocabularios se obtienen cuantificando directamente espacios de baja dimensión y la perceptualidad de estos espacios permite asociar semántica de bajo nivel a las palabras visuales. El estudio de los resultados permite concluir que si bien la aproximación holística es muy eficiente, la introducción de co-ocurrencia espacial de las propiedades de forma y color de los blobs de la imagen es un elemento clave para su combinación, hecho que no contradice las evidencias en percepción.
Colour and texture are important visual cues for image understanding. The definition of computational descriptors that combine both features is still an open problem. The difficulty is essentially due to the inherent nature of both cues, while texture is a property of a region, colour is a property of a point.<br/>Since now three approaches have been used for combining cues, (a) texture is directly described in each one of the colour channels, (b) texture and colour are described separately and combined in a latter step, and (c) the combination is done using machine learning techniques. Considering that this issue is solved at early stages of the human visual system, in this work we propose to study the problem using a direct implementation of a perceptual theory, the texton theory, and to explore its extension to colour.<br/>Since texton theory is based on the description of texture by the densities of local attributes, this matches perfectly with an holistic framework where descriptors are based on bag-of-words. Some descriptors based on different textons spaces and different image representations have been studied. Furthermore, the feasibility of these descriptors has also been studied for intermediate levels of image representation.<br/>The proposed descriptors have proved high efficiency in retrieval and image classification. They also present some advantages in vocabulary generation. The quantification is done directly on low-dimensional spaces, whose perceptual properties allow low-level semantic associations to the visual words. The results make us to conclude that although the performance of holistic approaches is high, the introduction of spatial co-ocurrence of blob properties, shape and colour, is a key element for their combination. This conclusion agrees with perceptual evidences.
Visión por computador; Color; Texturas
68 - Industrias, oficios y comercio de artículos acabados. Tecnología cibernética y automática
Tecnologies
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.