Compact, Adaptive and Discriminative Spatial Pyramid for Improved Scene and Object Classification

Author

Noha, Elfiky

Director

Gonzàlez i Sabaté, Jordi

Codirector

Roca i Marvà, Francesc Xavier

Date of defense

2012-06-01

ISBN

9788449031151

Legal Deposit

B-33655-2012

Pages

152 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament d'Enginyeria de la Informació i de les Comunicacions

Abstract

L'aparició de bases de dades amb un gran nombre d'imatges requereix del desenvolupament de representacions d'imatge eficients i algorismes que siguin capaços de manipular dades a gran escala de manera eficient. Avui dia, la representació d'imatges basada en la tècnica de Bagsof-Words (Bow), és l'enfocament que més ha reeixit en el context de les tasques de classificació d'objectes i d'escenes. No obstant això, el seu principal desavantatge és l'absència d'informació espacial. En aquest context, els de pirmides espacials (SP) s'ha aplicat amb èxit per incorporar la informació espacial: bàsicament es tracta de subdividir la imatge recursivament subregions al duplicar el nombre de divisions en cada direcció de la imatge, permetent l'extracció d'histogrames i altres caracterstiques en aquestes subregions. A partir del notable rendiment que s'obté amb les piràmides espacials, el seu ús s'ha generalitzat en un creixent nombre d'aplicacions i problemes de visió, pel que en aquesta Tesi hem analitzat com millorar-ne el seu ús. Dins el marc de les SP, hem estudiat la forma òptima per obtenir una representació de la imatge que sigui capaç de fer front als defectes més destacats de les SP, en concret, la seva alta dimensionalitat i la seva rigidesa de la representació de la imatge resultant. En resum, la preocupació principal d'aquesta Tesi és la recerca dels límits de les piràmides espacials al tractar de trobar solucions per als seus inconvenients. En general, aquesta Tesi explora el problema d'obtenir representacions molt compactes i adaptades a la naturalesa de la imatge que siguin molt més informatives en el context de la classificació d'objectes i escenes.


La aparición de bases de datos con un gran número de imágenes requiere del desarrollo de representaciones de imagen eficientes y algoritmos que sean capaces de manipular datos a gran escala de manera eficiente. Hoy en día, la representación de imágenes basada en la técnica de Bags-of-Words (BoW), es el enfoque más exitoso en el contexto de las tareas de clasificación de objetos y de escena. Sin embargo, su principal desventaja es la ausencia de información espacial. En este contexto, el uso de pirámides espaciales (SP) se ha aplicado con éxito para incorporar la información espacial: básicamente se trata de subdividir la imagen recursivamente subregiones al duplicar el número de divisiones en cada dirección del eje, permitiendo la extracción de histogramas y otras características en estas subregiones. A partir del notable rendimiento que se obtiene con las pirámides espaciales, su uso se ha generalizado en un creciente número de aplicaciones y problemas de visión, por lo que en esta Tesis hemos analizado cómo mejorar su uso. Dentro del marco de las SP, hemos estudiado la forma óptima para obtener una representación de la imagen que sea capaz de hacer frente a los defectos más destacados de las SP, en concreto, su alta dimensionalidad y su rigidez de la representación de la imagen resultante. En resumen, la preocupación principal de esta Tesis es la búsqueda de los límites de las pirámides y tratar de encontrar soluciones para sus inconvenientes. En general, esta Tesis explora el problema de obtener representaciones muy compactas, representaciones espaciales de adaptación que sean más informativas de la imagen en el contexto de la clasificaciónn de objetos y escenas.


Abstract The release of challenging datasets with a vast number of images, re- quires the development of efficient image representations and algorithms which are able to manipulate these largescale datasets efficiently. Nowadays the Bag- of-Words (BoW) based image representation is the most successful approach in the context of object and scene classification tasks. However, its main drawback is the absence of the important spatial information. Spatial pyramids (SP) have been successfully applied to incorporate spatial information into BoW-based im- age representation. The main SP approach, works by repeatedly sub-dividing the image into increasingly finer sub-regions by doubling the number of di- visions on each axis direction, and further computing histograms of features over the resulting sub-regions. Observing the remarkable performance of spa- tial pyramids, their growing number of applications to a broad range of vision problems, and finally its geometry inclusion, a question can be asked what are the limits of spatial pyramids. Within the SP framework, the optimal way for obtaining an image spatial representation which is able to cope with its most foremost shortcomings, concretely, its high dimensionality and the rigidity of the resulting image representation still remains an active research domain. In summary, the main concern of this thesis is to search for the limits of spatial pyramids and try to figure out solutions for them. This thesis explores the problem of obtaining compact, adaptive, yet informative spatial image repre- sentations in the context of object and scene classification tasks. In the first part of this thesis, we first analyze the implications of directly applying the state-of-the-art compression techniques for obtaining compact BoW-based im- age representation within the context of spatial pyramids. We then introduce a novel SP compression technique that works on two levels; (i) compressing the least informative spatial pyramid features, followed by, (ii) compressing the least informative SP regions for the purpose of obtaining compact, and adaptable SP. We then introduce a new texture descriptor that represents local image texture and its spatial layout. Texture is represented as a compact vector descriptor suitable for use in standard learning algorithms with kernels. Experimental re- sults show that texture information has similar classification performances and sometimes outperforms those methods using only shape or appearance informa- tion. The resulting spatial pyramid representation demonstrates significantly improved performance on challenging scene classification tasks. In the second part of this thesis, we present a novel technique for building adaptive spatial pyramids. In particular, we investigate various approaches for learning adap- tive spatial pyramids, which are specially tailored for the task at hand. To this end, we analyze the use of (i) standard generic 3D scene geometries; the geometry of a scene is measured based on image statistics taken from a sin- gle image. (ii) discriminative spatial partitionings, which are generated based on an information-theoretic approach. The proposed method is tested on sev- eral challenging benchmark object classification datasets. The results clearly demonstrated the effectiveness of using adaptive spatial representations, which are steered by the 3D scene geometry present in images. In the third part of 1 this thesis, we investigate the problem of obtaining compact spatial pyramid im- age representations for object and scene classification tasks. We present a novel framework for obtaining compact spatial pyramid image representation up to an order of magnitude without any significant reduction in accuracy. Moreover, we also investigate the optimal combination of multiple features such as color and shape within the context of our novel compact pyramid representation. Finally, we investigate the importance of using the spatial knowledge within the context of color constancy as an application. To this end, we present a novel framework for estimating the image illuminant based on spatial 3D geometry for learning the most appropriate color constancy algorithm to use for every image region. The final image illuminant is obtained based on a weighted combination of each individual illuminant-estimate obtained per region. We test and compare our performance to that of previous state-of-art methods. We will show that the set of innovations introduced here lead to a significant increase on performance on challenging color constancy datasets.

Keywords

Scene classification; Object classification

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

ne1de1.pdf

1.467Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)