Image classification for a large number of object categories

dc.contributor
Universitat de Girona. Institut d'Informàtica i Aplicacions
dc.contributor.author
Bosch Rué, Anna
dc.date.accessioned
2011-04-12T17:39:40Z
dc.date.available
2008-01-22
dc.date.issued
2007-09-25
dc.date.submitted
2008-01-22
dc.identifier.isbn
9788469115398
dc.identifier.uri
http://www.tdx.cat/TDX-0122108-123938
dc.identifier.uri
http://hdl.handle.net/10803/7884
dc.description.abstract
L'increment de bases de dades que cada vegada contenen imatges més difícils i amb un nombre més elevat de categories, està forçant el desenvolupament de tècniques de representació d'imatges que siguin discriminatives quan es vol treballar amb múltiples classes i d'algorismes que siguin eficients en l'aprenentatge i classificació. Aquesta tesi explora el problema de classificar les imatges segons l'objecte que contenen quan es disposa d'un gran nombre de categories. Primerament s'investiga com un sistema híbrid format per un model generatiu i un model discriminatiu pot beneficiar la tasca de classificació d'imatges on el nivell d'anotació humà sigui mínim. Per aquesta tasca introduïm un nou vocabulari utilitzant una representació densa de descriptors color-SIFT, i desprès s'investiga com els diferents paràmetres afecten la classificació final. Tot seguit es proposa un mètode par tal d'incorporar informació espacial amb el sistema híbrid, mostrant que la informació de context es de gran ajuda per la classificació d'imatges. Desprès introduïm un nou descriptor de forma que representa la imatge segons la seva forma local i la seva forma espacial, tot junt amb un kernel que incorpora aquesta informació espacial en forma piramidal. La forma es representada per un vector compacte obtenint un descriptor molt adequat per ésser utilitzat amb algorismes d'aprenentatge amb kernels. Els experiments realitzats postren que aquesta informació de forma te uns resultats semblants (i a vegades millors) als descriptors basats en aparença. També s'investiga com diferents característiques es poden combinar per ésser utilitzades en la classificació d'imatges i es mostra com el descriptor de forma proposat juntament amb un descriptor d'aparença millora substancialment la classificació. Finalment es descriu un algoritme que detecta les regions d'interès automàticament durant l'entrenament i la classificació. Això proporciona un mètode per inhibir el fons de la imatge i afegeix invariança a la posició dels objectes dins les imatges. S'ensenya que la forma i l'aparença sobre aquesta regió d'interès i utilitzant els classificadors random forests millora la classificació i el temps computacional. Es comparen els postres resultats amb resultats de la literatura utilitzant les mateixes bases de dades que els autors Aixa com els mateixos protocols d'aprenentatge i classificació. Es veu com totes les innovacions introduïdes incrementen la classificació final de les imatges.
cat
dc.description.abstract
The release of challenging data sets with ever increasing numbers of object categories is<br/>forcing the development of image representations that can cope with multiple classes and<br/>of algorithms that are efficient in training and testing. This thesis explores the problem of<br/>classifying images by the object they contain in the case of a large number of categories. We first investigate weather the hybrid combination of a latent generative model with a discriminative classifier is beneficial for the task of weakly supervised image classification.<br/>We introduce a novel vocabulary using dense color SIFT descriptors, and then investigate classification performances by optimizing different parameters. A new way to incorporate spatial information within the hybrid system is also proposed showing that contextual information provides a strong support for image classification. We then introduce a new shape descriptor that represents local image shape and its spatial layout, together with a spatial pyramid kernel. Shape is represented as a compact<br/>vector descriptor suitable for use in standard learning algorithms with kernels. Experimental<br/>results show that shape information has similar classification performances and sometimes outperforms those methods using only appearance information. We also investigate how different cues of image information can be used together. We<br/>will see that shape and appearance kernels may be combined and that additional information<br/>cues increase classification performance. Finally we provide an algorithm to automatically select the regions of interest in training. This provides a method of inhibiting background clutter and adding invariance to the object instance's position. We show that shape and appearance representation over the regions of interest together with a random forest classifier which automatically selects the best cues increases on performance and speed. We compare our classification performance to that of previous methods using the authors'own datasets and testing protocols. We will see that the set of innovations introduced here lead for an impressive increase on performance.
eng
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat de Girona
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Categorias de objetos
dc.subject
Object categories
dc.subject
Modelo discriminativo
dc.subject
Model discriminatiu
dc.subject
Discriminative model
dc.subject
Random forest
dc.subject
Modelo generativo
dc.subject
Model generatiu
dc.subject
Generative model
dc.subject
Regiones de interés
dc.subject
Regions d'interès
dc.subject
Region of interest
dc.subject
Clasificación de imágenes
dc.subject
Classificació d'imatges
dc.subject
Image classification
dc.subject
Categories d'objectes
dc.subject
pLSA
dc.subject
Probabilistic Latent Semantic Analysis
dc.title
Image classification for a large number of object categories
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
cat
dc.subject.udc
68
cat
dc.contributor.authoremail
aboschr@eia.udg.es
dc.contributor.director
Zisserman, Andrew
dc.contributor.director
Muñoz Pujol, Xavier, 1976-
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
Gi. 1407-2007


Documents

tabr.pdf

23.20Mb PDF

This item appears in the following Collection(s)