Towards Deep Image Understanding: From pixels to semantics

dc.contributor
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
dc.contributor.author
Gonfaus, Josep M.
dc.date.accessioned
2013-07-10T07:47:20Z
dc.date.available
2015-01-07T06:45:05Z
dc.date.issued
2012-11-23
dc.identifier.uri
http://hdl.handle.net/10803/117584
dc.description.abstract
Entendre el contingut de les imatges és un dels grans reptes de la visió per computador. Arribar a ser capaços de reconèixer quins objectes apareixen en les imatges, quina acció hi realitzen, i finalment, entendre el per què esta succeïnt, és l'objectiu del topic de Image Understanding. El fet d'entendre què succeeix en un instant de temps, ja sigui capturat en una fotografia, en un vídeo o simplement la imatge retinguda en la retina de l'ull (humà o un robòtic) és un pas fonamental per tal de formar-n'hi part. Per exemple, per un robot o un cotxe intel·ligent, es imprescindible de reconèixer el que succeeix en el seu entorn per tal de poder-hi navegar i interactuar de forma segura. O bé, es pot interactuar amb el contingut d'una imatge i extreure'n conceptes textuals per desprès ser utilitzats en els buscadors d'Internet actuals. En aquesta tesis es pretén descobrir què apareix en una imatge, i com extreure'n informació semàntica de més alt nivell. En altres paraules, l'objectiu és el de categoritzar i localitzar els objectes dins d'una imatge. Abans de res, per tal d'aprofundir en el coneixement sobre la formació d'imatges, proposem un mètode que aprèn a reconèixer alguna de les propietats físiques que han creat la imatge. Combinant informació fotomètrica i geomètrica, aprenem a dir si un gradient ha estat format pel material de l'objecte dins l'escena o bé si ha estat causat per alteracions a l'escena com ombres o reflexos. Endinsant-nos en l'àmbit del reconeixement semàntic dels objectes, ens centrem en dues aproximacions per a descriure els objectes. En la primera volem reconèixer quina categoria d'objecte s'amaga darrera de cada píxel, el que s'anomena segmentació semàntica. La segona aproximació s'inclou dins el tòpic de detecció d'objectes, en el que no són tan important els píxels, sinó l'objecte sencer i es es representa a través d'un requadre envoltant l'objecte. La segmentació semàntica és un problema en el que la ambigüitat dels píxels s'ha de resoldre a través d'afegir característiques contextuals. Nosaltres proposem que el context a varis nivells d'escala s'ha de tractar de forma diferent. A baix nivell ens podem aprendre si l'aparen\c{c}a d'un píxel podria representar l'objecte o no, però per estar-ne més segurs es requereix de més informació. En els metodes que proposem, incloim la informació de entitat i la coherencia amb la resta de l'escena, introduint la co-ocurrència semàntica. Pel que fa a la detecció d'objectes, es proposen dos nous algoritmes. El primer, es basa en millorar la representació d'objectes a nivell local, introduint el concepte de factorització d'aparences. D'aquesta manera, un objecte esta representat per diferents parts, i cada una de les parts podria ser representada per més d'una aparen\c{c}a. Finalment, l'últim mètode proposat adre\c{c}a el problema computacional de reconèixer i localitzar milers de categories d'objectes en una imatge. El principi bàsic és el de crear representacions d'objectes que siguin útils per qualsevol tipus d'objecte, i així reaprofitar la computació de la representació.
cat
dc.description.abstract
Entender el contenido de las imágenes es uno de los grandes retos de la visión por computador. Llegar a reconocer cuales son los objetos que aparecen en las imágenes, qué acciones están realizando, y finalmente, entender el porqué sucede, es el objetivo del tópico de "Image Understanding". El hecho de entender que está sucediendo en un tiempo determinado, ya sea mediante la toma de una fotografía, en un video, o simplemente la imagen reflejada en la retina del ojo (humano o robótico) es una paso fundamental para llegar a formar parte de ese instante. Por ejemplo, para un robot o coche inteligente, es imprescindible reconocer que sucede al su alrededor para poder navegar y interactuar con el entorno de forma segura. Otro ejemplo se puede encontrar en el hecho de interactuar con el contenido de las imágenes, de modo que se puedan extraer conceptos textuales de esta, para luego ser utilizados en los buscadores de Internet actuales. En esta tesis se pretende descubrir que aparece en una imagen, y como se puede extraer información semántica de mas alto nivel. En otras palabras, el objetivo es el de categorizar y localizar los objetos dentro de una imagen. Antes de nada, para profundizar en el conocimiento sobre la formación de las imágenes, proponemos un método que aprende a reconocer las propiedades físicas que han creado la imagen. Combinando información fotométrica y geométrica, podemos aprender a decir si un gradiente ha sido creado por variaciones en el materiales de los objetos o bien, si es causado por alteraciones en la escena como sombras o reflejos. Entrando en el ámbito del reconocimiento semántico de los objetos, nos centramos en dos aproximaciones para describir los objetos. En la primera, queremos reconocer qué categoría de objeto se esconde detrás de los pixeles, lo que denominamos segmentación semántica de imágenes. La segunda aproximación se incluye en el tópico de detección de objetos}, en el que no es tan importante el resultado en los pixeles, sino dónde se encuentra un objeto entero. Se representa a través de un recuadro que envuelve el objeto. La segmentación semántica es un problema en el que la ambigüedad de los pixeles se debe resolver a través de añadir características contextuales. Nosotros proponemos que el contexto a varios niveles de escala se debe tratar de forma distinta. A bajo nivel, podemos aprender si la apariencia de un pixel podría parecerse a la del objeto o no, pero para estar seguros se requiere mas información. En los métodos que proponemos, añadimos información del objeto como entidad y la coherencia con el resto de la escena, introduciendo el concepto de co-ocurréncia semántica. En cuanto a la detección de objetos, se proponen dos nuevos algoritmos. El primero, se basa en mejorar la representación de los objetos a nivel local, con el concepto de factorización de apariencias. De este modo, un objeto se representa con varias partes, y cada una de las partes puede ser representada por más de una apariencia. Finalmente, el último método propuesto aborda el problema computacional de reconocer y localizar miles de categorías de objetos en una imagen. El principio básico es el de crear representaciones que objetos que sean útiles para cualquier tipo de objeto, y así reaprovechar la computación de la representación.
spa
dc.description.abstract
Understand the content of the images is one of the great challenges of computer vision. Being able to recognize which are the objects in the images, what actions are doing, and finally understand why it happens, is the purpose of Image Understanding. The fact of understanding what is happening in a given time, either by taking a picture, video, or simply the image on the retina of the eye (human or robot) is a fundamental step to become part of that instant. For example, for a robot or smart car is essential to recognize what is succeeding to navigate around and interact with the environment safely. Another example can be found by interacting with the image content, so that their textual concepts can be used in modern Web searchers. This thesis seeks to discover what appears in a picture, and how to extract semantic information of higher level. In other words, the objective is to categorize and locate objects within an image. First of all, to deepen the knowledge on the formation of images, we propose a method that learns to recognize the physical properties that have created the image. By combining photometric and geometric information, we can learn to say whether a gradient is created by variations in the materials or objects, or it is caused by alterations in the scene as shadows or reflections. Entering the field of semantic recognition of objects, we focus on two approaches to describe the objects. First, we recognize which object category is hidden behind the pixels, which we call semantic segmentation. The second approach is included in the topic of object detection, which is not as important outcome in pixels, but where there is a whole object. Is represented by a frame which surrounds the object. Semantic segmentation is a problem in which the ambiguity of the pixels must be resolved by adding contextual features. We propose that the context at various scale levels should be treated differently. At low level, we learn whether the appearance of a pixel resembles the object or not, but to become confident, more information is required. We add information about the object as an entity and we enforce consistency with the rest of the scene, introducing the concept of semantic co-occurrence. As for object detection, we propose two new algorithms. The first is based on improving the representation of objects locally, with the concept of factorize appearances. Thus, an object is represented by several parts, and each of the parts can be represented by more than one appearance. Finally, the last proposed method addresses the computational problem of identifying and locating thousands of categories of objects in an image. The basic principle is to create representations of objects that are useful for any type of object, and thus reuse the computation of the performance.
eng
dc.format.extent
148 p.
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Object recognition
dc.subject
Localization
dc.subject
Segmentation
dc.subject.other
Tecnologies
dc.title
Towards Deep Image Understanding: From pixels to semantics
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
cat
dc.contributor.authoremail
gonfaus@cvc.uab.es
dc.contributor.director
Gonzàlez i Sabaté, Jordi
dc.contributor.director
Gevers, Theo
dc.embargo.terms
18 mesos
dc.rights.accessLevel
info:eu-repo/semantics/openAccess


Documentos

jmg1de1.pdf

1.881Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)