Domain Adaptation of Virtual and Real Worlds for Pedestrian Detection

Autor/a

Vázquez Bermúdez, David

Director/a

López Peña, Antonio M. (Antonio Manuel)

Ponsa Mussarra, Daniel

Data de defensa

2013-07-29

ISBN

9788449039805

Dipòsit Legal

B-28389-2013

Pàgines

111 p.



Departament/Institut

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Resum

La detección de peatones es clave para muchas aplicaciones como asistencia al conductor, video vigilancia o multimedia. Los mejores detectores se basan en clasificadores basados en modelos de apariencia entrenados con ejemplos anotados. Sin embargo, el proceso de anotación es una tarea intensiva y subjetiva cuando es llevada a cabo por personas. Por ello, vale la pena minimizar la intervención humana en dicha tarea mediante el uso de herramientas computacionales como los mundos virtuales porque con ellos podemos obtener anotaciones variadas y precisas de forma rápida. Sin embargo, el uso de este tipo de datos genera la siguiente pregunta: ¿Es posible que un modelo de apariencia entrenado en un mundo virtual pueda funcionar de manera satisfactoria en el mundo real? Para responder esta pregunta, hemos realizado diferentes experimentos que sugieren que los clasificadores entrenados en el mundo virtual pueden ofrecer buenos resultados al aplicarse en ambientes del mundo real. Sin embargo, también se encontró que en algunos casos estos clasificadores se pueden ver afectados por el problema conocido como el cambio en la naturaleza de los datos, igual que ocurre con los clasificadores entrenados en el mundo real. En consecuencia, hemos diseñado un sistema de adaptación de dominio, V-AYLA, en el que hemos probado diferentes técnicas para recoger unos pocos ejemplos del mundo real y combinarlos con una gran cantidad de ejemplos del mundo virtual para entrenar un detector de peatones adaptado. V-AYLA ofrece la misma precisión de detección que un detector entrenado con anotaciones manuales y probado con imágenes reales del mismo dominio. Idealmente, nos gustaría que nuestro sistema se adaptase automáticamente sin necesidad de intervenci ón humana. Por ello, a modo de demostración, proponemos utilizar técnicas de adaptación no supervisadas que permitan eliminar completamente la intervención humana del proceso de adaptación. Hasta donde sabemos, este es el primer trabajo que muestra que es posible desarrollar un detector de objetos en el mundo virtual y adaptarlo al mundo real. Finalmente, proponemos una estrategia diferente para evitar el problema del cambio en la naturaleza de los datos que consiste en recoger ejemplos en el mundo real y reentrenar solamente con ellos pero haciéndolo de tal modo que no se tengan que anotar peatones en el mundo real. El resultado de este clasificador es equivalente a otro entrenado con anotaciones obtenidas de forma manual. Los resultados presentados en esta tesis no se limitan a adaptar un detector de peatones virtuales al mundo real, sino que va más allá, mostrando una nueva metodología que permitiría a un sistema adaptarse a cualquier nueva situación y que sienta las bases para la investigación futura en este campo todavía sin explorar.


Pedestrian detection is of paramount interest for many applications, e.g. Advanced Driver Assistance Systems, Surveillance and Media. Most promising pedestrian detectors rely on appearance-based classifiers trained with annotated samples. However, the required annotation step represents an intensive and subjective task when it has to be done by persons. Therefore, it is worth to minimize the human intervention in such a task by using computational tools like realistic virtual worlds, where precise and rich annotations of visual information can be automatically generated. Nevertheless, the use of this kind of data generates the following question: can a pedestrian appearance model learnt with virtual-world data work successfully for pedestrian detection in real- world scenarios?. To answer this question, we conducted different experiments that suggest that classifiers based on virtual-world data can perform well in real-world environments. However, it was also found that in some cases these classifiers can suffer the so called dataset shift problem as real-world based classifiers does. Accordingly, we have designed a domain adaptation framework, V-AYLA, in which we have explored different techniques to collect a few pedestrian samples from the target domain (real world) and combine them with many samples of the source domain (virtual world) in order to train a domain adapted pedestrian classifier. V-AYLA reports the same detection performance as the one obtained by training with human-provided pedestrian annotations and testing with real-world images from the same domain. Ideally, we would like to adapt our system without any human intervention. Therefore, as a first proof of concept we proposed the use of an unsupervised domain adaptation technique that avoids human intervention during the adaptation process. To the best of our knowledge, this is the first work that demonstrates adaptation of virtual and real worlds for developing an object detector. We also assess a different strategy to avoid the dataset shift that consists in collecting real-world samples and retrain with them, but in such a way that no bounding boxes of real-world pedestrians have to be provided. We show that the generated classifier is competitive with respect to the counterpart trained with samples collected by manually annotating pedestrian bounding boxes. The results presented on this Thesis not only end with a proposal for adapting a virtual-world pedestrian detector to the real world, but also it goes further by pointing out a new methodology that would allow the system to adapt to different situations, which we hope will provide the foundations for future research in this unexplored area.

Paraules clau

Pedestrian detection; Domain adaptation; ADAS

Matèries

68 - Indústries, oficis i comerç d'articles acabats. Tecnologia cibernètica i automàtica

Àrea de coneixement

Tecnologies

Documents

dvb1de1.pdf

1.030Mb

 

Drets

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)