dc.contributor
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
dc.contributor.author
de Souza, César Roberto
dc.date.accessioned
2018-06-01T11:19:26Z
dc.date.available
2018-06-01T11:19:26Z
dc.date.issued
2018-04-27
dc.identifier.isbn
9788449079474
en_US
dc.identifier.uri
http://hdl.handle.net/10803/565827
dc.description.abstract
En aquesta dissertació, explorem diferents maneres de reconèixer accions humanes en fragments de vídeo. Ens centrem sobretot en l'eficiència amb les dades, investigant i proposant nous mètodes que permetin evitar la laboriosa i lenta anotació de dades de forma manual. A la primera part d'aquesta dissertació, comencem analitzem els millors models preexistents, comparant les seves diferències i similituds amb la finalitat d'identificar d'on provenen els seus punts forts. Aprofitant aquesta informació, procedim a millorar el rendiment en classificació d'aquests models senzills a nivells que podrien competir amb xarxes neuronals profundes mitjançant la introducció d'arquitectures híbrides de classificació de vídeo. Aquestes arquitectures estan basades en representacions no supervisades dissenyades amb característiques espai-temporals degudament escollides a mà i després classificades per xarxes neuronals profundes supervisades. En els nostres experiments mostrem que el model híbrid que proposem combina el millor d'ambdós mons: per una banda és més eficient amb les dades (entrenat entre 150-10,000 fragments de vídeos curts); i per l'altra, millora significativament els resultats dels models existents, incloent models profunds entrenats en milions d'imatges i vídeos etiquetats manualment. A la segona part de la dissertació, investiguem la generació de dades d'entrenament sintètiques per al reconeixement d'accions, ja que recentment s'han mostrat resultats prometedors en una varietat d'altres tasques en visió per computador. Proposem un model generatiu paramètric interpretable de vídeos d'acció humana que es basa en la generació procedimental i altres tècniques de gràfics per computador existents en els motors dels videojocs moderns. Generem un conjunt sintètic de vídeos d'accions humanes diverses, realistes i físicament plausibles, anomenats PHAV (Procedural Human Action Videos). Aquest conjunt de dades conté un total de 39,982 vídeos, amb més de 1,000 exemples per cadascuna de les 35 categories d'acció. La nostra proposta no es limita a les seqüències de captura de moviment existents, i definim procedimental 14 accions sintètiques. Després, presentem arquitectures profundes d'aprenentatge de representacions multi-tasca per fusionar vídeos sintètics i reals, fins i tot quan les categories d'acció difereixen. Els nostres experiments en comparats amb els altres mitjançant els punts de referència UCF-101 i HMDB-51 suggereixen que la combinació del gran conjunt de vídeos sintètics que proposem amb petits conjunts de dades del món real pot millorar el rendiment, superant els models generatius de vídeo no supervisats recentment desenvolupats.
en_US
dc.description.abstract
En esta disertación, exploramos diferentes formas de realizar reconocimiento de acciones humanas en vídeos. Nos enfocamos en la eficiencia de los datos, proponiendo nuevos enfoques que alivian la necesidad de anotarlos manualmente, tarea muy laboriosa y subjetiva, sujeta a errores. En la primera parte de esta disertación, comenzamos analizando modelos anteriores de vanguardia, comparando sus diferencias y similitudes con el fin de identificar de dónde vienen sus verdaderas fortalezas. Aprovechando esta información, procedemos a aumentar la precisión de la clasificación basada en modelos diseñados por un experto a niveles que rivalizan con las redes neuronales profundas. Presentamos arquitecturas híbridas de clasificación de vídeo basadas en representaciones espaciotemporales generales y no supervisadas, cuidadosamente diseñadas como características de entrada a redes neuronales profundas supervisadas. Los experimentos que presentamos muestran que nuestro modelo híbrido combina lo mejor de ambos mundos: es eficiente en datos (entrenado en 150 a 10,000 vídeos cortos) y mejora significativamente en el estado del arte, incluyendo modelos profundos entrenados en millones de imágenes etiquetadas manualmente y videos. En la segunda parte de esta tesis, investigamos la generación de datos sintéticos de entrenamiento para el reconocimiento de acciones, ya que recientemente este paradigma ha mostrado resultados prometedores en muchas otras tareas de visión por computador. Basándonos en técnicas de gráficos por computador, proponemos un modelo paramétrico e interpretable para generar vídeos de acciones humanas. Los vídeos que generamos son diversos, realistas y físicamente plausibles; llamamos PHAV (de "Procedural Human Action Videos") al conjunto de vídeos. PHAV contiene un total de 39,982 videos, con más de 1,000 ejemplos para cada acción, contemplando 35 acciones diferentes. Nuestro enfoque no se limita a las secuencias de captura de movimiento existentes, ya que también definimos procedimentalmente 14 acciones sintéticas. Luego presentamos arquitecturas profundas para el aprendizaje de representaciones de tareas múltiples que mezclan vídeos sintéticos y reales, incluso si las categorías de acción son diferentes. Nuestros experimentos en los conjuntos de datos UCF-101 y HMDB-51 sugieren que la combinación de PHAV con pequeños conjuntos de datos del mundo real puede aumentar la precisión del reconocimiento, superando el estado del arte de los modelos no supervisados de generación de vídeos.
en_US
dc.description.abstract
In this dissertation, we explore different ways to perform human action recognition in video clips. We focus on data efficiency, proposing new approaches that alleviate the need for laborious and time-consuming manual data annotation. In the first part of this dissertation, we start by analyzing previous state-of-the-art models, comparing their differences and similarities in order to pinpoint where their real strengths comes from. Leveraging this information, we then proceed to boost the classification accuracy of shallow models to levels that rival deep neural networks. We introduce hybrid video classification architectures based on carefully designed unsupervised representations of handcrafted spatiotemporal features classified by supervised deep networks. We show in our experiments that our hybrid model combine the best of both worlds: it is data efficient (trained on 150 to 10,000 short clips) and yet improved significantly on the state of the art, including deep models trained on millions of manually labeled images and videos. In the second part of this research, we investigate the generation of synthetic training data for action recognition, as it has recently shown promising results for a variety of other computer vision tasks. We propose an interpretable parametric generative model of human action videos that relies on procedural generation and other computer graphics techniques of modern game engines. We generate a diverse, realistic, and physically plausible dataset of human action videos, called PHAV for "Procedural Human Action Videos". It contains a total of 39,982 videos, with more than 1,000 examples for each action of 35 categories. Our approach is not limited to existing motion capture sequences, and we procedurally define 14 synthetic actions. We then introduce deep multi-task representation learning architectures to mix synthetic and real videos, even if the action categories differ. Our experiments on the UCF-101 and HMDB--51 benchmarks suggest that combining our large set of synthetic videos with small real-world datasets can boost recognition performance, outperforming fine-tuning state-of-the-art unsupervised generative models of videos.
en_US
dc.format.extent
208 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Visió artificial
en_US
dc.subject
Visión artificial
en_US
dc.subject
Computer vision
en_US
dc.subject
Reconeixement d'accions
en_US
dc.subject
Reconocimiento de acciones
en_US
dc.subject
Action recognition
en_US
dc.subject
Aprenentatge automàtic
en_US
dc.subject
Aprendizaje automático
en_US
dc.subject
Machine learning
en_US
dc.subject.other
Tecnologies
en_US
dc.title
Action recognition in videos: data-efficient approaches for supervised learning of human action classification models for video
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
cesarsouza@gmail.com
en_US
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess