dc.contributor
Universitat de Barcelona. Departament de Matemàtiques i Informàtica
dc.contributor.author
Cartas Ayala, Alejandro
dc.date.accessioned
2021-02-10T10:27:21Z
dc.date.available
2021-02-10T10:27:21Z
dc.date.issued
2020-11-01
dc.identifier.uri
http://hdl.handle.net/10803/670752
dc.description
Programa de Doctorat en Matemàtica i Informàtica
dc.description.abstract
Egocentric action recognition consists in determining what a wearable camera user is
doing from his perspective. Its defining characteristic is that the person himself is only
partially visible in the images through his hands. As a result, the recognition of actions
can rely solely on user interactions with objects, other people, and the scene. Egocentric action recognition has numerous assistive technology applications, in particular in the field of rehabilitation and preventive medicine. The type of egocentric camera determines the activities or actions that can be predicted. There are roughly two kinds: lifelogging and video cameras. The former can continuously take pictures every 20-30 seconds during day-long periods. The sequences of pictures produced by them are called visual lifelogs or photo-streams. In comparison with video, they lack of motion that typically has been used to disambiguate actions. We present several egocentric action recognition approaches for both settings.
We first introduce an approach that classifies still-images from lifelogs by combining a convolutional network and a random forest. Since lifelogs show temporal coherence within consecutive images, we also present two architectures that are based on the long short-term memory (LSTM) network. In order to thoroughly measure their generalization performance, we introduce the largest photo-streams dataset for activity recognition. These tests not only consider hidden days and multiple users but also the effect of time boundaries from events. We finally present domain adaptation strategies for dealing with unknown domain images in a real-world scenario.
Our work on egocentric action recognition from videos is primarily focused on object-interactions. We present a deep network that in the first level models person to-object interactions, and in the second level models sequences of actions as part of a single activity. The spatial relationship between hands and objects is modeled using a region-based network, whereas the actions and activities are modeled using a hierarchical LSTM. Our last approach explores the importance of audio produced by the egocentric manipulations of objects. It combines a sparse temporal sampling strategy with a late fusion of audio, RGB, and temporal streams. Experimental results on the EPIC-Kitchen dataset show that multimodal integration leads to better performance than unimodal approaches.
dc.description.abstract
El reconeixement d’accions egocèntriques consisteix a determinar què fa un usuari de càmera egocèntrica des de la seva perspectiva. La característica fonamental que defineix aquesta tasca és que la persona mateixa només és parcialment visible: a les imatges només veurem les seves mans. Com a resultat, el reconeixement d’accions pot dependre únicament de les interaccions dels usuaris amb objectes, altres persones i l’escena mitjançant les seves mans. El reconeixement d’acció egocèntrica té nombroses aplicacions tecnològiques d’assistència, en particular en el camp de la rehabilitació i la medicina preventiva.
El tipus de càmera egocèntrica determina les activitats o les accions que es poden predir. Hi ha, grosso modo, dos tipus: registre de vida i càmeres de vídeo. Les càmeres de registre de vida poden prendre fotografies cada 20-30 segons de manera continuada durant tot el dia. Les seqüències d'imatges produïdes per aquestes s'anomenen visual lifelogs o photo-streams. En comparació amb el vídeo, manquen de moviment, el qual normalment es fa servir per desambiguar les accions. Presentem múltiples propostes per a reconeixement d’acció egocèntrica en ambdós contextos.
Primer introduïm una proposta per classificar les imatges fixes dels registres de vida combinant una xarxa convolucional i un random forest. Com que els registres de vida mostren coherència temporal en imatges consecutives, també presentem dues arquitectures basades en una xarxa de long short-term memory (LSTM). Per mesurar a fons el seu rendiment de generalització, presentem la base de dades més gran de seqüències de fotos per al reconeixement d’activitats. Aquestes proves no només tenen en compte els dies ocults i diversos usuaris, sinó també l’efecte de les fronteres temporals dels diferents esdeveniments. Finalment presentem estratègies d’adaptació de dominis per tractar imatges de domini desconegut en un escenari del món real.
El nostre treball sobre el reconeixement d’accions egocèntriques a partir de vídeos se centra principalment en les interaccions amb objectes. Presentem una xarxa profunda que en el primer nivell modela les interaccions entre persona i objecte i en el segon nivell modela les seqüències d’accions com a part d’una única activitat. La relació espacial entre mans i objectes es modela mitjançant una xarxa basada en regions, mentre que les accions i activitats es modelen mitjançant una xarxa LSTM jeràrquica. La nostra darrera proposta explora la importància de l'àudio produït per les manipulacions egocèntriques d'objectes. Combina una estratègia de mostreig temporal escassa amb una fusió tardana d’àudio, RGB i fluxos temporals. Els resultats experimentals sobre la base de dades EPIC-Kitchen mostren que la integració multimodal resulta en un millor rendiment que els plantejaments unimodals.
dc.format.mimetype
application/pdf
dc.publisher
Universitat de Barcelona
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Processament d'imatges
dc.subject
Proceso de imágenes
dc.subject
Image processing
dc.subject
Visió per ordinador
dc.subject
Visión por ordenador
dc.subject
Computer vision
dc.subject.other
Ciències Experimentals i Matemàtiques
dc.title
Recognizing Action and Activities from Egocentric Images
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.director
Radeva, Petia
dc.contributor.director
Dimiccoli, Mariella
dc.rights.accessLevel
info:eu-repo/semantics/openAccess