Recognizing Action and Activities from Egocentric Images

Cartas Ayala, Alejandro; Cartas Ayala, Alejandro

Recognizing Action and Activities from Egocentric Images

Autor/a

Cartas Ayala, Alejandro

Director/a

Radeva, Petia

Dimiccoli, Mariella

Fecha de defensa

2020-11-01

Páginas

164 p.

Departamento/Instituto

Universitat de Barcelona. Departament de Matemàtiques i Informàtica

Resumen

Egocentric action recognition consists in determining what a wearable camera user is doing from his perspective. Its defining characteristic is that the person himself is only partially visible in the images through his hands. As a result, the recognition of actions can rely solely on user interactions with objects, other people, and the scene. Egocentric action recognition has numerous assistive technology applications, in particular in the field of rehabilitation and preventive medicine. The type of egocentric camera determines the activities or actions that can be predicted. There are roughly two kinds: lifelogging and video cameras. The former can continuously take pictures every 20-30 seconds during day-long periods. The sequences of pictures produced by them are called visual lifelogs or photo-streams. In comparison with video, they lack of motion that typically has been used to disambiguate actions. We present several egocentric action recognition approaches for both settings. We first introduce an approach that classifies still-images from lifelogs by combining a convolutional network and a random forest. Since lifelogs show temporal coherence within consecutive images, we also present two architectures that are based on the long short-term memory (LSTM) network. In order to thoroughly measure their generalization performance, we introduce the largest photo-streams dataset for activity recognition. These tests not only consider hidden days and multiple users but also the effect of time boundaries from events. We finally present domain adaptation strategies for dealing with unknown domain images in a real-world scenario. Our work on egocentric action recognition from videos is primarily focused on object-interactions. We present a deep network that in the first level models person to-object interactions, and in the second level models sequences of actions as part of a single activity. The spatial relationship between hands and objects is modeled using a region-based network, whereas the actions and activities are modeled using a hierarchical LSTM. Our last approach explores the importance of audio produced by the egocentric manipulations of objects. It combines a sparse temporal sampling strategy with a late fusion of audio, RGB, and temporal streams. Experimental results on the EPIC-Kitchen dataset show that multimodal integration leads to better performance than unimodal approaches.

El reconeixement d’accions egocèntriques consisteix a determinar què fa un usuari de càmera egocèntrica des de la seva perspectiva. La característica fonamental que defineix aquesta tasca és que la persona mateixa només és parcialment visible: a les imatges només veurem les seves mans. Com a resultat, el reconeixement d’accions pot dependre únicament de les interaccions dels usuaris amb objectes, altres persones i l’escena mitjançant les seves mans. El reconeixement d’acció egocèntrica té nombroses aplicacions tecnològiques d’assistència, en particular en el camp de la rehabilitació i la medicina preventiva. El tipus de càmera egocèntrica determina les activitats o les accions que es poden predir. Hi ha, grosso modo, dos tipus: registre de vida i càmeres de vídeo. Les càmeres de registre de vida poden prendre fotografies cada 20-30 segons de manera continuada durant tot el dia. Les seqüències d'imatges produïdes per aquestes s'anomenen visual lifelogs o photo-streams. En comparació amb el vídeo, manquen de moviment, el qual normalment es fa servir per desambiguar les accions. Presentem múltiples propostes per a reconeixement d’acció egocèntrica en ambdós contextos. Primer introduïm una proposta per classificar les imatges fixes dels registres de vida combinant una xarxa convolucional i un random forest. Com que els registres de vida mostren coherència temporal en imatges consecutives, també presentem dues arquitectures basades en una xarxa de long short-term memory (LSTM). Per mesurar a fons el seu rendiment de generalització, presentem la base de dades més gran de seqüències de fotos per al reconeixement d’activitats. Aquestes proves no només tenen en compte els dies ocults i diversos usuaris, sinó també l’efecte de les fronteres temporals dels diferents esdeveniments. Finalment presentem estratègies d’adaptació de dominis per tractar imatges de domini desconegut en un escenari del món real. El nostre treball sobre el reconeixement d’accions egocèntriques a partir de vídeos se centra principalment en les interaccions amb objectes. Presentem una xarxa profunda que en el primer nivell modela les interaccions entre persona i objecte i en el segon nivell modela les seqüències d’accions com a part d’una única activitat. La relació espacial entre mans i objectes es modela mitjançant una xarxa basada en regions, mentre que les accions i activitats es modelen mitjançant una xarxa LSTM jeràrquica. La nostra darrera proposta explora la importància de l'àudio produït per les manipulacions egocèntriques d'objectes. Combina una estratègia de mostreig temporal escassa amb una fusió tardana d’àudio, RGB i fluxos temporals. Els resultats experimentals sobre la base de dades EPIC-Kitchen mostren que la integració multimodal resulta en un millor rendiment que els plantejaments unimodals.

Palabras clave

Processament d'imatges; Proceso de imágenes; Image processing; Visió per ordinador; Visión por ordenador; Computer vision

Materias

004 - Informática

Área de conocimiento

Ciències Experimentals i Matemàtiques

Nota

Programa de Doctorat en Matemàtica i Informàtica

Citación recomendada

Esta citación se ha generado automáticamente.

Documentos

ACA_PhD_THESIS.pdf

15.96Mb

Exportar

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Derechos

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Departament de Matemàtiques i Informàtica [60]

Àrea de contingut