Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
La comprensió del comportament dels animals, i en especial dels humans, és un dels problemes més antics i estudiats al llarg de la història, quasi des del inici de la civilització. La quantitat de factors diferents que actuen alhora de determinar les accions d'una persona requereixen la participació de diferents disciplines, com la psicologia, biologia, o sociologia. En els darrers anys l'anàlisi del comportament humà ha esdevingut també un tema molt interessant per a la comunitat científica de visió per computador, gràcies als darrers avenços en l'adquisició de dades sobre el moviment humà a partir de seqüències d'imatges. <br/>Malgrat la creixent disponibilitat d'aquestes dades, existeix encara una barrera per obtenir una representació conceptual de les observacions obtingudes. L'avaluació del comportament humà en seqüències d'imatges està basat en una interpretació qualitativa dels resultats, i per tant l'assignació de conceptes a les dades quantitatives obtingudes està lligada a una certa ambigüitat. <br/>Aquesta Tesi confronta el problema d'obtenir una representació correcta del comportament humà en els contexts de la visió i animació per computador. En primer lloc, un bon model de comportament ha de permetre reconèixer i descriure l'activitat observada en seqüències d'imatges. D'altra banda, el model ha de permetre generar sintèticament noves instàncies, que permetin modelar el comportament d'agents virtuals.<br/>En primer lloc, proposem mètodes per aprendre els models directament de les observacions. A partir de les dades obtingudes mitjançant l'anàlisi de seqüències d'imatges, construïm models de comportament normal dins l'escenari. Això ens proporciona una eina per determinar la normalitat o anormalitat de futures observacions. Tanmateix, els mètodes d'aprenentatge automàtic son incapaços de proveir una descripció semàntica de les observacions. Aquesta problema és tractat mitjançant un nou mètode que incorpora un coneixement a--priori sobre l'escena i els comportaments esperats. Aquesta estructura, formada pel motor de raonament difús FMTL i l'eina de modelatge SGT, permet obtenir descripcions conceptuals del contingut de noves seqüències de vídeo. Finalment, l'estructura FMTL + SGT ens permet simular comportament sintètic i introduir agents virtuals dins d'escenes reals que interactuen amb els agents reals existents, construint d'aquesta manera seqüències de realitat augmentada. <br/>El conjunt de mètodes presentats en aquesta Tesi tenen un conjunt potencial d'aplicacions cada cop més gran. Per un costat, el reconeixement i descripció de comportament en seqüències d'imatges té com a principal aplicació la vídeo--vigilància intel·ligent, permetent detectar comportaments delictius o perillosos. Altres aplicacions inclouen la transcripció d'esdeveniments esportius, monitorització de centres geriàtrics, anàlisi de tràfic en carreteres i la construcció de buscadors de vídeo basats en conceptes semàntics. D'altra banda, l'animació d'agents virtuals amb comportaments complexes permet obtenir simulacions acurades de situacions reals, com per exemple incendis o multituds. A més, la inclusió d'agents virtuals en entorns reals té forta implantació en els mons dels videojocs i el cinema.
The comprehension of animal behavior, especially human behavior, is one of the most ancient and studied problems since the beginning of civilization. The big list of factors that interact to determine a person action require the collaboration of different disciplines, such as psichology, biology, or sociology. In the last years the analysis of human behavior has received great attention also from the computer vision community, given the latest advances in the acquisition of human motion data from image sequences.<br/>Despite the increasing availability of that data, there still exists a gap towards obtaining a conceptual representation of the obtained observations. Human behavior analysis is based on a qualitative interpretation of the results, and therefore the assignment of concepts to quantitative data is linked to a certain ambiguity. <br/>This Thesis tackles the problem of obtaining a proper representation of human behavior in the contexts of computer vision and animation. On the one hand, a good behavior model should permit the recognition and explanation the observed activity in image sequences. On the other hand, such a model must allow the generation of new synthetic instances, which model the behavior of virtual agents. <br/>First, we propose methods to automatically learn the models from observations. Given a set of quantitative results output by a vision system, a normal behavior model is learnt. This result provides a tool to determine the normality or abnormality of future observations. However, machine learning methods are unable to provide a richer description of the observations. We confront this problem by means of a new method that incorporates prior knowledge about the environment and about the expected behaviors. This framework, formed by the reasoning engine FMTL and the modeling tool SGT allows the generation of conceptual descriptions of activity in new image sequences. Finally, we demonstrate the suitability of the proposed framework to simulate behavior of virtual agents, which are introduced into real image sequences and interact with observed real agents, thereby easing the generation of augmented reality sequences.<br/>The set of approaches presented in this Thesis has a growing set of potential applications. The analysis and description of behavior in image sequences has its principal application in the domain of smart video--surveillance, in order to detect suspicious or dangerous behaviors. Other applications include automatic sport commentaries, elderly monitoring, road traffic analysis, and the development of semantic video search engines. Alternatively, behavioral virtual agents allow to simulate accurate real situations, such as fires or crowds. Moreover, the inclusion of virtual agents into real image sequences has been widely deployed in the games and cinema industries.
Vídeo vigilància; Intel·ligència artificial; Visió per computador
68 - Industries, crafts and trades for finished or assembled articles
Tecnologies
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.