Understanding Image Sequences: the Role of Ontologies in Cognitive Vision


Author

Fernández Tena, Carles

Director

Gonzàlez i Sabaté, Jordi

Codirector

Roca i Marvà, Francesc Xavier

Date of defense

2010-07-02

ISBN

9788469389034

Legal Deposit

B-9375-2011



Department/Institute

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Abstract

La gran importància i omnipresència de la informació digital ha posicionat el vídeo com a vehicle preferent per a transmetre informació, i ha donat lloc a un espectacular creixement en la generació de multimèdia a les xarxes socials i de material de vídeo vigilància. Aquesta situació exigeix tot un seguit de necessitats tecnològiques que han motivat moltes iniciatives de recerca per la millora en la comprensió automàtica del contingut en seqüències de vídeo. Com a resposta, la recerca en sistemes de visió cognitiva estudia sistemes capaços de reconèixer esdeveniments complexos i adaptar-se a diferents tipus d'entorn, tot i fent servir coneixement de diversa naturalesa.<br/>En aquesta tesi ens proposem reconèixer i descriure el contingut de diferents situacions observades en seqüències de vídeo de diferents dominis, i comunicar la informació resultant a usuaris externs per mitjà d'interfícies d'interacció home-màquina avançades. Aquest problema s'aborda mitjançant el disseny dels mòduls d'alt nivell d'un sistema de visió cognitiva que empra models ontològics. <br/>Concretament, ens proposem: (i) fer que el sistema s'adapti a diferents escenaris dins del domini urbà, i aprengui automàticament les característiques semàntiques de les regions que hi apareixen (carretera, vorera, pas de vianants, zones d'espera, pàrquings); (ii) que raoni sobre informació incerta, incompleta o imprecisa, tant de tipus visual (càmeres) com de tipus lingüístic (usuaris); (iii) que generi interpretacions sensates d'esdeveniments complexes a partir de l'anàlisi de dades espai-temps més bàsiques; (iv) que disposi d'interfícies de comunicació natural que puguin solventar les necessitats dels usuaris; i finalment, (v) trobar mecanismes que ens facilitin el disseny, manteniment i extensió dels models implicats, i formes de combinar sinèrgicament totes les tasques descrites en un únic sistema funcional. <br/>Per tal d'avaluar de forma intel·ligent continguts de vídeo és necessari adoptar tècniques avançades de manipulació de la informació. La nostra aproximació opta per seguir els principis dels sistemes de visió cognitiva. Per a fer-ho, utilitzem processos d'aprenentatge basats en inferència sobre models gràfics de Markov per a l'identificació de regions semàntiques en diferents escenaris; conceptualització d'informació provinent de sistemes de seguiment per tal d'obtenir conceptes atòmics en lògica difusa, raonadors que extreuen inferències de combinacions d'aquests conceptes, i arbres de grafs de situació (SGTs) per a interpretar automàticament el contingut de vídeos; processos de pàrsing basats en representació del discurs i semàntica cognitiva per a implementar mòduls de comunicació lingüística, tant per a la generació de frases a partir de predicats com de la comprensió de frases d'usuari per part del sistema; i tècniques de síntesi o augmentació d'escenes per a simulació i representació d'entorns virtuals o augmentats. Adicionalment, demostrem que l'ús d'ontologies per a organitzar, centralitzar, connectar i reutilitzar coneixement és un factor clau a l'hora de materialitzar els nostres objectius.<br/>Els avantatges del sistema descrit es demostren amb un conjunt d'aplicacions que beneficien principalment el camp de la video vigilància, com ara: generació automàtica de descripcions en diverses llengües sobre el contingut de seqüències de vídeo; filtrat i resum d'aquests texts d'acord amb els seus continguts; interfícies de diàleg amb l'usuari que li permetin fer consultes i navegar pels continguts dels vídeos; aprenentatge automàtic de les regions semàntiques presents a un escenari; i eines per a avaluar el funcionament de diferents components i models del sistema, fent servir tècniques de simulació de comportaments i realitat augmentada.


The increasing ubiquitousness of digital information in our daily lives has positioned video as a favored information vehicle, and given rise to an astonishing generation of social media and surveillance footage. This raises a series of technological demands for automatic video understanding and management, which together with the compromising attentional limitations of human operators, have motivated the research community to guide its steps towards a better attainment of such capabilities. As a result, current trends on cognitive vision promise to recognize complex events and self-adapt to different environments, while managing and integrating several types of knowledge. Future directions suggest to reinforce the multi-modal fusion of information sources and the communication with end-users.<br/>In this thesis we tackle the problem of recognizing and describing meaningful events in video sequences from different domains, and communicating the resulting knowledge to end-users by means of advanced interfaces for human-computer interaction. This problem is addressed by designing the high-level modules of a cognitive vision framework exploiting ontological knowledge. Ontologies allow us to define the relevant concepts in a domain and the relationships among them; we prove that the use of ontologies to organize, centralize, link, and reuse different types of knowledge is a key factor in the materialization of our objectives.<br/>The proposed framework contributes to: (i) automatically learn the characteristics of different scenarios in a domain; (ii) reason about uncertain, incomplete, or vague information from visual (camera's) or linguistic (end-user's) inputs; (iii) derive plausible interpretations of complex events from basic spatiotemporal developments; (iv) facilitate natural interfaces that adapt to the needs of end-users, and allow them to communicate efficiently with the system at different levels of interaction; and finally, (v) find mechanisms to guide modeling processes, maintain and extend the resulting models, and to exploit multimodal resources synergically to enhance the former tasks.<br/>We describe a holistic methodology to achieve these goals. First, the use of prior taxonomical knowledge is proved useful to guide MAP-MRF inference processes in the automatic identification of semantic regions, with independence of a particular scenario. Towards the recognition of complex video events, we combine fuzzy metric-temporal reasoning with SGTs, thus assessing high-level interpretations from spatiotemporal data. Here, ontological resources like T-Boxes, onomasticons, or factual databases become useful to derive video indexing and retrieval capabilities, and also to forward highlighted content to smart user interfaces. There, we explore the application of ontologies to discourse analysis and cognitive linguistic principles, or scene augmentation techniques towards advanced communication by means of natural language dialogs and synthetic visualizations. Ontologies become fundamental to coordinate, adapt, and reuse the different modules in the system.<br/>The suitability of our ontological framework is demonstrated by a series of applications that especially benefit the field of smart video surveillance, viz. automatic generation of linguistic reports about the content of video sequences in multiple natural languages; content-based filtering and summarization of these reports; dialogue-based interfaces to query and browse video contents; automatic learning of semantic regions in a scenario; and tools to evaluate the performance of components and models in the system, via simulation and augmented reality.

Keywords

Natural Language; Ontology; Natural Language; Natural Language; Ontology; Ontology; Ontology; Cognitive vision system; Natural Language; Cognitive vision system; Cognitive vision system; Cognitive vision system

Subjects

60 - General questions relating to Applied Sciences

Knowledge Area

Tecnologies

Documents

cft1de1.pdf

3.204Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)