dc.contributor
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.contributor.author
Sarmiento Calderó, Manuel
dc.date.accessioned
2025-07-08T06:20:45Z
dc.date.available
2025-07-08T06:20:45Z
dc.date.issued
2025-06-13
dc.identifier.uri
http://hdl.handle.net/10803/694808
dc.description
Tesi amb menció de Doctorat Industrial (Generalitat de Catalunya)
dc.description.abstract
(English)
Spatio-temporal action localization is a field of computer vision that determines both the spatial and temporal locations of actions taking place within a video. This particular task is one of the cornerstones of video understanding due to its inherent complexity. Impressive scientific advances in the artificial intelligence and computer vision industry have led to a significant performance increase.
Nevertheless, even state of the art systems struggle to recognize actions that involve some kind of interaction between people, objects, or with the scene. This limitation arises because current spatio-temporal action localization models neglect contextual information when identifying a person's actions. Specifically incorporating contextual cues in these models can help to address this challenge.
Furthermore, the integration of spatio-temporal action localization systems into multimedia content applications presents several challenges. The primary difficulties lies in
finding ethical and practical use cases and addressing the computational requirements to run these models in production.
The goal of this industrial PhD is to solve the above problems. The lack of contextual information is addressed in different forms. This thesis, is focussed on two different approaches. First, a novel system to explicitly model the relations of the different actors and objects in a scene, which includes a novel structure to model long-term temporal information is proposed. Second, an innovative multi-modal method to combine task specific features to improve action recognition is introduced. These developed contextualization systems are evaluated on different datasets. The results demonstrate the effectiveness of the proposed systems. Regarding the applications, this PhD is focused on finding, implementing and exploiting specific applications of spatio-temporal localization system for media content. The developed applications consists of an improved system for search and recommendations on video content, an smart cropping method to generate image and videos of any desired aspect ratio from another video, and the improvement of a system to generate highlight keyframes of football matches.
dc.description.abstract
(Català) La localització espaciotemporal d'accions és un camp de la visió per ordinador que determina tant la ubicació espacial com temporal de les accions que tenen lloc en un vídeo. Aquesta tasca en particular és una de les pedres angulars de la comprensió de vídeo degut a la seva complexitat inherent. Els impressionants avanços científics en la indústria de la intel·ligència artificial i la visió per ordinador han donat lloc a un augment significatiu del rendiment.
No obstant això, fins i tot els sistemes més avançats tenen dificultats per a reconèixer accions que impliquen algun tipus d'interacció entre persones, objectes o amb l'escena. Aquesta limitació es deu al fet que els models actuals de localització espaciotemporal d'accions no tenen en compte la informació contextual a l'hora d'identificar les accions d'una persona. La incorporació específica de pistes contextuals en aquests models pot ajudar a abordar aquest repte.
A més, la integració de sistemes de localització espaciotemporal d'accions en aplicacions de continguts multimèdia presenta diversos reptes. Les principals dificultats resideixen a trobar casos d'ús ètics i pràctics i abordar els requisits computacionals per a executar aquests models en producció.
L'objectiu d'aquest doctorat industrial és resoldre els problemes anteriors. La falta d'informació contextual s'aborda de diferents formes. Aquesta tesi se centra en dos enfocaments diferents. En primer lloc, es proposa un nou sistema per a modelar explícitament les relacions dels diferents actors i objectes d'una escena, que inclou una estructura nova per a modelar la informació temporal a llarg termini. En segon lloc, s'introdueix un innovador mètode multimodal per a combinar característiques específiques de la tasca amb la finalitat de millorar el reconeixement de l'acció. Aquests sistemes de contextualització desenvolupats s'avaluen en diferents conjunts de dades. Els resultats demostren l'eficàcia dels sistemes proposats. Quant a les aplicacions, aquest doctorat se centra en trobar, implementar i explotar aplicacions específiques del sistema de localització espaciotemporal per a continguts multimèdia. Les aplicacions desenvolupades consisteixen en un sistema millorat de cerca i recomanacions sobre continguts de vídeo, un mètode de retallada intel·ligent per a generar imatges i vídeos de qualsevol relació d'aspecte desitjada a partir d'un altre vídeo, i la millora d'un sistema per a generar fotogrames clau de destaqui de partits de futbol.
dc.description.abstract
(Español)
La localización espaciotemporal de acciones es un campo de la visión por ordenador que determina tanto la ubicación espacial como temporal de las acciones que tienen lugar en un vídeo. Esta tarea en particular es una de las piedras angulares de la comprensión de vídeo debido a su complejidad inherente. Los impresionantes avances científicos en la industria de la inteligencia artificial y la visión por ordenador han dado lugar a un aumento significativo del rendimiento.
Sin embargo, incluso los sistemas más avanzados tienen dificultades para reconocer acciones que implican algún tipo de interacción entre personas, objetos o con la escena. Esta limitación se debe a que los modelos actuales de localización espaciotemporal de acciones no tienen en cuenta la información contextual a la hora de identificar las acciones de una persona. La incorporación específica de pistas contextuales en estos modelos puede ayudar a abordar este reto.
Además, la integración de sistemas de localización espaciotemporal de acciones en aplicaciones de contenidos multimedia presenta varios retos. Las principales dificultades residen en encontrar casos de uso éticos y prácticos y abordar los requisitos computacionales para ejecutar estos modelos en producción.
El objetivo de este doctorado industrial es resolver los problemas anteriores. La falta de información contextual se aborda de diferentes formas. Esta tesis se centra en dos enfoques diferentes. En primer lugar, se propone un novedoso sistema para modelar explícitamente las relaciones de los distintos actores y objetos de una escena, que incluye una estructura novedosa para modelar la información temporal a largo plazo. En segundo lugar, se introduce un innovador método multimodal para combinar características específicas de la tarea con el fin de mejorar el reconocimiento de la acción. Estos sistemas de contextualización desarrollados se evalúan en diferentes conjuntos de datos. Los resultados demuestran la eficacia de los sistemas propuestos. En cuanto a las aplicaciones, este doctorado se centra en encontrar, implementar y explotar aplicaciones específicas del sistema de localización espacio-temporal para contenidos multimedia. Las aplicaciones desarrolladas consisten en un sistema mejorado de búsqueda y recomendaciones sobre contenidos de vídeo, un método de recorte inteligente para generar imágenes y vídeos de cualquier relación de aspecto deseada a partir de otro vídeo, y la mejora de un sistema para generar fotogramas clave de destaque de partidos de fútbol.
dc.publisher
Universitat Politècnica de Catalunya
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
artificial intelligence
dc.subject
computer vision
dc.subject
action recognition
dc.subject
spatio-temporal action localization
dc.subject.other
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.other
Àrees temàtiques de la UPC::Informàtica
dc.title
Contextualization of spatio-temporal action localization systems and media content applications
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2025-07-08T06:20:45Z
dc.subject.udc
621.3 - Enginyeria elèctrica. Electrotècnia. Telecomunicacions
dc.subject.udc
004 - Informàtica
dc.contributor.director
Marqués Acosta, Fernando
dc.contributor.codirector
Varas González, David
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.doi
https://dx.doi.org/10.5821/dissertation-2117-433645
dc.description.degree
DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)