Towards efficient audio-visual source separation and synthesis

Montesinos García, Juan Felipe

Towards efficient audio-visual source separation and synthesis

Autor/a

Montesinos García, Juan Felipe

Director/a

Haro Ortega, Gloria

Fecha de defensa

2023-03-31

Páginas

135 p.

Departamento/Instituto

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Programa de doctorado

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Resumen

Nuestro cerebro tiene la habilidad innata de aislar diferentes sonidos en ambientes ruidosos (Efecto de fiesta de coctel), así como de entender la relación entre aquello que vemos y oímos. Esta tesis tiene como objetivo trasladar estas habilidades cognitivas, características de los humanos, a los ordenadores. De esta forma, se busca contribuir a la mejora de, por un lado, la separación de sonidos tanto en el ámbito de los discursos hablados, como en el de la música y la voz cantada; y por otro a la reconstrucción contextual de discursos hablados. Para ello exploramos representaciones alternativas de video y su idoneidad para las tareas antes mencionadas. En concreto, usamos marcadores faciales para desarrollar sistemas de separación de sonidos en tiempo real, ligeros y eficientes. Asimismo, utilizamos representaciones extraídas con aprendizaje profundo para llevar a cabo reconstrucción audiovisual del discurso hablado.

Our brain has the innate capability of isolating different sounds in noisy environments (the cocktail party problem), as well as understanding the relationship between what we see and what we hear. This thesis aims to bring these human cognitive skills to computers by contributing to the improvement of speech, singing voice and music sound source separation as well as speech inpainting. To do so, we explore new video representations and their suitability for the aforementioned tasks. We used face landmarks to develop real-time, lightweight and efficient source separation systems. Likewise, we used deep-learning embeddings to carry out speech inpainting.

Palabras clave

Audio-visual; Audiovisual; Multimodal; Speech inpainting; Source separation; Speech enhancement; Speech

Materias

62 - Ingeniería. Tecnología

Documentos

tjfmg.pdf

6.238Mb

tjfmg.pdf

Exportar

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions [408]

Towards efficient audio-visual source separation and synthesis

Autor/a

Director/a

Fecha de defensa

Páginas

Compartir

Departamento/Instituto

Programa de doctorado

Resumen

Palabras clave

Materias

Documentos

tjfmg.pdf

Exportar

Derechos

Este ítem aparece en la(s) siguiente(s) colección(ones)