Towards efficient audio-visual source separation and synthesis

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Montesinos García, Juan Felipe
dc.date.accessioned
2023-04-17T11:02:17Z
dc.date.available
2023-04-17T11:02:17Z
dc.date.issued
2023-03-31
dc.identifier.uri
http://hdl.handle.net/10803/688081
dc.description.abstract
Nuestro cerebro tiene la habilidad innata de aislar diferentes sonidos en ambientes ruidosos (Efecto de fiesta de coctel), así como de entender la relación entre aquello que vemos y oímos. Esta tesis tiene como objetivo trasladar estas habilidades cognitivas, características de los humanos, a los ordenadores. De esta forma, se busca contribuir a la mejora de, por un lado, la separación de sonidos tanto en el ámbito de los discursos hablados, como en el de la música y la voz cantada; y por otro a la reconstrucción contextual de discursos hablados. Para ello exploramos representaciones alternativas de video y su idoneidad para las tareas antes mencionadas. En concreto, usamos marcadores faciales para desarrollar sistemas de separación de sonidos en tiempo real, ligeros y eficientes. Asimismo, utilizamos representaciones extraídas con aprendizaje profundo para llevar a cabo reconstrucción audiovisual del discurso hablado.
ca
dc.description.abstract
Our brain has the innate capability of isolating different sounds in noisy environments (the cocktail party problem), as well as understanding the relationship between what we see and what we hear. This thesis aims to bring these human cognitive skills to computers by contributing to the improvement of speech, singing voice and music sound source separation as well as speech inpainting. To do so, we explore new video representations and their suitability for the aforementioned tasks. We used face landmarks to develop real-time, lightweight and efficient source separation systems. Likewise, we used deep-learning embeddings to carry out speech inpainting.
ca
dc.format.extent
135 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Audio-visual
ca
dc.subject
Audiovisual
ca
dc.subject
Multimodal
ca
dc.subject
Speech inpainting
ca
dc.subject
Source separation
ca
dc.subject
Speech enhancement
ca
dc.subject
Speech
ca
dc.title
Towards efficient audio-visual source separation and synthesis
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
ca
dc.contributor.authoremail
jfmontgar@gmail.com
ca
dc.contributor.director
Haro Ortega, Gloria
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tjfmg.pdf

6.238Mb PDF

This item appears in the following Collection(s)