Towards audio-visual deep learning methods for singing voice separation and lip synchronization

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Shenoy Kadandale, Venkatesh
dc.date.accessioned
2022-09-27T12:09:07Z
dc.date.available
2022-09-27T12:09:07Z
dc.date.issued
2022-09-08
dc.identifier.uri
http://hdl.handle.net/10803/675490
dc.description.abstract
A typical music audio consists of different sounds spread across voices and musical instruments. We propose a low-cost deep learning (DL) method for simultaneously isolating multiple sound sources present in a music audio. The specific case of isolating a voice in a music audio containing more than one overlapping singing voice is particularly challenging. The existing source separation methods operating in audio modality alone do not perform well in isolating a particular singing voice in such multi-voice settings. To address this problem, we present an audio-visual DL method that makes use of motion features sourced from the visual modality to assist in the singing voice separation task. Finally, we develop a new DL model to detect the synchronization between lip motion and a voice audio. We show that the visual features learned by our lip synchronization detector serves as a useful means in guiding the singing voice separation in multi-voice music videos.
en_US
dc.description.abstract
Un àudio musical típic està format per diferents sons repartits en veus i instruments musicals. Proposem un mètode d’aprenentatge profund (DL) de baix cost per aïllar simultàniament diverses fonts de so presents en un àudio musical. El cas concret d’aïllar una veu en un àudio musical que conté més d’una veu cantada superposada és especialment difícil. Els mètodes de separació de fonts existents que funcionen només en la modalitat d’àudio no funcionen bé a l’hora d’aïllar una veu cantada concreta en aquest escenari de diverses veus. Per solucionar aquest problema, presentem un mètode DL audiovisual que fa ús de característiques de moviment procedents de la modalitat visual per ajudar en la tasca de separació de la veu cantada. Finalment, desenvolupem un nou model DL per detectar la sincronització entre el moviment dels llavis i un àudio de veu. Mostrem que les característiques visuals apreses pel nostre detector de sincronització de llavis serveixen com a mitjà útil per guiar la separació de la veu cantada en vídeos musicals amb diverses veus.
en_US
dc.description.abstract
Un audio musical típico se compone de diferentes sonidos repartidos entre voces e instrumentos musicales. Proponemos un método de aprendizaje profundo (DL) de bajo coste para aislar simultáneamente múltiples fuentes de sonido presentes en un audio musical. El caso específico de aislar una voz en un audio musical que contiene más de una voz cantada superpuesta es particularmente desafiante. Los métodos de separación de fuentes existentes que funcionan solo en la modalidad de audio no funcionan bien para aislar una voz de canto particular en dichos entornos de múltiples voces. Para abordar este problema, presentamos un método DL audiovisual que hace uso de características de movimiento provenientes de la modalidad visual para ayudar en la tarea de separación de voces cantadas. Finalmente, desarrollamos un nuevo modelo DL para detectar la sincronización entre el movimiento de los labios y el audio de una voz. Mostramos que las características visuales aprendidas por nuestro detector de sincronización de labios sirven como un medio útil para guiar la separación de voces cantadas en videos musicales de varias voces.
en_US
dc.format.extent
144 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Music source separation
en_US
dc.subject
Lip synchronization
en_US
dc.subject
Audio-visual models
en_US
dc.subject
Deep learning
en_US
dc.subject
Multimodal learning
en_US
dc.subject
Separació de fonts musicals
en_US
dc.subject
Sincronització de llavis
en_US
dc.subject
Models audiovisuals
en_US
dc.subject
Aprenentatge profund
en_US
dc.subject
Aprenentatge multimodal
en_US
dc.subject
Separación de fuentes de música
en_US
dc.subject
Sincronización de labios
en_US
dc.subject
Maquetas audiovisuales
en_US
dc.subject
Aprendizaje profundo
en_US
dc.subject
Aprendizaje multimodal
en_US
dc.title
Towards audio-visual deep learning methods for singing voice separation and lip synchronization
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
en_US
dc.contributor.authoremail
venkatesh.kadandale@gmail.com
en_US
dc.contributor.director
Haro Ortega, Gloria
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tvsk.pdf

13.35Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)