dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Shenoy Kadandale, Venkatesh
dc.date.accessioned
2022-09-27T12:09:07Z
dc.date.available
2022-09-27T12:09:07Z
dc.date.issued
2022-09-08
dc.identifier.uri
http://hdl.handle.net/10803/675490
dc.description.abstract
A typical music audio consists of different sounds spread across voices
and musical instruments. We propose a low-cost deep learning (DL)
method for simultaneously isolating multiple sound sources present in
a music audio.
The specific case of isolating a voice in a music audio containing more
than one overlapping singing voice is particularly challenging. The existing
source separation methods operating in audio modality alone do not
perform well in isolating a particular singing voice in such multi-voice
settings. To address this problem, we present an audio-visual DL method
that makes use of motion features sourced from the visual modality to
assist in the singing voice separation task.
Finally, we develop a new DL model to detect the synchronization
between lip motion and a voice audio. We show that the visual features
learned by our lip synchronization detector serves as a useful means in
guiding the singing voice separation in multi-voice music videos.
en_US
dc.description.abstract
Un àudio musical típic està format per diferents sons repartits en veus i
instruments musicals. Proposem un mètode d’aprenentatge profund (DL)
de baix cost per aïllar simultàniament diverses fonts de so presents en un
àudio musical.
El cas concret d’aïllar una veu en un àudio musical que conté més
d’una veu cantada superposada és especialment difícil. Els mètodes de
separació de fonts existents que funcionen només en la modalitat d’àudio
no funcionen bé a l’hora d’aïllar una veu cantada concreta en aquest escenari
de diverses veus. Per solucionar aquest problema, presentem un
mètode DL audiovisual que fa ús de característiques de moviment procedents
de la modalitat visual per ajudar en la tasca de separació de la veu
cantada.
Finalment, desenvolupem un nou model DL per detectar la sincronització entre el moviment dels llavis i un àudio de veu. Mostrem que les
característiques visuals apreses pel nostre detector de sincronització de
llavis serveixen com a mitjà útil per guiar la separació de la veu cantada
en vídeos musicals amb diverses veus.
en_US
dc.description.abstract
Un audio musical típico se compone de diferentes sonidos repartidos entre
voces e instrumentos musicales. Proponemos un método de aprendizaje
profundo (DL) de bajo coste para aislar simultáneamente múltiples
fuentes de sonido presentes en un audio musical.
El caso específico de aislar una voz en un audio musical que contiene
más de una voz cantada superpuesta es particularmente desafiante. Los
métodos de separación de fuentes existentes que funcionan solo en la modalidad
de audio no funcionan bien para aislar una voz de canto particular
en dichos entornos de múltiples voces. Para abordar este problema, presentamos
un método DL audiovisual que hace uso de características de
movimiento provenientes de la modalidad visual para ayudar en la tarea
de separación de voces cantadas.
Finalmente, desarrollamos un nuevo modelo DL para detectar la sincronización entre el movimiento de los labios y el audio de una voz. Mostramos
que las características visuales aprendidas por nuestro detector de
sincronización de labios sirven como un medio útil para guiar la separación de voces cantadas en videos musicales de varias voces.
en_US
dc.format.extent
144 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Music source separation
en_US
dc.subject
Lip synchronization
en_US
dc.subject
Audio-visual models
en_US
dc.subject
Deep learning
en_US
dc.subject
Multimodal learning
en_US
dc.subject
Separació de fonts musicals
en_US
dc.subject
Sincronització de llavis
en_US
dc.subject
Models audiovisuals
en_US
dc.subject
Aprenentatge profund
en_US
dc.subject
Aprenentatge multimodal
en_US
dc.subject
Separación de fuentes de música
en_US
dc.subject
Sincronización de labios
en_US
dc.subject
Maquetas audiovisuales
en_US
dc.subject
Aprendizaje profundo
en_US
dc.subject
Aprendizaje multimodal
en_US
dc.title
Towards audio-visual deep learning methods for singing voice separation and lip synchronization
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
venkatesh.kadandale@gmail.com
en_US
dc.contributor.director
Haro Ortega, Gloria
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions