Towards audio-visual deep learning methods for singing voice separation and lip synchronization

Author

Shenoy Kadandale, Venkatesh

Director

Haro Ortega, Gloria

Date of defense

2022-09-08

Pages

144 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

A typical music audio consists of different sounds spread across voices and musical instruments. We propose a low-cost deep learning (DL) method for simultaneously isolating multiple sound sources present in a music audio. The specific case of isolating a voice in a music audio containing more than one overlapping singing voice is particularly challenging. The existing source separation methods operating in audio modality alone do not perform well in isolating a particular singing voice in such multi-voice settings. To address this problem, we present an audio-visual DL method that makes use of motion features sourced from the visual modality to assist in the singing voice separation task. Finally, we develop a new DL model to detect the synchronization between lip motion and a voice audio. We show that the visual features learned by our lip synchronization detector serves as a useful means in guiding the singing voice separation in multi-voice music videos.


Un àudio musical típic està format per diferents sons repartits en veus i instruments musicals. Proposem un mètode d’aprenentatge profund (DL) de baix cost per aïllar simultàniament diverses fonts de so presents en un àudio musical. El cas concret d’aïllar una veu en un àudio musical que conté més d’una veu cantada superposada és especialment difícil. Els mètodes de separació de fonts existents que funcionen només en la modalitat d’àudio no funcionen bé a l’hora d’aïllar una veu cantada concreta en aquest escenari de diverses veus. Per solucionar aquest problema, presentem un mètode DL audiovisual que fa ús de característiques de moviment procedents de la modalitat visual per ajudar en la tasca de separació de la veu cantada. Finalment, desenvolupem un nou model DL per detectar la sincronització entre el moviment dels llavis i un àudio de veu. Mostrem que les característiques visuals apreses pel nostre detector de sincronització de llavis serveixen com a mitjà útil per guiar la separació de la veu cantada en vídeos musicals amb diverses veus.


Un audio musical típico se compone de diferentes sonidos repartidos entre voces e instrumentos musicales. Proponemos un método de aprendizaje profundo (DL) de bajo coste para aislar simultáneamente múltiples fuentes de sonido presentes en un audio musical. El caso específico de aislar una voz en un audio musical que contiene más de una voz cantada superpuesta es particularmente desafiante. Los métodos de separación de fuentes existentes que funcionan solo en la modalidad de audio no funcionan bien para aislar una voz de canto particular en dichos entornos de múltiples voces. Para abordar este problema, presentamos un método DL audiovisual que hace uso de características de movimiento provenientes de la modalidad visual para ayudar en la tarea de separación de voces cantadas. Finalmente, desarrollamos un nuevo modelo DL para detectar la sincronización entre el movimiento de los labios y el audio de una voz. Mostramos que las características visuales aprendidas por nuestro detector de sincronización de labios sirven como un medio útil para guiar la separación de voces cantadas en videos musicales de varias voces.

Keywords

Music source separation; Lip synchronization; Audio-visual models; Deep learning; Multimodal learning; Separació de fonts musicals; Sincronització de llavis; Models audiovisuals; Aprenentatge profund; Aprenentatge multimodal; Separación de fuentes de música; Sincronización de labios; Maquetas audiovisuales; Aprendizaje profundo; Aprendizaje multimodal

Subjects

62 - Engineering. Technology in general

Documents

tvsk.pdf

13.35Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)