Relative music loudness estimation in TV broadcast audio using deep learning: an industrial perspective

Author

Meléndez Catalán, Blai

Director

Molina, Emilio

Gómez Gutiérrez, Emilia

Date of defense

2021-04-13

Pages

166 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Under the current copyright management business model, broadcasters are taxed by the corresponding copyright management organization according to the percentage of music they broadcast, and the collected money is then distributed among the copyright holders of that music. In the specific case of TV broadcasts, whether a musical piece is played in the foreground or the background is often a relevant factor that affects the amount of money collected and distributed. In recent years, the music industry is increasingly adopting technological solutions to automatize this process. We have conducted this industrial PhD at BMAT, a company that has an active role in providing these solutions: since 2015, this company has been offering a service that currently monitors about 4300 radio stations and TV channels to automatically detect the presence of music, and to classify it as foreground or background music. We name this task relative music loudness estimation. From an industrial point of view, this thesis focuses on the improvement of the technology behind the service; and from the academic point of view, it pursues the introduction and promotion of the task in the research field of music information retrieval, and provides computational approaches to it. The industrial and academic contributions of this thesis result from logical steps towards these goals. We first create BAT: a new open-source, web-based tool for the efficient annotation of audio events and their partial loudness in the presence of other simultaneous events. We use BAT to annotate two datasets: one private and the other public. We use the private dataset for training in the development of BMAT's new relative music loudness estimation algorithm called the Deep Music Detector. The Deep Music Detector represents the first application of deep learning within BMAT, and provides a significant boost in performance with respect to its predecessor. The public dataset, called OpenBMAT, is released in order to foster transparent, comparable and reproducible research on the task of relative music loudness estimation. We use OpenBMAT in our proposal of a novel deep learning solution to this task based on an architecture that combines regular convolutional neural networks, and temporal convolutional networks. This architecture is able to extract robust features from a time-frequency representation of an audio file, and then model them as temporal sequences, producing state-of-the-art results with an efficient usage of the network's parameters. Finally, this thesis also offers a review of the concepts, resources and literature about tasks related to the detection of music.


En l'actual model de negoci de la gestió de drets d'autor, les emissores paguen una certa quantitat d'impostos a l'organització de drets d'autor corresponent que depèn del percentatge de música que emeten. Els diners recaptats d'aquesta manera es distribueixen entre els propietaris dels drets d'aquesta música. En el cas específic de les emissores de televisió, el fet que la música s'emeti en primer o segon pla és sovint un factor rellevant que afecta la quantitat de diners recaptada i distribuïda. Recentment, la indústria musical està optant cada cop més per solucions tecnològiques que automatitzen aquest procés. Hem realitzat aquest doctorat industrial a BMAT, una empresa que proveeix aquest tipus de solucions. Des de 2015, aquesta empresa ofereix un servei que actualment monitora al voltant de 4300 canals de ràdio i televisió per detectar automàticament la presència de música i identificar si es troba en primer o segon pla. A aquesta tasca l'anomenem estimació del volum relatiu de la música. Des del punt de vista industrial aquesta tesi se centra en la millora de la tecnologia que hi ha darrere d'aquest servei, mentre que des del punt de vista acadèmic persegueix la introducció i promoció de la tasca en el camp de recerca del music information retrieval, i hi aporta solucions tecnològiques. Les contribucions industrials i acadèmiques d'aquesta tesi són el resultat d'uns passos lògics, encaminats cap a la consecució aquests objectius. El primer pas és la creació de BAT: una nova eina web i de codi obert per a l'anotació d'esdeveniments acústics i del seu volum parcial. El segon pas consisteix a utilitzar BAT per anotar dos datasets: un de privat i un de públic. El dataset privat l'usem per a entrenament en el desenvolupament del Deep Music Detector, el nou algorisme d'estimació del volum relatiu de la música de BMAT. El Deep Music Detector representa la primera aplicació d'aprenentatge profund dins de BMAT, i aporta una millora substancial del servei respecte al seu predecessor. El dataset públic, anomenat OpenBMAT, es publica per promoure una recerca transparent, comparable i reproduïble en la tasca d'estimació del volum relatiu de la música. A més a més, nosaltres l'usem en la nostra proposta d'una nova solució a aquesta tasca, que es basa en una arquitectura d'aprenentatge profund que combina les xarxes neuronals convolucionals estàndard amb les xarxes convolucionals temporals. Aquesta arquitectura permet extreure descriptors robustos a partir d'una representació temporal-freqüencial d'un fitxer d'àudio i modelar-los com a seqüència temporal. Els resultats obtinguts superen l'estat de l'art amb un ús eficient dels paràmetres de la xarxa. Finalment, aquesta tesi també ofereix una revisió dels conceptes, dels recursos i de la literatura sobre tasques relacionades amb la detecció de música.

Keywords

Music detection; Relative music loudness estimation; Deep learning; Copyright management industry; Public dataset; Annotation tool; Convolutional neural networks; Temporal convolutional networks; TV broadcast audio; Audio processing; Detecció de música; Estimació del volum relatiu de la música; Aprenentatge profund; Indústria del dret d’autor; Conjunt de dades públic; Eina d’anotació; Xarxes neuronals convolucionals; Xarxes temporals convolucionals; Àudio emès per TV; Processament d’àudio

Subjects

62 - Engineering

Documents

tbmc.pdf

2.917Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)