Improving sound retrieval in large collaborative collections

Favory, Xavier

Improving sound retrieval in large collaborative collections

dc.contributor

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

dc.contributor.author

Favory, Xavier

dc.date.accessioned

2021-03-24T11:57:43Z

dc.date.available

2021-03-24T11:57:43Z

dc.date.issued

2021-03-04

dc.identifier.uri

http://hdl.handle.net/10803/671207

dc.description.abstract

Capturing sounds on a recording medium to enable their preservation and reproduction started to be possible during the industrial revolution of the 19th century, originally achieved through mechanic and acoustic devices, and later electronic and magnetic ones. Eventually, the digital age of the mid-20th century brought about the democratization of recording and reproduction devices, as well as accessible ways of storing and sharing content. As a consequence, massive collections of audio samples are nowadays increasingly available online, some of which are created collaboratively thanks to sharing platforms. This content has become essential for entertainment media, such as movies, music, video games, and for human-machine interaction. Nonetheless, given the amount and diversity of the content, exploring, searching and retrieving from collaborative collections becomes increasingly challenging. Methods for automatically organizing content, and facilitating its retrieval therefore become more and more necessary, creating an opportunity for novel Information Retrieval approaches. This thesis aims at improving the retrieval of sounds in large collaborative collections, and does so from different perspectives. We first investigate data collection methodologies for creating large and sustainable audio datasets, including the design and development of a website and an annotation tool to engage users in the collaborative process of dataset creation. Additionally, we focus on improving the manual annotation of audio samples when using large taxonomies. This calls for specialized tools to assist users towards providing exhaustive and consistent annotations. This produced a number of publicly available large-scale datasets for developing and evaluating machine listening models. From another perspective, we propose novel methods for learning audio representations, suitable for diverse machine learning applications, by taking advantage of large amounts of online content and its metadata. We then investigate the problem of unsupervised classification by first identifying which type of audio features are suited for clustering the wide variety of sounds present in online collections. Finally, we focus on Search Results Clustering, an approach that organizes the search results into coherent groups. This research improved the retrieval of sounds from large collections, namely through facilitating exploration and interaction with search results.

en_US

dc.description.abstract

A mediados del siglo XIX, y más precisamente durante la segunda Revolución Industrial, comenzó a ser posible la captura de sonidos gracias a un soporte de grabación, permitiendo su conservación y su reproducción. En un principio, esto se logró gracias a dispositivos mecánicos y acústicos, y posteriormente éstos fueron electrónicos y magnéticos. Finalmente, a mediados del siglo XX, la era digital trajo consigo la democratización de los dispositivos de grabación y de reproducción, así como el acceso a otras formas de almacenamiento y de compartimiento de contenido. Como consecuencia, hoy en día, aumentan las colecciones disponibles en línea. Se trata de colecciones masivas de muestras de audio, algunas de las cuales se crean de forma colaborativa, gracias a las plataformas de intercambio. Este contenido ha llegado a ser imprescindible para los medios de entretenimiento, como películas, música, videojuegos y para la interacción hombre-máquina. No obstante, dada la cantidad y la diversidad existentes, explorar, buscar y recuperar contenido de colecciones colaborativas es cada vez más difícil. Así, los métodos para organizar automáticamente el contenido y facilitar su recuperación, son cada vez más necesarios. Esta situación es una oportunidad para el estudio de enfoques novedosos cuyo objetivo es la recuperación de información. Desde diferentes perspectivas, esta tesis tiene como objetivo el facilitar la recuperación de sonidos ubicados en grandes colecciones colaborativas, En primer lugar, investigamos los métodos de recopilación de datos para crear grandes conjuntos sostenibles de datos de audio, incluido el diseño y el desarrollo de una aplicación web y de una herramienta de anotación para involucrar a los usuarios en el proceso colaborativo de creación de conjuntos de datos. Además, nuestro trabajo se enfoca hacia la mejora de la anotación manual de muestras de audio, cuando usamos taxonomías grandes. Esta operación requiere herramientas especializadas que faciliten las anotaciones exhaustivas y consistentes. El resultado es la producción de una serie de conjuntos de datos a gran escala disponibles, a nivel público, que permiten desarrollar y evaluar modelos de aprendizaje de máquinas. Desde una perspectiva original, proponemos métodos novedosos y adecuados para, en primer lugar, aprender representaciones de audio y, en segundo lugar, para realizar diversas aplicaciones de aprendizaje automático, aprovechando grandes cantidades de contenido en línea y sus metadatos. En segundo lugar, investigamos el problema de la clasificación sin supervisión, identificando qué tipo de características de audio son las adecuadas para agrupar la amplia variedad de sonidos presentes en las colecciones en línea. Por último, nos centramos en la agrupación de resultados de búsqueda, un enfoque que organiza los resultados en grupos coherentes. Esta investigación facilita la recuperación de sonidos de grandes colecciones, principalmente, al facilitar la exploración y la interacción con los resultados de búsqueda.

en_US

dc.format.extent

183 p.

en_US

dc.format.mimetype

application/pdf

dc.language.iso

eng

en_US

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Sound retrieval

en_US

dc.subject

Collaborative collections

en_US

dc.subject

Machine learning

en_US

dc.subject

Search results clustering

en_US

dc.subject

Recuperación de sonido

en_US

dc.subject

Colecciones colaborativas

en_US

dc.subject

Aprendizaje automático

en_US

dc.subject

Agrupación de resultados de búsqueda

en_US

dc.title

Improving sound retrieval in large collaborative collections

en_US

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

en_US

dc.contributor.authoremail

xavier.favory@upf.edu

en_US

dc.contributor.director

Serra, Xavier

dc.contributor.director

Font Corbera, Frederic

dc.embargo.terms

cap

en_US

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Documentos

txfdef.pdf

7.013Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions [401]