dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Sordo, Mohamed
dc.date.accessioned
2012-04-03T11:10:11Z
dc.date.available
2012-04-03T11:10:11Z
dc.date.issued
2012-02-27
dc.identifier.uri
http://hdl.handle.net/10803/79132
dc.description.abstract
El consum de la música ha canviat dràsticament en els últims anys. Amb
l’arribada de la música digital, el cost de producció s’ha reduït considerablement.
L’expansió de la Web ha ajudat a promoure l’exploració de molt més
contingut musical. Algunes botigues musicals on-line, com iTunes o Amazon,
posseeixen milions de cançons a les seves col.leccions. No obstant, accedir a
aquestes col.leccions d’una manera eficient és encara un gran repte.
En aquesta tesis ens centrem en el problema d’anotar col.leccions musicals
amb paraules semàntiques, també conegudes com tags. Els mètodes utilitzats
en aquesta tesi estan fonamentats sobre els camps de recuperació de la
informació, l’inteligència artificial, i el procesament del senyal. Proposem un
algorisme per anotar música automàticament, utilitzant similitud d’audio a
nivell de contingut per propagar tags entre cançons. L’algorisme s’avalua extensament
utilitzant múltiples col.leccions musicals de diferent mida i qualitat
de les dades, incloent una col.lecció de més de mig milió de cançons, anotades
amb tags socials derivats d’una comunitat musical. Avaluem la qualitat del
nostre algorisme mitjançant una comparació amb algorismes de l’estat de l’art.
Addicionalment, discutim la importància d’utilitzar mesures de avaluació que
cobreixen diferents dimensions, és a dir, avaluacions a nivell de cançó i a nivell
de tag. El nostre algorisme ha estat avaluat i s’ha classificat en altes posicions
en el concurs d’avaluació internacional MIREX 2011. Els resultats obtinguts
també demostren algunes limitacions de l’anotació automàtica, relacionades
amb les inconsistències en les dades, la correlació de conceptes i la dificultat
de capturar alguns tags personals amb informació del contingut. Això és més
evident en les comunitats musicals, on els usuaris poden anotar cançons amb
qualsevol paraula, sigui aquesta contextual o no. Per tal d’abordar aquestes
limitacions, presentem un ampli estudi sobre la naturalesa de les folksonomies
musicals. Concretament, estudiem si les anotacions fetes per una gran comunitat
d’usuaris coincideixen amb un vocabulari més controlat i estructurat per
part d’experts en el camp. Els resultats revelen que alguns tags estan clarament
definits i compresos tant des del punt de vista dels experts com el de
la saviesa popular, mentre que n’hi ha d’altres sobre els quals és difícil trobar
un consens. Finalment, estenem el nostre previ treball a un ampli ventall
de conceptes semàntics. Presentem un nou métode per a descobrir conceptes
semàntics implícits en els tags socials, i classificar aquests tags pel que fa als
conceptes semàntics. Les darreres troballes poden ajudar a entendre la naturalesa
dels tags socials, i per tant ser beneficials per a una addicional millora
de la anotació automàtica de la música.
cat
dc.description.abstract
Music consumption has changed drastically in the last few years. With the
arrival of digital music, the cost of production has substantially dropped. The
expansion of the World Wide Web has helped to promote the exploration of
many more music content. Online stores, such as iTunes or Amazon, own music
collections in the order of millions of songs. Accessing these large collections
in an effective manner is still a big challenge.
In this dissertation we focus on the problem of annotating music collections
with semantic words, also called tags. The foundations of all the methods
used in this dissertation are based on techniques from the fields of information
retrieval, machine learning, and signal processing. We propose an automatic
music annotation algorithm that uses content-based audio similarity to propagate
tags among songs. The algorithm is evaluated extensively using multiple
music collections of varying size and quality of the data, including a large music
collection of more than a half million songs, annotated with social tags derived
from a music community. We assess the quality of our proposed algorithm
by comparing it with several state of the art approaches. We also discuss the
importance of using evaluation measures that cover different dimensions; per–
song and per–tag evaluation. Our proposal achieves state of the art results,
and has ranked high in the MIREX 2011 evaluation campaign. The obtained
results also show some limitations of automatic tagging, related to data inconsistencies,
correlation of concepts and the difficulty to capture some personal
tags with content information. This is more evident in music communites,
where users can annotate songs with any free text word. In order to tackle
these issues, we present an in-depth study of the nature of music folksonomies.
We concretely study whether tag annotations made by a large community (i.e.
a folksonomy) correspond with a more controlled, structured vocabulary by
experts in the music and the psychology fields. Results reveal that some tags
are clearly defined and understood both by the experts and the wisdom of
crowds, while it is difficult to achieve a common consensus on the meaning of
other tags. Finally, we extend our previous work to a wide range of semantic
concepts. We present a novel way to uncover facets implicit in social tagging,
and classify the tags with respect to these semantic facets. The latter findings
can help to understand the nature of social tags, and thus be beneficial for
further improvement of semantic tagging of music.
Our findings have significant implications for music information retrieval systems
that assist users to explore large music collections, digging for content
they might like.
eng
dc.description.abstract
El consumo de la música ha cambiado drásticamente en los últimos años. Con
la llegada de la música digital, el coste de producción se ha reducido considerablemente.
La expansión de la Web ha ayudado a promover la exploración de
mucho más contenido musical. Algunas tiendas musicales on-line, como iTunes
o Amazon, poseen millones de canciones en sus colecciones. Sin embargo,
acceder a estas colecciones de una manera eficiente es todavía un gran reto.
En esta tesis nos centramos en el problema de anotar colecciones musicales con
palabras semánticas, también conocidas como tags. Los métodos utilizados en
esta tesis están cimentados sobre los campos de recuperación de la información,
la inteligencia artifical, y el procesamiento del señal. Proponemos un algoritmo
para anotar música automáticamente, usando similitud de audio a nivel de
contenido para propagar tags entre canciones. El algoritmo se evalúa extensamente
usando múltiples colecciones musicales de distinto tamaño y calidad
de los datos, incluyendo una colección de más de medio millón de canciones,
anotadas con tags sociales derivados de una comunidad musical. Evaluamos
la calidad de nuestro algoritmo mediante una comparación con algoritmos del
estado del arte. Adicionalmente, discutimos la importancia de usar medidas de
evaluación que cubren diferentes dimensiones; es decir, evaluaciones a nivel de
canción y a nivel de tag. Nuestro algoritmo ha sido evaluado y se clasificado en
altas posiciones en el concurso de evaluación internacional MIREX 2011. Los
resultados obtenidos también demuestran algunas limitaciones de la anotación
automática, relacionadas con las inconsistencias en los datos, la correlación de
conceptos y la dificultad de capturar algunos tags personales con información
del contenido. Esto es más evidente en las comunidades musicales, donde los
usuarios pueden anotar canciones con cualquier palabra, sea esta contextual o
no. Con el fin de abordar estas limitaciones, presentamos un amplio estudio sobre
la naturaleza de las folksonomías musicales. Concretamente, estudiamos si
las anotaciones hechas por una gran comunidad de usuarios concuerdan con un
vocabulario más controlado y estructurado por parte de expertos en el campo.
Los resultados revelan que algunos tags están claramente definidos y comprendidos
tanto desde el punto de vista de los expertos como el de la sabiduría
popular, mientras que hay otros tags sobre los cuales es difícil encontrar un
consenso. Por último, extendemos nuestro previo trabajo a un amplio abanico
de conceptos semánticos. Presentamos un método novedoso para descubrir
conceptos semánticos implícitos en los tags sociales, y clasificar dichos tags
con respecto a los conceptos semánticos. Los últimos hallazgos pueden ayudar
a entender la naturaleza de los tags sociales, y por consiguiente ser beneficiales
para una adicional mejora para la anotación automática de la música.
spa
dc.format.mimetype
application/pdf
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Music information retrieval
dc.subject
Semantic categorization
dc.subject
Audio tag classification
dc.subject
Semantic space
dc.title
Semantic annotation of music collections: A computational approach
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
mohamed.sordo@upf.edu
dc.contributor.director
Serra, Xavier
dc.contributor.director
Celma Herrada, Òscar
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B. 13517-2012
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions