Content-based audio search: from fingerprinting to semantic audio retrieval

Author

Cano Vila, Pedro

Director

Serra, Xavier

Date of defense

2007-04-27

ISBN

9788469112052

Legal Deposit

B.42899-2007



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologia

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Aquesta tesi tracta de cercadors d'audio basats en contingut. Específicament, tracta de desenvolupar tecnologies que permetin fer més estret l'interval semàntic o --semantic gap' que, a avui dia, limita l'ús massiu de motors de cerca basats en contingut. Els motors de cerca d'àudio fan servir metadades, en la gran majoria generada per editors, per a gestionar col.leccions d'àudio. Tot i ser una tasca àrdua i procliu a errors, l'anotació manual és la pràctica més habitual. Els mètodes basats en contingut àudio, és a dir, aquells algorismes que extreuen automàticament etiquetes descriptives de fitxers d'àudio, no són generalment suficientment madurs per a permetre una interacció semàntica. En la gran majoria, els mètodes basats en contingut treballen amb descriptors de baix nivell, mentre que els descriptors d'alt nivell estan més enllà de les possibilitats actuals. En la tesi explorem mètodes, que considerem pas previs per a atacar l'interval semàntic.


This dissertation is about audio content-based search. Specifically, it is on developing technologies for bridging the semantic gap that currently prevents wide-deployment of audio content-based search engines.<br/>Audio search engines rely on metadata, mostly human generated, to manage collections of audio assets.<br/>Even though time-consuming and error-prone, human labeling is a common practice.<br/>Audio content-based methods, algorithms that automatically extract description from audio files, are generally not mature enough to provide a user friendly representation for interacting with audio content. Mostly, content-based methods are based on low-level descriptions, while high-level or semantic descriptions are beyond current capabilities. In this thesis we explore technologies that can help close the semantic gap.

Keywords

búsqueda de información basada en contenido; classificacio d'audio; ontologies; identificacio d'audio; recuperacio d'informacio audio; cerca d'audio basada en contingut; audio classification; wordnet; ontology; audio fingerprinting; audio retrieval; content based audio search; recuperación de información de audio; identificación de audio; ontologías; clasificación de áudio

Subjects

531/534 - Mechanics; 68 - Industries, crafts and trades for finished or assembled articles; 78 - Music

Documents

tpcv.pdf

2.660Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)