Towards an image-term co-occurence model for multilingual terminology alignment and cross-language image indexing

dc.contributor
Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada
dc.contributor.author
Burgos Herrera, Diego A.
dc.date.accessioned
2014-06-26T10:52:54Z
dc.date.available
2014-06-26T10:52:54Z
dc.date.issued
2014-05-19
dc.identifier.uri
http://hdl.handle.net/10803/145644
dc.description.abstract
This thesis addresses the potential that the relation between terms and images in multilingual specialized documentation has for glossary compilation, terminology alignment, and image indexing. It takes advantage of the recurrent use of these two modes of communication (i.e., text and images) in digital documents to build a bimodal co-occurrence model which aims at dynamically compiling glossaries of a wider coverage. The model relies on the developments of content-based image retrieval (CBIR) and text processing techniques. CBIR is used to make two images from different origin match, and text processing supports term recognition, artifact noun classification, and image-term association. The model aligns one image with its denominating term from collateral text, and then aligns this image with another image of the same artifact from a different document, which also enables the alignment of the two equivalent denominating terms. The ultimate goal of the model is to tackle the limitations and drawbacks of current static terminological repositories by generating bimodal, bilingual glossaries that reflect real usage, even when terms and images may originate from noisy corpora.
eng
dc.description.abstract
Esta tesis enfoca la relación entre términos e imágenes en documentación especializada y su potencial para compilación de glosarios, alineación de terminología e indexación de imágenes. Asimismo, esta investigación se vale del frecuente uso de estos dos modos de comunicación (i.e., texto e imágenes) en documentos digitales para construir un modelo de concurrencia bimodal que guíe la compilación de glosarios de más cobertura. El modelo se basa en los desarrollos de técnicas de recuperación de imágenes por contenido (CBIR) y de procesamiento de texto. Las técnicas de CBIR se usan aquí para conectar dos imágenes de distinto origen, mientras que el procesamiento de texto sustenta las tareas de reconocimiento de términos, clasificación de nombres de artefacto y asociación término-imagen. El modelo asocia una imagen con el término del texto circundante que la denomina y luego alinea esta imagen con otra imagen del mismo artefacto pero que se origina en otro documento, lo cual permite también la alineación de los dos términos equivalentes que denominan los artefactos de las imágenes. El objetivo principal del modelo es contribuir a compensar el estatismo, las limitaciones y las desventajas de los repositorios terminológicos actuales mediante la generación de glosarios bimodales bilingües que reflejen el uso real de los términos, incluso cuando éstos y sus imágenes se originen en corpus problemáticos.
spa
dc.format.extent
186 p.
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Image-term alignment
dc.subject
Image indexing
dc.subject
Web as corpus
dc.subject
Term recognition
dc.subject
Noun classification
dc.subject
Content-based image retrieval
dc.subject
Asociación término-imagen
dc.subject
Indexación de imágenes
dc.subject
Web como corpus
dc.subject
Recuperación de imágenes por contenido
dc.subject
Reconocimiento de términos
dc.subject
Clasificación de nombres
dc.subject.other
186
dc.title
Towards an image-term co-occurence model for multilingual terminology alignment and cross-language image indexing
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
cat
dc.contributor.authoremail
diego.burgos@upf.edu
dc.contributor.director
Wanner, Leo
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B 16262-2014
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge


Documents

tdabh.pdf

4.194Mb PDF

This item appears in the following Collection(s)