Exploración de procedimientos semiautomáticos para el proceso de indexación en el entorno web

Author

Vàllez Letrado, Mari

Director

Pedraza, Rafael

Rovira, Cristòfol

Date of defense

2015-12-22

Pages

135 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Comunicació

Doctorate programs

Programa de doctorat en Comunicació

Abstract

La ingente cantidad de información que existe actualmente hace necesario el desarrollo de herramientas, métodos y procesos que faciliten el acceso a la misma. Especialmente, se requieren sistemas de información que sean eficientes y precisos. Las técnicas de indexación cuentan con una larga tradición en este ámbito. Sin embargo, su aplicación a gran escala y en el contexto de la Web no siempre es viable por la magnitud y la heterogeneidad de la información presente en ella. En esta tesis se presentan dos propuestas para facilitar el proceso de indexación de documentos en Internet. La primera se caracteriza por el uso de técnicas de indexación semiautomáticas basadas en aspectos de posicionamiento web, que se aplican a través de una herramienta propia denominada DigiDoc MetaEdit. La segunda propone un modelo para la actualización de vocabularios controlados a partir del procesamiento de los logs de las búsquedas formuladas por los usuarios en los buscadores.


La ingent quantitat d'informació que hi ha actualment fa necessari el desenvolupament d'eines, mètodes i processos que facilitin l'accés a la mateixa. Especialment, es requereixen sistemes d'informació que siguin eficients i precisos. Les tècniques d'indexació compten amb una llarga tradició en aquest àmbit. No obstant això, la seva aplicació a gran escala i en el context de la web no sempre és viable per la magnitud i heterogeneïtat de la informació present en ella. En aquesta tesi es presenten dues propostes per a facilitar el procés d'indexació de documents a Internet. La primera es caracteritza per l'ús de tècniques d'indexació semiautomàtiques basades en aspectes de posicionament web, i que s'apliquen a través d'una eina pròpia anomenada DigiDoc MetaEdit. La segona proposa un model per a l'actualització de vocabularis controlats a partir del processament dels logs de les cerques formulades pels usuaris als cercadors.


The vast amount of information that currently exists necessitates the development of tools, methods and processes that facilitate access to it. In particular, information systems that are efficient and accurate are required. Indexing techniques have a long tradition of promoting the improvement of these systems. However, its application on a large scale and in the context of the Web is not always feasible because of the magnitude and diversity of the information in it. This thesis presents two proposals to facilitate the process of indexing documents on the Internet. The first is characterized by the use of semi-automatic indexing techniques based on aspects of SEO, and applied through a proprietary tool called DigiDoc MetaEdit. The second proposes a model for updating controlled vocabularies from the processing of logs of searches made by users on search engines.

Keywords

Indexación; Anotación semántica; Vocabulario controlado; Web semántica; Metadatos; Recuperación de información; Logs de consultas; Palabras clave

Subjects

62 - Engineering

Documents

tmv.pdf

4.176Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

This item appears in the following Collection(s)