A Flexible Multitask Summarizer for Documents from Different Media, Domain and Language

dc.contributor
Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics
dc.contributor.author
Fuentes Fort, Maria
dc.date.accessioned
2011-04-12T15:20:43Z
dc.date.available
2008-11-20
dc.date.issued
2008-03-31
dc.date.submitted
2008-11-19
dc.identifier.isbn
9788469188828
dc.identifier.uri
http://www.tdx.cat/TDX-1119108-172657
dc.identifier.uri
http://hdl.handle.net/10803/6655
dc.description.abstract
Automatic Summarization is probably crucial with the increase of document generation. Particularly when retrieving, managing and processing information have become decisive tasks. However, one should not expect perfect systems able to substitute human sumaries. The automatic sumarization process strongly depends not only on the characteristics of the documents, but also on user different needs.Thus, several aspects have to be taken into account when designing an information system for summarizing, because, depending on the characteristics of the input documents and the desired results, several techniques can be aplied. In order to suport this process, the final goal of the thesis is to provide a flexible multitask summarizer architecture. This goal is decomposed in three main research purposes. First, to study the process of porting systems to different summarization tasks, processing documents in different lenguages, domains or media with the aim of designing a generic architecture to permit the easy addition of new tasks by reusing existents tools. Second, the developes prototypes for some tasks involving aspects related with the lenguage, the media and the domain of the document or documents to be summarized as well as aspects related with the summary content: generic, novelly summaries, or summaries that give answer to a specific user need. Third, to create an evaluation framework to analyze the performance of several approaches in written news and scientific oral presentation domains, focusing mainly in its intrinsic evaluation.
eng
dc.description.abstract
El resumen automático probablemente sea crucial en un momento en que la gran cantidad de documentos generados diariamente hace que recuperar, tratar y asimilar la información que contienen se haya convertido en una ardua y a su vez decisiva tarea. A pesar de ello, no podemos esperar que los resúmenes producidos de forma automática vayan a ser capaces de sustituir a los humanos. El proceso de resumen automático no sólo depende de las características propias de los documentos a ser resumidos, sino que es fuertemente dependiente de las necesidades específicas de los usuarios. Por ello, el diseño de un sistema de información para resumen conlleva tener en cuenta varios aspectos. En función de las características de los documentos de entrada y de los resultados deseados es posible aplicar distintas técnicas. Por esta razón surge la necesidad de diseñar una arquitectura flexible que permita la implementación de múltiples tareas de resumen. Este es el objetivo final de la tesis que presento dividido en tres subtemas de investigación. En primer lugar, estudiar el proceso de adaptabilidad de sistemas a diferentes tareas de resumen, como son procesar documentos producidos en diferentes lenguas, dominios y medios (sonido y texto), con la voluntad de diseñar una arquitectura genérica que permita la fácil incorporación de nuevas tareas a través de reutilizar herramientas existentes. En segundo lugar, desarrollar prototipos para distintas tareas, teniendo en cuenta aspectos relacionados con la lengua, el dominio y el medio del documento o conjunto de documentos que requieren ser resumidos, así como aspectos relacionados con el contenido final del resumen: genérico, novedad o resumen que de respuesta a una necesidad especifica. En tercer lugar, crear un marco de evaluación que permita analizar la competencia intrínseca de distintos prototipos al resumir noticias escritas y presentaciones científicas orales.
spa
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat Politècnica de Catalunya
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
multimedia
dc.subject
multilingual
dc.subject
multilingüe
dc.subject
resumen automático
dc.subject
resum atomàtic
dc.subject
automatic summarization
dc.subject
procesamiento del lenguaje natural
dc.subject
processament del llenguatge natural
dc.subject
spontaneous speech
dc.subject.other
1203
dc.title
A Flexible Multitask Summarizer for Documents from Different Media, Domain and Language
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
cat
dc.subject.udc
02
cat
dc.subject.udc
62
cat
dc.subject.udc
81
cat
dc.contributor.director
Rodríguez Hontoria, Horacio
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B.6326-2009


Documents

01MFF_Portada_Resum_Sumari.pdf

223.3Kb PDF

02MFF_Capitol1_Introduccio.pdf

230.6Kb PDF

03MFF_Capitol2.pdf

461.6Kb PDF

04MFF_Capitol3.pdf

611.9Kb PDF

05MFF_Capitol4.pdf

361.0Kb PDF

06MFF_Capitol5.pdf

1.435Mb PDF

07MFF_Capitol6.pdf

335.2Kb PDF

08MFF_Capitol7.pdf

235.7Kb PDF

09_MFF_Conclusions.pdf

118.3Kb PDF

10MFF_Bibliografia.pdf

143.5Kb PDF

11MFF_Index.pdf

234.0Kb PDF

This item appears in the following Collection(s)