Linguistic support for protest event data collection

dc.contributor
Universitat Autònoma de Barcelona. Departament de Filologia Espanyola
dc.contributor.author
Danilova, Vera
dc.date.accessioned
2016-04-20T07:55:17Z
dc.date.available
2016-04-20T07:55:17Z
dc.date.issued
2015-11-27
dc.identifier.isbn
9788449061837
cat
dc.identifier.uri
http://hdl.handle.net/10803/374232
dc.description.abstract
sta tesis aborda el problema de la cualidad de recopilación automática de datos sobre protestas y propone herramientas de extracción multilíngüe de atributos del evento de protesta para mejorar la calidad de la unidad de análisis. El trabajo incluye la exploración del estado de arte en los dominios de la recopilación automática de datos sobre protestas y la extracción multilíngüe de eventos. En la ausencia de una colección de datos multilíngües sobre protestas anotados por expertos para el aprendizaje supervisado nos enfocamos en el tratamiento de noticias multilíngües basado en patrones lingüísticos conectados a una jerarquía de conceptos relacionados con el evento de protesta. Las gramáticas y lexicones han sido elaborados según los estándares de GATE 8.0, y la jerarquía de conceptos ha sido formalizada en Protégé - 4.3. El presenta trabajo contribuye al tratamiento automático de bases de datos sobre protestas con lo siguiente: colección automática de un corpus de noticias relacionadas con el evento de protesta; descripción formalizada del evento de protesta basada en un estudio detallado de un corpus de noticias multilíngües (en búlgaro, francés, polaco, ruso, español y sueco); elaboración de patrones genéricos y lexicones multilíngües conectados a la jerarquía de conceptos que resuelve el problema de la ausencia de una colección de datos preanotados por expertos; Los datos obtenidos pueden aplicarse, entre otros, en el monitoreo y análisis de protestas y la relacionada comunicación de usuarios en las redes sociales.
spa
dc.description.abstract
This thesis addresses the problem of automatic protest event collection quality and proposes the tools for multilingual protest feature extraction to improve the quality of analysis unit. This work includes the exploration of the state of the art in protest event data collection and multilingual event extraction. In the absence of a multilingual training dataset for supervised learning we focus on the rule-based approach to multilingual event extraction and connection of a domain concept hierarchy. Grammars and gazetteers have been elaborated in accordance with the standards of GATE 8.0, and the protest event hierarchy has been formalized using Protégé - 4.3. The present work contributes to the automatic protest event data collection and coding by the following: construction of a multilingual corpus of texts related to protest events; a formalized description of the protest event concept on the basis of a detailed examination of a multilingual corpus of news headlines (Bulgarian, French, Polish, Russian, Spanish, Swedish); elaboration of generic patterns and gazetteers for multilingual text processing, which helps to deal with the absence of a multilingual training set. The obtained data can be applied among others for the monitoring and analysis of event-specific social networks’ response.
eng
dc.format.extent
161 p.
cat
dc.format.mimetype
application/pdf
dc.language.iso
eng
cat
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Extracció d'esdeveniments
cat
dc.subject
Event extraction
cat
dc.subject
Extracción de eventos
cat
dc.subject
Parsing multilingüe
cat
dc.subject
Multilingual parsing
cat
dc.subject
Parsing multilingüe
cat
dc.subject
Anàlisi de dades sobre protestas
cat
dc.subject
Prostest event analysis
cat
dc.subject
Análisis de datos sobre protestas
cat
dc.subject.other
Ciències Humanes
cat
dc.title
Linguistic support for protest event data collection
cat
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
cat
dc.contributor.authoremail
maolve@gmail.com
cat
dc.contributor.director
Blanco Escoda, Xavier
dc.contributor.director
Alexandrov, Mikhail
dc.embargo.terms
cap
cat
dc.rights.accessLevel
info:eu-repo/semantics/openAccess


Documents

vd1de1.pdf

2.006Mb PDF

This item appears in the following Collection(s)