Pattern-based automatic induction of domain adapted resources for social media analysis

Author

Vázquez Suárez, Silvia

Director

Bel Rafecas, Núria

Date of defense

2016-01-22

Legal Deposit

B 4418-2016

Pages

238 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

In this dissertation, we analyze different aspects of the language used in texts published along different social media, and we propose a set of methods for the automatic extraction of polar adjectives as well as for the automatic classification of these texts. First of all, we propose a new classification of polar adjectives according to their lexical features, based on a case study. Secondly, we implement a new domain adaptable system for the automatic extraction of polar adjectives (along with their polarity values), reducing the use of external language resources. Finally, we propose two automatic classifiers (one rule-based and one based on Decision Trees) to identify documents belonging to different stages of the purchase process and texts that analyze different aspects of the product.


En esta tesis, analizamos diferentes aspectos del lenguaje utilizado en los textos publicados en diferentes medios sociales y proponemos una serie de métodos para la extracción automática de adjetivos de opinión, así como para la clasificación automática de dichos textos. En primer lugar, proponemos una nueva clasificación de los adjetivos de opinión de acuerdo con sus características léxicas, basada en un estudio de caso. En segundo lugar, implementamos un nuevo sistema de extracción automática de adjetivos de opinión (junto con sus valores de polaridad), adaptable al dominio y que reduce el uso de recursos lingüísticos externos. Finalmente, proponemos dos clasificadores automáticos (uno basado en reglas y otros basados en ´arboles de decisión) para identificar textos pertenecientes a distintas fases del proceso de compra y textos que analizan diferentes aspectos del producto.


En aquesta tesi, analitzem diferents aspectes del llenguatge utilitzat en els textos publicats en diferents mitjans socials i proposem una sèrie de mètodes per a l’extracció automàtica d’adjectius d’opinió així com per a la classificació automàtica d’aquests textos. En primer lloc, proposem una nova classificació dels adjectius d’opinió, basada en un estudi de cas, més d’acord amb les seves característiques lèxiques. En segon lloc, vam implementar un nou sistema d’extracció automàtica d’adjectius d’opinió (juntament amb els seus valors de polaritat), adaptable al domini i que redueix l’´us de recursos lingüístics externs. Finalment, proposem dos classificadors automàtics (un basat en regles i un altre basats en arbres de decisió) per identificar textos que pertanyen a diferents fases del procés de compra i textos que analitzen diferents aspectes del producte.

Keywords

Natural language processing; Computational linguistics; Language resources; Sentiment analysis; Opinion mining; Social media analysis; Applied linguistics; Procesamiento del lenguaje natural; Lingüística computacional; Recursos lingüísticos; Análisis de sentimiento; Minería de opinión; Análisis de medios sociales; Lingüística aplicada; Processament del llenguatge natural; Recursos lingüístics; Anàlisi del sentiment; Mineria d'opinió; Anàlisi de mitjans socials

Subjects

004 - Computer science; 81 - Linguistics and languages

Documents

tsvs.pdf

2.659Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

This item appears in the following Collection(s)