Cross-lingual sentiment analysis for under-resourced languages

Author

Barnes, Jeremy

Director

Lambert, Patrik

Badia i Cardús, Antoni

Date of defense

2019-01-28

Pages

156 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

Sentiment Analysis is a task that aims to calculate the polarity of text automatically. While some languages, such as English, have a vast array of resources to enable sentiment analysis, most under-resourced languages lack them. Cross-lingual Sentiment Analysis (CLSA) attempts to make use of resource-rich languages in order to create or improve sentiment analysis systems in an under-resourced language. In this thesis, we propose cross-lingual sentiment approaches that have minimal parallel data requirements, while making the best use of available monolingual data. We propose a model to incorporate sentiment information into bilingual distributional representations, by jointly optimizing them for semantics and sentiment, showing state-of-the-art performance when combined with machine translation. We then move these approaches to aspect-level and subsequently test them on a variety of language families and domains. Finally, we show that this approach can also be suitable for domain adaptation.


L’anàlisi de sentiment és una tasca que ens permet calcular la polaritat de un text de manera automàtica. Mentre algunes llengües, com l’anglès per exemple, tenen una àmplia varietat de recursos per crear sistemes d’anàlisi de sentiment, n’hi ha més que els troben a faltar. L’Anàlisi de Sentiment Cross-lingüe (ASCL) intenta fer servir els recursos de llengües riques en recursos per crear o millorar sistemes d’anàlisi de sentiment en llengües pobres en recursos. A aquesta tesi proposem mètodes d’anàlisi de sentiment cross-lingües que requereixen menys data paral·lela i treuen el màxim profit de data monolingüe que tenim a l’abast. Proposem un model que optimitza les representacions distribucionals cross-lingües perquè tinguin informació semàntica i també de sentiment, i que demostra ser l’estat de l’art en combinant-se amb traducció automàtica. Després passem a un nivell de granularitat més fina i examinem com canvia el rendiment dels models amb diferents llengües metes i dominis. Finalment, demostrem que aquestes tècniques també són adequats per a l’adaptació de domini.

Keywords

Sentiment analysis; Aspect-level; Targeted; Cross-lingual; Under-resourced; Anàlisi de sentiment; Basada en aspectes; Cross-lingüe; Llengües amb pocs recursos; Análisis de sentimiento; Basada en aspectos; Lenguas con pocos recursos

Subjects

81 - Linguistics and languages

Documents

tjb.pdf

2.901Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)