Feature engineering for author profiling and identification: on the relevance of syntax and discourse

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Soler Company, Juan
dc.date.accessioned
2017-08-01T09:33:15Z
dc.date.available
2017-08-01T09:33:15Z
dc.date.issued
2017-07-06
dc.identifier.uri
http://hdl.handle.net/10803/404984
dc.description.abstract
Author profiling and identification are two areas of data-driven computational linguistics that have gained a lot of relevance due to their potential applications in, e.g., forensic linguistic studies, marketing analysis, and historic/literary authorship verification. Author profiling aims to identify demographic traits of the authors, while author identification aims to identify the authors themselves by searching for distinctive linguistic patterns that distinguish them. The majority of approaches in the related work tends to focus on the content of the texts. We argue that focusing on structure rather than content can be more effective. The main focus of the thesis is thus on feature engineering, the development, evaluation and application of the feature set in the context of machine learning techniques to author profiling and identification. We prove the profiling potential of syntactic and iscourse features, which achieve state-of-the-art performance in many different scenarios, especially when combined with other features.
en_US
dc.description.abstract
El perfilament i la identificació d’autors són camps de la lingüística computacional que han guanyat rellevància als últims anys gràcies a les seves potencials aplicacions al camp de la lingüística forense o a la verificació d’autoria de textos històrics. El perfilament d’autors té com a objectiu identificar trets demogràfics dels autors; la identificació d’autors tracta d’identificar l’autor del text. Per fer-ho, es busquen automàticament patrons lingüístics per diferenciar entre autors/trets demogràfics. La majoria de treballs anteriors, es centren en el contingut dels texts. Nosaltres argumentem que analitzar l’estructura del text pot ser una alternativa més efectiva. El focus d’aquesta tesi està per tant, al feature engineering: la extracció avaluació i utilització d’un conjunt de característiques lingüístiques amb algoritmes d’aprenentatge automàtic per a perfilar/identificar autors. Demostrem que les característiques sintàctiques i discursives són rellevants i que combinades amb altres, obtenen resultats a l’altura de l’estat de l’art.
en_US
dc.format.extent
188 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Author profiling
en_US
dc.subject
Author identification
en_US
dc.subject
Text classification
en_US
dc.subject
Stylometry
en_US
dc.subject
Gender identification
en_US
dc.subject
Machine learning
en_US
dc.subject
Natural language processing
en_US
dc.subject
Syntax
en_US
dc.subject
Discourse
en_US
dc.subject
Feature engineering
en_US
dc.subject
Perfilament d'autors
en_US
dc.subject
Identificació d'autors
en_US
dc.subject
Classificació de text
en_US
dc.subject
Identificació de gènere
en_US
dc.subject
Estilometría
en_US
dc.subject
Aprenentatge automàtic
en_US
dc.subject
Processat del llenguatge
en_US
dc.subject
Sintaxis
en_US
dc.subject
Discurs
en_US
dc.title
Feature engineering for author profiling and identification: on the relevance of syntax and discourse
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
en_US
dc.contributor.authoremail
juan.soler@upf.edu
en_US
dc.contributor.director
Wanner, Leo
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tjsc.pdf

9.338Mb PDF

This item appears in the following Collection(s)