El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español


Author

Stefanova Spassova, Maria

Director

Turell, M. Teresa (Maria Teresa)

Date of defense

2009-12-04

ISBN

9788469302781

Legal Deposit

B.4508-2010



Department/Institute

Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

The main objective of this dissertation is to evaluate the discriminatory capacity of n-grams - i.e. combinations of sequences of parts of speech- as potential markers of authorship for the purposes of the forensic comparison of Spanish written texts. The focus is on two particular types of n-grams, namely bigrams and trigrams.<br/>The principle hypotheses of the present dissertation are, on the one hand, that n-grams have a high potential to discriminate between the written productions of different authors (inter author variation). On the other hand, it is also hypothesized that the frequency of n-grams does not vary significantly between different writings of the same author over a period of time (intra author variation).<br/>The evaluation of the discriminatory capacity of n-grams was carried out in two different corpora: a) a general corpus of the Spanish language; and b) a corpus of real forensic cases. <br/>Results indicate that both types of n-grams have a high discriminatory potential when applied to both corpora. Moreover, it is demonstrated that the frequency of n-grams does not vary significantly between texts produced by the same author within a time-span of less than 20 years.


El objetivo principal de esta tesis es evaluar el potencial discriminatorio de los n-gramas - esto es, combinaciones de secuencias de categorías gramaticales- como posibles marcas de autoría para los fines de la comparación forense de textos escritos en español. La tesis se centra en dos tipos específicos de n-gramas: los bigramas y los trigramas.<br/>Las principales hipótesis de la tesis son, por un lado, que los n-gramas poseen un potencial discriminatorio alto en el análisis de producciones escritas por diferentes autores (variación inter autor). Por otro lado, que la frecuencia de los n-gramas no varía de forma significativa entre las producciones escritas del mismo individuo en el transcurso del tiempo (variación intra autor).<br/>La evaluación del potencial discriminatorio de los n-gramas se ha llevado a cabo en dos corpus diferentes: a) un corpus general de la lengua española; y b) un corpus de casos forenses reales.<br/>Los resultados han indicado que los dos tipos de n-gramas tienen un potencial discriminatorio alto cuando se aplican a los dos corpus. Además, se ha demostrado que la frecuencia de los n-gramas no varía significativamente entre textos escritos producidos por el mismo autor en un intervalo temporal inferior a 20 años.

Keywords

similitud estilística; estilo; prueba forense; prueba lingüística; prueba; corpus; corpus forense; unicidad lingüística; idiolecto; lenguage individual; idiosincrasia estílistica; idiosincrasia lingüística; estudio forense; estudio de atribución; lengua española; textos en español; variedad lingüística; inter autor; intra autor; variación inter autor; variación intra autor; variación lingüística; variación; clasificación; capacidad discriminante; potencial discriminatorio; texto forense; texto indubitado; texto escrito; texto debitado; análisis de varianza; análisis discriminante; e textos escritos; análisis; análisis estadístico con fines forenses; análisis estadístico; comparación de textos escritos; comparación lingüística forense; análisis lingüístico forense; determinación de autoría; atribución forense de autoría; atribución; determinación; forense; identificación; autoría; marca identificativa; marca de autoría; marca; género textual; español; lingüística; lingüística forense; etiqueta; etiquetas morfosintácticas; anotación morfosintàctica; anotación; cateogría; categoría gramatical; secuencia de categoría gramaticales; combinación de etiquetas; trigrama; bigrama; n-grama; perfil lingüístico; técnica de atribución; técnica de análisis; técnica de comparación; lingüística forense; rasgo idiosincrásico; lingüística aplicada

Subjects

81 - Linguistics and languages

Documents

tmss.pdf.pdf

1.753Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)