Significado, distribución y frecuencia de la categoría preposicional en español. Una aproximación computacional

Author

Reina González, Francesc

Director

Castellón Masalles, Irene

Padró Cirera, Lluís

Tutor

Castellón Masalles, Irene

Date of defense

2020-07-16

Pages

357 p.



Department/Institute

Universitat de Barcelona. Departament de Filologia Catalana i Lingüística General

Abstract

La categoría preposicional ha sido, tradicionalmente, una clase de palabra provista de rasgos lingüísticos y conductas gramaticales controvertidas. En la tesis, Significado, distribución y frecuencia de la categoría preposicional del español. Una aproximación computacional, se examina la naturaleza de esa controversia a la luz de una metodología cuantitativa, computacional y de lingüística de corpus. La brecha más inexplicada en la historia de su análisis gramatical ha sido cómo identificar su significado. Con frecuencia las nociones descriptivas sobre la semántica de la preposición han sido observadas como subsidiarias de su papel sintáctico, vía caso o asignación de papeles temáticos. Este hecho, sin embargo, no es más que el reconocimiento de que su significado incide, también, en su tarea global dentro de la gramática. Desde una concepción neodistribucionalista, según la cual el significado de las piezas o elementos lingüísticos se encuentra en su distribución contextual, la hipótesis que se plantea es que esa expresión semántica de las preposiciones en español se produce de manera gradual. La denominada Hipótesis Gradual del Significado, aplicada a la categoría preposicional en español, nos permite establecer subclases preposicionales, desde la funcionalidad hasta la lexicidad, pasado por clases intermedias como semifuncionales y semiléxicas. La justificación empírica de la Hipótesis Gradual del Significado se realiza a partir de cuatro experimentos. El primero de ellos se inserta en la metodología del aprendizaje automático (machine learning). Para ello, y usando la técnica del clustering, observamos un conjunto de 79.097 tripletas de la forma X – P – Z, donde P es una preposición del español –basadas en sintagmas preposicionales complementos-. Estas tripletas dependen de una serie de verbos de movimiento del español para las preposiciones a, hacia y hasta extraídas de cuatro corpus lingüísticos muy reconocidos del español. Una vez obtenidas las agrupaciones automáticas se evalúan porcentualmente a partir de la coincidencia entre las predicciones del anotador humano –las clases preposicionales sugeridas- y de la máquina –los clusters-. En el segundo y el tercer experimentos utilizamos otra metodología y acudimos a la medición de la entropía –magnitud de la Teoría de la Información-. En el segundo clasificamos los nombres de 3.898 tripletas que dependen de una serie de verbos del español que representan la mayoría de campos semánticos; y en el tercero son 3903 que complementan a otros nombres. Esta clasificación de los nombres se realiza a partir de una propuesta de seis tipos de categorías semánticas: Animado, Inanimado, Entidad abstracta, Locativo, Temporal y Evento. Una vez clasificados los nombres se mide su organización entrópica y se verifica que existe una correlación entre el grado de entropía y la clase preposicional: a mayor entropía mayor significado. El cuarto experimento parte del uso preposicional. A partir de un test de 90 respuestas con las clases preposicionales de la hipótesis se recogen las respuestas de 366 participantes y se analiza el grado de variación de esas respuestas según la clase preposicional. De nuevo volvemos a usar la entropía como índice de identificación del significado. Sometemos los resultados a ciertas pruebas de control estadístico para verificar la fiabilidad de las muestras, de la significancia y de la coincidencia entre observadores (coeficiente kappa de Cohen). El balance de los cuatro experimentos –a través de los resultados- es favorable a la predicción de la hipótesis. Asimismo, la diversidad de herramientas de análisis es una forma metodológicamente robusta para la investigación y sus conclusiones. Finalmente, se indica que la hipótesis abre perspectivas de futuro en áreas como el contraste interlingüístico –de familias tipológicamente diversas en la expresión adposicional-, o la afasiología como disciplina que se interroga por las relaciones entre errores y valores gramaticales.


The prepositional category has traditionally been a word group endowed controversial traits concerning both its linguistic features and its grammatical behaviors. In this thesis the controversy is examined from a quantitative, computational and linguistic methodology point of wiew. The most unexplained gap in the story of this difficulty of analysis lies in the fact of how its meaning can be identified. From a neo-distributionalism conception, according to which the meaning of the linguistic pieces is in their contextual distribution, the hypothesis that arises is that this semantic expression of the prepositions in Spanish is gradual. The so-called Gradual Meaning Hypothesis establishes four prepositional subclasses, from functional to lexical, through intermediate phases such as semi-functional and semi-lexical. The empirical justification of the Gradual Hypothesis of Meaning is performed with four experiments. The first one experiment is inserted in the machine learning methodology. To do this, and using the clustering technique, we observed a set of 79,097 triplets of the form X - P - Z, where P is a preposition of Spanish - based on complementary prepositional phrases. They are triplets with the prepositions a, hacia and hasta of movement verbs, and they are extracted from four well-known linguistic corpus of Spanish. Once the automatic groupings have been obtained, we indicate to what extent, the percentage between the predictions of the human scorer - the suggested prepositional classes - and the machine - the clusters - are confirmed. In the second and third experiments, we changed our methodology and turned to the measurement of entropy –variable in Information Theory-. In the second onewe classify the names of 3,898 triplets that depend on verbs that appear on most semantic fields in Spanish; and in the third one we classify 3903 triplets that complement other names. This name classification is based on a proposal of six types of semantic categories: Animate, Inanimate, Abstract Entity, Locative, Temporary and Event. Once the names are classified, their entropic organization is measured and it is verified that there is a correlation between the degree of entropy and the prepositional class: the greater the entropy, the greater the meaning. The fourth experiment starts with prepositional use. From a test the degree of variation of these responses is analyzed according to the prepositional class. Again we use entropy as an index of identification of meaning. The balance of the four experiments - through the results - is favorable to the prediction of the hypothesis. The diversity of analysis tools is a methodologically robust way for the research and its conclusions.

Keywords

Lingüística computacional; Computational linguistics; Corpus (Lingüística); Corpora (Linguistics); Preposicions; Preposiciones; Prepositions

Subjects

81 - Linguistics and languages

Knowledge Area

Ciències Humanes i Socials

Documents

FRG_TESIS.pdf

3.141Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

This item appears in the following Collection(s)