A principal component method to analyse disconnected frequency tables by means of contextual information

Author

Kostov, Belchin Adriyanov

Director

Bécue, Mónica

Codirector

Husson, François

Date of defense

2015-07-10

Pages

140 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Abstract

This thesis arises from the need to deal with open-ended questions answered in different languages in international surveys. For every language, the free answers are encoded in the form of a individuals x words lexical table. An important feature is that the lexical tables, from one language to the other, have neither the row-individuals nor the column-words in common. However, the global analysis and the comparison of the different samples require to place all the words, in any language, in the same space. As a solution, we propose to integrate the answers to the closed questions into the analysis, where the contextual variables the same for all the samples. This integration plays an essential role by permitting a global analysis. Thus, for every language, we have one lexical table and one categorical/quantitative table, a structure that we call "coupled tables". The global complex data structure is a sequence of "coupled tables". To analyse these data, we adopt a Correspondence Analysis-like approach. We propose a method which combines: Multiple Factor Analysis for Contingency Tables, in order to balance the influence of the sets of words in the global analysis and Correspondence Analysis on a Generalised Aggregated Lexical Table, which places all the words in the same space. The new method is called Multiple Factor Analysis on Generalised Aggregated Lexical Table. The results in an application show that the method provides outputs that are easy to interpret. They allow for studying the similarities/dissimilarities between the words including when they belong to different languages as far as they are associated in a similar/different way to the contextual variables. The methodology can be applied in other fields provided that the data are coded in a sequence of coupled tables.


Esta tesis surge de la necesidad de tratar las preguntas abiertas respondidas en diferentes idiomas en las encuestas internacionales. En cada uno de los idiomas, las respuestas libres se codifican en la forma de una tabla léxica de individuos x palabras. Una característica importante de estas tablas léxicas es que, de un idioma a otro, no tienen ni las filas-individuos ni las columnas-palabras en común. Sin embargo, el análisis global y la comparación de las diferentes muestras requiere proyectar todas las palabras del cualquier idioma en un mismo espacio. Como solución, se propone integrar las respuestas a las preguntas cerradas en el análisis, donde las variables contextuales son las mismas para todas las muestras. Esta integración juega un papel esencial al permitir un análisis global de los datos. Por lo tanto, para cada idioma, tenemos una tabla léxica y una tabla contextual con variables categóricas o cuantitativas, la estructura que llamamos "tablas acopladas". Y la estructura global compleja se llama secuencia de "tablas acopladas". Para analizar estos datos, adoptamos un enfoque similar a lo de análisis de correspondencias. Proponemos un método que combina: análisis factorial múltiple para las tablas de contingencia con el objetivo de equilibrar la influencia de los grupos de palabras en el análisis global y análisis de correspondencias en las tablas léxicas agregadas generalizadas, lo que permite proyectar todas las palabras en un mismo espacio. El nuevo método se llama Análisis Factorial Múltiple en las tablas léxicas agregadas generalizadas. Aplicación sobre una encuesta de satisfacción muestra que el método proporciona resultados que son fáciles de interpretar. Estos resultados permiten estudiar las similitudes/diferencias entre las palabras, incluyendo cuando pertenecen a diferentes idiomas, en función de su asociación con las variables contextuales. La metodología se puede aplicar en otros campos siempre y cuando los datos se codifiquen en una secuencia de "tablas acopladas".

Subjects

311 - Statistics

Documents

TBAK1de1.pdf

1.715Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

This item appears in the following Collection(s)