Anàlisi de dades diiscretes: freqüència de freqüències i dades multinomials


Puig, Xavier (Puig Oriol)


Ginebra, Josep

Date of defense


Legal Deposit

B. 29223-2012


360 p.


Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa


La Tesi la integren dues parts molt diferenciades que tenen en comú tractar de l'anàlisi de dades discretes i l'utilitzar conjunts de dades com a punt de partida. La primera part està escrita en anglès i s'adapta al format d'una tesi escrita per articles. Aquesta part gira al voltant del modelat i l'anàlisi de freqüències de freqüències fent servir models de barreja de Poisson truncats a zero. Primer es mostra com al truncar l'espai mostral del model Inversa Gaussiana-Poisson, es pot ampliar l'espai de paràmetres del model i es comprova els avantatges de fer-ho. A continuació es comprova que una generalització del model Inversa Gaussiana-Poisson ajusta molt bé aquest tipus de dades, i explora què passa si intercanvies l'ordre entre barrejar i truncar la distribució de Poisson. L'últim capítol d'aquesta primera part defensa que la gràcia de fer servir el truncament de la barreja de Poissons per ajustar aquest tipus de dades és que permet estimar la densitat de la freqüència de paraules del vocabulari de l'autor. També proposa estimar mesures de diversitat a través de la variabilitat d'aquestes estimacions de la freqüència de paraula del vocabulari. Aquests models permeten estimar la distribució de vocabulari d'un autor i donen peu a comparar la riquesa i diversitat de vocabulari entre autors. La segona part de la tesi, escrita en català, segueix el format de tesi tradicional i està motivada al voltant de l'anàlisi dels resultats a les últimes cinc eleccions al Parlament de Catalunya. Mitjançant models Bayesians per a l'anàlisi cluster per a dades categòriques identificarem l'existència de patrons de vot, veurem quines àrees geogràfiques pertanyen a cada patró de vot i estudiarem com aquests patrons han anat variant al llarg de les diferents eleccions. L'objectiu d'aquesta segona part és doble. Per un cantó ajudem a desenvolupar metodologia per comparar i validar models Bayesians en el context de l'anàlisi cluster de resultats electorals fent servir eines de representació gràfica. Per un altre cantó analitzem l'evolució dels resultats electorals observats. Queda pendent estendre els models Bayesians seleccionats de forma que permetin estimar les matrius de transició de vot entre eleccions consecutives.

This phD thesis is composed of two very different parts that have incommon the fact that they deal with the analysis of discrete dataand the use data as the starting point.The first part is written in English and it is formatted as a thesiswritten by articles. This part focuses on the modeling and theanalysis of frequencies of frequencies using zero truncated Poissonmixture models. First, it shows that by truncating the sample spaceof the inverse Gaussian-Poisson model one is allowed to extend itsparameter space and in that way improve its fit. A three parametergeneralization of this model is the zero truncated generalizedinverse Gaussian-Poisson mixture model. In this thesis we also checkthat this three parameter model provides excellent fits for thesetype of data, and also we compare the fit of the truncatedgeneralized inverse Gaussian-Poisson mixture model with the fit ofthe model that results from switching the order of the mixing andtruncation stages. The last chapter of this first part argues thatusing zero truncated Poisson mixture models to fit this type of dataallows one to estimate the density of the frequency of words in thevocabulary of the author. It also proposes to estimate measures ofdiversity through the variability of these estimates of the wordfrequencies of vocabulary. These models allow one to estimate thedistribution of the vocabulary of an author and in that way allowone to compare the richness and diversity of vocabulary amongauthors.The second part of the thesis, written in Catalan, follows thetraditional phD thesis format, and it is motivated by the analysisof the results on the last five elections to the Parliament ofCatalonia. Through the use of Bayesian models for the clusteranalysis of categorical data we identify the existence of votingpatterns, we allocate the areas to each patterns of vote and westudy how these patterns have varied along the different elections.The aim of this second part is double. On one hand we help developmethodology to compare and validate Bayesian models in the contextof the cluster analysis of electoral data using graphical tools. Onthe other hand, we analyze the evolution of the observed electoralresults. In the near future we plan to extend these Bayesian modelsin order to estimate the vote transition matrices from one electionto the next.Lloc


33 - Economics








