Un sistema de recomendación de gráficas estadísticas basado en las características de los datos

Author

Millán Martínez, Pere

Director

Oller Piqué, Ramon

Date of defense

2023-02-24

Pages

276 p.



Department/Institute

Universitat de Vic - Universitat Central de Catalunya. Departament d'Economia i Empresa

Abstract

Estem immersos en una explosió de dades que fa necessari ampliar i millorar els mètodes que permeten extreure’n informació. Un dels primers processos per convertir les dades en informació es coneix com a EDA (o anàlisi exploratòria de dades) que consisteix a observar les característiques d’un conjunt de dades, sense posar l’accent en el modelatge de les dades o el contrast d’hipòtesis preconcebudes. Si aquesta exploració se serveix de gràfiques que representen les dades, aleshores es coneix com a GEDA (o anàlisi gràfica exploratòria de dades). Observar les dades mitjançant gràfiques, sense hipòtesis preconcebudes, i que aquestes gràfiques ens facin descobrir aspectes de les dades que facin emergir noves hipòtesis, ens condueix a allò que es coneix com el problema gràfic: d’entre el ventall de gràfiques possibles... quina triar? Aquí entren en servei els recomanadors de gràfiques estadístiques i els sistemes autoGEDA (o sistemes automatitzats d’anàlisi gràfica exploratòria de dades). La recomanació de gràfiques estadístiques es pot fer seguint diferents estratègies. D’una banda, a partir de les característiques de les dades, com ara el nombre de variables a relacionar, les característiques de les variables per separat, les característiques de les relacions entre aquestes, la manera com s’estructuren les dades i la seva procedència o utilitat per a la qual s’han recollit. D’altra banda, tenim les característiques dels usuaris receptors, és a dir, les característiques de la percepció humana, la tasca a realitzar per l’usuari, el record de seleccions prèvies i les convencions socials. També es poden recomanar gràfiques en funció de les característiques del canal de comunicació, per exemple, a causa de limitacions en la transmissió de dades, de processament o de la mida de la pantalla on es projecta la gràfica. Finalment, també es poden recomanar gràfiques a partir de les característiques, més o menys concretes, del tipus de gràfica desitjada. Entre les estratègies que es poden seguir per recomanar gràfiques estadístiques, tenen especial rellevància el nombre de variables a relacionar i les característiques de les variables per separat. Entre les característiques que es poden descriure de cadascuna de les variables i que tenen incidència en la selecció d’una gràfica estadística o una altra, trobem aspectes com, per exemple, l’escala de mesura de les variables, la consideració d’aquestes com a predictores o de resposta, el nombre d’observacions o el recompte de valors diferents observats. Donada una selecció limitada de variables d’un conjunt de dades, com més detallada és la caracterització d’aquestes variables, menor és el nombre de gràfiques estadístiques que poden ser interessants per a l’usuari. A partir d’aquesta premissa, aquest treball proposa una caracterització multidimensional de les variables per separat que és útil per escollir quines gràfiques mostrar a un usuari a partir de les característiques de les variables seleccionades per aquest. La caracterització proposada considera l’escala de mesura gràfica, el mètode d’agregació de les dades, la ciclicitat de l’espai mostral, la conveniència de mostrar explícitament l’escala de la variable i la longitud d’aquesta. A partir de la caracterització proposada de les variables per separat i de les gràfiques estadístiques a què cada combinació de variables es pot associar, s’estableix un marc amb què es poden classificar les gràfiques estadístiques. La caracterització de les variables proposada, malgrat les possibles millores a què es pugui sotmetre, pot ser la llavor d’una gramàtica de les gràfiques que, en comptes d’estar basada en models de representació, estaria basada en les propietats de les variables. Això es traduiria, per exemple, en definir una variable com a ambigua per eliminar un determinat eix de coordenades o una determinada llegenda, definir una variable com a cíclica per convertir un eix de coordenades ortogonal en un circular, o definir una variable com de tipus tamisat per convertir, per exemple, un diagrama uniaxial de punt en un histograma o un diagrama de dispersió en un mapa de calor. No cal perdre de vista, però, que els conjunts de dades es troben emmagatzemats, generalment, en sistemes informàtics que ja tenen caracteritzades les variables amb un altre criteri que, en comptes de perseguir la millor visualització, persegueix minimitzar l’espai d’emmagatzematge. Donada aquesta caracterització preestablerta, esperar que un usuari torni a caracteritzar les variables novament abans d’obtenir una gràfica és, possiblement, un plantejament naïf. Haver de tornar a caracteritzar les variables aixeca una barrera entre les dades i l’usuari, més si tenim en compte que els usuaris no estan necessàriament familiaritzats amb les dades. Superar la barrera que suposa haver de caracteritzar les dades té tres possibles solucions. La primera solució passa per aprofitar la caracterització preestablerta de les dades per, en base a aquesta, suggerir les gràfiques estadístiques. La segona solució passa per fer suposicions en relació a les dades, de manera que la caracterització de les variables sigui transparent per a l’usuari i que, en cas de ser errònia, aquest pugui modificar-la. La tercera solució passa per emmagatzemar les dades primant la possible explotació gràfica en comptes de primar l’espai necessari en un disc dur o qualsevol altre suport. A l’hora de proposar un sistema de recomanació de gràfiques estadístiques, en base a les característiques de les dades, entre les possibles solucions per evitar que l’usuari hagi de tornar a caracteritzar les variables, hem escollit la primera. En el nostre cas, hem aprofitat la caracterització preestablerta en l’àmbit específic de l’entorn de programació estadística R. El fruit d’aquesta implementació és el paquet brinton per a R que inclou les funcions wideplot(), longplot(), matrixplot() i plotup() que presenten de manera automàtica gràfiques estadístiques, assisteixen a l’usuari en l’exploració dels conjunts de dades mitjançant gràfiques univariades i bivariades, alhora que faciliten l’elecció, edició i representació d’una gràfica determinada per part de l’usuari. Cada funció del paquet brinton afegeix una alternativa nova dins l’àmbit de l’exploració gràfica automatitzada de dades i el conjunt de les funcions, facilita i accelera el procés de generació d’informació a partir d’un conjunt de dades. En un futur proper, la utilitat del paquet brinton serà reforçada mitjançant la incorporació de noves espècies als espècimens de gràfiques univariades i bivariades així com la incorporació d’un nou espècimen de gràfiques trivariades i noves funcions que complementin les existents. Donat el ventall de gràfiques que el paquet brinton proporciona i la facilitat amb què els usuaris poden triar entre una gràfica o una altra, una futura línia de recerca és conèixer la relació entre les gràfiques escollides i la utilitat que aquestes representen per als usuaris. Aquesta relació permetria afegir precisió a la recomanació de gràfiques estadístiques atès que, el ventall de gràfiques a mostrar, es podria reduir a aquelles que són compatibles amb les dades seleccionades i que millor expectativa tenen de satisfer la utilitat que l’usuari n’espera.

Keywords

Estadística--Quadres, gràfics, etc.; Conjunts de dades; Sistemes informàtics

Subjects

311 - Statistics

Knowledge Area

Estadística

Documents

tesdoc_a2022_millan_pere_sistema_recomendacion.pdf

26.60Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)