dc.description.abstract
Estem immersos en una explosió de dades que fa necessari ampliar
i millorar els mètodes que permeten extreure’n informació. Un dels
primers processos per convertir les dades en informació es coneix com
a EDA (o anàlisi exploratòria de dades) que consisteix a observar
les característiques d’un conjunt de dades, sense posar l’accent en el
modelatge de les dades o el contrast d’hipòtesis preconcebudes. Si
aquesta exploració se serveix de gràfiques que representen les dades,
aleshores es coneix com a GEDA (o anàlisi gràfica exploratòria de
dades).
Observar les dades mitjançant gràfiques, sense hipòtesis preconcebudes,
i que aquestes gràfiques ens facin descobrir aspectes de les
dades que facin emergir noves hipòtesis, ens condueix a allò que es coneix
com el problema gràfic: d’entre el ventall de gràfiques possibles...
quina triar? Aquí entren en servei els recomanadors de gràfiques
estadístiques i els sistemes autoGEDA (o sistemes automatitzats
d’anàlisi gràfica exploratòria de dades).
La recomanació de gràfiques estadístiques es pot fer seguint diferents
estratègies. D’una banda, a partir de les característiques de
les dades, com ara el nombre de variables a relacionar, les característiques
de les variables per separat, les característiques de les
relacions entre aquestes, la manera com s’estructuren les dades i la
seva procedència o utilitat per a la qual s’han recollit. D’altra banda,
tenim les característiques dels usuaris receptors, és a dir, les característiques
de la percepció humana, la tasca a realitzar per l’usuari,
el record de seleccions prèvies i les convencions socials. També es
poden recomanar gràfiques en funció de les característiques del canal
de comunicació, per exemple, a causa de limitacions en la transmissió
de dades, de processament o de la mida de la pantalla on es projecta
la gràfica. Finalment, també es poden recomanar gràfiques a partir
de les característiques, més o menys concretes, del tipus de gràfica
desitjada.
Entre les estratègies que es poden seguir per recomanar gràfiques
estadístiques, tenen especial rellevància el nombre de variables a
relacionar i les característiques de les variables per separat. Entre les
característiques que es poden descriure de cadascuna de les variables
i que tenen incidència en la selecció d’una gràfica estadística o una
altra, trobem aspectes com, per exemple, l’escala de mesura de les
variables, la consideració d’aquestes com a predictores o de resposta,
el nombre d’observacions o el recompte de valors diferents observats.
Donada una selecció limitada de variables d’un conjunt de dades,
com més detallada és la caracterització d’aquestes variables, menor
és el nombre de gràfiques estadístiques que poden ser interessants
per a l’usuari.
A partir d’aquesta premissa, aquest treball proposa una caracterització
multidimensional de les variables per separat que és útil per
escollir quines gràfiques mostrar a un usuari a partir de les característiques
de les variables seleccionades per aquest. La caracterització
proposada considera l’escala de mesura gràfica, el mètode d’agregació
de les dades, la ciclicitat de l’espai mostral, la conveniència de mostrar
explícitament l’escala de la variable i la longitud d’aquesta. A
partir de la caracterització proposada de les variables per separat
i de les gràfiques estadístiques a què cada combinació de variables
es pot associar, s’estableix un marc amb què es poden classificar les
gràfiques estadístiques.
La caracterització de les variables proposada, malgrat les possibles
millores a què es pugui sotmetre, pot ser la llavor d’una gramàtica
de les gràfiques que, en comptes d’estar basada en models de representació,
estaria basada en les propietats de les variables. Això
es traduiria, per exemple, en definir una variable com a ambigua
per eliminar un determinat eix de coordenades o una determinada
llegenda, definir una variable com a cíclica per convertir un eix de
coordenades ortogonal en un circular, o definir una variable com de
tipus tamisat per convertir, per exemple, un diagrama uniaxial de
punt en un histograma o un diagrama de dispersió en un mapa de
calor.
No cal perdre de vista, però, que els conjunts de dades es troben
emmagatzemats, generalment, en sistemes informàtics que ja tenen
caracteritzades les variables amb un altre criteri que, en comptes
de perseguir la millor visualització, persegueix minimitzar l’espai
d’emmagatzematge. Donada aquesta caracterització preestablerta,
esperar que un usuari torni a caracteritzar les variables novament
abans d’obtenir una gràfica és, possiblement, un plantejament naïf.
Haver de tornar a caracteritzar les variables aixeca una barrera entre
les dades i l’usuari, més si tenim en compte que els usuaris no estan
necessàriament familiaritzats amb les dades.
Superar la barrera que suposa haver de caracteritzar les dades
té tres possibles solucions. La primera solució passa per aprofitar
la caracterització preestablerta de les dades per, en base a aquesta,
suggerir les gràfiques estadístiques. La segona solució passa per fer
suposicions en relació a les dades, de manera que la caracterització
de les variables sigui transparent per a l’usuari i que, en cas de
ser errònia, aquest pugui modificar-la. La tercera solució passa per
emmagatzemar les dades primant la possible explotació gràfica en
comptes de primar l’espai necessari en un disc dur o qualsevol altre
suport.
A l’hora de proposar un sistema de recomanació de gràfiques
estadístiques, en base a les característiques de les dades, entre les possibles
solucions per evitar que l’usuari hagi de tornar a caracteritzar
les variables, hem escollit la primera. En el nostre cas, hem aprofitat
la caracterització preestablerta en l’àmbit específic de l’entorn de programació
estadística R. El fruit d’aquesta implementació és el paquet
brinton per a R que inclou les funcions wideplot(), longplot(),
matrixplot() i plotup() que presenten de manera automàtica gràfiques
estadístiques, assisteixen a l’usuari en l’exploració dels conjunts
de dades mitjançant gràfiques univariades i bivariades, alhora que
faciliten l’elecció, edició i representació d’una gràfica determinada
per part de l’usuari.
Cada funció del paquet brinton afegeix una alternativa nova dins
l’àmbit de l’exploració gràfica automatitzada de dades i el conjunt
de les funcions, facilita i accelera el procés de generació d’informació
a partir d’un conjunt de dades. En un futur proper, la utilitat del
paquet brinton serà reforçada mitjançant la incorporació de noves
espècies als espècimens de gràfiques univariades i bivariades així com
la incorporació d’un nou espècimen de gràfiques trivariades i noves
funcions que complementin les existents.
Donat el ventall de gràfiques que el paquet brinton proporciona
i la facilitat amb què els usuaris poden triar entre una gràfica o
una altra, una futura línia de recerca és conèixer la relació entre les
gràfiques escollides i la utilitat que aquestes representen per als usuaris.
Aquesta relació permetria afegir precisió a la recomanació de gràfiques
estadístiques atès que, el ventall de gràfiques a mostrar, es podria
reduir a aquelles que són compatibles amb les dades seleccionades
i que millor expectativa tenen de satisfer la utilitat que l’usuari
n’espera.
ca