Test d'hipòtesis com a selecció de models. Una aproximació geomètrica


Autor/a

Cubedo Culleré, Marta

Director/a

Oller i Sala, Josep Maria

Data de defensa

2002-09-27

ISBN

9788469343784

Dipòsit Legal

B.32145-2010



Departament/Institut

Universitat de Barcelona. Departament d'Estadística

Resum

L'objectiu general d'aquest treball és posar de relleu alguns problemes relacionats amb la teoria dels tests d'hipòtesis i aportar nous elements que donin uns criteris per a la selecció de models estadístics. Per això usarem principalment, com a mitjà, tècniques geomètriques en el context de l'estadística, i així proposarem noves metodologies, alternatives o complementàries a les tècniques clàssiques, basades en les propietats geomètriques dels models estadístics. En tot aquest treball es tractarà, de forma unificada, el problema de l'especificació del model i els tests d'hipòtesis. Per aclarir una mica més aquesta idea podem dir que es tractaran els tests d'hipòtesis des de la perspectiva de la selecció de models, en el sentit que acceptar una hipòtesi consistirà, essencialment, en acceptar que un model descriurà els trets més rellevants de una part de la realitat <i>millor</i>, segons uns criteris prèviament explicitats, que un altre més complex. Per tant els tests d'hipòtesis i la selecció de models es tractaran a través d'unes mateixes eines metodològiques.<br/><br/>De fet, dintre del context dels tests d'hipòtesis, es donen una sèrie de paradoxes que moltes vegades passen desapercebudes, o bé són acceptades, pels estadístics, i no estadístics, que els utilitzen, però que deixen entreveure unes certes mancances a nivell conceptual. Recordem, que en la formulació clàssica dels tests d'hipòtesis, moltes vegades s'accepta una hipòtesi la qual sabem, estrictament parlant, que és falsa. Però prendre aquests tipus de decisions pot ser raonable per diverses raons: doncs un model més senzill ens pot permetre sintetitzar o simplificar una realitat complexa, facilitant, a més, la predicció de nous resultats amb un cert grau de fiabilitat. El que no sembla doncs massa raonable és que aquestes decisions entre hipòtesis es prenguin en base a les seves probabilitats, o probabilitats condicionades, d'error, donat que sabem, en sentit estricte, que són falses.<br/><br/>Des d'aquest punt de vista, i tal com es desenvolupa en la secció 2 del capítol 1, la qüestió bàsica de la inferència estadística no hauria de ser: <i>Quina és la probabilitat que una afirmació donada sigui certa?</i>, doncs sabem que cap afirmació és estrictament certa, en el sentit que els models utilitzats en aquest context són només aproximacions de la realitat. Més aviat, la qüestió bàsica hauria de ser: <i>quant allunyada està una determinada afirmació de la realitat?</i>, suposant, és clar, que s'ha definit una distància per mesurar-ho. Dit en altres paraules, una estructura formal per a determinats tipus de raonaments inductius s'hauria de fonamentar més en una mesura de proximitat a la <i>realitat</i>, que no pas en una probabilitat. De fet, la probabilitat és una molt bona eina per quantificar la propensió a ocórrer dels esdeveniments observables, doncs parlem en termes de si un esdeveniment ocorre o no, i no pas en termes de si aquest esdeveniment és <i>vertader</i> o <i>fals</i>. En aquest sentit la probabilitat és una eina bàsica per construir models teòrics de fenòmens observables, però en inferència estadística, segons el que hem comentat anteriorment, sembla més adient utilitzar una distància.<br/><br/>En aquest treball s'ha intentat donar una metodologia alternativa basada en distàncies sobre els models estadístics paramètrics. Com és ben sabut, aquests models, sota certes condicions generals de regularitat, tenen estructura de varietat Riemanniana, de manera que apareix com a distància natural la distància Riemanniana, la qual podem utilitzar com a eina per quantificar l'error estadístic.<br/><br/>En el capítol 2 es proposen quatre mètodes, tot i que, de fet, podríem parlar d'un únic mètode en el sentit que tots ells comparteixen una mateixa filosofia de fons que s'implementa, a efectes pràctics, segons les diferents preferències a l'hora de treballar en estadística: freqüentista o Bayesiana, utilitzant probabilitats o bé moments.<br/><br/>Cal tenir en compte també que tots ells es basaran en l'acceptació d'un estimador convenient pel model general, com per exemple l'estimador màxim-versemblant, del vertader valor del paràmetre. Així doncs, i seguint la línia que hem comentat a l'inici d'aquest paràgraf, els quatre mètodes sorgeixen de les combinacions de dues regles i dos procediments. Les regles es defineixen per comparar els errors fets en realitzar les estimacions sota l'espai general de paràmetres i sota el subespai definit per la hipòtesi nul.la, en una regla es comparen probabilitats i en l'altra moments, rebent els noms de regla-"p" i regla-"m", respectivament. Els dos procediments es defineixen per obtenir una estimació en la mesura de l'error sota el subespai de paràmetres definit per la hipòtesi nul.la, utilitzant una aproximació freqüentista en un cas, i una Bayesiana en l'altre. Aquest dos procediments rebran el nom de procediment-"f" i procediment-"b" respectivament. En aquest segon capítol es tractarà també, la relació entre hipòtesis simples i comportes i les distribucions asimptòtiques d'algunes de les distàncies que apareixen en els mètodes anteriorment descrits.<br/><br/>Des del tercer capítol fins al sisé, es veuran diferents aplicacions dels mètodes a diferents models estadístics coneguts, com és el cas del model normal "n"-variant amb "Sigma" coneguda, el model Poisson, el model Gamma i el model lineal normal. Notem, però, que en el capítol 4 es donarà una aproximació asimptòtica per a un model estadístic paramètric regular "n"-dimensional general, això es farà utilitzant un dels mètodes abans proposats.<br/><br/>Finalment s'estudiarà el comportament dels mètodes proposats quan no es compleix una de les suposicions bàsiques plantejades en aquest nou desenvolupament metodològic: quan no podem suposar que la probabilitat <i>a priori</i> corresponent a la hipòtesi nul.la, o submodel, és zero. Veurem com en aquest cas encara es donen resultats raonables, la qual cosa mostra la robustesa d'aquests nous mètodes.


In many cases when scientists use hypothesis tests they are fully aware that the statistical model itself, and <i>a fortiori</i> the null hypothesis, is only a partial description of reality, and, from a logical point of view, it is not strictly true. But there are several reasons why a (strictly speaking false) model might be developed: it allows us to synthesize data variability, while maintaining a reasonable fit with observed data, and also it facilitates prediction of new phenomena with a certain degree of accuracy. Quite simply, modelling makes reality more readily understandable.<br/><br/>From this point of view, the basic question of statistical inference is not: <i>What is the probability that a given statement is true?</i>, since it is known that any assertion is not strictly true, rather the basic question is: <i>How far does this statement lie from a true statement?</i>, provided a distance to measure this were previously supplied. In other words, a formal structure for a certain class of inductive reasoning should be based more on a measure of <i>closeness to the</i> approximate <i>truth</i> than on <i>probability.</i><br/><br/>In the present work, we consider hypothesis testing problems in the context of parametric statistical models when the dimension corresponding to the null hypothesis is strictly smaller than the dimension of the whole model. We aim to solve problems of this kind by adopting methods which supply us with precise explanation as to why sometimes we choose the simplest model (null hypothesis) although it is not truthful.<br/><br/>We develop an alternative methodology, based on point estimation tools, and we use distances over the parametric statistical models to supply a quantitative scalar measure of the errors corresponding to the estimations. This methodology is applied to various situations and compared with classical techniques.

Paraules clau

Tècniques geomètriques (Matemàtica); Models estadístics; Tests d'hipòtesis; Estadística

Matèries

51 - Matemàtiques

Àrea de coneixement

Ciències Experimentals i Matemàtiques

Documents

MCC_TESI.pdf

666.7Kb

 

Drets

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)