Prova de khi-quadrat de Pearson

De Viquipèdia
Dreceres ràpides: navegació, cerca
Un test khi-quadrat

La prova de khi-quadrat2) de Pearson és el més coneguda entre les diverses proves estadístiques basades en la distribució khi quadrat. Les seves propietats van ser investigades per Karl Pearson. La prova avalua una hipòtesi nul·la que sosté que la freqüència d'un succés segueix una determinada distribució. Els successos s'han de considerar com a mutualment exclusius i han de tenir una probabilitat total d'u. Un cas ben comú és la hipòtesi que en un dau hi ha la mateixa probabilitat (1/6) que toqui una cara o una altra.

Definició[modifica | modifica el codi]

La prova de khi-quadrat de Pearson s'usa per a fer dos tipus de proves: les de bondat d'ajustament i les proves d'independència. Una prova de bondat d'ajustament estableix si una distribució de freqüències observada s'ajusta o no a una determinada distribució. La prova d'independència determina si dues variables comparades en parelles, amb les comparacions expressades en una taula de contingència, són independents una de l'altra.

El primer pas per a fer una prova de khi-quadrat és calcular l'estadístic khi-quadrat. Això es duu a terme trobant la diferència entre cada freqüència observada i cada freqüència esperada (teòrica), elevant aquesta diferència al quadrat, dividint-la per la freqüència teòrica, i fent la suma de cada un d'aquests semi-resultats. Una altra cosa important en la prova és determinar els seus graus de llibertat.

Bondat d'ajustament[modifica | modifica el codi]

En aquest cas N observacions es divideixen en n cel·les. Un exemple molt clar d'aquest fet és que en una població, un determinat succés succeeix en cada cel·la en una determinada freqüència. La "freqüència teòrica" de cada cel·la es calcula com:

E_i=N/n \, ,

Els graus de llibertat de la prova de la bondat d'ajustament \upsilon es calculen com: \upsilon = n-s, on n és el nombre de cel·les, o on s és el nombre de paràmetres estadístics que hem hagut de suposar com a poblacionals essent mostrals.

El valor de l'estadístic de la prova és

 \chi^{2} = \sum_{i=1}^{n} {(O_i - E_i)^2 \over E_i} ,

on

\chi^{2} = és l'estadístic de la prova que s'apropa asimptòticament a una distribució χ2;
O_i = la freqüència observada;
E_i = la freqüència teòrica calculada segons la distribució de la hipòtesi nul·la;
n = el nombre de cel·les.

Aquest valor que s'obté llavors s'ha de comparar amb l'altra khi-quadrat obtinguda a partir de la distribució khi-quadrat en base al nombre de graus de llibertat \upsilon i nivell de significació o risc \alpha. Si la khi-quadrat obtinguda és més petita que la que figura en les taules de la distribució khi-quadrat llavors s'accepta la hipòtesi nul·la.

Prova d'independència[modifica | modifica el codi]

En aquest cas l'observació consisteix de valor provinents de dues variables i amb la hipòtesi nul·la que el succés és estadísticament independent. Cada succés se situa en una cel·la d'una taula d'acord amb les variables. Si la taula té m files i n columnes, la freqüència teòrica d'una cel·la es calcula com:

E_{i,j}=\frac{\sum_{k=1}^{m} O_{i,k} \sum_{k=1}^{n} O_{k,j}}{N} \, ,

essent el nombre de graus de llibertat \upsilon=m+n-1. El valor de l'estadístic de la prova és:

 \chi^{2} = \sum_{i=1}^{m} \sum_{j=1}^{n} {(O_{i,j} - E_{i,j})^2 \over E_{i,j}} .

En una prova d'independència, si el valor del paràmetre estadístic de la prova és major que 0,05 es rebutja la hipòtesi nul·la que les files són independents de les columnes[1] La hipòtesi alternativa és que les dues variables estan associades.

Assumpcions[modifica | modifica el codi]

La khi assumeix el següent:

  • Aleatorietat: Un recull de dades aleatori entre una població
  • Mida de la mostra: La mostra és suficientment gran. Si la prova de khi-quadrat té una mida petita, llavors és més probable que es cometi un error del Tipus II (γ)
  • Mida de la mostra per cel·les: Que les mides són adequades. Una regla comuna és un mínim de 5.
  • Independència: Les observacions sempre s'assumeixen com a independents.

Notes[modifica | modifica el codi]

  1. «Valors crítics de la distribució khi-quadrat». NIST/SEMATECH e-Handbook of Statistical Methods. National Institute of Standards and Technology.