Coeficient de correlació de Spearman

De Viquipèdia
Dreceres ràpides: navegació, cerca

En estadística, el coeficient de correlació de Spearman , ρ (rho), és una mesura de la correlació (l'associació o interdependència) entre dues variables aleatòries contínues. Per calcular ρ, les dades són ordenats i reemplaçats per la seva respectiu ordre.

L'estadístic ρ ve donat per l'expressió:

 \Rho = 1 -{\frac{6 \sum D^2}{N (N^2-1 )}}

on D és la diferència entre els corresponents valors de x - i . N és el nombre de parelles.

S'ha de considerar l'existència de dades idèntics a l'hora de ordenar, encara que si aquests són pocs, es pot ignorar aquesta circumstància

Per a mostres més grans de 20 observacions, podem utilitzar la següent aproximació a la distribució t de Student

 T = \frac{\rho}{\sqrt{(1 - \rho^2)/(n-2 )}}


La interpretació de coeficient de Spearman és igual que la de l'coeficient de correlació de Pearson. Oscil·la entre -1 i+1, indicant-nos associacions negatives o positives respectivament, 0 zero, significa no correlació però no independència. La tau de Kendall és un coeficient de correlació per rangs, inversions entre dues ordenacions d'una distribució normal bivariant.


Exemple[modifica | modifica el codi]

Les dades bruts usats en aquest exemple es veuen sota.

CI Hores de TV a la setmana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17

El primer pas és ordenar les dades de la primera columna. Després, es creen dues columnes més. Ambdues són per ordenar (establir un lloc en la llista) de les dues primeres columnes. Després es crea una columna "d" que mostra les diferències entre les dues columnes d'ordre. Finalment, es crea una altra columna "d 2 ". Aquesta última és només la columna "d" al quadrat.

Després de realitzar tot això amb les dades de l'exemple, s'hauria de posar fi alguna cosa com el següent:


CI (i) Hores de TV a la setmana (t) Ordre (i) Ordre (t) D D 2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 05/04 10 05/05 30.25
100 28 05/04 8 03/05 25/12
103 28 6 8 2 4
106 7 7 05/02 05/04 20.25
110 17 8 5 3 9
113 7 09/05 05/02 7 49
113 12 09/05 4 05/05 30.25

Noteu com el número d'ordre dels valors que són idèntics és la mitjana dels números d'ordre que els correspondrien si no ho fossin.

Els valors de la columna d 2 poden ser sumats per esbrinar  \sum d_i^2 = 196 . El valor de n és 10. Així que aquests valors poden ser substituïts en la fórmula.

 \Rho = 1 -{\frac{6 \times196}{10 (10^2-1 )}}

Del que resulta  \rho = -0.187878787879 .

Determinant la significació estadística[modifica | modifica el codi]

L'aproximació moderna al problema d'esbrinar si un valor observat de ρ és significativament diferent de zero (sempre tindrem 1 ≥ ρ ≥ -1) és calcular la probabilitat que sigui major o igual que el ρ esperat, donada la hipòtesi nul·la, utilitzant un test de permutació. Aquesta aproximació és gairebé sempre superior als mètodes tradicionals, llevat que el data set sigui tan gran que la potència informàtica no sigui suficient per generar permutacions (poc probable amb la informàtica moderna), o llevat que sigui difícil crear un algorisme per crear permutacions que siguin lògiques sota la hipòtesi nul en el cas particular de què es tracti (encara que normalment aquests algorismes no ofereixen dificultat).

Encara que el test de permutació és sovint trivial per a qualsevol amb recursos informàtics i experiència en programació, encara es fan servir àmpliament els mètodes tradicionals per obtenir significació. L'aproximació més bàsica és comparar el ρ observat amb taules publicades per a diversos nivells de significació. És una solució simple si la significació només necessita saber-se dins d'un cert rang, o ser menor d'un determinat valor, mentre hi hagi taules disponibles que especifiquin els rangs adequats. Més avall hi ha una referència a una taula semblant. No obstant això, generar aquestes taules és computacionalment intensiu i al llarg dels anys s'han fet servir complicats trucs matemàtics per a generar taules per mides de mostra cada vegada més grans, de manera que no és pràctic per a la majoria estendre les taules existents.

Una aproximació alternativa per mides de mostra prou grans és una aproximació a la distribució t de Student. Per mides de mostra més grans que uns 20 individus, la variable

 T = \frac{\rho}{\sqrt{(1 - \rho^2)/(n-2 )}}

té una distribució t de Student en el cas nul (correlació zero). En el cas no nul (ex: per esbrinar si un ρ observat és significativament diferent a un valor teòric o si dues ρs observats difereixen significativament, els tests són molt menys potents, però pot utilitzar-se de nou la distribució t .

Una generalització del coeficient de Spearman és útil en la situació en la qual hi ha tres o més condicions, diversos individus són observats en cadascuna d'elles, i predir que les observacions tindran un ordre en particular. Per exemple, un conjunt d'individus poden tenir tres oportunitats per intentar certa tasca, i predir que la seva habilitat millorarà d'intent en intent. Un test de la significació de la tendència entre les condicions en aquesta situació va ser desenvolupat per E. B. Page i normalment sol conèixer com Page's trend test per alternatives ordenades.

Enllaços externs[modifica | modifica el codi]

Vegeu també[modifica | modifica el codi]