Anàlisi de correspondències

De Viquipèdia
Dreceres ràpides: navegació, cerca

A estadística multivariant, l'anàlisi de correspondències ((anglès) Correspondence analysis, CA) és una tècnica descriptiva proposada[1] per Hirschfeld[2] i posteriorment desenvolupada per Jean-Paul Benzécri.[3]

Totes les dades han de ser no-negatives i en la mateixa escala per tal de poder aplicar l'anàlisi de correspondències, i el mètode tracta les files i les columnes de forma equivalent. Se sol aplicar a l'estudi de taules de contingència i és conceptualment similar a l'anàlisi de components principals amb la diferència que en l'anàlisi de correspondències les dades s'escalen de manera que files i columnes es tracten de manera equivalent. És una manera de visualitzar o resumir un conjunt de dades en una representació de dues dimensions.

L'anàlisi de correspondències descompon l'estadístic del test de la khi-quadrat associat a una taula de contingència en components ortogonals.[4] Atès que es tracta d'una tècnica descriptiva, es pot aplicar fins i tot en circumstàncies en què l'estadístic χ² no és apropiat.[4][5]

Detalls[modifica | modifica el codi]

A l'igual que l'anàlisi de components principals, l'anàlisi de correspondències crea components ortogonals i, per a cada element d'una taula, crea un conjunt de puntuacions (de vegades anomenats puntuacions de factors). L'anàlisi de correspondències es realitza sobre una taula de contingència C, de grandària m×n on m és el nombre de files i n el nombre de columnes.

Preprocessament[modifica | modifica el codi]

A partir d'una taula C, es calcula un conjunt de pesos per a les columes i les files,[4][5] on els pesos de les files són

w_m = (1C1)^{-1} C1

i els pesos de les columnes són

w_n = (1C1)^{-1} 1C.

A continuació, es calcula una taula S (anomenada matriu estocàstica), on C es divideix per la suma de C

S = (1C1)^{-1} C.

Finalment, es calcula una taula M a partir de S i dels pesos:

M = S-w_{m}w_{n}.

Components ortogonals[modifica | modifica el codi]

Llavors es descompon la taula M mitjançant la descomposició en valors singulars generalitzats, on els vectors singulars per l'esquerra i per la dreta estan restringits pels pesos. Els pesos són taules diagonals

W_{m} = \operatorname{diag}\{w_{m}\}

i

W_{n} = \operatorname{diag}\{w_{n}\}

on els elements de la diagonal de W_{n} són w_{n} i els de fora de la diagonal són 0.

Llavors s'obté la descomposició de M:

M = U\Sigma V^* \,

on

U^* W_m U = V^* W_n V = I.

Puntuació de factors[modifica | modifica el codi]

Les puntuacions de factors per als elements fila de la taula C són

F_{m} = W_{m} U \Sigma

i pels elements columna

F_{n} = W_{n} V \Sigma.

Extensions i aplicacions[modifica | modifica el codi]

Existeixen diverses variants de l'anàlisi de correspondències, incloent-hi l'anàlisi de correspondències amb eliminació de la tendència ((anglès) detrended correspondence analysis, DCA) i l'anàlisi de correspondències canòniques ((anglès) canonical correspondence analysis, CCA). L'extensió de l'anàlisi de correspondències a més d'una variable categòrica s'anomena anàlisi de correspondències múltiple. Una adaptació de l'anàlisi de correspondències al problema de discriminació basat en variables qualitatives (és a dir, l'equivalent de l'anàlisi discriminant per a dades qualitatives) s'anomena anàlisi de correspondències discriminant o anàlisi discriminant baricèntric.

En ciències socials, l'anàlisi de correspondències, i en particular l'anàlisi de correspondències múltiple, es va donar a conéixer fora de França pel sociòleg francès Pierre Bourdieu.[6]

Implementacions[modifica | modifica el codi]

  • El sistema de visualització de dades Orange inclou el mòdul: orngCA.
  • El sistema estadístic R inclou els paquets: ade4, ca, vegan, ExPosition i FactoMineR, que realitzen anàlisi de correspondències i anàlisi de correspondències múltiples.[7]

Referències[modifica | modifica el codi]

  1. Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP ISBN 0-19-850994-4
  2. Hirschfeld, H.O. (1935) "A connection between correlation and contingency", Proc. Cambridge Philosophical Society, 31, 520–524
  3. Benzécri, J.-P.. L'Analyse des Données. Volume II. L'Analyse des Correspondances. Paris, France: Dunod, 1973. 
  4. 4,0 4,1 4,2 Greenacre, Michael. Theory and Applications of Correspondence Analysis. London: Academic Press, 1983. ISBN 0-12-299050-1. 
  5. 5,0 5,1 Greenacre, Michael. Correspondence Analysis in Practice, Second Edition. London: Chapman & Hall/CRC, 2007. 
  6. Bourdieu, Pierre. Distinction. Routledge, 1984, p. 41. ISBN 0674212770. 
  7. orngCA

Vegeu també[modifica | modifica el codi]

Enllaços externs[modifica | modifica el codi]

  • Greenacre, Michael (2008), La Práctica del Análisis de Correspondencias, BBVA Foundation, Madrid, Spanish translation of Correspondence Analysis in Practice, available for free download from BBVA Foundation publications
  • Greenacre, Michael (2010), Biplots in Practice, BBVA Foundation, Madrid, available for free download at multivariatestatistics.org