Anàlisi de correspondències

De la Viquipèdia, l'enciclopèdia lliure

A estadística multivariant, l'anàlisi de correspondències ((anglès) Correspondence analysis, CA) és una tècnica descriptiva proposada[1] per Hirschfeld[2] i posteriorment desenvolupada per Jean-Paul Benzécri.[3]

Totes les dades han de ser no-negatives i en la mateixa escala per tal de poder aplicar l'anàlisi de correspondències, i el mètode tracta les files i les columnes de forma equivalent. Se sol aplicar a l'estudi de taules de contingència i és conceptualment similar a l'anàlisi de components principals amb la diferència que en l'anàlisi de correspondències les dades s'escalen de manera que files i columnes es tracten de manera equivalent. És una manera de visualitzar o resumir un conjunt de dades en una representació de dues dimensions.

L'anàlisi de correspondències descompon l'estadístic del test de la khi-quadrat associat a una taula de contingència en components ortogonals.[4] Atès que es tracta d'una tècnica descriptiva, es pot aplicar fins i tot en circumstàncies en què l'estadístic no és apropiat.[4][5]

Detalls[modifica]

Igual que l'anàlisi de components principals, l'anàlisi de correspondències crea components ortogonals i, per a cada element d'una taula, crea un conjunt de puntuacions (de vegades anomenats puntuacions de factors). L'anàlisi de correspondències es realitza sobre una taula de contingència C, de grandària m×n on m és el nombre de files i n el nombre de columnes.

Preprocessament[modifica]

A partir d'una taula C, es calcula un conjunt de pesos per a les columes i les files,[4][5] on els pesos de les files són

i els pesos de les columnes són

.

A continuació, es calcula una taula S (anomenada matriu estocàstica), on C es divideix per la suma de C

.

Finalment, es calcula una taula M a partir de S i dels pesos:

.

Components ortogonals[modifica]

Llavors es descompon la taula M mitjançant la descomposició en valors singulars generalitzats, on els vectors singulars per l'esquerra i per la dreta estan restringits pels pesos. Els pesos són taules diagonals

i

on els elements de la diagonal de són i els de fora de la diagonal són 0.

Llavors s'obté la descomposició de M:

on

.

Puntuació de factors[modifica]

Les puntuacions de factors per als elements fila de la taula C són

i pels elements columna

.

Extensions i aplicacions[modifica]

Existeixen diverses variants de l'anàlisi de correspondències, incloent-hi l'anàlisi de correspondències amb eliminació de la tendència ((anglès) detrended correspondence analysis, DCA) i l'anàlisi de correspondències canòniques ((anglès) canonical correspondence analysis, CCA). L'extensió de l'anàlisi de correspondències a més d'una variable categòrica s'anomena anàlisi de correspondències múltiple. Una adaptació de l'anàlisi de correspondències al problema de discriminació basat en variables qualitatives (és a dir, l'equivalent de l'anàlisi discriminant per a dades qualitatives) s'anomena anàlisi de correspondències discriminant o anàlisi discriminant baricèntric.

En ciències socials, l'anàlisi de correspondències, i en particular l'anàlisi de correspondències múltiple, es va donar a conéixer fora de França pel sociòleg francès Pierre Bourdieu.[6]

Implementacions[modifica]

  • El sistema de visualització de dades Orange inclou el mòdul: orngCA.
  • El sistema estadístic R inclou els paquets: ade4, ca, vegan, ExPosition i FactoMineR, que realitzen anàlisi de correspondències i anàlisi de correspondències múltiples.[7]

Referències[modifica]

  1. Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP ISBN 0-19-850994-4
  2. Hirschfeld, H.O. (1935) "A connection between correlation and contingency", Proc. Cambridge Philosophical Society, 31, 520–524
  3. Benzécri, J.-P.. L'Analyse des Données. Volume II. L'Analyse des Correspondances. Paris, France: Dunod, 1973. 
  4. 4,0 4,1 4,2 Greenacre, Michael. Theory and Applications of Correspondence Analysis. London: Academic Press, 1983. ISBN 0-12-299050-1. 
  5. 5,0 5,1 Greenacre, Michael. Correspondence Analysis in Practice, Second Edition. Londres: Chapman & Hall/CRC, 2007. 
  6. Bourdieu, Pierre. Distinction. Routledge, 1984, p. 41. ISBN 0674212770. 
  7. orngCA

Vegeu també[modifica]

Enllaços externs[modifica]

  • Greenacre, Michael (2008), La Práctica del Análisis de Correspondencias, BBVA Foundation, Madrid, Spanish translation of Correspondence Analysis in Practice, available for free download from BBVA Foundation publications Arxivat 2010-03-25 a Wayback Machine.
  • Greenacre, Michael (2010), Biplots in Practice, BBVA Foundation, Madrid, available for free download at multivariatestatistics.org