Anàlisi de correspondències

A estadística multivariant, l'anàlisi de correspondències ((anglès) Correspondence analysis, CA) és una tècnica descriptiva proposada[1] per Hirschfeld[2] i posteriorment desenvolupada per Jean-Paul Benzécri.[3]

Totes les dades han de ser no-negatives i en la mateixa escala per tal de poder aplicar l'anàlisi de correspondències, i el mètode tracta les files i les columnes de forma equivalent. Se sol aplicar a l'estudi de taules de contingència i és conceptualment similar a l'anàlisi de components principals amb la diferència que en l'anàlisi de correspondències les dades s'escalen de manera que files i columnes es tracten de manera equivalent. És una manera de visualitzar o resumir un conjunt de dades en una representació de dues dimensions.

L'anàlisi de correspondències descompon l'estadístic del test de la khi-quadrat associat a una taula de contingència en components ortogonals.[4] Atès que es tracta d'una tècnica descriptiva, es pot aplicar fins i tot en circumstàncies en què l'estadístic χ 2 {\displaystyle \chi ^{2}} no és apropiat.[4][5]

Detalls

Igual que l'anàlisi de components principals, l'anàlisi de correspondències crea components ortogonals i, per a cada element d'una taula, crea un conjunt de puntuacions (de vegades anomenats puntuacions de factors). L'anàlisi de correspondències es realitza sobre una taula de contingència C, de grandària m×n on m és el nombre de files i n el nombre de columnes.

Preprocessament

A partir d'una taula C, es calcula un conjunt de pesos per a les columes i les files,[4][5] on els pesos de les files són

w m = ( 1 C 1 ) 1 C 1 {\displaystyle w_{m}=(1C1)^{-1}C1}

i els pesos de les columnes són

w n = ( 1 C 1 ) 1 1 C {\displaystyle w_{n}=(1C1)^{-1}1C} .

A continuació, es calcula una taula S (anomenada matriu estocàstica), on C es divideix per la suma de C

S = ( 1 C 1 ) 1 C {\displaystyle S=(1C1)^{-1}C} .

Finalment, es calcula una taula M a partir de S i dels pesos:

M = S w m w n {\displaystyle M=S-w_{m}w_{n}} .

Components ortogonals

Llavors es descompon la taula M mitjançant la descomposició en valors singulars generalitzats, on els vectors singulars per l'esquerra i per la dreta estan restringits pels pesos. Els pesos són taules diagonals

W m = diag { w m } {\displaystyle W_{m}=\operatorname {diag} \{w_{m}\}}

i

W n = diag { w n } {\displaystyle W_{n}=\operatorname {diag} \{w_{n}\}}

on els elements de la diagonal de W n {\displaystyle W_{n}} són w n {\displaystyle w_{n}} i els de fora de la diagonal són 0.

Llavors s'obté la descomposició de M:

M = U Σ V {\displaystyle M=U\Sigma V^{*}\,}

on

U W m U = V W n V = I {\displaystyle U^{*}W_{m}U=V^{*}W_{n}V=I} .

Puntuació de factors

Les puntuacions de factors per als elements fila de la taula C són

F m = W m U Σ {\displaystyle F_{m}=W_{m}U\Sigma }

i pels elements columna

F n = W n V Σ {\displaystyle F_{n}=W_{n}V\Sigma } .

Extensions i aplicacions

Existeixen diverses variants de l'anàlisi de correspondències, incloent-hi l'anàlisi de correspondències amb eliminació de la tendència ((anglès) detrended correspondence analysis, DCA) i l'anàlisi de correspondències canòniques ((anglès) canonical correspondence analysis, CCA). L'extensió de l'anàlisi de correspondències a més d'una variable categòrica s'anomena anàlisi de correspondències múltiple. Una adaptació de l'anàlisi de correspondències al problema de discriminació basat en variables qualitatives (és a dir, l'equivalent de l'anàlisi discriminant per a dades qualitatives) s'anomena anàlisi de correspondències discriminant o anàlisi discriminant baricèntric.

En ciències socials, l'anàlisi de correspondències, i en particular l'anàlisi de correspondències múltiple, es va donar a conéixer fora de França pel sociòleg francès Pierre Bourdieu.[6]

Implementacions

  • El sistema de visualització de dades Orange inclou el mòdul: orngCA.
  • El sistema estadístic R inclou els paquets: ade4, ca, vegan, ExPosition i FactoMineR, que realitzen anàlisi de correspondències i anàlisi de correspondències múltiples.[7]

Referències

  1. Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP ISBN 0-19-850994-4
  2. Hirschfeld, H.O. (1935) "A connection between correlation and contingency", Proc. Cambridge Philosophical Society, 31, 520–524
  3. Benzécri, J.-P.. L'Analyse des Données. Volume II. L'Analyse des Correspondances. Paris, France: Dunod, 1973. 
  4. 4,0 4,1 4,2 Greenacre, Michael. Theory and Applications of Correspondence Analysis. London: Academic Press, 1983. ISBN 0-12-299050-1. 
  5. 5,0 5,1 Greenacre, Michael. Correspondence Analysis in Practice, Second Edition. Londres: Chapman & Hall/CRC, 2007. 
  6. Bourdieu, Pierre. Distinction. Routledge, 1984, p. 41. ISBN 0674212770. 
  7. orngCA

Vegeu també

Enllaços externs

  • Greenacre, Michael (2008), La Práctica del Análisis de Correspondencias, BBVA Foundation, Madrid, Spanish translation of Correspondence Analysis in Practice, available for free download from BBVA Foundation publications Arxivat 2010-03-25 a Wayback Machine.
  • Greenacre, Michael (2010), Biplots in Practice, BBVA Foundation, Madrid, available for free download at multivariatestatistics.org