Anàlisi de components principals

De Viquipèdia
(S'ha redirigit des de: ACP)
Dreceres ràpides: navegació, cerca

L’anàlisi de components principals (ACP, PCA en anglès), en estadística, és una tècnica utilitzada per reduir la dimensionalitat d'un conjunt de dades per a poder-les representar gràficament en gràfics de dues o tres dimensions agrupant diverses variables de les dades en factors, o components, compostos per l'agrupació de diverses variables. Intuïtivament, la tècnica serveix per determinar el nombre de factors explicatius d'un conjunt de dades que determinen en major grau la variabilitat d'aquestes dades. L'ACP és útil per identificar les variables responsables de causar una falla o les variables més afectades per la falla.

L'ACP construeix una transformació lineal que escull un nou sistema de coordenades per el conjunt original de dades en el qual, la variància de major mida del conjunt de dades és capturada en el primer eix, primera component principal. La segona variança més gran és el segon eix, segona component principal, i així successivament. Per construir aquesta transformació lineal s'ha de construir, primer, la matriu de covariància o matriu de coeficients de correlació. Degut a la simetria d'aquesta matriu existeix una base completa de vectors propis. La transformació que passa les antigues coordenades a les coordenades de la nova base és la transformació lineal necessària per reduir la dimensionalitat de les dades.

Taula de continguts

[modifica] Mètode

L'ACP no es pot aplicar en el conjunt de dades en sí, perquè aquestes dades presenten magnituds i mètrica diferent. El primer pas és preparar el conjunt de dades, a fi de tenir un millor representació en la monitorització posterior.

  • Preparació de les dades.
    • Treure dades sorolloses.
    • Escalar les dades.
    • Treure dades anòmales.

Cal normalitzar les dades, perquè no tinguin magnitud i es distribueixin segons una distribució \mathbf{X} = \mathbf{N}\mathbf{(0,1)} i, posteriorment, eliminar aquelles que estiguin molt lluny de la mitjana aritmètica.

Un cop preparades les dades, un dels mètodes a aplicar es basa en la matriu de covariances

  • Calcular la matriu de covariàncies de les dades
\mathbf{C} = { 1 \over N-1 } \mathbf{X} \cdot \mathbf{X}^{T}
  • Es descomposta la matriu de covariàncies i es calcula la matriu de vectors propis que diagonalitza la matriu C i la matriu de valors propis.
\mathbf{V}^{-1} \mathbf{C} \mathbf{V} = \mathbf{D}

De és la matriu de valors propis. D és una matriu diagonal que conté valors reals no negatius en la diagonal principal, en ordre decreixent.

  • Projectar el el conjunt de dades en el nou espai dimensional, seguint els vectors propis calculats.
\mathbf{t} = \mathbf{X} \cdot \mathbf{V}

[modifica] Propietats i limitacions

ACP és l'esquema lineal òptim per comprimir un conjunt de alta dimensió de vectors en un conjunt de menor dimensió de vectors, en termes de mínim error de mitjana quadràtic, i reconstruir les dades del conjunt original amb aquest conjunt de menor dimensió.

L'aplicació del ACP està limitat per varies assumpcions[1]

  • Assumpció de linealitat: S'assumeix que les dades observades son combinació lineal d'una certa base.
  • Importancia estadística de la mitjana i la covariança: ACP utilitza els vectors propis de la matriu de coviariança i només troba els eixos de dades independets sota considerant que les dades es distribueixen segons una gaussiana
  • Variances grans tenen una dinàmica important: ACP només realitza una rotació que alinea els eixos transforats amb les direccions de màxima variança.

ACP implica només rotació i escalat de les dades. Les assupcions esmentades estan fetes per simplificar la computació algebraica del conjunt de dades.

Projecció del conjunt de variables en la nova dimensió, amb la interpretació del valors T^2 i Q.

[modifica] Usos

S'utilitza per la monitorització d'un conjunt de dades utilitzant aquesta reducció de dimensionalitat, millorant la monitorització univariant. També es pot aplicar en la detecció de falles,[2]

[modifica] Detecció de falles

Per la detecció de falles s'utilitzen els valors \mathbf{T}^{2} de Hotelling, per detectar comportaments estranys en els valors de les variables, i el valor \mathbf{Q}, per monitoritzar l'error existent en alguna dada (correspon a la predicció de l'error quadràtic, en anglès SPE)

\mathbf{T}^{2} = \sum_{i=1}^{a} \mathbf{t}_{i} \lambda_1^{-1} \mathbf{t}_{i}^{T}
\mathbf{r} = \mathbf{x} - \hat{x} = \mathbf{t} \cdot \mathbf{P}^{T}
\mathbf{Q} = \mathbf{r} \cdot \mathbf{r}^{T}

[modifica] Referències

  1. Jonathon Shlens.A Tutorial on Principal Component Analysis.
  2. «Fault detection and diagnosis using statistical control charts and artificial neura». Artificial Intelligence in Egineering, pàg. 35-47.


Commons
A Wikimedia Commons hi ha contingut multimèdia relatiu a:
Anàlisi de components principals
Eines personals
Espais de noms

Variants
Accions
Navegació
Comunitat
Imprimeix/exporta
Eines
En altres llengües