Distància de Mahalanobis

De Viquipèdia
Dreceres ràpides: navegació, cerca

En estadística, la distància de Mahalanobis és una mesura de distància introduïda per P. C. Mahalanobis el 1936. Es basa en la correlació entre variables que tenen diferents patrons que poden ser identificats i analitzats. És útil per a determinar la similitud d'un conjunt de mostra a un altre ja conegut. Difereix de la distància euclidiana en tenir en compte les correlacions del conjunt de dades.

Formalment, la distància de Mahalanobis d'un grup de valors amb mitjana aritmètica \mu = ( \mu_1, \mu_2, \mu_3, \dots, \mu_p ) i matriu de covariància \Sigma per a un vector multivariable x = ( x_1, x_2, x_3, \dots, x_p ) es defineix com:

D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x-\mu)}.\,

També pot definir-se com una mesura de dissimilitud entre dos vectors aleatoris  \vec{x} and  \vec{y} de la mateixa distribució amb una matriu de covariància \Sigma :

 d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^T\Sigma^{-1} (\vec{x}-\vec{y})}.\,

Si la matriu de covariància és la matriu identitat, llavors és igual que la distància euclidiana. Si és diagonal, llavors s'anomena distància euclidiana normalitzada:

 d(\vec{x},\vec{y})=
\sqrt{\sum_{i=1}^p {(x_i - y_i)^2 \over \sigma_i^2}},

on \sigma_i és la desviació estàndard de  x_i al conjunt de mostra.