Distància de Mahalanobis

En estadística, la distància de Mahalanobis és una mesura de distància introduïda per P. C. Mahalanobis el 1936. Es basa en la correlació entre variables que tenen diferents patrons que poden ser identificats i analitzats. És útil per a determinar la similitud d'un conjunt de mostra a un altre ja conegut. Difereix de la distància euclidiana en tenir en compte les correlacions del conjunt de dades.

Formalment, la distància de Mahalanobis d'un grup de valors amb mitjana aritmètica μ = ( μ 1 , μ 2 , μ 3 , , μ p ) {\displaystyle \mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})} i matriu de covariància Σ {\displaystyle \Sigma } per a un vector multivariable x = ( x 1 , x 2 , x 3 , , x p ) {\displaystyle x=(x_{1},x_{2},x_{3},\dots ,x_{p})} es defineix com:

D M ( x ) = ( x μ ) T Σ 1 ( x μ ) . {\displaystyle D_{M}(x)={\sqrt {(x-\mu )^{T}\Sigma ^{-1}(x-\mu )}}.\,}

També pot definir-se com una mesura de dissimilitud entre dos vectors aleatoris x {\displaystyle {\vec {x}}} and y {\displaystyle {\vec {y}}} de la mateixa distribució amb una matriu de covariància Σ {\displaystyle \Sigma }  :

d ( x , y ) = ( x y ) T Σ 1 ( x y ) . {\displaystyle d({\vec {x}},{\vec {y}})={\sqrt {({\vec {x}}-{\vec {y}})^{T}\Sigma ^{-1}({\vec {x}}-{\vec {y}})}}.\,}

Si la matriu de covariància és la matriu identitat, llavors és igual que la distància euclidiana. Si és diagonal, llavors s'anomena distància euclidiana normalitzada:

d ( x , y ) = i = 1 p ( x i y i ) 2 σ i 2 , {\displaystyle d({\vec {x}},{\vec {y}})={\sqrt {\sum _{i=1}^{p}{(x_{i}-y_{i})^{2} \over \sigma _{i}^{2}}}},}

on σ i {\displaystyle \sigma _{i}} és la desviació estàndard de x i {\displaystyle x_{i}} al conjunt de mostra.

Vegeu també