Distribución T² de Hotelling

Función de densidad de probabilidad.Parámetros:p - dimensión de las variables aleatorias.m - relacionado con el tamaño de la muestra.

En estadística la distribución T² (T-cuadrado) de Hotelling es importante porque se presenta como la distribución de un conjunto de estadísticas que son una generalización natural de las estadísticas subayacentes distribución t de Student. En particular, la distribución se presenta en estadísticas multivariadas en pruebas de diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados usarían la Prueba t. Es proporcional a la distribución F.

La distribución recibe su nombre de Harold Hotelling, quien la desarrollo[1]​ como una generalización de la distribución t de Student.

Definición

Si el vector d {\displaystyle d} tiene distribución normal multivariada con media cero y matriz de covarianza unitaria N ( 0 p , I p , p ) {\displaystyle N({\boldsymbol {0}}_{p},{\boldsymbol {I}}_{p,p})} y M {\displaystyle M} es una matriz de tamaño p × p {\displaystyle p\times p} con matriz unitaria escalada y m {\displaystyle m} los grados de libertad con distribución de Wishart W ( I p , p , m ) {\displaystyle W({\boldsymbol {I}}_{p,p},m)} entonces la forma cuadrática X {\displaystyle X} tiene distribución de Hotelling con parámetros p {\displaystyle p} y m {\displaystyle m} :

X = m d T M 1 d T 2 ( p , m ) {\displaystyle X=md^{T}M^{-1}d\sim T^{2}(p,m)}

Si la variable aleatoria X {\displaystyle X} tiene distribución T-cuadrado de Hotelling con parámetros p {\displaystyle p} y m {\displaystyle m} , X T p , m 2 {\displaystyle X\sim T_{p,m}^{2}} , entonces

m p + 1 p m X F p , m p + 1 {\displaystyle {\frac {m-p+1}{pm}}X\sim F_{p,m-p+1}}

donde F p , m p + 1 {\displaystyle F_{p,m-p+1}} es la distribución F con parámetros p {\displaystyle {\ce {p}}} y m p + 1 {\displaystyle m-p+1} .

Estadística T-cuadrado de Hotelling

La estadística T-cuadrado de Hotelling es una generalización de la estadística t de Student que se usa en las pruebas de hipótesis multivariadas, y se define como sigue:[1]

Sea N p ( μ , Σ ) {\displaystyle {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })} , que denota una distribución normal p-variada con vector de medias μ {\displaystyle {\boldsymbol {\mu }}} y covarianza Σ {\displaystyle {\mathbf {\Sigma } }} . Sean

x 1 , , x n N p ( μ , Σ ) {\displaystyle {\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })}

n {\displaystyle n} variables aleatorias independientes, las cuales pueden representarse como un vector columna de orden p × 1 {\displaystyle p\times 1} de números reales. Defínase

x ¯ = x 1 + + x n n {\displaystyle {\overline {\mathbf {x} }}={\frac {\mathbf {x} _{1}+\cdots +\mathbf {x} _{n}}{n}}}

como la media muestral. Puede demostrarse que

n ( x ¯ μ ) Σ 1 ( x ¯ μ ) χ p 2 , {\displaystyle n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})\sim \chi _{p}^{2},}

donde χ p 2 {\displaystyle \chi _{p}^{2}} es una distribución ji-cuadrado con p grados de libertad. Para demostrar eso se usa el hecho que x ¯ N p ( μ , Σ / n ) {\displaystyle {\overline {\mathbf {x} }}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } }/n)} y entonces, al derivar la función característica de la variable aleatoria y = n ( x ¯ μ ) Σ 1 ( x ¯ μ ) {\displaystyle \mathbf {y} =n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}

ϕ y ( θ ) = E e i θ y = E e i θ n ( x ¯ μ ) Σ 1 ( x ¯ μ ) = e i θ n ( x ¯ μ ) Σ 1 ( x ¯ μ ) ( 2 π ) p 2 | Σ / n | 1 2 e 1 2 n ( x ¯ μ ) Σ 1 ( x ¯ μ ) d x 1 . . . d x p = ( 2 π ) p 2 | Σ / n | 1 2 e 1 2 n ( x ¯ μ ) ( Σ 1 2 i θ Σ 1 ) ( x ¯ μ ) d x 1 . . . d x p = | ( Σ 1 2 i θ Σ 1 ) 1 / n | 1 2 | Σ / n | 1 2 ( 2 π ) p 2 | ( Σ 1 2 i θ Σ 1 ) 1 / n | 1 2 e 1 2 n ( x ¯ μ ) ( Σ 1 2 i θ Σ 1 ) ( x ¯ μ ) d x 1 . . . d x p = | ( I p 2 i θ I p ) | 1 2 = ( 1 2 i θ ) p 2 {\displaystyle {\begin{aligned}\phi _{\mathbf {y} }(\theta )&=\operatorname {E} e^{i\theta \mathbf {y} }\\&=\operatorname {E} e^{i\theta n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}\\&=\int e^{i\theta n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}(2\pi )^{-{\frac {p}{2}}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\boldsymbol {\Sigma }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p}\\&=\int (2\pi )^{-{\frac {p}{2}}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p}\\&=|({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{\frac {1}{2}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\int (2\pi )^{-{\frac {p}{2}}}|({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p}\\&=|(\mathbf {I} _{p}-2i\theta \mathbf {I} _{p})|^{-{\frac {1}{2}}}\\&=(1-2i\theta )^{-{\frac {p}{2}}}\end{aligned}}}

Sin embargo, Σ {\displaystyle {\mathbf {\Sigma } }} es por lo general desconocida y se busca hacer una prueba de hipótesis sobre el vector de medias μ {\displaystyle {\boldsymbol {\mu }}} .

Defínase

W = 1 n 1 i = 1 n ( x i x ¯ ) ( x i x ¯ ) {\displaystyle {\mathbf {W} }={\frac {1}{n-1}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'}

como la covarianza muestral. La traspuesta se ha denotado con un apóstrofo. Se demuestra que W {\displaystyle \mathbf {W} } es una matriz definida positiva y ( n 1 ) W {\displaystyle (n-1)\mathbf {W} } sigue una distribución Wishart p-variada con n−1 grados de libertad.[2]​ La estadística T-cuadrado de Hotelling se define entonces como

t 2 = n ( x ¯ μ ) W 1 ( x ¯ μ ) {\displaystyle t^{2}=n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {W} }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}

porque se demuestra que [cita requerida]

t 2 T p , n 1 2 {\displaystyle t^{2}\sim T_{p,n-1}^{2}}

es decir

n p p ( n 1 ) t 2 F p , n p , {\displaystyle {\frac {n-p}{p(n-1)}}t^{2}\sim F_{p,n-p},}

donde F p , n p {\displaystyle F_{p,n-p}} es una distribución F {\displaystyle F} con parámetros p {\displaystyle p} y n p {\displaystyle n-p} . Para calcular un p-valor, multiplique la estadística t2 y la constante anterior y use la distribución F {\displaystyle F} .

Referencias

  1. a b Hotelling, H. (1931). «The generalization of Student's ratio». Annals of Mathematical Statistics 2 (3): 360-378. doi:10.1214/aoms/1177732979. 
  2. K.V. Mardia, J.T. Kent, and J.M. Bibby (1979) Multivariate Analysis, Academic Press.
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q1393230
  • Wd Datos: Q1393230