James-Stein-Schätzer

James-Stein-Schätzer sind Schätzfunktionen des Erwartungswertvektors einer mehrdimensionalen Normalverteilung. Wenn diese Normalverteilung mindestens dreidimensional ist, sind James-Stein-Schätzer bzgl. des mittleren quadratischen Fehlers gleichmäßig besser als das üblicherweise als Schätzer benutzte arithmetische Mittel. Das arithmetische Mittel ist also im Sinne der Entscheidungstheorie für Dimensionen größer als zwei keine zulässige Entscheidungsfunktion für den Erwartungswertvektor der Normalverteilung. Diese Tatsache wurde 1956 von Charles Stein entdeckt.[1] Der erste James-Stein-Schätzer geht auf eine Arbeit von W. James und C. Stein aus dem Jahre 1961 zurück.[2]

Struktur eines James-Stein-Schätzers

Sei X = ( X 1 , , X m ) T {\displaystyle X=(X_{1},\dots ,X_{m})^{T}} ein m {\displaystyle m} -dimensionaler normalverteilter Vektor mit stochastisch unabhängigen Komponenten, die die Varianz Eins haben. Der Erwartungswertvektor E X = μ {\displaystyle \operatorname {E} X=\mu } soll geschätzt werden. In naheliegender Weise wird dazu das arithmetische Mittel X ¯ = ( X ¯ 1 , , X ¯ m ) T {\displaystyle {\overline {X}}=({\overline {X}}_{1},\dots ,{\overline {X}}_{m})^{T}} benutzt, denn es ist der gleichmäßig beste erwartungstreue Schätzer für μ {\displaystyle \mu } . Eine spezielle James-Stein-Schätzung ist die folgende:

X ¯ = ( 1 m 2 X ¯ T X ¯ ) X ¯ = ( 1 m 2 j = 1 m X ¯ j 2 ) X ¯ ; m 3 {\displaystyle {\overline {X}}^{*}={\Bigl (}1-{\frac {m-2}{{\overline {X}}^{T}{\overline {X}}}}{\Bigr )}{\overline {X}}={\Bigl (}1-{\frac {m-2}{\sum _{j=1}^{m}{\overline {X}}_{j}^{2}}}{\Bigr )}{\overline {X}}\quad ;\quad m\geq 3} .

X ¯ {\displaystyle {\overline {X}}^{*}} ist nicht erwartungstreu. Da komponentenweise E X ¯ {\displaystyle \operatorname {E} {\overline {X}}^{*}} betragsmäßig kleiner als μ {\displaystyle \mu } ist, wird μ {\displaystyle \mu } unterschätzt, X ¯ {\displaystyle {\overline {X}}^{*}} ist also ein sogenannter Schrumpfungs-Schätzer (engl. shrinkage). Der Schrumpfungsfaktor ( 1 m 2 X ¯ T X ¯ ) {\displaystyle {\Bigl (}1-{\frac {m-2}{{\overline {X}}^{T}{\overline {X}}}}{\Bigr )}} ist so gewählt, dass der mittlere quadratische Fehler des Schätzers trotz Bias kleiner ist als beim erwartungstreuen X ¯ {\displaystyle {\overline {X}}} . Der Schätzer X ¯ {\displaystyle {\overline {X}}^{*}} ist zwar besser als X ¯ {\displaystyle {\overline {X}}} , aber selbst auch kein zulässiger Schätzer.[3]

Verallgemeinerungen

Die Annahme "Varianz gleich Eins" ist oben nur zur Vereinfachung gemacht worden. Schon James und Stein gaben Alternativen zu X ¯ {\displaystyle {\overline {X}}^{*}} an und erweiterten die Untersuchungen auf lineare Regressionsmodelle mit mindestens drei Regressionsparametern[2]. Es ist schwer explizit zulässige Schätzer für μ {\displaystyle \mu } zu finden, siehe aber[4][5].

Stein-Paradoxon

Der James-Stein-Schätzer hat anfangs zu kontroversen Diskussionen geführt, man sprach sogar vom Stein-Paradoxon[6][7]. Das kann man an folgendem Beispiel erkennen. Sei X {\displaystyle X} dreidimensional mit den Komponenten

X 1 = {\displaystyle X_{1}=} Gewicht einer Kiwi-Frucht aus Neuseeland
X 2 = {\displaystyle X_{2}=} Gewicht einer Banane aus Brasilien
X 3 = {\displaystyle X_{3}=} Gewicht eines Apfels aus Deutschland

Wir nehmen an, dass X {\displaystyle X} (zumindest näherungsweise) normalverteilt ist und dass (wenig überraschend) die drei Komponenten stochastisch unabhängig voneinander sind. Dann ist es durchaus überraschend, dass man die Schätzung X ¯ {\displaystyle {\overline {X}}} verbessern kann, indem beispielsweise zur Schätzung des Erwartungswertes des Kiwi-Gewichtes im Schrumpfungsfaktor auch die davon unabhängigen Bananen- und Apfeldaten benutzt werden. Die Überraschung relativiert sich allerdings etwas, wenn man betont, dass der "Stein-Effekt" nur eintritt, wenn man die Schätzung des Vektors μ {\displaystyle \mu } unbedingt (warum auch immer) mit einem gemeinsamen Kriterium für alle drei Komponenten bewerten will. Die Schätzung jeder Komponente μ i ;   i = 1 , , m {\displaystyle \mu _{i};\ i=1,\dots ,m} einzeln bewertet führt natürlich zum eindimensionalen Fall und dazu, dass X ¯ i {\displaystyle {\overline {X}}_{i}} zulässig ist, also durch keine bessere Schätzung ersetzt werden kann. Eine gute Interpretation gelingt auch durch empirisch-Bayessche Argumente[8].

Einzelnachweise

  1. Stein, C. (1956), Inadmissibility of the usual estimator for the mean of a multivariate normal distribution, Proc. Third Berkeley Symp. Math. Statist. Prob. 1, 197–206,
  2. a b James, W. and Stein, C. (1961), Estimation with quadratic loss, Proc. Fourth Berkeley Symp. Math. Statist. Prob. 1, 361–379
  3. Anderson, T. W. (1984), An Introduction to Multivariate Statistical Analysis (2nd ed.), New York: John Wiley & Sons
  4. Brown, L. D. (1966), On the admissibility of invariant estimators of one or more location parameters, Annals of Mathematical Statistics, 37 (5), 1087–1136
  5. Alam, K. (1973), A family of admissible minimax estimators of the mean of a multivariate normal distribution, Annals of Statistics 1, 517–525
  6. Efron, B. and Morris, C. (1977), Stein's paradox in statistics, Scientific American, 236 (5), 119–127
  7. Samworth, R. J. (2012), Stein's Paradox, Eureka, 62: 38–41
  8. Efron, B. and Morris, C. (1973). Stein's Estimation Rule and Its Competitors—An Empirical Bayes Approach. Journal of the American Statistical Association. 68 (341), 117–130