Stichprobenverteilung

In der Statistik und Wahrscheinlichkeitstheorie wird die Wahrscheinlichkeitsverteilung einer Stichprobenfunktion auch als Stichprobenverteilung der Stichprobenfunktion bezeichnet.

Zur Bezeichnung „Stichprobenverteilung“

Die Bezeichnung „Stichprobenverteilung“ ist zwar gebräuchlich,[1][2] kann aber missverständlich sein, da damit nicht die Verteilung einer Zufallsstichprobe oder der möglichen Stichprobenwerte bezeichnet wird. Während ‚Verteilung der Stichprobenfunktion‘ unmissverständlich ist, kann die Bezeichnung ‚Stichprobenverteilung der Stichprobenfunktion‘ so missverstanden werden, dass es noch andere Verteilungen einer Stichprobenfunktion gibt. Diese beiden möglichen Missverständnisse können den Grund dafür bilden, dass viele Autoren die Bezeichnung Stichprobenverteilung völlig vermeiden und einfach von der Verteilung der Stichprobenfunktion sprechen.[3]

Der Begriff sampling distribution wurde 1922 von Ronald Aylmer Fisher beiläufig eingeführt[4] und in den Jahren 1928 und 1929 mit der Verwendung im Titel von zwei Aufsätzen[5][6] etabliert.[7]

Zu unterscheiden ist die Stichprobenverteilungsfunktion, eine seltene Bezeichnung für die empirische Verteilungsfunktion.

Bestimmung der Stichprobenverteilung

Wenn X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} die Stichprobenvariablen einer Zufallsstichprobe vom Umfang n {\displaystyle n} sind und G = g ( X 1 , , X n ) {\displaystyle G=g(X_{1},\dots ,X_{n})} eine Stichprobenfunktion ist, dann ist G {\displaystyle G} eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung als Stichprobenverteilung von G {\displaystyle G} bezeichnet wird. Die Stichprobenverteilung der Stichprobenfunktion G {\displaystyle G} hängt über die (messbare) Funktion g {\displaystyle g} von der Wahrscheinlichkeitsverteilung des Stichprobenvektors X = ( X 1 , , X n ) {\displaystyle \mathbf {X} =(X_{1},\dots ,X_{n})} ab.

Häufig interessierende Stichprobenfunktionen sind

  • die Summenvariable i = 1 n X i {\displaystyle \textstyle \sum _{i=1}^{n}X_{i}} , die in diesem Zusammenhang auch Stichprobensumme heißt,
  • das arithmetische Mittel X ¯ n = 1 n i = 1 n X i / n {\displaystyle {\bar {X}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}/n} , das in diesem Zusammenhang auch Stichprobenmittel heißt,
  • die mittlere quadratische Abweichung vom Stichprobenmittel S n 2 = 1 n i = 1 n ( X i X ¯ n ) 2 {\displaystyle S_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\bar {X}}_{n})^{2}} , die in diesem Zusammenhang auch auch Stichprobenvarianz heißt,
  • das Minimum min { X 1 , , X n } {\displaystyle \min\{X_{1},\dots ,X_{n}\}} und,
  • das Maximum max { X 1 , , X n } {\displaystyle \max\{X_{1},\dots ,X_{n}\}} .

Allgemeines Vorgehen

Wenn die Wahrscheinlichkeitsverteilung des Stichprobenvektors X {\displaystyle \mathbf {X} } und die Funktion g : R n R {\displaystyle g\colon \mathbb {R} ^{n}\to \mathbb {R} } gegeben ist, dann ergibt sich die Verteilungsfunktion – und mit dieser die Stichprobenverteilung – der Stichprobenfunktion G {\displaystyle G} als

P ( G x ) = P ( X g 1 ( ( , x ] )  für alle  x R . {\displaystyle P(G\leq x)=P(\mathbf {X} \in g^{-1}((-\infty ,x]){\text{ für alle }}x\in \mathbb {R} \;.}

Dabei ist g 1 ( ( , x ] ) = { x R n g ( x ) ( , x ] } {\displaystyle g^{-1}((-\infty ,x])=\{\mathbf {x} \in \mathbb {R} ^{n}\mid g(\mathbf {x} )\in (-\infty ,x]\}} .

Wenn der häufige Fall vorliegt, dass die Stichprobenvariablen stochastisch unabhängig und identisch verteilt sind und jede Stichprobenvariable die Wahrscheinlichkeitsverteilung P X {\displaystyle P_{X}} hat, dann ist die Wahrscheinlichkeitsverteilung des Zufallsvektor X {\displaystyle \mathbf {X} } durch die n {\displaystyle n} -fache Produktverteilung P X n {\displaystyle P_{X}^{\otimes n}} gegeben.

Bei Anwendungen in der parametrischen Statistik mit stochastisch unabhängigen und identisch verteilten Stichprobenvariablen ist typischerweise die Verteilung einer Stichprobenvariablen nicht exakt bekannt, sondern durch eine parametrische Familie ( P X , θ ) θ Θ {\displaystyle (P_{X,\theta })_{\theta \in \Theta }} eingeschränkt. In diesem Fall ergibt sich auch für X {\displaystyle \mathbf {X} } eine parametrische Familie ( P X , θ n ) θ Θ {\displaystyle (P_{X,\theta }^{\otimes n})_{\theta \in \Theta }} von Verteilungen und es ergibt sich nicht nur eine Stichprobenverteilung, sondern eine durch den Parameter θ {\displaystyle \theta } indizierte Familie von Stichprobenverteilungen der Stichprobenfunktion G {\displaystyle G} .

Vorgehen in speziellen Fällen

Für spezielle Verteilungen der Stichprobenvariablen und spezielle Stichprobenfunktionen sind Zusammenhänge bekannt, mit deren Hilfe die Stichprobenverteilung der jeweiligen Stichprobenfunktion angegeben werden kann, ohne den oben angegebenen allgemeinen Weg zu beschreiten.

Unter der Voraussetzung, dass die Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} stochastisch unabhängig und identisch verteilt sind, gilt z. B.:

  • Die Stichprobenverteilung der Summe Bernoulli-verteilter Stichprobenvariablen ist eine Binomialverteilung;
X i B e r ( p ) i = 1 n X i B i n ( n , p ) {\displaystyle X_{i}\sim \mathrm {Ber} (p)\implies \textstyle \sum _{i=1}^{n}X_{i}\sim \mathrm {Bin} (n,p)} .
  • Die Stichprobenverteilung des Minimums und des Maximums Bernoulli-verteilter Stichprobenvariablen ist eine Bernoulli-Verteilung;
X i B e r ( p ) min { X 1 , , X n } B e r ( p n ) , {\displaystyle X_{i}\sim \mathrm {Ber} (p)\implies \min\{X_{1},\dots ,X_{n}\}\sim \mathrm {Ber} (p^{n})\;,}
X i B e r ( p ) max { X 1 , , X n } B e r ( 1 ( 1 p ) n ) . {\displaystyle X_{i}\sim \mathrm {Ber} (p)\implies \max\{X_{1},\dots ,X_{n}\}\sim \mathrm {Ber} (1-(1-p)^{n})\;.}
  • Die Stichprobenverteilung der Summe normalverteilter Stichprobenvariablen ist eine Normalverteilung;
X i N ( μ , σ 2 ) i = 1 n X i N ( n μ , n σ 2 ) {\displaystyle X_{i}\sim \mathrm {N} (\mu ,\sigma ^{2})\implies \textstyle \sum _{i=1}^{n}X_{i}\sim \mathrm {N} (n\mu ,n\sigma ^{2})} .
  • Die Stichprobenverteilung des Stichprobenmittels normalverteilter Stichprobenvariablen ist eine Normalverteilung;
    Dichtefunktionen der Stichprobenverteilung des arithmetischen Mittels X ¯ n {\displaystyle {\bar {X}}_{n}} stochastisch unabhängiger standardnormalverteilter Zufallsvariablen für unterschiedliche Stichprobenumfänge n {\displaystyle n} . Mit größerem Stichprobenumfang n {\displaystyle n} wird die Varianz V a r [ X ¯ n ] = 1 / n {\displaystyle \mathrm {Var} [{\bar {X}}_{n}]=1/n} kleiner und die Dichtefunktion ist enger um die Stelle μ = 0 {\displaystyle \mu =0} konzentriert. Die Dichtefunktion der Stichprobenvariable X ¯ n {\displaystyle {\bar {X}}_{n}} ist eine Dirac-Folge.
X i N ( μ , σ 2 ) X ¯ n N ( μ , σ 2 / n ) {\displaystyle X_{i}\sim \mathrm {N} (\mu ,\sigma ^{2})\implies {\bar {X}}_{n}\sim \mathrm {N} (\mu ,\sigma ^{2}/n)} .
  • Die Stichprobenverteilung des Produkts lognormalverteilter Stichprobenvariablen ist eine Lognormalverteilung;
X i L N ( μ , σ 2 ) i = 1 n X i L N ( n μ , n σ 2 ) {\displaystyle X_{i}\sim \mathrm {LN} (\mu ,\sigma ^{2})\implies \prod _{i=1}^{n}X_{i}\sim \mathrm {LN} (n\mu ,n\sigma ^{2})} ;
  • Die Stichprobenverteilung des geometrischen Mittels lognormalverteilter Stichprobenvariablen ist eine Lognormalverteilung;
X i L N ( μ , σ 2 ) i = 1 n X i n L N ( μ , σ 2 / n ) {\displaystyle X_{i}\sim \mathrm {LN} (\mu ,\sigma ^{2})\implies {\sqrt[{n}]{\prod _{i=1}^{n}X_{i}}}\sim \mathrm {LN} (\mu ,\sigma ^{2}/n)} .
  • Die Stichprobenverteilung der Stichprobenvarianz S n 2 {\displaystyle S_{n}^{2}} normalverteilter Stichprobenvariablen ist durch eine Chi-Quadrat-Verteilung mit n 1 {\displaystyle n-1} Freiheitsgraden bestimmt,
X i N ( μ , σ 2 ) n S n σ 2 χ 2 ( n 1 ) {\displaystyle X_{i}\sim \mathrm {N} (\mu ,\sigma ^{2})\implies {\frac {nS_{n}}{\sigma ^{2}}}\sim \chi ^{2}(n-1)} .

Es sind viele weitere ähnliche Zusammenhänge bekannt, die es ermöglichen, die Stichprobenverteilung bestimmter Stichprobenfunktionen unmittelbar anzugeben. Für die Stichprobenverteilung der Summe von Stichprobenvariablen anderer Verteilungen siehe auch Reproduktivitätseigenschaft.

Kennzahlen der Stichprobenverteilung

Wenn die Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} stochastisch unabhängig und identisch verteilt sind und Kennzahlen der Verteilung der Stichprobenvariablen bekannt sind, können Aussagen über Kennzahlen einer Stichprobenverteilung gemacht werden, z. B. gelten für den Erwartungswert und die Varianz der Summenvariable i = 1 n X i {\displaystyle \textstyle \sum _{i=1}^{n}X_{i}} und des arithmetischen Mittels X ¯ n {\displaystyle {\bar {X}}_{n}} die Aussagen:

Aus E [ X i ] = μ R {\displaystyle \mathrm {E} [X_{i}]=\mu \in \mathbb {R} } folgt

E [ i = 1 n X i ] = n {\displaystyle \mathrm {E} [\textstyle \sum _{i=1}^{n}X_{i}]=n}

und

E [ X ¯ n ] = μ {\displaystyle \mathrm {E} [{\bar {X}}_{n}]=\mu } .

Aus V a r [ X i ] = σ 2 < {\displaystyle \mathrm {Var} [X_{i}]=\sigma ^{2}<\infty } folgt

V a r [ i = 1 n X i ] = n σ 2 , {\displaystyle \mathrm {Var} [\textstyle \sum _{i=1}^{n}X_{i}]=n\sigma ^{2}\;,}
V a r [ X ¯ n ] = σ 2 n {\displaystyle \mathrm {Var} [{\bar {X}}_{n}]={\frac {\sigma ^{2}}{n}}}

und

E [ S n 2 ] = n 1 n σ 2 . {\displaystyle \mathrm {E} [S_{n}^{2}]={\frac {n-1}{n}}\sigma ^{2}.}

Approximative Stichprobenverteilung

Wenn die Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} stochastisch unabhängig und identisch verteilt sind und wenn E [ X i ] = μ {\displaystyle \mathrm {E} [X_{i}]=\mu } und 0 < V a r [ X i ] = σ 2 < {\displaystyle 0<\mathrm {Var} [X_{i}]=\sigma ^{2}<\infty } gilt, dann sind für hinreichend großes n {\displaystyle n} die Summe i = 1 n X i {\displaystyle \textstyle \sum _{i=1}^{n}X_{i}} und das arithmetische Mittel X ¯ n {\displaystyle {\bar {X}}_{n}} approximativ normalverteilt (siehe Zentraler Grenzwertsatz, Gesetz der großen Zahlen, Gleichung von Bienaymé). Die Stichprobenverteilungen von i = 1 n X i {\displaystyle \textstyle \sum _{i=1}^{n}X_{i}} und X ¯ n {\displaystyle {\bar {X}}_{n}} sind also näherungsweise durch Normalverteilungen charakterisierbar;

V e r t e i l u n g [ i = 1 n X i ] N ( n μ , n σ 2 ) , V e r t e i l u n g [ X ¯ n ] N ( μ , σ 2 n ) . {\displaystyle \mathrm {Verteilung} \left[\sum _{i=1}^{n}X_{i}\right]\approx \mathrm {N} (n\mu ,n\sigma ^{2}),\quad \mathrm {Verteilung} [{\bar {X}}_{n}]\approx \mathrm {N} \left(\mu ,{\frac {\sigma ^{2}}{n}}\right)\;.}

Diese Approximationen beruhen auf dem Zentralen Grenzwertsatz der Statistik, der besagt, dass die Folge ( Z n ) n N {\displaystyle (Z_{n})_{n\in \mathbb {N} }} der standardisierten Zufallsvariablen

Z n := i = 1 n X i μ n n σ 2 = n X ¯ n μ σ {\displaystyle Z_{n}:={\frac {\sum _{i=1}^{n}X_{i}-\mu n}{\sqrt {n\sigma ^{2}}}}={\sqrt {n}}{\frac {{\bar {X}}_{n}-\mu }{\sigma }}}

für n {\displaystyle n\to \infty } in Verteilung gegen eine standardnormalverteilte Zufallsvariable Z N ( 0 , 1 ) {\displaystyle Z\sim \mathrm {N} (0,1)} konvergiert. Die Approximation der Verteilung von Z n {\displaystyle Z_{n}} durch eine Standardnormalverteilung ist dann äquivalent zu den angegebenen Approximationen für die Stichprobenverteilungen von i = 1 n X i {\displaystyle \textstyle \sum _{i=1}^{n}X_{i}} und X ¯ n {\displaystyle {\bar {X}}_{n}} .

Statistische Schätzung der Stichprobenverteilung

Wenn die Stichprobenwerte x 1 , , x n {\displaystyle x_{1},\dots ,x_{n}} aus einer hinreichend große Zufallsstichprobe vorliegen, kann die empirische Verteilung der Stichprobenwerte als statistische Schätzung der Verteilung der Grundgesamtheit angesehen werden. Die Stichprobenverteilung einer beliebige Stichprobenfunktion kann dann ohne parametrisches Modell mit Hilfe des Bootstrap-Verfahrens geschätzt werden, ohne dass die Verteilung der Stichprobenvariablen bekannt sein muss. Jedoch muss allgemein mathematisch gezeigt werden, dass die Bootstrap-Stichprobenverteilungen mit steigender Zahl der Bootstrap-Stichproben gegen die Stichprobenverteilung konvergieren. Für das Beispiel im Bild ist die Bootstrap-Stichprobenverteilung um μ ^ = 1 n i = 1 n x i {\displaystyle {\hat {\mu }}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}} zentriert, und im Allgemeinen nicht um μ {\displaystyle \mu } , hat jedoch die zu erwartende richtige Streuungsbreite.

Anwendungsbereiche

Die Wahrscheinlichkeitsverteilung einer Stichprobenfunktion dient in der statistischen Schätz- und Testtheorie zur Gewinnung von Aussagen über unbekannte Parameter in der Grundgesamtheit aufgrund einer Stichprobe.

Statistische Schätztheorie

In der statistischen Schätztheorie ist die interessierende Stichprobenverteilung häufig die Wahrscheinlichkeitsverteilung einer Schätzfunktion für einen unbekannten Parameter der Grundgesamtheit.

Hauptartikel: Schätzfunktion

Beispiel

Sind die Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} stochastisch unabhängig und identisch verteilte Bernoulli-Variablen mit dem unbekannten Bernoulli-Parameter 0 < p < 1 {\displaystyle 0<p<1} , dann ist die Stichprobenverteilung der Summenvariablen S n {\displaystyle S_{n}} eine Binomialverteilung mit den Parametern n {\displaystyle n} und p {\displaystyle p} . Die Stichprobenverteilung der Stichprobenvariablen S n {\displaystyle S_{n}} hängt vom unbekannten Parameter p {\displaystyle p} ab.

Statistische Testtheorie

In der statistischen Testtheorie hängt die Verteilung einer Teststatistik typischerweise von den Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} , dem Stichprobenumfang n {\displaystyle n} und einem spezifizierten Wert eines unbekannten Parameters der Grundgesamtheit ab.

Beispiel

Sind die Stichprobenvariablen stochastisch unabhängig und identisch normalverteilt mit unbekanntem Parameter μ {\displaystyle \mu } und bekannter Varianz σ 2 = 1 {\displaystyle \sigma ^{2}=1} , dann ist die Zufallsvariable

T n = n ( X ¯ n μ 0 ) {\displaystyle T_{n}={\sqrt {n}}\left({\bar {X}}_{n}-\mu _{0}\right)}

die Teststatistik eines Gauß-Tests mit den Hypothesen H 0 : μ = μ 0 {\displaystyle H_{0}\colon \mu =\mu _{0}} und H 1 : μ μ 0 {\displaystyle H_{1}\colon \mu \neq \mu _{0}} . Die Stichprobenverteilung der Teststatistik T n {\displaystyle T_{n}} ist die Normalverteilung mit dem Erwartungswert μ μ 0 {\displaystyle \mu -\mu _{0}} und der Varianz 1,

T n N ( μ μ 0 , 1 ) . {\displaystyle T_{n}\sim \mathrm {N} (\mu -\mu _{0},1)\;.}

Die Stichprobenverteilung der Stichprobenfunktion T n {\displaystyle T_{n}} hängt vom unbekannten Parameter μ {\displaystyle \mu } ab. Wenn die Nullhypothese richtig ist, also μ μ 0 {\displaystyle \mu -\mu _{0}} gilt, dann ist T n {\displaystyle T_{n}} standardnormalverteilt. Diese spezielle Stichprobenverteilung heißt dann auch die Verteilung der Teststatistik unter H 0 {\displaystyle H_{0}} .

Stichproben aus endlichen Grundgesamtheiten

Im statistischen Methodengebiet der Stichproben aus endlichen Grundgesamtheiten sind die Stichprobenvariablen typischerweise zwar identisch verteilt, aber nicht stochastisch unabhängig, wenn Schemata der Stichprobenziehung berücksichtigt werden, die nicht dem Schema Ziehen mit Zurücklegen entsprechen, das zu stochastisch unabhängigen und identisch verteilten Stichprobenvariablen führt.

Bei vielen Anwendungen erfolgt ein Ziehen ohne Zurücklegen, bei dem die Stichprobenvariablen zwar identisch verteilt, aber nicht stochastisch unabhängig sind. Wenn die Grundgesamtheit aus N {\displaystyle N} unterscheidbaren statistischen Einheiten in der Menge { 1 , 2 , , N } {\displaystyle \{1,2,\dots ,N\}} besteht, so gibt es beim Ziehen einer Stichprobe vom Umfang n = 2 {\displaystyle n=2} ohne Zurücklegen insgesamt N ( N 1 ) {\displaystyle N(N-1)} mögliche Stichproben, nämlich Paare ω = ( ω 1 , ω 2 ) {\displaystyle \omega =(\omega _{1},\omega _{2})} in der Menge

Ω = { ( ω 1 , ω 2 ) ω 1 , ω 2 { 1 , , N } , ω 1 ω 2 } {\displaystyle \Omega =\{(\omega _{1},\omega _{2})\mid \omega _{1},\omega _{2}\in \{1,\dots ,N\},\omega _{1}\neq \omega _{2}\}}

der möglichen Stichproben. Durch dieses Ziehungsschema sind den möglichen Stichproben die Auswahlwahrscheinlichkeiten

p ( ω ) = 1 N ( N 1 )  für alle  ω Ω {\displaystyle p(\omega )={\frac {1}{N(N-1)}}{\text{ für alle }}\omega \in \Omega }

zugeordnet. Wenn den Einheiten in { 1 , 2 , , N } {\displaystyle \{1,2,\dots ,N\}} die Werte ( ξ 1 , , ξ N ) R N {\displaystyle (\xi _{1},\dots ,\xi _{N})\in \mathbb {R} ^{N}} eines statistischen Merkmals zugeordnet sind, so wird in einer Stichprobe ω = ( ω 1 , ω 2 ) Ω {\displaystyle \omega =(\omega _{1},\omega _{2})\in \Omega } das Wertepaar ( ξ ω 1 , ξ ω 2 ) {\displaystyle (\xi _{\omega _{1}},\xi _{\omega _{2}})} beobachtet. Die Stichprobenvariablen ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} , die die zufälligen Werte bei der ersten und zweiten Ziehung beschreiben, haben die gemeinsame zweidimensionale diskrete Wahrscheinlichkeitsverteilung

P ( ( X 1 , X 2 ) = ( x 1 , x 2 ) ) = # { ω Ω ( ξ ω 1 , ξ ω 2 ) = ( x 1 , x 2 ) } N ( N 1 ) , ( x 1 , x 2 ) R 2 . {\displaystyle P((X_{1},X_{2})=(x_{1},x_{2}))={\frac {\#\{\omega \in \Omega \mid (\xi _{\omega _{1}},\xi _{\omega _{2}})=(x_{1},x_{2})\}}{N(N-1)}},\quad (x_{1},x_{2})\in \mathbb {R} ^{2}\;.}

Für die Stichprobenfunktion S = X 1 + X 2 {\displaystyle S=X_{1}+X_{2}} ergibt sich die Stichprobenverteilung als die eindimensionale diskrete Wahrscheinlichkeitsverteilung

P ( S = x ) = # { ω Ω ξ ω 1 + ξ ω 2 = x } N ( N 1 ) , x R . {\displaystyle P(S=x)={\frac {\#\{\omega \in \Omega \mid \xi _{\omega _{1}}+\xi _{\omega _{2}}=x\}}{N(N-1)}},\quad x\in \mathbb {R} .}

Für die Stichprobenfunktion X ¯ = ( X 1 + X 2 ) / 2 {\displaystyle {\bar {X}}=(X_{1}+X_{2})/2} ergibt sich die Stichprobenverteilung als die eindimensionale diskrete Wahrscheinlichkeitsverteilung

P ( X ¯ = x ) = # { ω Ω ( ξ ω 1 + ξ ω 2 ) / 2 = x } N ( N 1 ) , x R . {\displaystyle P({\bar {X}}=x)={\frac {\#\{\omega \in \Omega \mid (\xi _{\omega _{1}}+\xi _{\omega _{2}})/2=x\}}{N(N-1)}},\quad x\in \mathbb {R} \;.}

Beispiel

Für eine Grundgesamt mit N = 3 {\displaystyle N=3} Einheiten und ξ 1 = 10 , ξ 2 = 16 , ξ 3 = 10 {\displaystyle \xi _{1}=10,\xi _{2}=16,\xi _{3}=10} ergeben sich beim Ziehen ohne Zurücklegen die N ( N 1 ) = 6 {\displaystyle N(N-1)=6} verschiedenen Stichproben ( 1 , 2 ) , ( 1 , 3 ) , ( 2 , 1 ) , ( 2 , 3 ) , ( 3 , 1 ) , ( 3 , 2 ) {\displaystyle (1,2),(1,3),(2,1),(2,3),(3,1),(3,2)} vom Umfang n = 2 {\displaystyle n=2} . Dies haben jeweils die Auswahlwahrscheinlichkeit 1 / 6 {\displaystyle 1/6} . Die zugehörigen Beobachtungswerte sind ( ξ 1 , ξ 2 ) = ( ξ 3 , ξ 2 ) = ( 10 , 16 ) {\displaystyle (\xi _{1},\xi _{2})=(\xi _{3},\xi _{2})=(10,16)} , ( ξ 1 , ξ 3 ) = ( ξ 3 , ξ 1 ) = ( 10 , 10 ) {\displaystyle (\xi _{1},\xi _{3})=(\xi _{3},\xi _{1})=(10,10)} und ( ξ 2 , ξ 1 ) = ( ξ 2 , ξ 3 ) = ( 16 , 10 ) {\displaystyle (\xi _{2},\xi _{1})=(\xi _{2},\xi _{3})=(16,10)} . Die gemeinsame diskrete Wahrscheinlichkeitsverteilung von ( X 1 , X 2 ) {\displaystyle (X_{1},X_{2})} ist

P ( ( X 1 , X 2 ) = ( x 1 , x 2 ) ) = { 2 6 = 1 3 , falls  ( x 1 , x 2 ) { ( 10 , 16 ) , ( 10 , 10 ) , ( 16 , 10 ) } 0 sonst . {\displaystyle P((X_{1},X_{2})=(x_{1},x_{2}))={\begin{cases}{\frac {2}{6}}={\frac {1}{3}},&{\text{falls }}(x_{1},x_{2})\in \{(10,16),(10,10),(16,10)\}\\0&{\text{sonst}}\end{cases}}\;.}

Die Stichprobenverteilung der Stichprobenfunktion S = X 1 + X 2 {\displaystyle S=X_{1}+X_{2}} ist

P ( S = 26 ) = 4 6 = 2 3 , P ( S = 20 ) = 2 6 = 1 3 . {\displaystyle P(S=26)={\frac {4}{6}}={\frac {2}{3}},\quad P(S=20)={\frac {2}{6}}={\frac {1}{3}}\;.}

Die Stichprobenverteilung der Stichprobenfunktion X ¯ = ( X 1 + X 2 ) / 2 {\displaystyle {\bar {X}}=(X_{1}+X_{2})/2} ist

P ( X ¯ = 13 ) = 2 3 , P ( X ¯ = 10 ) = 1 3 . {\displaystyle P({\bar {X}}=13)={\frac {2}{3}},\quad P({\bar {X}}=10)={\frac {1}{3}}\;.}

Bayesianische Inferenzstatistik

Bei der bayesianischen Inferenz wird die A-priori-Verteilung, die auf dem Parameterraum eines zu schätzenden Parameters definiert ist, unter Berücksichtigung der Wahrscheinlichkeitsverteilung des Stichprobenvektors X = ( X 1 , , X n ) {\displaystyle \mathbf {X} =(X_{1},\dots ,X_{n})} und unter Verwendung eines realisierten und beobachteten Wertes x = ( x 1 , , x n ) {\displaystyle \mathbf {x} =(x_{1},\dots ,x_{n})} des Stichprobenvektors in die A-posteriori-Verteilung transformiert. Dabei ist die A-posteriori-Verteilung proportional zum Produkt aus A-priori-Verteilung und der Likelihoodfunktion. Die Likelihoodfunktion gibt im diskreten Fall die Wahrscheinlichkeit und im stetigen Fall die Wahrscheinlichkeitsdichte des beobachten Wertes x {\displaystyle \mathbf {x} } für alternative Parameter an und wird als Funktion auf dem Parameterraum interpretiert.

Aus der A-posteriori-Verteilung können verschiedene Schätzwerte für den zu schätzenden Parameter gewonnen werden, indem z. B. im stetigen Fall der Wert mit maximalen Dichte bzw. im diskreten Fall der Wert mit maximaler Wahrscheinlichkeit, der Median oder der Erwartungswert der A-posteriori-Verteilung als Schätzwert verwendet werden. Ein solcher aus der A-posteriori-Verteilung gewonnener Schätzwert hängt von dem realisierten und beobachteten Wert x {\displaystyle \mathbf {x} } des Stichprobenvektors ab. Ersetzt man diesen durch den zufälligen Stichprobenvektor X {\displaystyle \mathbf {X} } so ergibt sich die zu dem jeweiligen Schätzwert gehörige Schätzfunktion, deren Wahrscheinlichkeitsverteilung eine Stichprobenverteilung ist.

Falls eine suffiziente Stichprobenfunktion (suffiziente Statistik) existiert, kann die Stichprobenverteilung dieser Stichprobenfunktion an die Stelle der Verteilung des Stichprobenvektors treten, ohne dass sich die resultierende A-posteriori-Verteilung ändert.

Beispiel

Die Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} seien stochastisch unabhängig und identisch Bernoulli-verteilt mit unbekanntem Bernoulli-Parameter 0 < p < 1 {\displaystyle 0<p<1} . Die Wahrscheinlichkeitsverteilung des Stichprobenvektors X = ( X 1 , , X n ) {\displaystyle \mathbf {X} =(X_{1},\dots ,X_{n})} ist dann

P p ( X = x ) = { p k ( 1 p ) n k , falls  x = ( x 1 , , x n ) { 0 , 1 } n 0 sonst , {\displaystyle P_{p}(\mathbf {X} =\mathbf {x} )={\begin{cases}p^{k}(1-p)^{n-k},&{\text{falls }}\mathbf {x} =(x_{1},\dots ,x_{n})\in \{0,1\}^{n}\\0&{\text{sonst}}\end{cases}}\;,}

wobei k := i = 1 n x i {\displaystyle k:=\sum _{i=1}^{n}x_{i}} . Wenn f 0 {\displaystyle f_{0}} die gegebene Dichtefunktion einer A-Priori-Verteilung auf dem Intervall ( 0 , 1 ) {\displaystyle (0,1)} ist und x {\displaystyle \mathbf {x} } ein realisierter und beobachteter Wert des Suchprobenvektors X = ( X 1 , , X n ) {\displaystyle \mathbf {X} =(X_{1},\dots ,X_{n})} ist, dann ist die Dichtefunktion f 1 {\displaystyle f_{1}} der A-Posteriori-Verteilung proportional zum Produkt aus f 0 {\displaystyle f_{0}} und der Likelihoodfunktion

L x ( p ) := P p ( X = x ) , 0 < p < 1 . {\displaystyle L_{\mathbf {x} }(p):=P_{p}(\mathbf {X} =\mathbf {x} ),\quad 0<p<1\;.}

Es gilt also

f 1 ( p | x ) = c L x ( p ) f 0 ( p ) , 0 < p < 1 {\displaystyle f_{1}(p|\mathbf {x} )=c\cdot L_{\mathbf {x} }(p)\cdot f_{0}(p),\quad 0<p<1} .

Damit ist die A-priori-Verteilung spezifiziert. Dies kann für bestimmte Anwendungen ausreichend sein. Um einen Schätzwert für den Parameter p {\displaystyle p} zu erhalten, muss in einem zweiten Schritt eine Kennzahl der A-Posterior-Verteilung bestimmt werden.

Wenn f 0 {\displaystyle f_{0}} konstant ist – dies ist die Dichtefunktion einer Beta-Verteilung mit den Parametern α = β = 1 {\displaystyle \alpha =\beta =1} –, dann ist die A-priori-Verteilung proportional zur Likelihoodfunktion und die Stelle mit maximaler A-Priori-Dichte ist der Maximum-Likelihood-Schätzwert k / n {\displaystyle k/n} für p {\displaystyle p} . Die zugehörige Schätzfunktion für p {\displaystyle p} ist K / n {\displaystyle K/n} mit K = i = 1 n X i {\displaystyle K=\sum _{i=1}^{n}X_{i}} . Die A-Priori-Verteilung ist eine Beta-Verteilung mit den Parametern α = 1 + k {\displaystyle \alpha =1+k} und β = 1 + n {\displaystyle \beta =1+n} und dem Erwartungswert ( k + 1 ) / ( n + 2 ) {\displaystyle (k+1)/(n+2)} , so dass ( k + 1 ) / ( n + 2 ) {\displaystyle (k+1)/(n+2)} ein alternativer bayesianischer Schätzwert mit der zugehörigen Schätzfunktion ( K + 1 ) / ( n + 2 ) {\displaystyle (K+1)/(n+2)} ist. Die Stichprobenverteilungen beider Schätzfunktionen sind durch eine Binomialverteilung bestimmt, da K {\displaystyle K} binomialverteilt ist, K Bin ( n , p ) {\displaystyle K\sim \operatorname {Bin} (n,p)} .

Die Summe K = i = 1 n X i {\displaystyle K=\sum _{i=1}^{n}X_{i}} der Stichprobenvariablen ist eine suffiziente Stichprobenfunktion für den Parameter p {\displaystyle p} mit der Stichprobenverteilung

P p ( K = k ) = { ( n k ) p k ( 1 p ) n k , falls  k { 0 , 1 , , n } 0 sonst {\displaystyle P_{p}(K=k)={\begin{cases}{\binom {n}{k}}p^{k}(1-p)^{n-k},&{\text{falls }}k\in \{0,1,\dots ,n\}\\0&{\text{sonst}}\end{cases}}}

und der Likelihoodfunktion

L k ( p ) := P p ( K = k ) , 0 < p < 1 . {\displaystyle L_{k}(p):=P_{p}(K=k),\quad 0<p<1\;.}

Da sich die Likelihoodfunktionen L x {\displaystyle L_{\mathbf {x} }} und L k {\displaystyle L_{k}} nur durch einen konstanten Faktor unterscheiden, gilt auch

f 1 ( p | x ) = c L k ( p ) f 0 ( p ) , 0 < p < 1 {\displaystyle f_{1}(p|\mathbf {x} )=c'\cdot L_{k}(p)\cdot f_{0}(p),\quad 0<p<1} .

Die bayessche Inferenz beruhend auf der Verteilung des Stichprobenvektors und auf der Stichprobenverteilung der suffizienten Stichprobenfunktion führt zur selben A-Posteriori-Verteilung.

Zu diesem Beispiel siehe auch Bayessche Statistik#Bayessche Inferenz am Beispiel des Münzwurfes und Suffiziente Statistik#Beispiel Binomialverteilung.

Anwendung

Anwendung findet die Stichprobenverteilung in der Herleitung von Konfidenzintervallen, siehe dort.

Literatur

  • E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 4. Auflage. Springer, Cham 2022, ISBN 978-3-03070577-0, doi:10.1007/978-3-030-70578-7 (In zwei fortlaufend paginierten Bänden, Volume I: Finite-sample-theory, Volume II: Asymptotic Theory). 
  • E. L. Lehmann, Georg Casella: Theory of Point Estimation. 2. Auflage. Springer, New York 1998, ISBN 0-387-98502-6. 
  • Fritz Pokropp: Stichproben – Theorie und Verfahren. 2. Auflage. Oldenbourg, München 1996, ISBN 3-486-23856-6. 
  • Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, 1.3 Stichprobenvektor und Stichprobenfunktionen, S. 437–439. 

Einzelnachweise

  1. Rainer Schlittgen: Einführung in die Statistik – Analyse und Modellierung von Daten. 12., korrigierte Auflage. Oldenbourg Verlag, München 2012, ISBN 978-3-486-71524-8, S. 277, doi:10.1524/9783486715910. 
  2. Jürgen Bortz, Christof Schuster: Statistik für Human- und Sozialwissenschaftler. 7., vollständig überarbeitete und erweiterte Auflage. Springer, Berlin 2010, ISBN 978-3-642-12769-4, 6.2 Stichprobenverteilung, S. 82. 
  3. Beispielsweise gibt es keinen Eintrag Stichprobenverteilung und keine Verwendung des Begriffs in:
    • P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1. 
    • Horst Rinne: Taschenbuch der Statistik. 2008. 
  4. Ronald A. Fisher: The goodness of fit of regression formulae, and the distribution of regression coefficients. In: Journal of the Royal Statistical Society. Band 85, Nr. 4, 1922, S. 597–612, S. 598, JSTOR:2341124. 
  5. Ronald A. Fisher: The general sampling distribution of the multiple correlation coefficient. In: Proceedings of Royal Society A. Band 121, 1928, S. 654–673, doi:10.1098/rspa.1928.0224. 
  6. Ronald A. Fisher: Moments and Product Moments of Sampling Distributions. In: Proceedings of the London Mathematical Society, Series 2. Band 30, 1929. 
  7. Earliest Known Uses of Some of the Words of Mathematics – Sampling Distribution. Abgerufen am 17. Mai 2024.