Eine Stichproben-Verteilung kann als ein endliches W-Maße P, mit P({xi}) = 1/n ∀i: 1 ≤ i ≤ n betrachtet werden. Deshalb können Begriffe, die für theoretische Verteilungen erklärt wurden, auch auf Stichproben-Verteilungen übertragen werden. So entsprechen z.B. die P‑Integrale der dort angegebenen Kenngrößen, aufgrund der Diskretheit einer Stichproben-Verteilung, hier den Summen (rot markiert), d.h. die Begrifflichkeit stimmt mit der bisherigen überein.
Eine andere Sichtweise müssen wir annehmen, wenn wir diese Stichproben-Kenngrößen als Schätzer für die Kenngrößen der wahren Verteilung verwenden wollen.
Da die \(x_i\) ja Realisierungen von ZV sind, können wir jede dieser Realisierungen selbst als ZV betrachten. Somit ist auch die jeweilige Kenngröße eine ZV und damit auch mit der unbekannten zugrundeliegenden Verteilung von X im Hinblick auf bestimmte Eigenschaften vergleichbar. Ein guter Schätzer für irgendeinen Verteilungsparameter muss mindestens die folgenden beiden Gütekriterien erfüllen: Er muss erwartungstreu und konsistent bezüglich dieses Verteilungsparameters sein. So gilt z. B. für das Stichprobenmittel \(\bar x\) bzw. die Stichprobenvarianz \(s^2\), wenn sie als ZV betrachtet werden
- \({\mathbf E} \bar X = {\mathbf E} X \quad\mbox{bzw.}\quad {\mathbf E} S^2 = {\mathbf {V\!ar}} X\)
- \( \bar X \stackrel{\scriptscriptstyle{\mathsf{n.W.}}}{\longrightarrow} {\mathbf E} X \quad\mbox{bzw.}\quad S^2 \stackrel{\scriptscriptstyle{\mathsf{n.W.}}}{\longrightarrow} {\mathbf {V\!ar}} X\)
Die gleichen Gütekriterien erfüllen auch die Stichproben-Standardabweichung, der Stichproben-Variationskoeffizient, die Stichproben-Schiefe, die Stichproben-Wölbung und der Stichproben-Exzess, wie auch die Stichprobenkovarianz und der Stichprobenkorrelationskoeffizient.
[Merke: Wir kennen zwar nicht die wahre Verteilung, aber wir können die Stichproben-Kenngrößen unter einer Verteilungsannahme mit den "formalen" Kenngrößen dieser Verteilung vergleichen.]
- Kenngrößen der zentralen Tendenz
- Stichprobenmittel (= arithmetisches Mittel) \(\color{red}{\bar{x}}=\frac{1}{n}\sum\limits_{i=1}^n x_i\)
- Median \(\tilde{x}= x_{0.5}\) (0,5-Quantil)
Das p-Quantil ist wie folgt definiert: \(x_p = \left\{\begin{array}{l@{\quad}l}\frac{1}{2} (x_{(n\cdot p)}+x_{(n\cdot p+1)})& \mbox{, falls }(n\cdot p) \mbox{ ganzzahlig}\\ x_{(\lceil n\cdot p\rceil)}& \mbox{, falls } (n\cdot p) \mbox{ nicht ganzzahlig} \end{array}\right.\) - Modus \(x_{mod}\) (häufigster Wert)
Für eine symmetrische und unimodale (eingipflige) Verteilung gilt: \(x_{mod}\approx\tilde{x}\approx\bar{x}\) - Bereichsmittel \(\bar{x}_B= \frac{1}{2} (x_{max}+x_{min})\)
- Quartilsmittel \(\bar{x}_Q = \frac{1}{2} (x_{0.75}+x_{0.25})\)
- Kenngrößen der Streuung
- Spannweite \(S = x_{max}-x_{min}\)
- p-Quantilsabstand \(QA_p = (x_{1-p}-x_{p})\)
- (Inter-)Quartilsabstand \(IQR = (x_{0.75}-x_{0.25})\)
- Mittlere absolute Abweichung vom Stichprobenmittel \(d=\frac{1}{n}\sum\limits_{i=1}^n |x_i-\bar{x}|\)
- Relative mittlere absolute Abweichung \(d_r=\frac{d}{\bar{x}}\)
- Stichprobenvarianz \(\color{red}{s^2} = \frac{1}{n-1}\sum\limits_{i=1}^n (x_i-\bar{x})^2\)
- Mittlere quadratische Abweichung vom Stichprobenmittel (= Standardabweichung) \(\color{red}{s}=\sqrt{s^2}\)
- Relative Standardabweichung (= Variationskoeffizient) \(\color{red}{v}=\frac{s}{\bar{x}}\)
- Kenngröße der Schiefe (= Skewness) \(\color{red}{\gamma_1} = \frac{1}{n\cdot s^3}\sum\limits_{i=1}^n (x_i-\bar{x})^3\)
- \(\gamma_1 < 0 \Leftrightarrow \mbox{linksschief (rechtssteil)}\Leftrightarrow \bar{x} < \tilde{x} < x_{mod}\)
\(\gamma_1 > 0 \Leftrightarrow \mbox{rechtsschief (linkssteil)}\Leftrightarrow \bar{x} > \tilde{x} > x_{mod}\) - Kenngröße der Wölbung (= Kurtosis = Spitzigkeit = Gipfligkeit) \(\color{red}{\gamma_2} = \frac{1}{n\cdot s^4}\sum\limits_{i=1}^n (x_i-\bar{x})^4\)
- Exzess \(\color{red}{\gamma_3} = \gamma_2 -3\) , wobei 3 die Wölbung der Normalverteilung ist
\(\gamma_3 < 0 \Leftrightarrow \mbox{flachgipflig}\)
\(\gamma_3 > 0 \Leftrightarrow \mbox{steilgipflig}\)
Für zwei- und mehrdimensionale Stichproben (Messung von abhängigen Werten) gibt es zudem noch die folgenden Kenngrößen:
- Stichprobenkovarianz \(\;\color{red}{s_{\scriptscriptstyle XY}} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X_n)(Y_i-\bar Y_n)\)
- Stichprobenkorrelationskoeffizient \(\;\color{red}{r_{\scriptscriptstyle XY}} = \frac{\textstyle s_{\scriptscriptstyle XY}}{\sqrt{\textstyle s_{\scriptscriptstyle X}^2\cdot \textstyle s_{\scriptscriptstyle Y}^2}} \)