Der Tee-Test. Vergleich einer empirischen mit einer theoretischen Verteilung. [1]


0

In einer Neuauflage der Spielshow »Wetten dass ...« wettet Gerda, dass sie bei mindestens 90 Prozent von Teeproben, die ihr gegeben werden nur am Geschmack erkennen kann, um welche Teesorte es sich handelt. Ihr werden mit verbundenen Augen 30 Tassen Tee mit verschiedenen Sorten von Ceylon-Assam über Earl Grey und Darjeeling bis zu südamerikanischem Mate-Tee gereicht. Sie erkennt davon 21 Tassen richtig, womit sie die Wette verloren hat. Es wären mindestens 27 Tassen nötig gewesen, um die Wette zu gewinnen.

Gerda ist allerdings nicht betrübt. Sie sagt, das würde ihre Behauptung, im Schnitt mindestens 90 Prozent zu erkennen, nicht widerlegen. Außerdem seien das immerhin 70 Prozent und damit deutlich mehr als die Hälfte, die bei purem raten zu erwarten gewesen wäre. Schon deshalb sei klar, dass sie Teesorten am Geschmack über den puren Zufall hinaus erkennen könne.

Sind die Aussagen von Gerda richtig? Wie lassen sie sich überprüfen? Zunächst müssen aus Gerdas Aussagen statistisch überprüfbare Hypotesen abgeleitet werden:

Erste Aussage

  • Nullhypotese: Gerdas gemessener Erfolg (70 Prozent oder 0,7) ist signifikant größer oder gleich ihrer Erfolgsbehauptung (90 Prozent oder 0,7).
  • Alternativhypothese: Gerdas gemessener Erfolg (70 Prozent oder 0,7) ist signifikant kleiner als ihre Erfolgsbehauptung (90 Prozent oder 0,7).

Zweite Aussage

  • Nullhypothese: Gerdas gemessener Erfolg (70 Prozent oder 0,7) ist signifikant kleiner oder gleich 50 Prozent oder 0,5.
  • Alternativhypothese: Gerdas gemessener Erfolg (70 Prozent oder 0,7) ist signifikant größer als 50 Prozent oder 0,5.

Diese Hypothesen lassen sich nun mit einem gewissen Grad an Unsicherheit testen. Mit welchem Grad an Unsicherheit wir leben wollen, wenn wir annehmen, dass die Nullhypothese falsch ist, muss vor dem eigentlichen Test festgelegt werden. Das ist das \(\alpha\)-Fehler-Niveau (Signifikanzniveau). Das \(\alpha\)-Fehler-Niveau wird an dieser Stelle auf 5 Prozent (0,05) festgelegt. Das bedeutet, dass jede Irrtumswahrscheinlichkeit, die unter 5 Prozent liegt, dazu führt, die Nullhypothese zurückzuweisen.

Beide Aussagen Gerdas sind gerichtet. Die Alternativhypothesen lauten nicht, Gerdas Erfolg sei signifikant ungleich 90 oder 50 Prozent. Sie lauten, Gerdas Erfolg sei signifikant kleiner als 90 bzw. signifikant größer als 50 Prozent. Es liegen also einseitige Fragestellungen vor (siehe Abbildungen 1 und 2). Das ist wichtig, wenn bei einem Signifikanztest eine (empirisch ermittelte) Testgröße mit einem (theoretischen) Tabellenwert verglichen wird bzw. Sigmafaktoren (Betrag der z-Werte) zum Vergleich herangezogen werden. Wie die Abbildungen 1 und 2 zeigen, ist bei einseitiger Fragestellung der Ablehnungsbereich für die Nullhypothese auf einer Seite doppelt so groß, wie bei beidseitiger Fragestellung. Mit anderen Worten: eine beidseitige Fragestellung begünstigt die Nullhypothese.

 

Abbildung 1: Konfdenzintervall bei beidseitiger Fragestellung. Die rote Fläche in der Mitte sind 95 Prozent der Verteilung, an beiden Rändern befinden sich 2,5 Prozent der Verteilung. Das ist der Ablehnungsbereich für die Nullhypothese.

Abbildung 2: Konfidenzintervall bei einseitiger (hier linksseitiger) Fragesellung. Der Ablehnungsbereich für die Nullhypothese befindet sich komplett auf einer (hier der linken) Seite.


Nun gibt es Signifikanztests wie sand am Meer. Vier, die dazu geeignet sind, die vorliegende Situation zu testen, möchte ich an dieser Stelle vorstellen. [2]


Erste Möglichkeit: One-Sample-t-Test

Die Variable »Gerdas Erfog« ist dichotom, das heißt, sie hat genau zwei Ausprägungen: »Treffer« und »kein Treffer«. Dichotome Variablen können auf der einen Seite auf der Grundlage der Binomialverteilung untersucht werden. Das wird in der zweiten und dritten Möglichkeit getan.

Auf der andern Seite können dichotome Variablen aber auch wie metrische Variablen behandelt werden, wenn ihre beiden Ausprägungen mit 0 (hier: »kein Treffer«) und 1 (hier: »Treffer«) kodiert werden. [3] Das arithmetische Mittel der Variablen »Gerdas Erfog« wäre in diesem Fall 0,7. Das ist ein Wert, der sinnvoll interpretierbar ist: In 70 Prozent aller Fälle hat Gerda einen Treffer gelandet. [4]

Auf dieser gedanklichen Grundlage kann ein One-Sample-t-Test durchgeführt werden. Bei so einem Test wird ein empirisch gemessener Mittelwert einer Stichprobe mit einem theoretischen Wert (zum Beispiel dem Grundgesamtheitsmittelwert, wenn derselbe bekannt ist) verglichen und darauf getestet, ob es einen signifikanten Unterschied zwischen beiden Werten gibt oder nicht. In unserem Fall haben wir bei Gerdas erster Aussage:

  • theoretischer Wert (\(\mu\)): 0,9
  • empirischer Wert (\(\bar{x}\)): 0,7
  • Fallzahl (n): 30
  • Freiheitsgrade (df): n–1 = 29
  • \(\alpha\)-Fehler-Niveau: 0,05 (einseitig)

Hypothesen:

  • \(H_{0}: \bar{x} \ge \mu\)
  • \(H_{1}: \bar{x} < \mu\)

Nach Bortz 2005:138 wird die Testgröße t bei kleinen Stichproben (\(n \leq 30\)) nach Formel (1) berechnet.

$$t=\frac{\bar{x}-\mu}{\frac{{\displaystyle \hat{\sigma}}}{{\displaystyle \sqrt{n}}}}=\frac{\left(\bar{x}-\mu\right)\cdot\sqrt{n}}{\hat{\sigma}} \tag{1}$$

Dabei ist \(\hat{\sigma}\) der Schätzer der Standardabweichung in der Grundgesamtheit aus den Daten der Stichprobe. Dieser Schätzer ist nach Bortz 2005:92 und nach Sahner 1982:49 durch Formel (2) definiert.

$$\hat{\sigma}=\sqrt{\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n-1}} \tag{2}$$

Der Zähler des Bruchs unter der Wurzel in Formel (2) kann nach Gleichung (3) berechnet werden.

$$\sum_{i=1}^{30}\left(x_{i}-\bar{x}\right)^{2}=21\cdot\left(1-0,\!7\right)^{2}+9\cdot\left(0-0,\!7\right)^{2}=1,89+4,41=6,3 \tag{3}$$

Ist \(\mu\) im vorliegenden Fall ein Grundgesamtheitsmittelwert? an sich schon, jedenfalls ist es das, was Gerda behauptet: nicht in jedem Einzelfall (also einer konkreten Stichprobe) sondern über alle Einzelfälle hinweg ergebe sich (als Aggregat), dass sie mindestens 90 Prozent der Teeproben richtig erkenne. Ein Einwand könnte sein, dass es sich nicht um den realen Grundgesamtheitsmittelwert handelt (der gar nicht bekannt ist), sondern nur um Gerdas Behauptung. Dann kann statt des Schäzers für die Standardabweichung in der Grundgesamtheit (\(\hat{\sigma}\)) auch einfach die Standardabweichung der Stichprobe (s) genommen werden. In Formel (2) stünde dann im Nenner des Bruchs unter der Wurzel nicht n–1, sondern nur n.

In dem Fall, dass \(\hat{\sigma}\) zur Berechnung der Testgröße t herangezogen wird, ergibt sich die Testgröße t nach Gleichung (4). Wenn s zur Berechnung der Testgröße t herangezogen wird, ergibt sich die Testgröße t nach Gleichung (5).

\begin{array}{rcccl}
(4)\qquad{}t & = & \frac{{\displaystyle \left(0,7-0,9\right)\cdot\sqrt{30}}}{{\displaystyle \sqrt{\frac{6,3}{29}}}} & \approx & -2,35\\
(5)\qquad{}t & = & \frac{{\displaystyle \left(0,7-0,9\right)\cdot\sqrt{30}}}{{\displaystyle \sqrt{\frac{6,3}{30}}}} & \approx & -2,39
\end{array}

In Bortz 2005:819 und in den folgenden beiden Tabellen:

lässt sich für das \(\alpha\)-Fehler-Niveau 0,05 bei einseitiger Fragestellung und 29 Freiheitsgraden ein Tabellenwert von t=1,699 ablesen. In Sahner 1982:177 wird als Wert 1,70 angegeben. [5] Nach dem Beispiel in Bortz 2005:139 oben links ergibt sich als Entscheidungskriterium:

  • \(|t|>|t_{\textrm{Tab}}|\:\rightarrow\:H_{0}\textrm{ wird zurückgewiesen}\)
  • \(|t| \leq |t_{\textrm{Tab}}|\:\rightarrow\:H_{0}\textrm{ wird angenommen}\)

Sowohl in dem Fall, dass \(\hat{\sigma}\) als auch in dem Fall, dass s verwendet wird, ergibt sich daher als Testergebnis: Die Nullhypothese wird zurückgewiesen. Im Rahmen der gegebenen Irrtumswahrscheilichkeit lässt sich sagen: die beobachtete Trefferquote von 70 Prozent ist signifikant kleiner als die Trefferquote von 90 Prozent, die Gerda behautet. Ihre erste Aussage ist daher wahrscheinlich falsch.

Um Gerdas zweite Behauptung zu testen, muss der Wert von \(\mu\) auf 0,5 gesetzt werden.

Hypothesen:

  • \(H_{0}: \bar{x} \leq \mu\)
  • \(H_{1}: \bar{x} > \mu\)

Der t-Wert wird in dem Fall, dass \(\hat{\sigma}\) verwendet wird, nach Gleichung (6) und in dem Fall, dass s verwendet wird, nach Gleichung (7) berechnet.

\begin{array}{rcccl}
(6)\qquad{}t & = & \frac{{\displaystyle \left(0,7-0,5\right)\cdot\sqrt{30}}}{{\displaystyle \sqrt{\frac{6,3}{29}}}} & \approx & 2,35\\
(7)\qquad{}t & = & \frac{{\displaystyle \left(0,7-0,5\right)\cdot\sqrt{30}}}{{\displaystyle \sqrt{\frac{6,3}{30}}}} & \approx & 2,39
\end{array}

Das bedeutet: auch hier wird die Nullhypothese zurückgewiesen. Die beobachtete Trefferquote ist signifikant größer als sie zu erwarten wäre, wenn Gerda nur raten würde. Im Rahmen der gegebenen Irrtumswahrscheinlichkeit lässt sich daher sagen: Mit ihrer zweiten Behauptung hat Gerda wahrscheinlich recht.


Zweite Möglichkeit: Vergleich zweier Aneile

Diese Möglichkeit wird in Sahner 1982:94–103 vorgestellt. Es geht dabei darum, zwei Anteile (Prozentsätze) aus Stichproben miteinander zu vergleichen und (mit einer gewissen Unsicherheit) zu entscheiden, ob der Unterschied zwischen ihnen durch den Zufall erklärt werden kann oder nicht. Letzteres wäre dann ein signifikanter Unterschied. Dazu ist es nötig, für beide Anteile (Prozentsätze) die Fallzahl der Stichprobe zu kennen, der sie jeweils entstammen. Wir haben:

  • \(P_{1}=0,9\)
  • \(P_{2}=0,7\)
  • \(n_{1}=n_{2}=30\)
  • \(\alpha\)-Fehler-Niveau = 0,05 (einseitig)

Hypothesen:

  • \(H_{0}: P_{2} \ge P_{1}\)
  • \(H_{1}: P_{2} < P_{1}\)

Die Testgröße ist der z-Wert der Normalverteilung, die entsteht, wenn sehr viele (theoretisch: unendlich viele) Stichproben gezogen und bei jeder Stichprobe die Prozentsatzdifferenz \(P_{1}-P_{2}\) gebildet wird, vgl. Formel (8).

$$z=\left|\frac{P_{1}-P_{2}}{\hat{\sigma}_{P_{1}-P_{2}}}\right| \tag{8}$$

Die Prozentsatzdifferenzen der einzelnen Stichproben streuen dann normalverteilt um die Prozentsatzdifferenz in der Grundgesamtheit. [6] Die Standardabweichung eines Anteils (Prozentwerts) wird dabei durch den Standardfehler dieses Anteils geschätzt (vgl. Sahner 1982:89). Für die beiden Prozentsätze deren Differenz zu testen ist, wird dies nach den Formeln (9) und (10) berechnet.

\begin{eqnarray}
\hat{\sigma}_{P_{1}} & = & \sqrt{\frac{P_{1}\cdot\left(1-P_{1}\right)}{n_{1}}} \tag{9}\\
\hat{\sigma}_{P_{2}} & = & \sqrt{\frac{P_{2}\cdot\left(1-P_{2}\right)}{n_{2}}} \tag{10}
\end{eqnarray}

Entsprechend wird die Standardabweichung der Gesamtgrupendifferenz nach Formel (11) geschätzt. Zur genaueren Begründung siehe Sahner 1982:95–96.

$$\hat{\sigma}_{P_{1}-P_{2}}=\sqrt{\frac{P_{1}\cdot\left(1-P_{1}\right)}{n_{1}}+\frac{P_{2}\cdot\left(1-P_{2}\right)}{n_{2}}} \tag{11}$$

Durch eisetzen der vorliegenden Werte in Formel (11) erhalten wir den Wert nach Gleichung (12).

$$\hat{\sigma}_{P_{1}-P_{2}}=\sqrt{\frac{0,\!9\cdot 0,\!1}{30}+\frac{0,\!7\cdot 0,\!3}{30}}=0,\!1 \tag{12}$$

Der empirische z-Wert wird durch Gleichung (13) bestimmt.

$$z=\left|\frac{0,9-0,7}{0,1}\right|=\left|\frac{0,2}{0,1}\right|=2 \tag{13}$$

Nach Bortz 2005:813 liegt der z-Wert für \(\alpha=0,0495\) bei –1,65 und für \(\alpha=0,0505\) bei –1,64. Die Tabelle

Quantile der Standardnormalverteilung

gibt für \(\alpha=0,95\) den z-Wert 1,6449 an. \(\alpha=0,05\) entspricht dann der z-Wert –1,6449. Dieser Wert kann auch über die Tabellenkalkulation ermittelt werden. Wenn beispielsweise in Zelle A1 der Wert für \(\alpha\) steht, dann kann der entsprechende z-Wert über die Formel

=NORM.S.INV(A1)

bestimmt werden. Nach dem Beispiel in Sahner 1982:103 gilt als Entscheidungskriterium:

  • \(|z|>|z_{\textrm{Tab}}|\:\rightarrow\:H_{0}\textrm{ wird zurückgewiesen}\)
  • \(|z| \leq |z_{\textrm{Tab}}|\:\rightarrow\:H_{0}\textrm{ wird angenommen}\)

Daher wird die Nullhypothese zurückgewiesen. Die beobachtete Trefferquote ist signifikant kleiner als die von Gerda behauptete Trefferquote (Irrtum nicht ausgeschlossen).

Für Gerdas zweite Behauptung sehen die Hypothesen so aus:

  • \(H_{0}: P_{2} \leq P_{1}\)
  • \(H_{1}: P_{2} > P_{1}\)

Der entsprechende z-Wert wird nach Gleichung (14) errechnet.

$$z=\left|\frac{0,5-0,7}{0,1}\right|=\left|\frac{-0,2}{0,1}\right|=2 \tag{14}$$

Auch hier wird die Nullhypothese zurückgewiesen. Gerdas Trefferquote ist signifikant größer als sie zu erwarten wäre, wenn Gerda nur raten würde.


Dritte Möglichkeit: Vergleich eines Anteils mit einem theoretischen Wert

Diese Möglichkeit wird in Sahner 1982:94–103 vorgestellt. Es handelt sich um das vierte Kapitel: »Schließverfahren für Prozentwerte; der Schluß vom Sampleprozentsatz auf den Gesamtgruppenprozentsatz«. [7] Die theoretischen Voraussetzungen sind dieselben, wie bei Möglichkeit 2, nur der Blickwinkel ist ein anderer. Sahner bezeichnet den Gesamtgruppenprozentsatz mit P (großer Buchstabe) und den Stichprobenprozentsatz mit p (kleiner Buchstabe). Etwas verallgemeinert kann der Gesamtgruppenprozentsatz auch ein beliebiger theoretischer Wert sein, geichgültig, wo er herkommt (ein bekannter Wert aus der Grundgesamtheit, eine theoretische Wahrscheinlichkeit, ein behaupteter Wert). Da ein kleines p und ein großes P schwer auseinanderzuhalten sind, verwende ich im Folgenden die Bezeichnungen \(P_{t}\) für den theoretischen und \(P_{b}\) für den beobachteten Wert. Wir haben:

  • \(P_{t}=0,9\)
  • \(P_{b}=0,7\)
  • \(n_{b}=30\)
  • \(\alpha\)-Fehler-Niveau = 0,05 (einseitig)

Hypothesen:

  • \(H_{0}: P_{b} \ge P_{t}\)
  • \(H_{1}: P_{b} < P_{t}\)

Wir wollen wissen, ob der theoretische Prozentsatz (0,9) signifikant größer ist, als der beobachtete Prozentsatz (0,7). Deshalb liegt in diesem Fall eine rechtsseitige Fragestellung vor. Der theoretische z-Wert liegt also an dem Punkt, links von dem 95 Prozent der Verteilung liegen, also bei \(\alpha=0,95\). Wie bereits bei Möglichkeit 2 ermittelt, liegt dieser z-Wert bei 1,6449.

Geprüft wird nun, ob der theoretische Prozentsatz aus dem Konfidenzintervall herausfällt, also signifikant größer als der beobachtete Prozentsatz ist, oder nicht. Das bedeutet, die Ungleichung (15) wird daraufhin überprüft, ob sie wahr oder falsch ist. [8]

$$P_{t}>P_{b}+z\hat{\sigma}_{P_{b}} \tag{15}$$

\(\hat{\sigma}_{P_{b}}\) wird dabei nach einer der Formeln (9) oder (10) ermittelt, insofern in Formel (9) \(P_{1}\) und \(n_{1}\) oder in Formel (10) \(P_{2}\) und \(n_{2}\) jeweils durch \(P_{b}\) und \(n_{b}\) ersetzt werden. Daher wird in unserem Fall behauptet, was die Gleichungen (16) bis (19) zeigen.

\begin{eqnarray}
0,\!9 & > & 0,\!7+1,6449\cdot\sqrt{\frac{0,\!7\cdot0,\!3}{30}} \tag{16}\\
0,\!9 & > & 0,\!7+1,6449\cdot\sqrt{0,\!007} \tag{17}\\
0,\!9 & > & 0,\!7+1,\!6449\cdot0,\!0084 \tag{18}\\
0,\!9 & > & 0,\!8376 \tag{19}
\end{eqnarray}

Diese Behauptung ist wahr. Die von Gerda behauptete Trefferquote ist signifikant höher als die Trefferquote, die beobachtet wurde. Die Nullhypothese wird daher zurückgewiesen.

Gerdas zweite Behauptung führt zu den folgenden Hypothesen:

  • \(H_{0}: P_{b} \leq P_{t}\)
  • \(H_{1}: P_{b} > P_{t}\)

\(P_{t}\) ist jetzt 0,5. Wir wollen wissen, ob der theoretische Prozentsatz (0,5) signifikant kleiner ist, als der beobachtete Prozentsatz (0,7). Deshalb liegt in diesem Fall eine linksseitige Fragestellung vor. Der theoretische z-Wert liegt also an dem Punkt, links von dem 5 Prozent der Verteilung liegen, also bei \(\alpha=0,05\). Wie bereits bei Möglichkeit 2 ermittelt, liegt dieser z-Wert bei –1,6449. Geprüft, wird, ob Ungleichung (20) wahr oder falsch ist. Die darauf folgenden Ungleichungen (21) bis (24) zeigen den Rechengang.

\begin{eqnarray}
P_{t} & < & P_{b}+z\hat{\sigma}_{P_{b}} \tag{20}\\
0,\!5 & < & 0,\!7-1,6449\cdot\sqrt{\frac{0,\!7\cdot0,\!3}{30}} \tag{21}\\
0,\!5 & < & 0,\!7-1,6449\cdot\sqrt{0,\!007} \tag{22}\\
0,\!5 & < & 0,\!7-1,\!6449\cdot0,\!0084 \tag{23}\\
0,\!5 & < & 0,\!5634 \tag{24}
\end{eqnarray}

Auch diese Behauptung ist wahr. Die bei purem raten zu erwartende Trefferquote ist signifikant kleiner als die beobachtete Trefferquote Gerdas. Daher wird die Nullhypothese zurückgewiesen.


Vierte Möglichkeit: Chi-Quadrat-Anpassungstest

Der Chi-Quadrat-Anpassungstest unterscheidet sich vom Chi-Quadrat-Unabhängigkeitstest [9] nur dadurch, dass die erwarteten Häufigkeiten nicht aus den Randverteilungen zweier Variabler in einer Kreuztabelle erschlossen, sondern die Ausprägungen von einer Variablen mit theoretischen erwarteten Häufigkeiten verglichen werden.

Diese theoretischen erwarteten Häufigkeiten können ganz unterschiedliche Quellen haben. Sie konnen zum Beispiel theoretisch erschloosen worden sein (wenn beispielsweis beim Würfeln mit einem Würfel eine Gleichverteilung der Wahrscheinlichkeiten für jede Würfelseite vorausgesetzt wird), oder sie sind bekannte Werte aus einer Grundgesamtheit oder, wie im vorliegenden Fall, sie werden eben von Gerda behauptet.

Wenn beispielsweise mit einem Würfel 600 mal gewürfelt wird, dann ist die erwartete Häufigkeit für jede Seite des Würfels \(np=600\cdot \frac{1}{6}=100\) Würfe. Ein Würfel hat 6 Seiten, von denen bei einem Wurf immer eine Seite oben liegen muss. Es gibt also 6 verschiedene Ausprägungen bzw. Kategorien, abgekützt mit k. Wenn ich bei einer gegebenen Anzahl an Würfen von fünf Ausprägungen weiß, wie häfig sie geworfen worden sind, dann ergibt sich die Häufigkeit der sechsten Ausprähung von selbst. Allgemein: es gibt k–1 Freiheitsgrade. Eine genauere Beschreibung findet sich in Clauß/Ebner 1968:194–204. Wir haben:

  • Erwartete Häufigkeiten
    • \(f_{e_{1}}\) keine Treffer (i=1): \(np=30\cdot 0,\!1=3\)
    • \(f_{e_{2}}\) Treffer (i=2): \(np=30\cdot 0,\!9=27\)
  • Beobachtete Häufigkeiten
    • \(f_{b_{1}}\) keine Treffer (i=1): 9
    • \(f_{b_{2}}\) Treffer (i=2): 21
  • Fallzahl (n): 30
  • Ausprägungen (k): 2 (»keine Treffer«: i=1; »Treffer«: i=2)
  • Freiheitsgrade (df): k–1 = 2–1 = 1
  • \(\alpha\)-Fehler-Niveau: 0,05 (einseitig)

Hypothesen:

  • \(H_{0}: f_{b_{1}} \ge f_{e_{1}}\)
  • \(H_{1}: f_{b_{1}} < f_{e_{1}}\)

Die Testgröße \(\chi^{2}\) errechnet sich nach Formel (25) (siehe Clauß/Ebner 1968:197).

$$\chi^{2}=\sum_{i=1}^{k}\frac{\left(f_{b_{i}}-f_{e_{i}}\right)^{2}}{f_{e_{i}}} \tag{25}$$

Daraus ergibt sich der in Gleichung (26) bestimmte empirische Chi-Quadrat-Wert.

\begin{eqnarray}
\chi^{2} & = & \sum_{i=1}^{2}\frac{\left(f_{b_{i}}-f_{e_{i}}\right)^{2}}{f_{e_{i}}} \tag{26}\\
 & = & \frac{\left(9-3\right)^{2}}{3}+\frac{\left(21-27\right)^{2}}{27}\\
 & = & \frac{36}{3}+\frac{36}{27}\\
 & = & \frac{108}{9}+\frac{12}{9}\\
 & = & \frac{120}{9}\\
 & = & 13,\!\overline{3}
\end{eqnarray}

Bei der Tabelle »Chi-Quadrat-Verteilung« ist der weiße Teil unter der gezeigten Kurve der Bereich für den \(\alpha\)-Fehler. Es wird aber der rote Bereich in der Tabelle angegeben, das heißt \(1-\alpha\). Deshalb muss (bei einseitiger Fragestellung) in dieser Tabelle in der Spalte 0,95 nachgeschaut werden, wenn wir den theoretischen Chi-Quadrat-Wert für ein \(\alpha\)-Fehler-Niveau von 0,05 ermiteln wollen. Bei einem Freiheitsgrad ist das der Wert 3,84. Derselbe Wert steht in der Tabelle der Chi-Quadrat-Verteilung in Clauß/Ebner 1968:344 in der Spalte für \(\alpha=5\,\%\). In Bortz 2005:818 steht der Wert 3,84146. Auch hier muss in der Spalte 0,95 nachgeschaut werden. Nach Clauß/Ebner 1968:197 gilt als Entscheidungskriterium:

  • \(\chi^{2} \ge \chi^{2}_{\alpha,\;df}\:\rightarrow\:H_{0}\textrm{ wird zurückgewiesen}\)
  • \(\chi^{2} < \chi^{2}_{\alpha,\;df}\:\rightarrow\:H_{0}\textrm{ wird angenommen}\)

Daher wird die Nullhypothese zurückgewiesen. Die beobachtete Trefferquote ist (im Rahmen der Irrtumswahrscheinlichkeit) signifikant kleiner als die von Gerda behauptete Trefferquote.

Für Gerdas zweite Behauptung ergeben sich die folgenden erwarteten Häufigkeiten:

  • \(f_{e_{1}}\) keine Treffer (i=1): \(np=30\cdot 0,\!5=15\)
  • \(f_{e_{2}}\) Treffer (i=2): \(np=30\cdot 0,\!5=15\)

Hypothesen:

  • \(H_{0}: f_{b_{1}} \leq f_{e_{1}}\)
  • \(H_{1}: f_{b_{1}} > f_{e_{1}}\)

Wie sich schnell ermitteln lässt, ergibt sich hier ein Chi-Quadrat von 4,8. Auch hier ist die Nullhypothese zurückzuweisen. Gerdas Trefferquote ist signifikant höher, als es nur durch Zufall zu erwarten wäre.


Anmerkungen

[1]
Die Überschrift ist aus drei Kapitelüberschriften aus zwei unterschiedlichen Büchern zusammengesetzt.

In Krengel 2005:92–93 gibt es den Abschnitt 6.1 »Beispiel der ›tea tasting Lady‹« und in Krengel 2005:97–98 den Abschnitt 6.4: »Ein verfeinertes Modell für den Tee-Test«. Krengel 2005:92 verwendet folgendes Beispiel:

»Eine Lady behauptet, dass sie – wenn sie Tee probiert, der einen Zusatz Milch enthält – unterscheiden könne, ob zuerst Milch oder zuerst Tee eingegossen worden ist.«

In Clauß/Ebner 1968:194–204 gibt es den Unterabschnitt »Vergleich einer empirischen mit einer theoretischen Verteilung« im Abschnitt »Prüfverfahren für quantitative Variable«, der wiederum Teil des Kapitels IV »Statistische Prüfverfahren« ist. In dem Unterabschnitt wird der Sache nach der Chi-Quadrat-Anpassungstest erklärt (ohne das Wort »Anpassungstest« zu verwenden).

[2]
Eigentlich sind es nur drei. Die zweite und die dritte Möglichkeit beruhen im Prinzip auf denselben gedanklichen Voraussetzungen. Nur der Blickwinkel ist etwas anders.

[3]
Zu den Skalenniveaus siehe hier:

Skalenniveaus. Oder: Was ist ein Dreizehntelbaby?

[4]
Eine andere Möglichkeit wäre die Kodierung mit –1 (hier: »kein Treffer«) und 1 (hier: »Treffer«). Dann wäre das arithmetische Mittel der der Variablen »Gerdas Erfog« gleich 0,4. Auch dieser Wert wäre sinnvoll interpretierbar. Er ist die Differenz der relativen Häufigkeiten der Ausprägungen »Treffer« (0,7 oder 70 Prozent) und »kein Treffer« (0,3 oder 30 Prozent): 0,7–0,3=0,4. Das ist eine einfache Prozentsatzdifferenz (hier: 40 Prozentpunkte), die Benninghaus 1989:95–100 als Assoziationsmaß für Vierfeldertafeln vorschlägt.

[5]
Wenn der Ablehnungsbereich für die Nullhypothese auf der linken Seite der Verteilung liegt, dann muss eigentlich vor alle Werte noch ein Minuszeichen gesetzt werden. Entscheidend für die Annahme oder Ablehnung der Nullhypothese sind aber die Beträge (absoluten Werte), so dass das gleichgültig ist. (Beträge sind immer positiv, auch wenn zwischen den Betragsstrichen eine negative Zahl steht.)

[6]
Dieser Gedankengang entspricht dem zentralen Grenzwertsatz, siehe dazu zum Beispiel hier:

Zentraler Grenzwertsatz

[7]
Das Kapitel ist generell, wie das ganze Buch, sehr lesenswert. Beispielsweise gibt es in diesem Kapitel auch eine schöne argumentative Herleitung des Binomialkoeffizienten.

[8]
Zu der Ungleichung vgl. Sahner 1982:90. Sahner geht hier allerdings von einer zweiseitigen Fragestellung aus.

[9]
Vgl. dazu zum Beispiel den Community-Artikel »Stochastische Unabhängigkeit und Chi-Quadrat-Test«.


Literatur

Benninghaus, Hans, (6)1989: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22. Studienskripten zur Soziologie) Stuttgart: Teubner

Bortz, Jürgen, (6)2005: Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer

Clauß, Günter und Heinz Ebner, 1968: Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen. Berlin (DDR): Volk und Wissen

Krengel, Ulrich, (8)2005: Einführung in die Wahrscheinlichkeitstheorie und Statistik. (= vieweg studium – Aufbaukurs Mathematik 9) Wiesbaden: Vieweg

Sahner, Heinz, (2)1982: Statistik für Soziologen 2. Schließende Statistik. (= Teubner Studienskripten 23. Studienskripten zur Soziologie) Stuttgart: Teubner

 

Community Artikel, geschrieben vor 3 Wochen
jake2042, verified
Sonstiger Berufsstatus, Punkte: 1200
 
Kommentar schreiben Diesen Artikel melden
0 Antworten