Kreuztabellen und bedingte Wahrscheinlichkeit


0

Angenommen, es sind 1270 Personen dazu befragt worden, welche Lieblingsfarbe sie haben. Außerdem wurde das Geschlecht als dichotome (=zweiwertige) Variable erfasst (männlich / weiblich). [1] Die Auswertung ergibt die folgende bivariate Verteilung:

Tabelle 1: Absolute Häufigkeiten
\(
\begin{array}{|l|r|r|r|r|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & 160 & 240 & 190 & 590\\
\hline
\textrm{weiblich} & 380 & 90 & 210 & 680\\
\hline
\textrm{Gesamt} & 540 & 330 & 400 & 1270\\
\hline
\end{array}
\)

Fragen:

  1. Wie hoch ist die Wahrscheinlichkeit, dass von allen befragten Personen eine zufällig ausgewählte Person gleichzeitig weiblich ist und als Lieblingsfarbe Rot angegeben hat?
  2. Wie hoch ist die Wahrscheinlichkeit, dass von denjenigen befragten Personen, die als Lieblingsfarbe Rot angegeben haben, eine zufällig ausgewählte Person weiblich ist?
  3. Wie hoch ist die Wahrscheinlichkeit, dass von den befragten weiblichen Personen eine zufällig ausgewählte Person als Lieblingsfarbe Rot angegeben hat?

1. Unbedingte Wahrscheinlichkeiten

Die erste Frage betrifft die unbedingten Wahrscheinlichkeiten. Um diese Wahrscheinlichkeiten herauszufinden, wird eine Tabelle erstellt, in der alle anderen Häufigkeiten zur Fallzahl ins Verhältnis gesetzt werden. Diese Tabelle wird folgendermaßen berechnet:

Tabelle 2: Berechnung der unbedingten Wahrscheinlichkeiten
\(
\begin{array}{|l|c|c|c|c|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & \frac{160}{1270} & \frac{240}{1270} & \frac{190}{1270} & \frac{590}{1270}\\
\hline
\textrm{weiblich} & \frac{380}{1270} & \frac{90}{1270} & \frac{210}{1270} & \frac{680}{1270}\\
\hline
\textrm{Gesamt} & \frac{540}{1270} & \frac{330}{1270} & \frac{400}{1270} & \frac{1270}{1270}\\
\hline
\end{array}
\)

 

Das führt dann zu Tabelle 3, die die unbedingten Wahrscheinlichkeiten für die befragten Personen angibt:

 

Tabelle 3: Unbedingte Wahrscheinlichkeiten für die befragten Personen
\(
\begin{array}{|l|r|r|r|r|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & 0,126 & 0,189 & 0,150 & 0,465\\
\hline
\textrm{weiblich} & 0,299 & 0,071 & 0,165 & 0,535\\
\hline
\textrm{Gesamt} & 0,425 & 0,260 & 0,315 & 1,000\\
\hline
\end{array}
\)

 

Frage 1 kann also so beantwortet werden:

 

Die Wahrscheinlichkeit, dass von allen befragten Personen eine zufällig ausgewählte Person gleichzeitig weiblich ist und als Lieblingsfarbe Rot angegeben hat, beträgt 29,9 Prozent.

 

2. Bedingte Wahrscheinlichkeiten mit Lieblingsfabe als Bedingung

Die zweite Frage betrifft die bedingten Wahrscheinlichkeiten mit der Lieblingsfabe (Spaltenvariable) als Bedingung. Um diese Wahrscheinlichkeiten herauszufinden, wird eine Tabelle erstellt, in der in jeder Spalte die jeweiligen Ausprägungen der Zeilenvariablen zur Spaltensumme ins Verhältnis gesetzt werden. Diese Tabelle wird folgendermaßen berechnet:

Tabelle 4: Berechnung der bedingten Spaltenwahrscheinlichkeiten
\(
\begin{array}{|l|c|c|c|c|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & \frac{160}{540} & \frac{240}{330} & \frac{190}{400} & \frac{590}{1270}\\
\hline
\textrm{weiblich} & \frac{380}{540} & \frac{90}{330} & \frac{210}{400} & \frac{680}{1270}\\
\hline
\textrm{Gesamt} & \frac{540}{540} & \frac{330}{330} & \frac{400}{400} & \frac{1270}{1270}\\
\hline
\end{array}
\)

Das führt dann zu Tabelle 5, die die bedingten Wahrscheinlichkeiten mit der Lieblingsfabe (Spaltenvariable) als Bedingung für die befragten Personen angibt:

Tabelle 5: Bedingte Spaltenwahrscheinlichkeiten für die befragten Personen
\(
\begin{array}{|l|r|r|r|r|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & 0,296 & 0,727 & 0,475 & 0,465\\
\hline
\textrm{weiblich} & 0,704 & 0,273 & 0,525 & 0,535\\
\hline
\textrm{Gesamt} & 1,000 & 1,000 & 1,000 & 1,000\\
\hline
\end{array}
\)

Frage 2 kann also so beantwortet werden:

Die Wahrscheinlichkeit, dass von denjenigen befragten Personen, die als Lieblingsfarbe Rot angegeben haben, eine zufällig ausgewählte Person weiblich ist, beträgt 70,4 Prozent.

 

3. Bedingte Wahrscheinlichkeit mit Geschlecht als Bedingung

Die dritte Frage betrifft die bedingten Wahrscheinlichkeiten mit dem Geschlecht (Zeilenvariable) als Bedingung. Um diese Wahrscheinlichkeiten herauszufinden, wird eine Tabelle erstellt,in der in jeder Zeile die jeweiligen Ausprägungen der Spaltenvariablen zur Zeilensumme ins Verhältnis gesetzt werden. Diese Tabelle wird folgendermaßen berechnet:

Tabelle 6: Berechnung der bedingten Zeilenwahrscheinlichkeiten
\(
\begin{array}{|l|c|c|c|c|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & \frac{160}{590} & \frac{240}{590} & \frac{190}{590} & \frac{590}{590}\\
\hline
\textrm{weiblich} & \frac{380}{680} & \frac{90}{680} & \frac{210}{680} & \frac{680}{680}\\
\hline
\textrm{Gesamt} & \frac{540}{1270} & \frac{330}{1270} & \frac{400}{1270} & \frac{1270}{1270}\\
\hline
\end{array}
\)

Das führt dann zu Tabelle 7, die die bedingten Wahrscheinlichkeiten mit dem Geschlecht (Zeilenvariable) als Bedingung für die befragten Personen angibt:

Tabelle 7: Bedingte Zeilenwahrscheinlichkeiten für die befragten Personen
\(
\begin{array}{|l|r|r|r|r|}
\hline
\textrm{Geschlecht}\times\textrm{Farbe} & \textrm{Rot} & \textrm{Blau} & \textrm{Grün} & \textrm{Gesamt}\\
\hline
\textrm{männlich} & 0,271 & 0,407 & 0,322 & 1,000\\
\hline
\textrm{weiblich} & 0,559 & 0,132 & 0,309 & 1,000\\
\hline
\textrm{Gesamt} & 0,425 & 0,260 & 0,315 & 1,000\\
\hline
\end{array}
\)

Frage 3 kann also so beantwortet werden:

Die Wahrscheinlichkeit, dass von den befragten weiblichen Personen eine zufällig ausgewählte Person als Lieblingsfarbe Rot angegeben hat, beträgt 55,9 Prozent.

 

4. Relative Häufigkeiten und Wahrscheinlichkeiten

Eigentlich sind in allen drei Fällen keine Wahrscheinlichkeiten, sondern relative Häufigkeiten berechnet worden. Weil sich die Fragestellung aber nur auf die befragten Personen bezieht und an dieser Stelle kein Schluss von einer Stichprobe auf eine Grundgesamtheit gemacht wird, ist es unproblematisch, die relativen Häufigkeiten als Wahrscheinlichkeiten zu betrachten.

Wenn ich aus einer Stichprobenverteilung heraus Aussagen über die Verteilung in der Grundgesamtheit machen will, dann sind solche Aussagen immer mit einer gewissen Unsicherheit behaftet. Die Unsicherheit wird kleiner, je größer meine Stichprobe ist. Wenn ich alle Haushalte befrage, bekomme ich direkt die Daten der Grundgesamtheit und habe keine Unsicherheit mehr.

Angenommen, ich würfele mit einem Würfel. Wenn ich nur relativ wenige Würfe mache, dann unterscheiden sich die relativen Häufigkeiten, mit denen die sechs Seiten des Würfels jeweils gwürfelt werden, noch recht stark voneinander. Aber je häufiger ich würfele, desto mehr gleichen sich die relativen Häufigkeiten für die möglichen sechs Wurfergebnisse gegenseitig an und streben einem festen Wert, nämlich \(\frac{1}{6}\), zu (vgl. Clauß/Ebner 1968:119). Mit anderen Worten: je mehr Würfe vorliegen, desto besser wird die (theoretische) Wahrscheinlichkeit von \(\frac{1}{6}\) je Würfelseite von den entsprechenden relativen Häufigkeiten approximiert (angenähert). Dieser Sachverhalt wird durch das Bernoulli-Theorem ausgedrückt. Wenn 

  • \(f_{E}\) die Häufigkeit eines Ereignisses E ist (zum Beispiel, die Häufigkeit, mit der eine 1 gewürfelt wird);
  • \(n\) die Anzahl der Versuche (zum Beispiel die Anzahl aller Würfe mit einem Würfel);
  • \(\frac{f_{E}}{n}\) die relative Häufigkeit, mit der das Ereignis E beobachtet wird (im Beispiel: die Häufigkeit, mit der eine 1 gewürfelt wird geteilt durch die Anzahl aller Würfe);
  • \(P(E)\) die (theoretische) Wahrscheinlichkeit für das Ereignis E (im Beispiel: die Wahrscheinlichkeit, beim Würfeln eine 1 zu bekommen);
  • \(\varepsilon\) die Differenz zwischen \(\frac{f_{E}}{n}\) und \(P(E)\);

dann gilt:

$$p\left(\left|\frac{f_{E}}{n}-P(E)\right|\geq\varepsilon\right)\rightarrow0\qquad\textrm{für}\:n\rightarrow\infty \tag{1}$$

Bortz 2005:52, der \(A\) für \(E\), \(n_{A}\) für \(f_{E}\), \(\pi(A)\) für \(P(E)\) und \(e\) für \(\varepsilon\) schreibt, erklärt die Bedeutung des Bernoulli-Theorems so:

»Wenn ein Ereignis A mit der Wahrscheinlichkeit \(\pi(A)\) auftritt und n voneinander unabhängige, gleichartige Zufallsexperimente durchgeführt werden, geht die Wahrscheinlichkeit dafür, dass sich die relative Häufigkeit \(\frac{n_{A}}{n}\) um einen beliebig kleinen Betrag \(e\) von der Wahrscheinlichkeit \(\pi{A}\) unterscheidet, gegen Null, vorausgesetzt, \(n\) geht gegen unendlich.«

Deshalb kann die statistische Wahrscheinlichkeit so definiert werden:

»Die (statistische) Wahrscheinlichkeit eines zufälligen Ereignisses E ist gleich dem festen Wert, dem die relative Häufigkeit \(\frac{f_{E}}{n}\) bei wachsender Zahl der Versuche zustrebt.« (Clauß/Ebner 1968:120)

 

Anmerkungen

[1]
Tatsächlich hat die Variable Geschlecht nicht zwei, sondern drei Ausprägungen, wie inzwischen auch das Bundesverfassungsgericht erkannt hat. Die Abweichubg von der Realität dürfte sich bei der Annnahme, es gäbe nur die Ausprägungen männlich oder weiblich, allerdings in vertretbarem Rahmen halten.

 

Literatur

Bortz, Jürgen, (6)2005: Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer

Clauß, Günter und Heiz Ebner, 1968: Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen. Berlin (DDR): Volk und Wissen

 

Community Artikel, geschrieben vor 2 Monate, 3 Wochen
jake2042, verified
Sonstiger Berufsstatus, Punkte: 1200
 
Kommentar schreiben Diesen Artikel melden
0 Antworten