Statistik, Konfidenzintervall für Korrelationskoeff. und Test auf Mittelwertsunterschiede


2

Guten Tag,

 

da Daniel auch Videos zu den Themen hat, stelle ich hier mal meine Frage ein.

 

Warum ist der Test aus Aufgabe 3.4 rechtsseitig? Gibt es in solchen Fällen auch linksseitige Tests?

Alpha ist 0,01 und es geht um die Prüfung der Mittelwertsunterschiede, nachdem man in 3.2 den unkekannten korrelationskoeffizienten geprüft hat, der immer (???) rechtsseitig ist?

Was ist der Grund für die rechtsseitigkeit, ist das bei MIttelwertsunterschiedentests immer so?

Kann man bei 3.2 auch für das Quantil die z Tabelle nehmen?

Vielen Dank und liebe Grüße

Sarah

 

gefragt vor 7 Monate, 1 Woche
s
sarahwiwi,
Student, Punkte: 107
 
Kommentar schreiben Diese Frage melden
3 Antworten
2

Hallo sarawiwi,

es hat etwas gedauert, aber ich habe jetzt Deine Aufgaben durchgerechnet. Die haben es in sich! Das fängt mit Aufgabe 3.1 schon an. Ich gehe jetzt einfach mal medias in res.

Aufgabe 3.1

Bekannt ist:

r = 0,363
n = 102

Es soll ein Konfidenzintervall bestimmt werden, in dem mit einer Wahrscheinlichkeit von 99 Prozent der Grundgesamtheitsparameter \(\rho\) liegt.

Das folgende stützt sich auf Bortz 2005:219–220.

Zunächst wird r nach der Fischer-Transformation in einen Z-Wert umgewandelt. Achtung! Es handelt sich nicht um einen z-Wert, der eine bestimmte Fläche unter der Standardnormalverteilung angeben würde. Der Z-Wert nach der Fischer-Transformation berechnet sich nach Formel (1). Siehe dazu Bortz 2005:219.

$$Z=\frac{1}{2}\cdot\ln\left(\frac{1+r}{1-r}\right) \tag{1}$$

\(\ln\) ist der natürliche Logarithmus, das heißt der Logarithmus zur Basis \(\mathrm{e}\). Das ist die Eulersche Zahl (irrational, ungefähr 2,718). Außerdem muss die Standardabweichung, die zu der Z-Verteilung gehört, nach Formel (2) geschätzt werden.

$$\sigma_{Z}=\sqrt{\frac{1}{n-3}} \tag{2}$$

Der dritte Wert, der nötig ist, ist \(z_{\left(\frac{\alpha}{2}\right)}\). Das ist der Sigma-Faktor, der benötigt wird, wenn an beiden Enden der Normalverteilung noch \(\frac{\alpha}{2}\) übrig bleiben soll. Es wird also der z-Wert benötigt, der 99,5 Prozent der Normalverteilung abdeckt. Dieser Wert kann in der folgenden Tabelle abgelesen werden:

https://www.risk-research.de/fileadmin/user_upload/NV_Quantile.pdf

Es ist 2,5758.

Jetzt kann das Konfidenzintervall für die Z-Verteilung nach Formel (3) berechnet werden.

$$\Delta_{\textrm{crit}_{(Z)}=Z \pm z_{\left(\frac{\alpha}{2}\right)} \cdot \sigma_{Z}} \tag{3}$$

Schließlich müssen der untere und der obere Wert des Konfidenzintervalls noch von der Z-Verteilung wieder in die Verteilung, aus der r ursprünglich stammt, zurücktransformiert werden. Dazu werden jeweils der untere und der obere Wert als Z in Formel (4) eingesetzt.

$$r=\frac{\mathrm{e}^{2Z}-1}{\mathrm{e}^{2Z}+1} \tag{4}$$

Aufgabe 3.2

Bekannt ist:

r = 0,353
\(\rho\) = 0 (Das ist die Annahme, die geprüft werden soll.)
\(\sigma = \sigma_{Z}\) = 0,1005 (aus Aufgabe 3.1 bekannt)
n = 102
\(u_{\alpha}\) = 2,5758 (wurde in Aufgabe 3.1 bereits bestimmt)

Nullhypothese: \(\rho=0\)

Das folgende stützt sich auf Clauß/Ebner 1968:176. Für den Test, ob sich ein Mittelwert in der Stichprobe von einem bekannten Mittelwert in der Grundgesamtheit signifikant unterscheidet oder nicht geben Clauß/Ebner 1968:176 die Testgröße in Formel (5) an.

$$u=\frac{\bar{x}-\mu}{\sigma}\cdot\sqrt{n} \tag{5}$$

Das lässt sich für den vorliegenden Zweck leicht in Formel (6) umformen.

$$u=\frac{r-\rho}{\sigma_{Z}}\cdot\sqrt{n} \tag{6}$$

Als Kriterium gilt:

Wenn \(|u|<u_{\alpha}\) ist, dann wird die Nullhypothese angenommen.
Wenn \(|u|\geq u_{\alpha}\) ist, dann wird die Nullhypothese zurückgewiesen.

Aufgabe 3.3

Wenn das in Aufgabe 3.1 berechnete Konfidenzintervall \(\rho=0\) nicht einschließt, dann wird die Nullhypothese zurückgewiesen.

Aufgabe 3.4

Die Versicherungsgesellschaft ist hier etwas merkwürdig vorgegangen. Zu erwarten wäre gewesen, dass die 102 Mitarbeiter alle vor der Schulung befragt werden, dann zur Schulung geschickt und nach der Schulung wieder befragt werden. Das wären verbundene (= abhängige) Stichproben gewesen, weil in jedem Datensatz einmal der Wert vor der Schulung und einmal der Wert nach der Schulung als jeweils separate Variable auftaucht. In der Datenmatrix sähe das so aus, wie in Tabelle 1.

Tabelle 1: Datenmatrix bei verbundenen Stichproben
\(
\begin{array}{|l|ccccccc|}
\hline
\textrm{Datensatz} & \textrm{Variable 1} & \textrm{Variable 2} & \cdots & \textrm{vor Schulung} & \textrm{nach Schulung} & \cdots & \textrm{Varable m}\\
\hline
\textrm{Mitarbeiter 1} & & & \cdots & \textrm{Wert 1} & \textrm{Wert 2} & \cdots & \\
\textrm{Mitarbeiter 2} & & & \cdots & \textrm{Wert 1} & \textrm{Wert 2} & \cdots & \\
\cdots & \cdots & \cdots & \cdots & \cdots & \cdots & \cdots & \cdots\\
\textrm{Mitarbeiter n} & & & \cdots & \textrm{Wert 1} & \textrm{Wert 2} & \cdots & \\
\hline
\end{array}
\)

Das ist nicht der Fall. Statt dessen gibt es 51 Mitarbeiter die nicht geschult wurden und 51 andere (!) Mitarbeiter, die geschult wurden. Es handelt sich also um unabhängige Stichproben. Das bedeutet, die Datenmatrix sieht so aus, wie in Tabelle 2.

Tabelle 2: Datenmatrix bei unabhängigen Stichproben
\(
\begin{array}{|l|ccccccc|}
\hline
\textrm{Datensatz} & \textrm{Variable 1} & \textrm{Variable 2} & \cdots & \textrm{Schulung} & \textrm{Motivation} & \cdots & \textrm{Varable m}\\
\hline
\textrm{Mitarbeiter 1} & & & \cdots & \textrm{0} & \textrm{Wert} & \cdots & \\
\textrm{Mitarbeiter 2} & & & \cdots & \textrm{1} & \textrm{Wert} & \cdots & \\
\cdots & \cdots & \cdots & \cdots & \cdots & \cdots & \cdots & \cdots\\
\textrm{Mitarbeiter n} & & & \cdots & \textrm{1} & \textrm{Wert} & \cdots & \\
\hline
\end{array}
\)

Das bedeutet: es gibt eine Gruppierungsvariable Schulung, die alle 102 befragten Mitarbeiter in zwei Gruppen einteilt: einmal 51 Mitarbeiter, die nicht geschult wurden und dann 51 andere Mitarbeiter, die geschult wurden.

Warum das jetzt so gemacht worden ist, und nicht mit verbundenen Stichproben, was bei dem Anliegen, herauszufinden, ob die Schulung einen Effekt auf die Motivation hat, naheliegend gewesen wäre, bleibt wohl das Geheimnis des Aufgabenstellers.

Bei unabhängigen Stichproben muss zunächst geprüft werden, ob in der Grundgesamtheit Varianzgleichheit vorliegt (was bedeuten würde, dass die Stichproben derselben Grundgesamtheit entstammen, hier den Mitarbeitern der Versicherungsgesellschaft).

Es gibt verschiedene Tests, mit denen das gemacht werden kann, wie den F-Test, den Levene-Test (den SPSS benutzt) oder den Bartlett-Test. Weil er einfach durchzuführen ist und ich ein Buch habe, in dem steht, wie das geht (Clauß/Ebner 1968:190–191), wird hier der F-Test durchgeführt.

Die Testgröße wird mit Formel (7) bestimmt.

$$F=\frac{s_{1}^{2}}{s_{2}^{2}} \tag{7}$$

Im vorliegenden Fall ergibt das etwa 1,52.

Für den Vergleich mit einem Tabellenwert werden die Freiheitsgrade für Stichprobe 1 (\(\textrm{df}_{1}\)), die Freiheitsgrade für Stichprobe 2 (\(\textrm{df}_{2}\) ) und das Signifikanzniveau \(1-\alpha\) benötigt. Im vorliegenden Fall ist:

\(
\begin{array}{rclcl}
1-\alpha & = & 0,99\\
\textrm{df}_{1} & = & n_{1}-1 & = & 50\\
\textrm{df}_{2} & = & n_{2}-1 & = & 50
\end{array}
\)

Nach Clauß/Ebner 1968:343 entspricht das dem Tabellenwert 1,94.

Kriterium:

Wenn \(F<F_{\alpha;n_{1}-1;n_{2}-1}\), dann wird die Nullhypothese angenommen.
Wenn \(F\geq F_{\alpha;n_{1}-1;n_{2}-1}\), dann wird die Nullhypothese zurückgewiesen.

Im vorliegenden Fall ist die empirische Testgröße F (1,52) kleiner als der Tabellenwert F (1,94). Deshalb wird die Nullhypothese angenommen. Das heißt, es ist von gleichen Varianzen in der Grundgesamtheit auszugehen.

Wenn in der Vorlesung der t-Test für unabhängige Stichproben und unterschiedlichen Varianzen in der Grundgesamtheit verwendet worden ist (das geht so aus Deinen Aufzeichnungen, die Du gepostet hast, hervor), dann ist das nach dem, was ich berechnet habe, ein Fehler.

Stattdessen ist der t-Test für unabhängige Stichproben und gleichen Varianzen in der Grundgesamtheit zu verwenden. Die Testgröße \(t\) wird nach Formel (8) berechnet.

$$t=\frac{\bar{x}_{1}-\bar{x}_{2}}{\hat{\sigma}}\cdot\sqrt{\frac{n_{1}\cdot n_{2}}{n_{1}+n_{2}}} \tag{8}$$

Dabei ist \(\hat{\sigma}\) die geschätzte gemeinsame Standarsabweichung in der Grundgesamtheit. Diese Größe wird nach Formel (9) bestimmt.

$$\hat{\sigma}=\sqrt{\frac{\left(n_{1}-1\right)\cdot s_{1}^{2}+\left(n_{2}-1\right)\cdot s_{2}^{2}}{n_{1}+n_{2}-2}} \tag{9}$$

So, wie ich das berechnet habe, liegt die Testgröße t in diesem Fall bei etwa \(-0,052\).

Für den Tabellenwert werden zum einen \(1-\alpha\) für eine zweiseitige bzw. \(1-\frac{\alpha}{2}\) für eine einseitige Fragestellung und zum anderen die Freiheitsgrade benötigt. Da die Versicherungsgesellschaft wissen will, ob sich die Motivation der Mitarbeiter nach einer Schulung verbesert hat, liegt eine einseitige Fragestellung vor. Die Anzahl der Freiheitsgrade beträgt \(\textrm{df}=n_{1}+n_{2}-2=100\). Gesucht ist also der Tabellenwert \(t_{1-\frac{\alpha}{2}=0,995;\textrm{df}=100}\). Nach dieser Tabelle:

http://eswf.uni-koeln.de/glossar/tvert.htm

ist das 2,626.

Kriterium:

Wenn \(|t|<t_{\alpha;\textrm{df}}\), dann wird die Nullhypothese angenommen.
Wenn \(|t|\geq t_{\alpha;\textrm{df}}\), dann wird die Nullhypothese zurückgewiesen.

Die empirische Testgröße ist kleiner als der Tabellenwert. Deshalb wird die Nullhypothese angenommen. Es gibt keinen signifikanten Unterschied in der Motivation zwischen Mitarbeitern, die geschult wurden und Mitarbeitern, die nicht geschult wurden.

So, jetzt ist der Kram fertiggerechnet. Ich hoffe, ich konnte etwas zur Klärung beitragen.

Viele Grüße
jake2042



Literatur

Bortz, Jürgen, (6)2005: Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer

Clauß, Günter und Heinz Ebner, 1968: Statistik für Psychologen, Pädagogen und Soziologen. Berlin (DDR): Volk und Wissen

geantwortet vor 2 Monate, 1 Woche
jake2042, verified
Sonstiger Berufsstatus, Punkte: 1200
 

Was für eine Antwort! Hervorragend!   -   jordan, kommentiert vor 2 Monate, 1 Woche
Kommentar schreiben Diese Antwort melden
1

Hallo,

Statistik ist leider nicht unbedingt mein Steckenpferd, aber versuchen wir es mal zusammen. 

Ob ein Test linksseitig oder rechtsseitig ist hängt prinzipiell ja nur von der Formulierung der Hypothese ab. Also würde ich schon sagen, dass hier auch ein linksseitiger Test zum Erfolg führen kann. Das selbe würde ich auch zu dem Test der Mittelwertsunterschiede sagen. Woher hast du denn das diese rechtsseitig sein müssen? 
Vielleicht hat man das durch eine Konvention so festgelegt. 

Bei 3.2 hast du die Hypothese \( H_0 : \rho = 0 \). Wäre das nicht sogar eher ein beidseitiger Test? 
Man könnte den Betrag von \( \rho \) nehmen. Dann könntest du als Gegenhypothese \( \vert \rho \vert > 0 \) setzen. 

Der Korrelationskoeffizient gibt meines Wissens nur an, ob und wenn ja in wie weit die betrachteten Merkmale einen linearen Zusammenhang haben. Was meinst du dort mit Rechtsseitigkeit?

Grüße Christian

geantwortet vor 7 Monate, 1 Woche
christian strack, verified
Sonstiger Berufsstatus, Punkte: 14903
 

Das weiß ich zu schätzenvielen Dank!


Du hast recht, das stimmt alles.


Mir ist nur die Aufgabe 3.4 irgendwie unklar, da wird eine Formel für zwei unabhängige Stichproben herangezogen, das ist der erste Punkt. Es geht um einen Test auf einen Unterschied beider Mittelwerte, H0 geht von keinem signifikanten Unterschied aus.


Aber Schulung ja oder nein hat doch einen Einfluss auf die Motivation, daher hätte ich schonmal nicht diese Formel gewählt für unabhängige Stichproben.


Zweiter Punkt: Ich hätte vom Gefühl her auch bei dieser 3.4 einen beidseitigen Test gewählt, d.h. einfach H0 Müx =Müy. Das kann ich mir nicht erklären, wie ich in der Klausur auf diese Nullhypothese kommen soll :D


Wenn dir das zu bunt ist, musst du nicht antworten :D


Vielen Dank aber für deine Mühe,das weiß ich zu schätzen!


 


Liebe Grüße

  -   sarahwiwi, kommentiert vor 7 Monate, 1 Woche

  -   sarahwiwi, kommentiert vor 7 Monate, 1 Woche

  -   sarahwiwi, kommentiert vor 7 Monate, 1 Woche

Kein Problem. Zusammen lösen wir das schon ;)


Unabhängige Stichproben setzen sich aus voneinader unabhängigen Personen und Messungen zusammen.
Man spricht von abhängigen Stichproben, wenn zum Beispiel zu unterschiedlichen Zeiten das selbe gemessen mit den selben Personen.
Da du hier einmal eine Messung mit Schulung und einmal eine Messung ohne Schulung hast, hast du zwei unterschiedliche Grundlagen der Messungen und somit unabhängige Stichproben.


Entnehme ich deinem zweiten Bild das der beidseitige Test funktioniert hat?


Prinzipiell kann es ja mehrere Wege geben. Es muss nicht der eine vom Professor sein. 


Grüße Christian


 

  -   christian strack, verified kommentiert vor 7 Monate, 1 Woche

Mit der Erklärung zur Unabhängigkeit der beiden Stichproben hast du schonmal ein riesen Fragezeichen in meinem Kopf beseitigt, vielen Dank!!


 


Ja genau, deine Lösung mit dem zweiseitigen Test ist richtig.


Jetzt bleibt mir nur noch eine kleine Unsicherheit, warum 3.4 nicht auch einfach beidseitig ist. Aber im Zweifel merke ich es mir einfach für den Fall, dass es da einseitig rechts ist.


Ganz liebe Grüße und noch einen schönen Abend :) 

  -   sarahwiwi, kommentiert vor 7 Monate, 1 Woche

Jetzt hab ich auch noch eine eine Erklärung bekommen für die frage nach beidseitig oder rechtsseitig :



in der Klausur sollen Sie zwei Zustände mit einander vergleichen. Einmal ohne und einmal mit Schulung. Ob die Schulung einen Einfluss auf die Motivation hat, wollen Sie ja gerade testen (vorher/nachher sozusagen).  Da es in der Aufgabe um Verbessung geht, wird untersucht ob die Differenz der Erwartungswerte rechts vom kritischen Wert liegt. Wenn Sie einen zweiseitigen Test machen wollten, würden sie nur fragen ob sich durch die Schulung die Differenz der Erwartungswerte der Motivation verändert hat (verbessert oder verschlechtert).


 


Also alles klar :)


Liebe Grüße! 

  -   sarahwiwi, kommentiert vor 7 Monate, 1 Woche

Ah ja das macht Sinn. Schön das wir alles klären konnten. :)


Ich wünsche auch noch einen schönen Abend.


Grüße Christian

  -   christian strack, verified kommentiert vor 7 Monate, 1 Woche

Wenn die Frage dann geklärt ist, könntest du bitte die Frage schließen indem du auf das Häckchen unter den Votes klickst. 


Grüße Christian

  -   christian strack, verified kommentiert vor 7 Monate, 1 Woche
Kommentar schreiben Diese Antwort melden
1

Wow! Danke!! 

geantwortet vor 2 Monate, 1 Woche
s
sarahwiwi,
Student, Punkte: 107
 

Vielen Dank. Das war allerdings auch nicht einfach.

Es wäre schön, wenn Du bei meiner Antwort auf den Pfeil nach oben klicken würdest. Du solltest Dir auch überlegen, ob Du Deine Frage damit als beantwortet betrachtest. In diesem Fall kannst Du sie als Antwort akzeptieren, was dann an einem großen grünen Haken zu sehen ist.

Viele Grüße
jake2042
  -   jake2042, verified kommentiert vor 2 Monate, 1 Woche
Kommentar schreiben Diese Antwort melden