Herleitung Korrelationskoeffizienten


0

Moin,

hier (https://www.youtube.com/watch?v=sBD-KfzQAik&list=PLLTAHuUj-zHifw_3OhBTvQq2EGX5NedOy&index=19) sagt Daniel Jung, dass mx*my=r^2 ist. Ich verstehe allerdings nicht warum das so ist. Die Rechnung kann ich nachvollziehen, ich verstehe die Logik dahinter nicht. Könnte mir das bitte jmd erläutern?

 

gefragt vor 6 Monate, 3 Wochen
b
basti9,
Schüler, Punkte: 10
 
Kommentar schreiben Diese Frage melden
3 Antworten
3

Hallo,

\( r = \frac {S_{xy}} {\sqrt{S_{xx}S_{yy}}} \ , m_x = \frac {S_{xy}} {S_{xx}} \ , m_y = \frac {S_{xy}} {S_{yy}} \\ \Rightarrow m_{x} \cdot m_{y} =  \frac {S_{xy}} {S_{xx}} \cdot \frac {S_{xy}} {S_{yy}} = \frac {S_{xy}^2} {S_{xx}S_{yy}} = \left( \frac {S_{xy}} {\sqrt{S_{xx}S_{yy}}} \right) ^2 = r^2 \)

Allerdings hat das Daniel genau so in seinem Video, deshalb bin ich mir nicht sicher, ob das wirklich deine Frage war. Wenn nicht melde dich nochmal

Grüße Christian

geantwortet vor 6 Monate, 3 Wochen
christian strack, verified
Sonstiger Berufsstatus, Punkte: 14903
 

Danke erstmal für die Antwort, aber anscheinend hab ich mich falsch ausgedrückt. Ich frage mich wieso die beiden Steigungen der Regressionsgeraden miteinander multipliziert den Korrelationskoeffezienten zum Quadrat ergeben. Also denn Sinn dahinter, die Rechnung an sich verstehe ich. :)

  -   basti9, kommentiert vor 6 Monate, 3 Wochen

Wir können der Regressionsgerade nicht ansehen, wie "eng" die Daten und die Gerade miteinander zusammenhängen (korrelieren). Wir wissen also nicht, liegen die Daten nahe der Gerden oder streuen sie stark.


Dafür wird der Korrelationskoeffizient definiert. Er wird direkt so definiert, dass er diese Aussage aus der Eigenschaft bezieht, dass wenn wir die x und y Werte vertauschen zwei unterschiedliche Geraden entstehen. 


Beschreiben beide Geraden die selbe Beziehung, so ergibt der Korrelationskoeffizient 1 oder -1. Haben die beiden Geraden keinen Bezug zueinander, ergibt der Korrelationskoeffizient 0.


Das Quadrat des Korrelationskoeffizienten wird Bestimmtheitsmaß genannt. Es beschreibt die Variation der Messwerte. 


Du kannst dir das vorstellen als wenn du eine Geradengleichung umstellen würdest von x nach y


\( y = mx+b \\ \Rightarrow y-b = mx \\ \Rightarrow \frac 1 m y - \frac b m = x \\ \Rightarrow x = \frac 1 m y + c \)


Wenn wir nun die Steigungen der beiden Geraden multiplizieren, erhalten wir 1, da beide Geraden die selben Daten beschreiben und genau das soll auch das Bestimmtheitsmaß beschrieben.


Ich hoffe ich konnte die Frage klären.


Grüße Christian

  -   christian strack, verified kommentiert vor 6 Monate, 3 Wochen
Kommentar schreiben Diese Antwort melden
3

A.

Die ganze Geschichte mit den zwei Steigungen finde ich ziemlich kryptisch. Ich würde \(r^2\) etwas anders betracheten, nämlich als Verhältnis der erklärten Varianz zur Gesamtvarianz. [1]

Der beste Schätzwert für den Wert der abhängigen Variablen \(y\) an der Stelle \(x_i\) auf der Grundlage ihrer eigenen Verteilung ist ihr Mittelwert (\(\bar{y}\)).

Der beste Schätzwert für den Wert der abhängigen Variablen \(y\) an der Stelle \(x_i\) unter Berücksichtigung der unabhängigen Variablen \(x\) ist der y-Wert des Punktes auf der Regressionsgeraden, der sich an der Stelle der Stelle \(x_i\) befindet. Die Beziehung zwischen der Gesamtabweichung, der nicht erklärten Abweichung und der erklärten Abweichung des Punktes \(P(x_i|y_i)\) ist aus dem folgenden Diagamm zu ersehen:


Quelle: Benninghaus 1989:210

Für den y-Wert des Punktes \(P(x_i|y_i)\) gilt also, dass sich die Gesamtabweichung dieses y-Werts aus der Summe der erklärten und der nicht erklärten Abweichung ergibt. Das heißt, es gilt Gleichung (1):

$$\left(y_{i}-\bar{y}\right)=\left(y'_{i}-\bar{y}\right)+\left(y_{i}-y'_{i}\right) \tag{1}$$

Über eine Umformung, bei der die erste binomische Formel [2] eine Rolle spielt, lässt sich zeigen, dass auch der folgende Zusammenhang gilt:

$$\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)=\sum_{i=1}^{n}\left(y'_{i}-\bar{y}\right)+\sum_{i=1}^{n}\left(y_{i}-y'_{i}\right) \tag{2}$$

Das heißt, dass sich auch die Gesamtvariation aus der Summe der erklärten und der nicht erklärten Variation zusammensetzt. \(r^2\) ist jetzt definiert als das Verhältnis der erklärten Variation zur Gesamtvariation bzw., wenn alle drei Ausdrücke noch einmal durch die Fallzahl geteilt werden, der erklärten Varianz zur Gesamtvarianz.


B.

Die Formel zur Berechnung von Pearsons r (das ist der Korrelationskoeffizient) kann auch so geschrieben werden:

$$r=\frac{\mathrm{cov}(x,y)}{s_{x}\cdot s_{y}} \tag{3}$$

Dabei ist \(\mathrm{cov}(x,y)\) die Kovarianz von x und y. \(s_x\) und \(s_y\) sind die Standardabweichungen von \(x\) und  \(y\). Diese drei Parameter können wie folgt berechnet werden:

$$\mathrm{cov}(x,y)=\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)\cdot\left(y_{1}-\bar{y}\right)}{n} \tag{4}$$

$$s_{x}=\sqrt{\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n}} \tag{5}$$

$$s_{y}=\sqrt{\frac{\sum\limits _{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}{n}} \tag{6}$$

Wie sich mit Papier und Bleistift nachvollziehen lässt, küzen sich die Fallzahlen weg, wenn die Formeln (4) bis (6) in die Formel (3) eingesetzt werden. Daraus ergibt sich dann Formel (7):

$$r=\frac{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)\cdot\left(y_{i}-\bar{y}\right)}{\sqrt{\sum\limits _{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\cdot\sum\limits _{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} \tag{7}$$

Das ist, wie sich leicht fesstellen lässt, numerisch identisch mit der Formel, die Daniel Jung in seinem Video vorgestellt hat.


[1]
Das heißt Varianzaufklärung. Eine Anmerkung dazu: Die Varianz ist die Summe der Abweichungsquadrate geteilt durch die Fallzahl. Die Summe der Abweichungsquadrate wird auch Variation genannt. Wenn die erklärte Varianz durch die Gsamtvarianz geteilt wird, kürzt sich die Fallzahl weg. Was übrig bleibt ist die erklärte Variation geteilt durch die Gesamtvariation.

[2]
\((a+b)^2=a^2+2ab+b^2\)

Siehe dazu auch Benninghaus 1989:211


Literatur

Benninghaus, Hans, (6)1989: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22, Studienskripten zur Soziologie) Stuttgart: Teubner

 

geantwortet vor 3 Monate
jake2042, verified
Sonstiger Berufsstatus, Punkte: 1200
 

Ja, nur dass die Gleichung (2) so lauten muss:

$$\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(y'_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n}\left(y_{i}-y'_{i}\right)^{2} \tag{2}$$

Es handelt sich nämlich um die Gesamtvarition, die erklärte Variation und die nicht erklärte Variation der abhängigen Variblen \(y\).

Die Variation ist die Summe der quadrierten Abweichungen der Einzelwerte einer Variablen vom Mittelwert dieser Variablen. Ein anderer Ausdruck für Variation ist Summer der Abweichungsquadrate (SAQ).
  -   jake2042, verified kommentiert vor 3 Monate
Kommentar schreiben Diese Antwort melden
0

Danke schonmal für die ersten Erläuterungen.

Es gibt für mich noch zwei Unklarheiten:

1. Bei der Umstellung der Geradengleichung frage ich mich, woher das c kommt.

2. Das Bestimmtheitsmaß ist ja das r^2, der Korrelationskoeffizient das r. Nun heißt es aber, dass sich der Korrelationskoeffizient aus dem Produkt der Geradensteigungen ermitteln lässt und nicht das Bestimmheitsmaß?

geantwortet vor 5 Monate, 1 Woche
s
sportdozent,
Lehrer/Professor, Punkte: 10
 

Zu 1.
\(c\) ist offensichtlich \(-\frac{b}{m}\), wie sich sehr schnell herausstellt, wenn die dritte und die vierte Zeile in Christians Umformung verglichen werden:

\begin{eqnarray*}
\frac{1}{m}y-\frac{b}{m} & = & \frac{1}{m}y+c\qquad\mid-\frac{1}{m}y\\
-\frac{b}{m} & = & c
\end{eqnarray*}

Zu 2.
Aus dem Video von Daniel Jung geht eindeuig hervor, dass \(r^2=m_{x}\cdot m_{y}\) ist, und nicht \(r\).

Grüße
jake2024
  -   jake2042, verified kommentiert vor 3 Monate
Kommentar schreiben Diese Antwort melden