hallo!
habe eine kurze frage:
werde irgendwie nicht ganz schlau aus der pearsonkorrelation und welche voraussetzungen dafür benötigt werden.
habe eine mitschrift eines kollegen, bin mir aber nicht sicher, ob das alles so korrekt ist.
seine antwort:
Die Korrelation nach Pearson, auch als Produktmomentkorrelation genannt, wird in einer Punktwolke bzw. Streudiagramm dargestellt und mit dem mathematischen Zeichen „r“ bezeichnet. Sinn dieser Korrelation ist die Untersuchung von zwei voneinander unabhängigen Variablen. Als Ergebnis nimmt der Koeffizient den Wert +1 - -1 an. Man benötigt zur Berechnung der Pearsonkorrelation metrisch skalierte Ausgangsdaten sowie quantitive Größen und der Zusammenhang zwischen den Variablen muss linear sein.
Beispiel: Das Einkommen (abhängige Variable x) und Alter (unabhängige Variable y). Wenn das Ergebnis nun einen starken Zusammenhang aufweist, wie in dem unten angeführten Beispiel, ist das Ergebnis eher bei +1.Es besteht also dabei ein Zusammenhang, wenn aber kein Zusammenhang besteht und die Punkte irgendwo wären, würde das Ergebnis eher bei -1 sein. In diesem Fall steigt das Einkommen mit dem Alter.
Pearsonkorrelation - lineare regression
-
baugi123
- Beiträge: 7
- Registriert: 24.08.2013, 17:43
-
baugi123
- Beiträge: 7
- Registriert: 24.08.2013, 17:43
könnte das irgendwie stimmen, was er geschrieben hat?
auch die antwort auf die voraussetzungen bei der linearen regressionen, waren für mich nicht so schlüssig.
...Ziel der Regression ist die Vorhersage einer Variablen. Die Regression dient als statistische Beschreibung abhängiger und unabhängiger Variablen. Es wird immer eine abhängige (erklärende) Variable z.B das Gehalt (Variable y), mit einer oder mehrerer unabhäniger (zu erklärende Variable) z.B. Alter, Geschlecht und Schulabschluss (Variable x) untersucht. Voraussetzung für eine lineare Regression ist, dass x und y intervalskaliert und normalverteilt sein müssen. Die Homoskedastizität der Variablen muss auch gegeben sein. Die Residuen müssen unabhängig und normalverteilt sein. Es würde auch keinen Sinn machen eine lineare Regression durchzuführen, wenn kein linearer Zusammenhang zwischen Merkmalen besteht.
Es wird eine Gerade ermittelt, die den
Zusammenhang zwischen x und y beschreibt.
kann mir vl irgendjemand helfen und zumindest diese, also seine antworten, als korrekt sagen? oder ist das gänzlich vorbeigeschrammt am wesentlichen.
hab nämlich dadurch nicht wirklich verstanden, was nun also die voraussetzungen sind bzw. welche für solch eine korrelation bzw. regression benötigt werden ^^
bitte bitte um hilfe
auch die antwort auf die voraussetzungen bei der linearen regressionen, waren für mich nicht so schlüssig.
...Ziel der Regression ist die Vorhersage einer Variablen. Die Regression dient als statistische Beschreibung abhängiger und unabhängiger Variablen. Es wird immer eine abhängige (erklärende) Variable z.B das Gehalt (Variable y), mit einer oder mehrerer unabhäniger (zu erklärende Variable) z.B. Alter, Geschlecht und Schulabschluss (Variable x) untersucht. Voraussetzung für eine lineare Regression ist, dass x und y intervalskaliert und normalverteilt sein müssen. Die Homoskedastizität der Variablen muss auch gegeben sein. Die Residuen müssen unabhängig und normalverteilt sein. Es würde auch keinen Sinn machen eine lineare Regression durchzuführen, wenn kein linearer Zusammenhang zwischen Merkmalen besteht.
Es wird eine Gerade ermittelt, die den
Zusammenhang zwischen x und y beschreibt.
kann mir vl irgendjemand helfen und zumindest diese, also seine antworten, als korrekt sagen? oder ist das gänzlich vorbeigeschrammt am wesentlichen.
hab nämlich dadurch nicht wirklich verstanden, was nun also die voraussetzungen sind bzw. welche für solch eine korrelation bzw. regression benötigt werden ^^
bitte bitte um hilfe
-
drfg2008
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
die Darstellungen sind nur teilweise richtig.
1. richtig: r Pearson beschreibt nur lineare Zusammenhänge
-> wegen der Kovarianz, r = Cov(x,y)/S(x)S(y)
2. falsch: es gibt perfekt gleichläufige (r=+1) oder perfekt gegenläufige Zusammenhänge (r=-1). Im Fall dass kein linearer Zusammenhang besteht ist r =0.
3. richtig: im Gegensatz zur Regression nimmt r keine kausale Richtung an. In der Regression ist das der Fall -> geht zurück auf Galton "Regression"
4. fast richtig: im Rahmen des Hypothesen Testens (wenn z.B. von einer Stichprobe auf eine Grundgesamtheit geschlossen werden soll) wird zunächst davon ausgegangen, dass in der Grundgesamtheit KEIN Zusammenhang besteht Ho: rho = 0. Das heißt aber nicht, dass nur unabhängige Variablen getestet werden. Die Unabhängigkeit ist nicht die Voraussetzung des Tests, sondern sein eventuelles Ergebnis.
5. richtig: Pearson erfordert N~verteilte Zufallsvariablen
6. fast richtig: tatsächlich werden im Rahmen von Regressionsanalysen auch Variablen verwendet, die eben nicht N~verteilt sind. Das findet sich ja auch im Beispiel: Schulabschluss. Nominal skalierte ZV lassen sich über Dummy-Codierungen (0-1 Codierungen) auch in Regressionsanalysen einsetzen. Und je nach Wissenschaftszweig werden die Ausgangsvoraussetzungen (hier die angesprochene Streuungszunahme / Heteroskedastizität) unterschiedlich tolerant gehandhabt bzw. bewertet. Heteroskadastizität lässt sich übrigens durch Logarithmieren der Variablen reduzieren.
7: richtig: Residuen müssen unabhängig und normalverteilt sein
8: richtig: Es würde auch keinen Sinn machen eine lineare Regression durchzuführen, wenn kein linearer Zusammenhang zwischen Merkmalen besteht.
1. richtig: r Pearson beschreibt nur lineare Zusammenhänge
-> wegen der Kovarianz, r = Cov(x,y)/S(x)S(y)
2. falsch: es gibt perfekt gleichläufige (r=+1) oder perfekt gegenläufige Zusammenhänge (r=-1). Im Fall dass kein linearer Zusammenhang besteht ist r =0.
3. richtig: im Gegensatz zur Regression nimmt r keine kausale Richtung an. In der Regression ist das der Fall -> geht zurück auf Galton "Regression"
4. fast richtig: im Rahmen des Hypothesen Testens (wenn z.B. von einer Stichprobe auf eine Grundgesamtheit geschlossen werden soll) wird zunächst davon ausgegangen, dass in der Grundgesamtheit KEIN Zusammenhang besteht Ho: rho = 0. Das heißt aber nicht, dass nur unabhängige Variablen getestet werden. Die Unabhängigkeit ist nicht die Voraussetzung des Tests, sondern sein eventuelles Ergebnis.
5. richtig: Pearson erfordert N~verteilte Zufallsvariablen
6. fast richtig: tatsächlich werden im Rahmen von Regressionsanalysen auch Variablen verwendet, die eben nicht N~verteilt sind. Das findet sich ja auch im Beispiel: Schulabschluss. Nominal skalierte ZV lassen sich über Dummy-Codierungen (0-1 Codierungen) auch in Regressionsanalysen einsetzen. Und je nach Wissenschaftszweig werden die Ausgangsvoraussetzungen (hier die angesprochene Streuungszunahme / Heteroskedastizität) unterschiedlich tolerant gehandhabt bzw. bewertet. Heteroskadastizität lässt sich übrigens durch Logarithmieren der Variablen reduzieren.
7: richtig: Residuen müssen unabhängig und normalverteilt sein
8: richtig: Es würde auch keinen Sinn machen eine lineare Regression durchzuführen, wenn kein linearer Zusammenhang zwischen Merkmalen besteht.
drfg2008



