Hilfe bei der Interpretation einer Regressionsanalyse
-
- Beiträge: 13
- Registriert: 29.11.2010, 16:42
Hilfe bei der Interpretation einer Regressionsanalyse
Hallo,
ich arbeite gerade an einem Research Paper zur Rheinland-Pfalz-Wahl 2011.
Dazu untersuche ich mit SPSS den Einfluss der Variable Wirtschaftskompetenz von Kurt Beck auf die Wahlabsicht (dichotomisiert in SPD und Andere)!
Die Regressionsanalyse sagt 18% Varianzerklärung.
Wenn ich statt Wirtschaftskompetenz die Leistung der Landesregierung allgemein nehme habe ich 38% Varianzerklärung.
Hole ich beides in eine multivariate Regressionsanalyse sind es nurnoch 35% Erklärung.
Warum ist das so? Sollte die Erklärungskraft nicht steigenden wenn ich mehr Variablen in das Modell aufnehme?
Gruß
Thomas
ich arbeite gerade an einem Research Paper zur Rheinland-Pfalz-Wahl 2011.
Dazu untersuche ich mit SPSS den Einfluss der Variable Wirtschaftskompetenz von Kurt Beck auf die Wahlabsicht (dichotomisiert in SPD und Andere)!
Die Regressionsanalyse sagt 18% Varianzerklärung.
Wenn ich statt Wirtschaftskompetenz die Leistung der Landesregierung allgemein nehme habe ich 38% Varianzerklärung.
Hole ich beides in eine multivariate Regressionsanalyse sind es nurnoch 35% Erklärung.
Warum ist das so? Sollte die Erklärungskraft nicht steigenden wenn ich mehr Variablen in das Modell aufnehme?
Gruß
Thomas
-
- Beiträge: 141
- Registriert: 25.07.2008, 19:08
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
-
- Beiträge: 141
- Registriert: 25.07.2008, 19:08
Naja, dein Einleitungstext lässt den Schluss zu, dass deine Abhängige Variable dichotom ist (Wahlabsicht SPD ja/nein). Folglich rechnst du eine binäre logistische Regression, welche im Gegensatz zur (multiplen) linearen Regression nicht auf der Methode der Kleinsten-Quadrate basiert, sondern auf einer Maximum-Likelihood-Schätzung.
Folglich gibt dir SPSS kein R² aus, sondern Pseudo-R² (in diesem Fall Cox&Snell und Nagelkerke). Diese - ich nenn sie mal Hilfskonstruktionen - weisen gegenüber einem "normalen" R² einige Probleme auf und fallen gewöhnlich auch geringer aus, als ein "normales" R².
Folglich gibt dir SPSS kein R² aus, sondern Pseudo-R² (in diesem Fall Cox&Snell und Nagelkerke). Diese - ich nenn sie mal Hilfskonstruktionen - weisen gegenüber einem "normalen" R² einige Probleme auf und fallen gewöhnlich auch geringer aus, als ein "normales" R².
-
- Beiträge: 13
- Registriert: 29.11.2010, 16:42
okay allerdings habe ich die Regression bisher mit folgender Syntax gemacht:
regr/var.../dep.../enter.
das is wohl keine binäre logistische sondern eine normale!
Könnte da mein Fehler drin liegen?
Inzwischen habe ich sogar das Problem, dass mir ein negativer Betawert angezeigt wird obwohl in der Kreuztabelle eindeutig die Werte in Richtung meiner Hypothese zeigen!
regr/var.../dep.../enter.
das is wohl keine binäre logistische sondern eine normale!
Könnte da mein Fehler drin liegen?
Inzwischen habe ich sogar das Problem, dass mir ein negativer Betawert angezeigt wird obwohl in der Kreuztabelle eindeutig die Werte in Richtung meiner Hypothese zeigen!
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Wenn Du nicht einmal weißt, welche Prozeduren Du da überhaupt rechnest, wird es ein bißchen sehr schwierig mit der Diskussion.
Was den möglichen Widerspruch zwischen Regression und Kreuztabelle angeht, in den meisten Fällen haben sich die Nutzer bei solchen Fragen ihre Codierungen nicht richtig angesehen.
Was den möglichen Widerspruch zwischen Regression und Kreuztabelle angeht, in den meisten Fällen haben sich die Nutzer bei solchen Fragen ihre Codierungen nicht richtig angesehen.
-
- Beiträge: 13
- Registriert: 29.11.2010, 16:42
Okay ich habe jetzt lange versucht mich in die binäre logistische Regression einzuarbeiten aber das durchschaue ich einfach nicht.
Kann ich diese Regression zu Not auch mit genannter Syntax machen oder ist das Ergebnis dann absoluter Schwachsinn?
Habe festgestellt, dass der Betawert einer meiner Variablen im bivariaten Modell positiv ist, und im multivariaten Modell negativ wird! (Kreuztabelle geht in Richtung positiv, Codierungen sind korrekt)
Warum wird die plötzlich negativ und wie ist das zu interpretieren?
Danke für die Hilfe!
Kann ich diese Regression zu Not auch mit genannter Syntax machen oder ist das Ergebnis dann absoluter Schwachsinn?
Habe festgestellt, dass der Betawert einer meiner Variablen im bivariaten Modell positiv ist, und im multivariaten Modell negativ wird! (Kreuztabelle geht in Richtung positiv, Codierungen sind korrekt)
Warum wird die plötzlich negativ und wie ist das zu interpretieren?
Danke für die Hilfe!
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Für wen ist denn das Resultat gedacht? Je nachdem, wer es ist, wirst Du es achtkant um die Ohren gefeuert kriegen, oder aber der Abnehmer ist komplett ahnungslos und nimmt es so hin.Okay ich habe jetzt lange versucht mich in die binäre logistische Regression einzuarbeiten aber das durchschaue ich einfach nicht.
Kann ich diese Regression zu Not auch mit genannter Syntax machen oder ist das Ergebnis dann absoluter Schwachsinn?
Die Information ist unzureichend. Eine Veränderung von +0,0001 zu -0,0001 ist etwas anderes als eine Veränderung von +0,8 zu -0,8. Grundsätzlich betrachtet beschreibt im multiplen Modell ein Koeffizient die Beziehung zwischen einem Prädiktor und der vorherzusagenden Variable unter Berücksichtigung (rechnerischer Konstanthaltung) aller übrigen Prädiktoren.Warum wird die plötzlich negativ und wie ist das zu interpretieren?
Halb fiktives Beispiel: Arbeitnehmer mit hohem Einkommen haben eine höhere Sterbenswahrscheinlichkeit in 2011 als Arbeitnehmer mit niedrigerem Einkommen. Wird aber "Alter" berücksichtigt und herausgerechnet (im Schnitt steigt das Einkommen mit dem Alter), dann zeigt sich, dass ein höheres Einkommen das Sterberisiko senkt.
-
- Beiträge: 13
- Registriert: 29.11.2010, 16:42
ja der Unterschied schon deutlicher
also 0,18 positiv und später umgefähr der selbe Wert negativ.
Also wenn ich das Beispiel richtig verstehe ist der erste Wert demnach ein Drittvariableneffekt entstanden, korrekt?
Also eine mögliche Interpretation wäre: Im multivariaten Modell erkennt man jedoch dass der vorher festgestellte Effekt in Wirklichkeit durch andere Variablen verursacht wurde und die Variable unter kontrollierten Bedingungen keinen oder sogar einen negativen Effekt auf ... hat.
Wäre das richtig formuliert?
Edit: Ergebnis ist zwar für einen Prof. gedacht der Bücher über sozialwissenschaftliche Datenanalyse geschrieben hat, allerdings hat er nie etwas von der Notwendigkeit der binären Regression gesagt und immer auf den einfach Syntaxbefehl verwiesen!
also 0,18 positiv und später umgefähr der selbe Wert negativ.
Also wenn ich das Beispiel richtig verstehe ist der erste Wert demnach ein Drittvariableneffekt entstanden, korrekt?
Also eine mögliche Interpretation wäre: Im multivariaten Modell erkennt man jedoch dass der vorher festgestellte Effekt in Wirklichkeit durch andere Variablen verursacht wurde und die Variable unter kontrollierten Bedingungen keinen oder sogar einen negativen Effekt auf ... hat.
Wäre das richtig formuliert?
Edit: Ergebnis ist zwar für einen Prof. gedacht der Bücher über sozialwissenschaftliche Datenanalyse geschrieben hat, allerdings hat er nie etwas von der Notwendigkeit der binären Regression gesagt und immer auf den einfach Syntaxbefehl verwiesen!
-
- Beiträge: 141
- Registriert: 25.07.2008, 19:08
Um die binär logistische Regression kommst du mit dieser abhängigen Variable nicht herum. Nur weil dein Prof. nie etwas von anderen Regressionstypen erzählt hat, heißt das noch lange nicht, dass du nur diese verwenden darfst. Du bist Student, folglich kann von dir erwartet werden, dass du dir dein Brot selbst schmieren kannst, um es einmal bildhaft auszudrücken.
Hier findest du kurz und übersichtlich die Unterschiede zwischen einer (multiplen) linearen und einer binären logistischen Regression aufgeführt:
http://www.uni-potsdam.de/u/soziologie/ ... assung.pdf
Ob du die Formel verstehst, ist erst einmal nebensächlich. Wichtig ist, dass du weißt, welchem Fragetyp man welchen Regressionstyp verwendet und dass die Interpretation der Koeffizienten unterschiedlich ist.
Ansonsten schreib deinem Prof. doch einfach mal ne Mail. Wenn man das hier so liest, befindest du dich noch im BA Studium und da reißt dir gewöhnlich niemand den Kopf ab. Halbwegs sicher ist nur, dass du mit einer linearen Regression ziemlichen Bockmist baust, der zumindest bei uns zum Nichtbestehen führt.
Hier findest du kurz und übersichtlich die Unterschiede zwischen einer (multiplen) linearen und einer binären logistischen Regression aufgeführt:
http://www.uni-potsdam.de/u/soziologie/ ... assung.pdf
Ob du die Formel verstehst, ist erst einmal nebensächlich. Wichtig ist, dass du weißt, welchem Fragetyp man welchen Regressionstyp verwendet und dass die Interpretation der Koeffizienten unterschiedlich ist.
Ansonsten schreib deinem Prof. doch einfach mal ne Mail. Wenn man das hier so liest, befindest du dich noch im BA Studium und da reißt dir gewöhnlich niemand den Kopf ab. Halbwegs sicher ist nur, dass du mit einer linearen Regression ziemlichen Bockmist baust, der zumindest bei uns zum Nichtbestehen führt.
-
- Beiträge: 13
- Registriert: 29.11.2010, 16:42
Okay danke erstmal für die vielen Antworten bisher.
Habe mich jetzt dazu durchgerungen und mich in die logistische Regression eingearbeitet.
Dazu eine Frage noch: hab jz eine kategoriale Variable (Wirtschaftskompetenz der Parteien in 1 SPD und 2 Oppositionsparteien)
Bei der spuckt mir SPSS eine Exp(B) Wert von 10,... aus.
Ich hatte eigentlich Werte mit 1,... erwartet. Das würde ja bedeuten dass die Wahrscheinlichkeit der Oppositionswahl 1000% größer wenn man die Oppositionsparteien als kompetent bezeichnet, und nicht die SPD.
Das kommt mir sehr hoch vor.
Ist da was schief gelaufen?
Habe mich jetzt dazu durchgerungen und mich in die logistische Regression eingearbeitet.
Dazu eine Frage noch: hab jz eine kategoriale Variable (Wirtschaftskompetenz der Parteien in 1 SPD und 2 Oppositionsparteien)
Bei der spuckt mir SPSS eine Exp(B) Wert von 10,... aus.
Ich hatte eigentlich Werte mit 1,... erwartet. Das würde ja bedeuten dass die Wahrscheinlichkeit der Oppositionswahl 1000% größer wenn man die Oppositionsparteien als kompetent bezeichnet, und nicht die SPD.
Das kommt mir sehr hoch vor.
Ist da was schief gelaufen?
-
- Beiträge: 141
- Registriert: 25.07.2008, 19:08
MOMENT!
Wenn du eine binär logistische Regression rechnest, kannst du KEINE Wahrscheinlichkeiten direkt ablesen, sondern musst diese gesondert berechnen, da dir Odds Ratios ausgegeben werden.
Logit-Koeffizient gibt dir Richtung und Signifikanz des
Zusammenhangs an, aber nicht die Stärke!
Effektkoeffizient Exp (B) auch ‚Odds Ratio’:
(Wertebereich: 0 bis unendlich)
Gibt an, wie sich das Chancenverhältnis ändert, wenn die
unabhängige Variable um eine Einheit
erhöht wird.
OR>1: positiver Effekt
OR<1: negativerEffekt
Effektkoeffizienten nehmen Werte zwischen 0
und < 1 an, wenn die Logit-Koeffizienten
negativ sind; Werte größer 1, wenn die Logit-
Koeffizienten positiv sind, und = 1, wenn die
Logit-Koeffizienten 0 sind.
Text ist größtenteils der verlinkten Datei entnommen.
Berechnung geht bspw. mit
Long, Scott (1997). Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks: Sage.
Wenn du eine binär logistische Regression rechnest, kannst du KEINE Wahrscheinlichkeiten direkt ablesen, sondern musst diese gesondert berechnen, da dir Odds Ratios ausgegeben werden.
Logit-Koeffizient gibt dir Richtung und Signifikanz des
Zusammenhangs an, aber nicht die Stärke!
Effektkoeffizient Exp (B) auch ‚Odds Ratio’:
(Wertebereich: 0 bis unendlich)
Gibt an, wie sich das Chancenverhältnis ändert, wenn die
unabhängige Variable um eine Einheit
erhöht wird.
OR>1: positiver Effekt
OR<1: negativerEffekt
Effektkoeffizienten nehmen Werte zwischen 0
und < 1 an, wenn die Logit-Koeffizienten
negativ sind; Werte größer 1, wenn die Logit-
Koeffizienten positiv sind, und = 1, wenn die
Logit-Koeffizienten 0 sind.
Text ist größtenteils der verlinkten Datei entnommen.
Berechnung geht bspw. mit
Long, Scott (1997). Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks: Sage.
-
- Beiträge: 13
- Registriert: 29.11.2010, 16:42
"Also: Die Wahrscheinlichkeit,
die Stimulusperson als hoch
attraktiv einzuschätzen, steigt mit jeder Skaleneinheit
des Fachinteresses um das
1.4fache. Die Chancen steigen demnach um
100 * (1.1441 – 1) = 44 %."
http://www.home.uni-osnabrueck.de/rnike ... ession.pdf
(Seite 6 rechts oben)
ist diese Art der Interpretation dann nur bei ordinal skaliert oder höher möglich?
die Stimulusperson als hoch
attraktiv einzuschätzen, steigt mit jeder Skaleneinheit
des Fachinteresses um das
1.4fache. Die Chancen steigen demnach um
100 * (1.1441 – 1) = 44 %."
http://www.home.uni-osnabrueck.de/rnike ... ession.pdf
(Seite 6 rechts oben)
ist diese Art der Interpretation dann nur bei ordinal skaliert oder höher möglich?
-
- Beiträge: 141
- Registriert: 25.07.2008, 19:08
Der Rechenweg ist nicht vollständig dargestellt
1.1441-1= 0.1441
0.1441*100= 14.41
Richtig, die Chance steigen. Aber was sind die Chancen?
AW: Ein Quotenverhältnis
http://de.wikipedia.org/wiki/Quotenverh%C3%A4ltnis
1.1441-1= 0.1441
0.1441*100= 14.41
Richtig, die Chance steigen. Aber was sind die Chancen?
AW: Ein Quotenverhältnis
http://de.wikipedia.org/wiki/Quotenverh%C3%A4ltnis