4 Prämissen/Annahmen einer multiplen Regression

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
backfist
Beiträge: 24
Registriert: 02.06.2011, 14:15

4 Prämissen/Annahmen einer multiplen Regression

Beitrag von backfist »

Hallo alle, bei Anwendung einer multiplen Regression müssen doch vier Annahmen erfüllt sein. Ob diese Annahmen erfüllt sind muss anhand verschiedener Tests überprüft werden.
Diese sind:
1.) Homoskedastizität
- Streudiagramm (Residuenplot)
- TestMethode bei SPSS? (also ein Test, wie Durbin-Watson bei Auto-
korrelation)
2.) Linearität
- RESET (Regression Specific Error Test)
- Gibt es hier ein "grafisches Mittel"
3.) Normalverteilung
- Q-Q-Plot
- Histogramm mmit Normalvertilungskurve
- Jarque-Bera-Test (gibt es den bei SPSS?) oder kann man hier den
Kolmogorov Test nehmen? ( meine SP ist ca. 21000)
4.) Multikolleniarität
- Überprüfung der Kollerationen der abhängigen Variablen
untereinander
- Tolreanzwerte und VIF-Werte bei SPSS


Soweit bin ich jetzt in der Materie drin, hier nun meine Fragen:
Meine abhängigen Variablen sind ordinal,deshalb habe ich eine Dummykodierung vorgenommen...funktionieren die Testmethoden denn überhaupt?
In der Aufzählung oben habe ich ansonsten die Fragen in Klammmer direkt erwähnt.
Vielleicht können wir ja hier drüber diskutieren, würde bestimmt auch anderen hilfreich sein:-)

gruss
backfist
Beiträge: 24
Registriert: 02.06.2011, 14:15

Beitrag von backfist »

Muss hier noch kurz nen Nachtrag geben:
..."Meine abhängigen Variablen sind ordinal,deshalb habe ich eine Dummykodierung vorgenommen...funktionieren die Testmethoden denn überhaupt?"....

hiermit meinte ich ob die Testmethoden funktionieren,weil meine abhängige Variablen alle Nominal- und Ordinalskaliert sind?
Elli_28
Beiträge: 4
Registriert: 28.08.2011, 19:50

Beitrag von Elli_28 »

Hallo,

also ich habe im Prinzip die gleiche Frage.
Eine Anmerkung habe noch bei dir: In einer regression darf man keine ordinalskallierten Cariablen verwenden. SPSS erkennt die dann als metrisch an-demnach in Nominale umwandeln.

Grüße
backfist
Beiträge: 24
Registriert: 02.06.2011, 14:15

Beitrag von backfist »

Hallo,
habe die ordinalen Variablen umkodiert, so dass es da keine Probleme mehr gibt. Habe vor etwas zu "tricksen" indem ich die ordinale Variable Schulbildung und Studium in Jahre der Ausbildung umändere, dadurch wird es metrisch und ist für meine Zwecke besser geeignet, da ich nur ordinale und nominale Variablen als unabhängige habe...
Was ist denn deine Regressionsansatz, bzw. wie läufts oder wo hängt es?

gruss
backfist
Beiträge: 24
Registriert: 02.06.2011, 14:15

Beitrag von backfist »

Hallo nochmal,
ich poste einfach mal nochwas, vielleicht antwortet ja jemand:-)
Also: ich habe in meiner regression ein paar ordinale variablen (uv) und auch eine nominale variable (uv), um es genau zu sagen: religionsangehörigkeit.
Diese muss als dummy codiert werden, was ich auch gemacht habe, bin mir aber nicht sicher ob es wirklich richtig ist.
Ich habe die sieben Ausprägungen aufgebrochen und in 0/1 (ja/nein) umcodiert. Da ich gelesen habe, dass eine Kategorie/Ausprägung über 0/0 identifiziert werden kann habe ich das auch so gemacht. Aber: nun wird diese in der regression ausgeschlossen...ist das jetzt ne referenzkategorie?oder sollte diese auch einfach in 0/1 codiert werden?

Würde mich über antworten freuen, aber genauso wenn jemand darüber "diskutieren" will! Ich erwarte keine Musterlösung,dabei lerne ich auch nichts, aber es hilft wenn man mit Leuten reden kann die einen überhaupt verstehen bzw. zuhören:-)

danke!
Yondalar
Beiträge: 14
Registriert: 21.09.2010, 16:51

Beitrag von Yondalar »

Hi,

da du schreibst der Zusammenhang muss linear sein, machst du wohl 'ne lineare Regression?

Und dann schreibst du dein AV sind ordinal, daher Dummycodierung?

Also wenn du nicht UV meinst (oder die Regression nicht linear sein soll) funktioniert das nicht, da lineare Regression eine metrische AV braucht.



Zur Dummy-Codierung: Ja, eine Kategorie muss praktisch über die 0 in allen Kategorien identifiziert werden und ist die Referenzkategorie (geht nicht anders, sonst hast du da perfekte Multikollinearität, dann sollte SPSS das garnich erst rechnen...).
backfist
Beiträge: 24
Registriert: 02.06.2011, 14:15

Beitrag von backfist »

Hallo und Danke für die Antwort!
Ich wollte eine lineare multiple Regression durchführen...dachte/denke, dass das die "richtige" Analysemethode ist. Meine AV ist Lohn, also metrisch. Meine UV sind nominal bzw. ordinal.
Wenn ich zb Religionsangehörigkeit umcodiere und sechs Kategorien haben dann mach ich eine Kategorie 0/0?
Übernehme ich diese dann in die regression? Woher weiß Spss denn dann, dass die letzte Kategorie die referenzkategorie ist??
Ich steh da glaube ich absolut auf dem Schlauch!!
Danke schonmal
Yondalar
Beiträge: 14
Registriert: 21.09.2010, 16:51

Beitrag von Yondalar »

Alles klar, also war doch UV und nich AV gemeint :)

Hab mich da auch grade erst eingelesen - daher hoffe ich zumindest mal dass ichs richtig verstanden hab ;-)


Also:

Du musst quasi Religionsangehörigkeit (k = 6 Kategorien) ind k-1 (= 5) Dummy-Variablen überführen.

Dummyvariable1: Christentum ja / nein
Dummyvariable2: Judentum ja / nein
...
Dummyvariable5: Islam ja / nein


Alle 6 geht nicht (zumindest kannst du sie dann nicht in die Regression einbringen).
Das mit der Referenzkategorie 'weiß' SPSS nicht. Das ist Sache der Interpretation der Ergebnisse. Du musst das Ergebniss aller Dummyvariablen in Relation zur Referenzkategorie interpretieren.

Also angenommen Atheismus ist die Referenzkategorie (d.h. es hat bei Dummy#1 bis Dummy#5 überall den Wert 0), dann sagt dir der Regressionskoeffizient von Dummy#1 (Christentum), um wieviel die AV zunimmt, wenn sich Religionszugehörigkeit von Atheismus zu Christentum verändert, also wieviel mehr / weniger ein Christ im vgl. zu nem Atheisten verdient (nach der Prognose eben).
backfist
Beiträge: 24
Registriert: 02.06.2011, 14:15

Beitrag von backfist »

Hallo!
Die Dummies habe ich gebildet und die Kategorie "trifft nicht zu" nicht in die Analyse einbezogen, seitdem wirft mir SPSS auch kein Dummie mehr aus der Analyse! Also Danke für die Tips! Habe jetzt nur noch das Problem, dass ich Multikollinearität habe...wenn ich aber die Anzahl der Dummies in der Analyse reduziere, dann werden die Toleranz- und VIF-Werte super. Problem, ich kann ja nicht zb. evangelisch und islam aus der Analyse lassen, dann passen zwar die Werte, aber die Untersuchung ist nicht vollständig...Jemand ne Idee??Bzw. wie geht man überhaupt vor, wenn eine Prämisse/Annahme der Regression verletzt ist?

Muss man ordinal umcodieren? Hab da verschiedenes gelesen?

Gruss und Danke nochmal!
Yondalar
Beiträge: 14
Registriert: 21.09.2010, 16:51

Beitrag von Yondalar »

trifft nicht zu bedeutet bei dir? Die Kategorie für missings, oder wer ist in der Kategorie drin?

Wenn ja: das ist (so nach dem was ich gelesen hab) keine sinnvolle Kategorie... weil wie willst du dann die Koeffizienten interpretieren? Werte können aus verschiedenen Gründen fehlen, die Gruppe ist eigentlich kein geeigneter Vergleichspunkt... wenn du das so machst, können die Koeffizienten die in der Regression rauskommen so ziemlich alles bedeuten...

Hast du keine sinnvollere Kategorie? Nicht gläubig / Atheismus bietet sich find ich schon an... Ich würd mal versuchen, ob dann die Ergebnisse nicht besser werden.


Zu was tun wenn die Annahmen verletzt sind: gibts verschiedene Ansichten... von 'lieber die statistischen als die theoretischen Annahmen verletzen' bis 'dann ordinale Regression nehmen' ... ,
backfist
Beiträge: 24
Registriert: 02.06.2011, 14:15

Beitrag von backfist »

So, hab da auch nochmal gelesen und mir ne ganze Nacht Gedanken gemacht...die Kategorie "trifft nicht zu" wird sowieso nicht in die Analyse einbezogen, da diese als nicht gültig/fehlend erkannt werden von SPSS. Mal vorweg, ich hab folgende kategorien zur Verfügung:
1. keine Angabe
2. katholisch
3. evangelisch
4. andere christliche
5. islam
6. andere religionsgemeinschaften
7. konfessionslose

(die Kategorien trifft nicht zu und nicht valide fallen sowieso aus der Analyse)
Ich dachte mir jetzt folgendes: Ich werde die Kategorie "keine Angabe" komplett aus der analyse lassen, die stichprobe ist ohnehin gering in dieser Gruppe und die Kategorie besitzt sowieso keine Aussagekraft. Desweiteren werde ich wohl die Kategorie "andere Religionsgemeinschaften" aus der Analyse lassen, da ich die Effekte dieser Gruppe nicht interpretieren kann, da sich hier die unterschiedlichsten Religionen vermischen.
Das heißt es bleibt noch übrig: katholisch/evangelisch/islam/andere christliche/konfessionslose

Dann macht es doch den meisten Sinn wenn ich die Konfessionslosen als Refernzkategorie nehme??
Aber :?: bei der Analyse einer linearen multiplen Regression kann ich keine Referenzkategorie bei Spss angeben (bei den logistischen Modellen kann man das ja ); dann fehlt doch einfach eine Gruppe in der Analyse? oder lasse ich die Konfessionslosen aus der Analyse und mache dieselbe analyse nochmal mit den konfessionslosen?
Habe bei Bühl gesehen, dass er Beruf in vier dummies zerlegt und alle in die Analyse mit einbezieht (er bildet keine Referenzkategorie)??
Yondalar
Beiträge: 14
Registriert: 21.09.2010, 16:51

Beitrag von Yondalar »

hab mir die Beispiele nicht so genau angesehen...

bist du sicher dass es Dummy-Codierung war?

Es gibt auch Kontrast- oder Effektcodierung, da ist es (glaub ich, habs nur überflogen) so, dass die Referenzkategorie den Wert -1 bekommt... irgendwie so.

So wie ichs verstanden hab machst du das einfach 1x mit k-1 Dummys... ich hab mich nicht direkt in das was bei SPSS unter logistisch läuft eingelesen (nur in ordinal) - aber ich vermute, wenn du da übers UI ne Referenzkategorie festlegst sollte das effektiv das selbe sein wie bei der Dummycodierung, denn:

Bei der ordinalen Regression wird auch jeweils eine Kategorie der (ordinalen) UV als Referenzkategorie genommen. SPSS nimmt da automatisch die höchste oder niedrigste - und für diese Kategorie steht dann in der Tabelle nur sowas wie "redundant", aber kein Wert...

Da du bei kategorialen Daten keine 0 als 'Referenzpunkt' hast, kannst du die Veränderung 'um eine Einheit' halt nur 'vorgaukeln' sozusagen.
Mit der Effektcodierung solls irgendwie möglich sein, auch für die letzte Kategorie nen Koeffizienten zu bekommen, allerdings wie gesagt, hab mir das nicht genau angeschaut.
Yondalar
Beiträge: 14
Registriert: 21.09.2010, 16:51

Beitrag von Yondalar »

kurz online rumgekuckt:

Effektcodierung:

Kategorie = 1
sonstige Kategorien = 0
Referenzkategorie = - 1

dann die Koeffizienten in relation zu einer 'durchschnitts' Kategorie interpretieren, nichtmehr zur Referenzkategorie.

Es bleibt aber halt bei k-1 Variablen
backfist
Beiträge: 24
Registriert: 02.06.2011, 14:15

Beitrag von backfist »

Mein Problem ist ja gerade, dass ich keine ordinal Regression durchführen kann, da diese für ordinale (!) AV geeignet ist, meine AV (Lohn) aber metrisches Skalenniveau aufweist, das ist auch der Grund warum die Berechnung über die verschiedenen logistischen Modelle nicht funktioniert (nicht zulässiges Skalenniveau)
Und genau deswegen muss ich eine multiple lineare regression (mit evtl ln-transformation durchführen) und in diesem Modell kann man bei SPSS keine Referenzkategorie definieren. Wenn ich aber keine Referenzkategorie angeben kann, dann MUSS (?) ich ja alle Dummies in die Analyse aufnehmen, da sonst eine Kategorie nicht betrachtet wird. Und interpretieren/vergleichen über die Koeffizienten kann ich dann auch nicht, da der ausgelassen Dummie nicht Bezug steht zur Analyse, er fehlt einfach?
Denke dann ich werde dem Beispiel von Bühl folgen und werde alle aufnehmen müssen, obwohl das zu Problemen mit Kolleniarität führen wird. (da ich ja mehrer nominale UV habe, würde das eh schwierig werden mit der Referenzkatgorie, denn dann hätte ich in einer Analyse fünf Referenzkategorien von fünf unterschiedlichen UVs?? Keine Ahnung wie man das dann überhaupt interpretieren könnte??)
Bei den ordinalen UV weiß ich auch noch nicht genau...codieren oder nicht codieren... :o
Das mit der Effekt- und Kontrastkodierung habe ich mir auch angeschaut, führt aber zu denselben Problemen wie die "normalen" Dummies...ich kann sie nicht als Referenzkategorie kenntlich machen...
Yondalar
Beiträge: 14
Registriert: 21.09.2010, 16:51

Beitrag von Yondalar »

du musst das nicht in SPSS definieren. Das mit den Referenzkategorien is Sache der interpretation.

Im Prinzip sagt dir ja der Wert für jeden DUmmy was passiert wenn sich die Dummyvariable von 0 zu 1 ändert - sprich, du kriegst für jede ausser die Referenzkategorie nen wert. daher is die Referenzkategorie die 0-Kategorie... sprich der Koeffizient sagt dir, was passiert, wenn sich die Variable von der Referenzkategorie zur entsprechenden Dummy-Kategorie verändert...
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten