logistische Regression und Referenzkategorie?

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Antworten
Philis
Beiträge: 16
Registriert: 02.10.2009, 23:29

logistische Regression und Referenzkategorie?

Beitrag von Philis »

Würde mich um eine einfach Hilfe freuen.

Ich bin dabei eine binäre logistische Regression durchzuführen.
Es geht dabei um die AV (=abhängige Variable) Komplikation vs. Nicht Komplikationen unter dem Einfluss von UV (=unabhängigen Variablen) wie Diabetes, pAVk, Osteomyelitis und Patientenalter.

Bei der Abhängigen Variable wird "0" als Referenzkategorie verwendet.
Wenn ich den Einfluss der Risikofaktoren auf Komplikationen erkennen will muss ich dann Komplikation mit "1" codieren?

Bei den UV ist automatisch die Letzte Codierung die Referenzkategorie (kann man manuell umstellen) und wieder muss dann jeweils Diabetes mit "1" und nicht Diabetes mit "0" codiert werden?

Ihr habt es erkannt ich bin mir nicht sicher was Referenzkategorie bedeuten soll?
Ich dachte anfangs das ist das zu untersuchende Merkmal aber jetzt habe ich aus mehreren Artikel unterschiedliche Angaben gelesen und weiß nicht mehr weiter.

Ist leider immer so wenn man mit Halbwissen versucht Probleme zu lösen und die Mathematik dahinter nicht verstanden hat.

Würde mich sehr Freuen wenn mir jemand antworten könnte wie ich mein AV und UV codieren muss um wirklich den Effekt der einzelnen Risikofaktoren auf das vermehrte Auftreten eine Komplikation analysieren zu könne.

Lg vom Ösi
und gute Nacht :roll:
Silversurfer
Beiträge: 165
Registriert: 05.07.2009, 21:10

Beitrag von Silversurfer »

Hallo,

grundsätzlich würde ich es genauso codieren wie du, d.h. 0 = Merkmal nicht vorhanden, 1 = Merkmal vorhanden - für alle Variablen dieses Formats.

Würdest du die Codierung der AV umdrehen und das gleiche auch für die UVs machen, käme wieder das gleiche Ergebnis raus. Würdest du nur AV oder die UVs anders kodieren, so würde Odds Ratio (in SPSS heißt das Exp (B)) und der Regressionskoeffizient B (das sind die logarithmierten Odds) in die andere Richtung weisen.

Beispiel: Du codierst die AV mit 0 = Merkmal nicht vorhanden, 1 = Merkmal vorhanden und dein Exp(B) für eine entsprechende UV liegt bei 2. Änderst du die Codierung (1= Merkmal nicht vorhanden und 0=Merkmal vorhanden) so wird sich das Vorzeichen des Regressionskoeffizienten B ändern und Exp(B) 0,5 sein. Nachdem du die inhaltliche Bedeutung der AV geändert hast, ändert sich somit auch die Interpretation der damit verbundenen UVs (muss ja so sein). Wald Chi-Quadrat Koeffizienten, Standardfehler und Signifikanzniveaus der UVs ändern sich hingegen nicht bei einer umgekehrten Codierung.
Philis
Beiträge: 16
Registriert: 02.10.2009, 23:29

Beitrag von Philis »

Danke Silversurfer für deine Antwort,
Was ich nicht ganz verstanden habe ist warum bei der AV von Spss 0 als Referenzkategorie und bei der unabhängige die Letzte (höchst codierte Variable) als Referenzkategorie gewählt wird.

Die frage ist für mich wie muss ich die Risikofaktoren (0,1) coderien und wie die AV damit ich wirklich mit der Logistischen Regression den EInfluss der Risikofaktoren auf die Komplikation untersuche und nicht unbeabsichtigt den Einfluss auf keine Komplikation untersuche etc.


Ist das verständlich? sorry wenn man nicht soviel Ahnung von der Materie hat ist oft auch die Fragestellung schwierig zu verstehen.
Silversurfer
Beiträge: 165
Registriert: 05.07.2009, 21:10

Beitrag von Silversurfer »

Das eine gilt für die binär logistische Regression. Das andere für die multinomiale bzw. für die Dummykodierung. Binär und multinomial sind aber zwei verschiedene Regressionsarten.

Laut deiner Beschreibung ist deine AV binär. Deine UVs Diabetes, Osteomyelitis und pAVk sind wahrscheinlich auch binär, Alter hingegen metrisch. Ich sehe bisher keinen Grund bei deinem Modell multinomial zu rechnen und würde somit eine binär logistische Regression rechnen.
Philis
Beiträge: 16
Registriert: 02.10.2009, 23:29

Beitrag von Philis »

ich bleibe bei der Binären logistischen Regression.

Laut meinem SPSS Buch wird bei der AV (bei mir Komplikation Ja/ Nein = 1/0) 0 als Referenzkategorie herangezogen.

Bei den UV wir immer die Letzte Kategorie als Referenzkategorie herangezogen also in meinem Fall 1 (Risikofaktor ja/nein = 1/0)

Darum die Frage wenn ich jetzt die logistische Regression ausführe ohne im Unterpunkt "Kategorial..." die Referenzkategorie zu ändern erhalte ich dann wirklich den Effekt den risikofaktoren auf eine Komplikation ausführen oder erhalte ich den Effekt den Risikofaktoren auf keine Komplikation (Primäres Heilen) ausübt.

Ich fürchte ich kann meine Frage nicht richtig formulieren.
Silversurfer
Beiträge: 165
Registriert: 05.07.2009, 21:10

Beitrag von Silversurfer »

Doch, ich versteh' recht gut, was du meinst - ist auch recht klar formuliert.

Ich hab eben nochmal sicherheitshalber im Tabachnick & Fidell, 2007 nachgelesen und da steht das gleiche wie in deinem Buch (Referenzkategorie AV: 0 / Referenzkategorie UV: 1). Zudem steht auch explizit drin, dass man durchaus, so es für das eigene Vorhaben sinnvoll erscheint, die Referenzkategorie der Prädiktoren gegenüber den Standardeinstellungen ändern kann. Grundsätzlich hat das den gleichen Effekt wie eine Umkodierung, es ändern sich die Odds gemäß der neuen Referenzkategorie. Egal für welchen Weg du dich letztendlich entscheidest, wichtig ist, dass du weißt, welche Referenzkategorien du ausgewählt hast, um dementsprechend später die Odds interpretieren zu können.

Das ist wie die zwei Seiten einer Medaille - du könntest beispielsweise sagen, die Odds für Raucher sind im Verhältnis zu Nichtrauchern im Hinblick auf koronare Herzerkrankungen 2:1 oder aber auch die Odds für Nichtraucher sind im Verhältnis zu Rauchern im Hinblick auf koronare Herzerkrankungen 0,5:1.
Philis
Beiträge: 16
Registriert: 02.10.2009, 23:29

Beitrag von Philis »

Ich habe nicht Verstanden was die Referenzkategorie ist?

Anfangs dachte ich das ist jene Kategorie die im Bezug auf die AV analysiert wird (und Normalerweise würde man Wählen....Ereignis eingetroffen) bzw. innerhalb der AV das interessierende Ereignis.



Nur dann habe ich gelesen:

"0" für die bekannte Referenzkategorie und "1" für die in der Analyse relevant angesehen Kategorie ( im Bezug auf die AV)



Vom Gefühl her hätte ich immer die Referenzkategorie als Analyse relevante Kategorie angesehen??

Zu deine Interpredation die Odds Ratio ist in der Variablen Gleichung (Tabelle) von SPSS mit dem Exp (B) gleich zu setzen?

Wenn beim Risikofaktor Diabetes 1,5 steht kann ich das Gleichsetzen mit: Die Odds für Diabetiker vs: Nichtdiabetiker im Hinblick auf eine ischämischen Komplikation ist 1,5:1 (oder 50% höher)?

Ich habe bist die Faktoren nur als Summe betrachtet, als wieweit jeder einzelne Faktor die Komplikationswahrscheinlichkeit erhöht, aber nicht diese mit jenen verglichen die keinen Risikofaktor haben.

Interessant war für mich dass der Hosmer Lemeshow Test mit O,885 eine gute Modellschätzung anzeigt und obwohl der Gesamtprozentsatz der korrekt vorhergesagten Diagnosen nur um 5,7% gegenüber dem Nullmodell gesteigert werden konnte.

Danke Silversurfer, für deine sehr selbstlose Hilfe. Leider musst ich mir die Statistik selbst beibringen und da traut man sich weniger zu als eigentlich möglich wäre.
Silversurfer
Beiträge: 165
Registriert: 05.07.2009, 21:10

Beitrag von Silversurfer »

Zu deiner Frage: Ja, die Odds Ratio entspricht Exp(B). Wenn bei Diabetes 1,5 steht, dann bedeutet das, dass die Zunahme der Variable Diabetes um eine Einheit - also von Nichtdiabetiker (=0) zu Diabetiker (=1) - das Verhältnis der Wahrscheinlichkeiten Komplikation/Nichtkomplikation um das 1,5-fache erhöht. Anders ausgedrückt: Die Odds Ratio für Komplikationen ist bei Diabetikern gegenüber Nichtdiabetikern um 50% erhöht.

Ob dabei eine Zunahme von 5,7% bei den korrekt klassifizierten Fällen bedeutend oder unbedeutend ist, musst du selbst im Hinblick auf den praktischen Nutzen der damit verbundenen Aussagen entscheiden.
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten