Hallo,
Ich möchte den Zusammenhang zwischen subjektiver Gesundheit und demografischen sowie berufsspezifischen Faktoren prüfen.
In einer binären logistischen Regression ist meine abhängige Variable die selbst eingeschätzte Gesundheit (gut/ schlecht). Ich möchte die Variablen Beschäftigungsverhältnis, Familienstand, Schulabschluss, Berufsausbildung, harte körperliche Arbeit, Branche usw. (alle Kategorial) in ein Modell aufnehmen.
Es treten folgende Probleme auf:
- die einzubeziehende Variablen sind fast alle nicht signifikant (Tabelle Variablen nicht in der Gleichung)
- nur eine Variable wird in Modell aufgenommen (Schritt 1, Ende)
- Modellgüte extrem schlecht (Nagelkerke unter 0,1)
Meine Idee zu dem Signifikanzproblem war, dass es an zu gering besetzten Zellen liegen könnte, doch eine Rekodierung in größere Kategorien hat nichts gebracht (im Gegenteil).
Kann jemand helfen?
prädiktoren bei log regression nicht signifikant
-
- Beiträge: 9
- Registriert: 06.04.2009, 11:52
-
- Beiträge: 21
- Registriert: 23.03.2009, 12:28
Hallo Emge,
a) Vermutung
Wie ist die abhängige Variable verteilt? Kann es sein, dass ein sehr hoher Anteil der Befragten ihre Gesundheit gut (oder gar schlecht) einschätzen und nur ein sehr geringer Anteil die andere Kategorie ausgewählt hat?
b) Interpretation
Ich kenne die Neigung, nicht signifikante Ergebnisse als "schlecht" zu bewerten und sich hohe Modellgüten und starke Effekte zu wünschen. In vielen Fällen genügt es, Regressionsmodelle ganz neutral als Mittel einzusetzen, um Hypothesen zu testen. In diesem Fall hättest Du gezeigt, dass nur eine der genannten Variablen einen signifikanten Effekt auf die subjektive Gesundheit ausübt, die anderen dagegen nicht.
c) Modellgüte
In logistischen Regressionsmodellen gibt es kein Gütemaß, das genau dem R² in der linearen Regression entspricht und sich im Sinne "Anteil erklärter Varianz" interpretieren lässt. Stattdessen wurde eine Vielzahl unterschiedlicher Maße vorgeschlagen, um die Güte logistischer Modelle zu bestimmen (z. B. McFadden, McKelvey & Zavoina, Cox-Snell, Count R², verschiedene Information Criteria). Nach Scott Long ist ein Pseudo-R²-Wert allein wenig aussagekräftig. Zudem sind Pseudo-R²-Werte bei verschiedenen Modellen nicht vergleichbar, da sie nicht nur von Effektstärken, sondern auch von Randverteilungen der Variablen abhängen. Zudem wurde beobachtet, dass Pseudo-R²-Werte generell niedriger ausfallen als R²-Werte in der linearen Regression.
Langer Rede kurzer Sinn: Ein niedriges Pseudo-R² finde ich unproblematisch. Ich würde mich bei der Interpretation auf die Effekte konzentrieren: Welche Variablen haben einen signifikanten Einfluss, welche nicht? Wie sind die Wirkungsrichtungen (pos., neg.)? Entsprechen sie den Erwartungen?
Viele Grüße,
Wolf
a) Vermutung
Wie ist die abhängige Variable verteilt? Kann es sein, dass ein sehr hoher Anteil der Befragten ihre Gesundheit gut (oder gar schlecht) einschätzen und nur ein sehr geringer Anteil die andere Kategorie ausgewählt hat?
b) Interpretation
Ich kenne die Neigung, nicht signifikante Ergebnisse als "schlecht" zu bewerten und sich hohe Modellgüten und starke Effekte zu wünschen. In vielen Fällen genügt es, Regressionsmodelle ganz neutral als Mittel einzusetzen, um Hypothesen zu testen. In diesem Fall hättest Du gezeigt, dass nur eine der genannten Variablen einen signifikanten Effekt auf die subjektive Gesundheit ausübt, die anderen dagegen nicht.
c) Modellgüte
In logistischen Regressionsmodellen gibt es kein Gütemaß, das genau dem R² in der linearen Regression entspricht und sich im Sinne "Anteil erklärter Varianz" interpretieren lässt. Stattdessen wurde eine Vielzahl unterschiedlicher Maße vorgeschlagen, um die Güte logistischer Modelle zu bestimmen (z. B. McFadden, McKelvey & Zavoina, Cox-Snell, Count R², verschiedene Information Criteria). Nach Scott Long ist ein Pseudo-R²-Wert allein wenig aussagekräftig. Zudem sind Pseudo-R²-Werte bei verschiedenen Modellen nicht vergleichbar, da sie nicht nur von Effektstärken, sondern auch von Randverteilungen der Variablen abhängen. Zudem wurde beobachtet, dass Pseudo-R²-Werte generell niedriger ausfallen als R²-Werte in der linearen Regression.
Langer Rede kurzer Sinn: Ein niedriges Pseudo-R² finde ich unproblematisch. Ich würde mich bei der Interpretation auf die Effekte konzentrieren: Welche Variablen haben einen signifikanten Einfluss, welche nicht? Wie sind die Wirkungsrichtungen (pos., neg.)? Entsprechen sie den Erwartungen?
Viele Grüße,
Wolf