Fehlende Werte ersetzen

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
thommy25
Beiträge: 12
Registriert: 09.01.2011, 14:17

Fehlende Werte ersetzen

Beitrag von thommy25 »

Hallo zusammen,

ich hab mich jetzt durchgegoogelt und in einigen Statistikbüchern gewälzt, aber leider weiß ich trotzdem nicht wie ich mit folgendem Problem verfahren soll und würde mich freuen, wenn mir jemand weiterhelfen könnte.

Ich möchte eine logistische Regression ausführen (n: 290). Jetzt habe ich in einigen Prädikatoren fehlende Werte. Die Muster habe ich analysiert und es spricht nichts dafür, dass diese systematisch für die verschiedenen Variablen in denen Werte fehlen zusammengekommen sind. Wie kann ich die fehlenden Werte nun ersetzen?

Beispiel: Die Personen wurden nach ihrer Parteipräferenz gefragt und anschließend in einer Filterfrage nach der Stärke dieser Parteipräferenz (Ordinal, fünf-stufig). Wer bei der ersten Frage "keine Angabe" angeklickt hat, bekam die zweite Frage folglich nicht zu sehen. Dadurch habe 19 missing auf 290 Fälle für die Variable "Stärke der Parteipräferenz. Hier meine zwei Fragen:

A. ) Jetzt würde ich diese am liebsten mit Mittelwerten ersetzen. Habe aber gelesen, dass die Methode sehr fehleranfällig ist. Welche Methode ist dann sinnvoll? Zwar weiß ich, dass es verschiedene Imputationsverfahren gibt, traue mich aber nicht, diese über SPSS anzuwenden, weil ich befürchte, durch mein Nicht-Wissen mehr fehler zu produzieren.

B.) Ich könnte die logistische Regression (ich muss mehrere machen, weil ich die gleichen Prädikatoren auf verschiedene Gruppen testen) auch jeweils mit den durch die Missings veränderten Gruppengrößen rechen, also eine Reduzierung von n in Kauf nehmen. Wäre das sinnvoll?

Das gleiche Problem habe ich mit anderen Variablen, bei denen jeweils rund 10 Missing vorhanden sind (Einkommen, Bafögbezug, Akademikerhaushalt).

Vielen Dank für Eure Unterstützung! Bin über jeden Rat, Hinweis etc. mehr als überaus dankbar! :)

Grüße, Thomas
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Beispiel: Die Personen wurden nach ihrer Parteipräferenz gefragt und anschließend in einer Filterfrage nach der Stärke dieser Parteipräferenz (Ordinal, fünf-stufig). Wer bei der ersten Frage "keine Angabe" angeklickt hat, bekam die zweite Frage folglich nicht zu sehen. Dadurch habe 19 missing auf 290 Fälle für die Variable "Stärke der Parteipräferenz. (...)
Jetzt würde ich diese am liebsten mit Mittelwerten ersetzen.
Was ist denn das Mittel aus Schwarz und Rot - Grün?
Ich könnte die logistische Regression (ich muss mehrere machen, weil ich die gleichen Prädikatoren auf verschiedene Gruppen testen) auch jeweils mit den durch die Missings veränderten Gruppengrößen rechen, also eine Reduzierung von n in Kauf nehmen. Wäre das sinnvoll?
Das wird wohl das Sicherste sein. 19 Missing auf 290 Fälle, das wären nur 6,6%. Das wäre doch besser als 6,6 % Unsinn.
drfg2008
thommy25
Beiträge: 12
Registriert: 09.01.2011, 14:17

Beitrag von thommy25 »

Hallo,

danke für die Antwort. Also zu deiner ersten Frage

"Was ist denn das Mittel aus Schwarz und Rot - Grün?"

hilft vielleicht das weiter: http://www.ipsi.fraunhofer.de/~crueger/ ... misch.html :D

Ich weiß, das man ordinalskalierte Variablen eigentlich nicht metrisch nutzen sollte und dadurch auch kein Mittelwert bilden kann. Aber in den Sozialwissenschaften ist das (leider) durchaus gängige Praxis - zumindest soweit ich das bisher gelernt habe. Daher kam überhaupt erst die Idee.

Das mit den 6,6% sehe ich auch so. Wobei ich mich halt gefragt hatte, ob "Imputationsverfahren" bei dem Problem alternativ helfen könnten.

Danke für deine Mühe!

Grüße Thomas
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Gemeint sind die politischen Farben. Und das wäre auch nicht ordinal, sondern kardinal.
Die Personen wurden nach ihrer Parteipräferenz

Eine Imputation von Parteipräferenzen müßte schon auf viele Hintergrundvariablen zurückgreifen können. Und da die Bindung der Parteipräferenzen in einer sich stärker individualisierenden Gesellschaft immer schwächer wird , erscheint das eher nicht so sinnvoll. Und was wäre denn das arithmetische Mittel aus Bafögbezug und Akademikerhaushalt. Hartz/Viertel?
drfg2008
thommy25
Beiträge: 12
Registriert: 09.01.2011, 14:17

Beitrag von thommy25 »

...ah, jetzt verstehe ich. das habe ich vielleicht etwas missverständlich ausgedrückt.

mir ging es nicht um die bestimmung der partei (die brauche ich für meine berechnung nicht), sondern um die stärke der parteiidentifikation, also in welchem maß die person der zuvor genannten partei zuneigt (5stufig, ordinal). daraus hätte ich dann den mittelwert bilden wollen. und darauf bezog sich dann auch das mit der imputation.

zu den bafög, akademikerhaushaltssache...das hatte ich bewusst unter den text gepackt. natürlich will ich hier keinen mittelwert berechnen. (wobei: 0,5 beim akedemikerhaushalt bedeutet vielleicht, vater hat hochschulabschluss, mutter nicht ;-)

abe ich glaube ich richte mich einfach danach, bei der geringen zahl fehlender werte einfach die fälle rauszulassen aus der analyse.
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten