Hallo,
Ich habe eine Variable aufgeteilt in ältere Personen (Geburt bis 1956) und jüngere (Geburt bis 1993).
Nun ist die Anzahl der Fälle unterschiedlich: bei den älteren beträgt das N= 882 bei den jüngeren N=1479.
Wie mache ich den Unterschied wett? Muss ich diese nun gewichten? Und wenn ja wie?
Danke und MfG,
Pucher
Fälle gewichten
-
- Beiträge: 7
- Registriert: 06.07.2011, 09:36
Fälle gewichten
"Ich weiß, dass ich nichts weiß"
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
... warum? Weil die Älteren schwer sind als die Jüngeren?Muss ich diese nun gewichten?

das hängt doch davon ab, was du damit machen willst.
Generell ist die Gewichtung von Datensätzen sehr problematisch, da für den Fall des Einsatzes von (inferenz-) stat. Verfahren wie etwa dem t-Test oder dem Chi-Quadrat Test, etc. ... , diese so gewichteten Daten dann eigentlich nicht mehr zu gebrauchen sind. Entsprechend der Stichprobentheorie werden Stichproben (post-) stratifiziert. [1]
Gruß
[1] siehe z.B. Prokropp
http://www.amazon.de/Stichproben-Theori ... 493&sr=8-3
drfg2008
-
- Beiträge: 7
- Registriert: 06.07.2011, 09:36
ich habe einen großen Datensatz für den eine Gewichtungsvariable existiert und die ich aktiviert habe.
Habe bisher aber nur Häufigkeitsverteilungen gemessen. Bei diesen kann man die Gewichtung doch lassen, oder?
Nun will ich allerdings einige statistische Tests anwenden. Muss man bei diesen die Gewichtung "ausschalten" und wie kann man dann den Unterschied bei N wettmachen?
Vielen Dank und nette Grüße!
Pucher
Habe bisher aber nur Häufigkeitsverteilungen gemessen. Bei diesen kann man die Gewichtung doch lassen, oder?
Nun will ich allerdings einige statistische Tests anwenden. Muss man bei diesen die Gewichtung "ausschalten" und wie kann man dann den Unterschied bei N wettmachen?
Vielen Dank und nette Grüße!
Pucher
"Ich weiß, dass ich nichts weiß"
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
Wie gesagt, bei inferenzstat. Verfahren (t-Test, ...) würde der Einsatz einer Gewichtung sehr wahrscheinlich zu falschen Schlüssen kommen. Hier ist eine 1:1 exakte Kopie zur GG auch nicht unbedingt notwendig. Der Chi-Quadrat Test etwa nutzt ja erwartete Werte. Und die werden aus dem Datensatz berechnet (Randverteilungen) und nicht aus der GG.
Gewichtung ist dann sinnvoll, wenn Lageparameter nachträglich adjustiert werden, z. B. für Häufigkeitsverteilungen.
Nachdem die Dateien getrennt wurden, müsste das eventuell neu berechnet werden.
Zur Darstellung von Häufigkeitsverteilungen also die Gewichtung lassen. Für den Einsatz (der meisten) stat. Verf. hingegen die Gewichtung ausschalten.
Sollten die Daten vom ZA-Köln stammen, dann noch einmal Beratung bei ZUMA-Mannheim einholen. Kostet ja auch nichts.
Gruß
Gewichtung ist dann sinnvoll, wenn Lageparameter nachträglich adjustiert werden, z. B. für Häufigkeitsverteilungen.
Nachdem die Dateien getrennt wurden, müsste das eventuell neu berechnet werden.
Zur Darstellung von Häufigkeitsverteilungen also die Gewichtung lassen. Für den Einsatz (der meisten) stat. Verf. hingegen die Gewichtung ausschalten.
Sollten die Daten vom ZA-Köln stammen, dann noch einmal Beratung bei ZUMA-Mannheim einholen. Kostet ja auch nichts.
Gruß
drfg2008