Zufallsstichprobe ziehen

Beitrag von **DrHoppe** » 17.03.2010, 12:08

Hallo erneut,

ich befürchte mein Problem ist ein ähnliches auf dem Schlauch stehen wie beim letzten Mal. Aber da mir letzte Woche das Nachfragen geholfen hat, muss ich es dieses Mal wieder probieren

Ich möchte aus knapp 2000 Daten eine Zufallsstichprobe ziehen, dabei soll die Stichprobe aus je 50% Fällen mit Merkmal w und 50% mit Merkmal m bestehen.
Mein (eventuell dummes) Problem ist nun die Umsetzung. Wenn ich per SPSS einfach die Zufallsstichprobe ziehe und sage X aus den 2000 Fällen, wird er ja nicht die 50%-50% Aufteilung mit ausgeben.
Ich habe nun versucht die Datei vorher anhand der Variable, die w und m als Merkmal ausgibt, aufzuteilen, aber auch dann ignoriert SPSS bei einer Zufallsstichprobe den Verteilungswunsch, da die 2000 Daten keine exakte 50:50 Aufteilung der Merkmale w und m aufweisen.

Meine Idee wäre nun, dass ich eventuell den Syntax-Befehl für die Zufallsauswahl so beeinflusse, damit ich maximal x Werte mit w und x Werte mit m durch die Zufallsauswahl erhalte. Allerdings scheitere ich da im Moment noch an der Umsetzung. Wenn mir aber jemand sagen würde, dass das der richtige Weg ist, wäre mir schon mal geholfen und ich wüsste, dass ich nicht an der falschen Ecke nach einer Lösung suche.

Irgendwelche Vorschläge, wie ich das Lösen kann oder wo ich auf dem Schlauch stehe?

Beitrag von **KarinJ** » 17.03.2010, 14:42

mit der option "exakt" kann man bestimmen, wie viele fälle aus den ersten x fällen gezogen werden sollen. d.h. man würde zuerst die datei nach der variablen, die m-w enthält (geschlecht) sortieren, und schauen, an welcher fallnummer die kategorie gewechselt wird. z.b. die ersten 1500 wären w --> fälle nach zufallszahl auswählen, wobei aus den ersten 1500 fällen (die nun alle w sind) die hälfte der notwendigen fälle gezogen wird --> dann filter umbenennen! in einem zweiten schritt sortiert man nochmals nach geschlecht, aber absteigend, falls vorher aufsteigend sortiert wurde (bzw. umgekehrt). nun müsste bei 501 der kategoriewechsel stattfinden --> man wählt aus den ersten 500 fällen die 2. hälfte der benötigten fallzahl --> filter umbenennen. nun errechnet man aus beiden variablen eine dritte variable: wenn filter1 oder filter2 = 1, dann neue variable 1, sonst null.

Beitrag von **DrHoppe** » 17.03.2010, 15:08

Tausend Dank.

Ich glaube, ich hätte da noch tagelang vor sitzen können und wäre nicht auf die Idee gekommen die Filter umzubenennen.

Klappt nun perfekt.

Beitrag von **GualtierMalde** » 05.08.2011, 15:32

Hallo zusammen,

ich habe ein ganz ähnliches Problem. Ich würde gerne aus meinen Daten jeweils eine Zufallsstichprobe gleicher Größe pro Bundesland ziehen. Kennt jemand einen eleganten Weg das zu lösen oder muß ich tatsächlich meinen Datensatz in die Bundesländer aufsplitten, dann die Samples ziehen und anschließend wieder zusammenfügen?

Ich hoffe jemand hat eine Idee.

VG

Beitrag von **drfg2008** » 05.08.2011, 15:45

In Python ließe sich eine automatisierte Lösung programmieren. Die würde genau das machen, was du vorgeschlagen hast. Ob es sich lohnt bei 16 Gruppen einen Python-Code zu programmieren?

Mit Oversamples sollte man allerings vorsichtig sein.

Gruß

Beitrag von **GualtierMalde** » 08.08.2011, 16:06

Vielen Dank für deine Antwort. Ich habe es jetzt tatsächlich manuell gelöst, da ich Python noch nicht kenne und mich das Einarbeiten wahrscheinlich ein Vielfaches der Zeit gekostet hätte.

Das Oversampling-Problem habe ich bedacht, danke für den Hinweis!

Beitrag von Steffi* » 09.02.2018, 11:02

Hallo zusammen,

ich habe eine Stichprobe von 403 Personen, die ich gerne in eine Explorations- und in eine Validierungsstichprobe aufteilen möchte. Dabei möchte ich eine 50/50-Aufteilung vornehmen. Ich habe dies nun über "Fälle auswählen" mit SPSS gemacht und dabei die ausgewählten Fälle in eine separate Datei speichern lassen. Wie komme ich nun am einfachsten an die "nicht ausgewählten Fälle" heran? Diese werden nämlich nicht gesondert abgespeichert. Momentan ist mein Plan, die Ursprungsstichprobe (n=403) mit der Datei der ausgewählten Fälle anhand der Interviewnummer zu vergleichen und dann schrittweise die Zufallsziehungen aus dem Ursprungsdatensatz heraus zu löschen. Geht das vielleicht irgendwie eleganter?

Danke und viele Grüße!
Steffi

Beitrag von **dutchie** » 09.02.2018, 17:08

hallo
wenn ich das richig verstehe hast du.. [fälle auswählen]... [dann zufallsstichprobe 50% der Fäll] geklickt.
dann entsteht in der Datei eine filtervariable mit 1 und 0.
wenn du zwei dateien willst, ordne die datei nach dieser filtervariable ...[datei]...[fälle sortieren]
dann kannst du löschen.
oder lass doch alles in eine datei, dann musst du aber je nachdem ob du validierst oder explorierst, über den filter die entsprechenden
fälle auswählen, aber da kann man sich leicht vertun.

gruß
dutchie

Statistik-Tutorial Forum