Zufallsstichproben ziehen mit bestimmten Kennwerten?

Beitrag von **emilie11** » 26.11.2011, 19:11

Hallo Statistik-Freunde,

ich habe ein etwas spezielles und möglicherweise nicht lösbares Anliegen: Ich möchte zwei Teilstichproben hinsichtlich drei möglicher Störvariablen, nämlich Alter, Geschlecht und Alkoholkonsum, parallelisieren (matchen).

Nun hat meine Treatmentgruppe n = 45 Personen und die Kontrollgruppe n = 206 Personen. Mein Wunsch wäre es also, von SPSS wahnsinnig viele Stichproben mit einem n = 45 aus der Kontrollgruppe (n =206) ziehen und anschließend die Kennwerte (M, SD) der Störvariablen berechnen zu lassen.
Diejenige Stichprobe, bei der die Kennwerte der Störvariablen denen meiner Treatmentgruppe am nächsten kämen, würde ich dann für die weitere Berechnung nutzen.

Meine Frage an Euch: Geht sowas in SPSS? Und wenn ja, wie?

Danke und viele Grüße
Emilie

Beitrag von **drfg2008** » 27.11.2011, 13:10

warum setzt du nicht einfach eine Kovarianzanalyse (als Beispiel) ein und setzt die Störvariablen als Kovariaten ein (wobei nominale ZV dann dummycodiert werden).

Beitrag von **emilie11** » 27.11.2011, 14:40

drfg2008 hat geschrieben:warum setzt du nicht einfach eine Kovarianzanalyse (als Beispiel) ein und setzt die Störvariablen als Kovariaten ein (wobei nominale ZV dann dummycodiert werden).

Danke für Deine Antwort, drfg2008.

Eine ANCOVA kommt meinem statistischen Verständnis nach nicht in Frage, da eine wesentliche Voraussetzung für dieses Verfahren verletzt ist, nämlich die Unabhängigkeit der UV (Gruppe) und der Kovariaten. In solchen Fällen wird die ANCOVA oft falsch angewendet, ihr Erklärungswert ist dann aber sehr gering, da sie quasi Varianz abschöpft, die eigentlich die Gruppe erklären würde.

Das ist auch der Grund, warum ich mich für die Parallelisierung entschieden habe.

Hat denn zu meiner Frage oben noch jemand eine gute Idee???

Beitrag von **drfg2008** » 27.11.2011, 18:40

das Argument bzgl. der Kovarianzanalyse ist mir jetzt zwar nicht ganz klar geworden, allerdings ist -rein technisch gesehen- die andere Variante natürlich lösbar.

Du willst eine Kontrollstichprobe, die der Treatmentgruppe so ähnlich wie möglich ist. Jetzt müsstest du erst einmal Ähnlichkeit definieren:

gleiches Alter, Geschlecht, Alkoholkonsum (aber wie soll das operationalisiert werden)

Du baust über die SPSS-Python Anbindung eine Schleife, die eben beliebig oft Stichproben aus der Stichprobe zieht und misst diese drei Kenngrößen. Diejenige (Sub-) Stichprobe mit den geringsten Abweichungen wird anschließend genommen. Falls du dich mit Python nicht auskennst, dann geht das auch mit der Makro-Sprache (allerdings etwas umständlicher).

(Damit du nicht Mio. von Stichproben auf deinem Rechner abspeichern musst, sollte das Python-Script so programmiert sein, dass die letzte gezogene Stichprobe mit den bisher berechneten Kennwerten verglichen wird. Sollten die Werte schlechter sein, dann wird die Stichprobe verworfen. Sind die Kennwerte besser, ersetzt diese Stp. die zuletzt als beste bewertete.)

Wäre das eine Lösung?

PS Eventuell gibt es auf den IBM Foren bereits eine fertige Lösung

Beitrag von **Generalist** » 27.11.2011, 20:21

Schön zu wissen, dass es tatsächlich Leute gibt, die über die Fehlanwendungen
von ANCOVA bei der pseudo-"Parallelisierung" Bescheid wissen.
http://dionysus.psych.wisc.edu/coursewe ... G2001a.pdf

Zur Umsetzung Deiner Idee in SPSS kann ich nichts beitragen, aber vielleicht
wäre Propensity Score Matching eine Alternative.

Beitrag von **drfg2008** » 28.11.2011, 12:44

naja, es wäre ja auch ein bemerkenswertes Modell, in dem die Kovariaten mit den Faktoren hochgradig korrelieren. Wenn ich mir sozusagen die Faktoren 'linear wegradiere'.