Regression mit missing values

Beitrag von **dbarth** » 08.04.2011, 21:00

Hallo an alle,

ich mache gerade eine Regression (Ordered probit), bei der ich sechs unabhängige gegen eine abhängige Variable regressiere. Für die abhängige sowie für drei der unabhängigen Variablen ist ein kompletter Datensatz gegeben. Bei den restlichen drei unabhängigen Variablen ist jeweils nur eine mit einem Wert belegt und die anderen beiden sind leer. Anbei ein Ausschnitt aus dem Datensatz:

x1--- x2---x3---x4---x5---x6---y
1,41 leer leer 3,00 2,00 1,00 0
1,93 leer leer 0,80 3,00 1,00 1
leer 2,05 leer 1,55 1,00 0,00 1
leer leer 1,81 2,14 1,00 1,00 0,5
2,41 leer leer 1,66 1,00 0,00 1
leer leer 1,71 1,25 2,00 1,00 0,5
leer 1,89 leer 1,41 3,00 0,00 0
1,13 leer leer 1,15 1,00 1,00 1
leer 0,73 leer 2,50 2,00 0,00 0,5
leer leer 2,20 3,00 1,00 0,00 1
usw.

Es ist offensichtlich, dass x4, x5, x6 und y komplett sind und es bei x1, x2, x3 nur immer jeweils einen Wert gibt. Eine von diesen drei Variablen ist aber immer mit einem Wert belegt, die anderen beiden sind per Definition leer. Insgesamt habe ich über 26.000 solcher Datensätze.

Wenn ich jetzt eine Regression durchführen will, streicht SPSS alle leeren Felder raus. Das impliziert aber, dass jeder Datensatz gestrichen wird und es am Ende zu keiner Regression kommt.

Meine Frage nun: gibt es eine Möglichkeit die Regression für so einen Datensatz durchzuführen, auch wenn einzelne Wert fehlen.

Im Prinzip ist es klar, dass wenn es keine Werte gibt, man auch keine Regression rechnen kann, weil es per Definition keinen Einfluss von x auf y gibt. Allerdings existieren für jeden Datensatz auch vier abhängige Variablen mit einem Wert.

Vorweg: Die leeren Felder mit 0 oder 999 o.ä. auszufüllen ist zwar möglich, jedoch der Wert wäre willkürlich gewählt und würde den Einfluss von x1, x2, x3 auf y dementsprechend verfälschen.

Vielen Dank für Eure Antworten!!!

Dietmar

Beitrag von **drfg2008** » 08.04.2011, 21:39

das ist ein Problem des data imputation. SPSS bietet wohl ein entsprechendes Tool. Es gibt auch Verfahren auf Basis der probabilistischen Testtheorie (Rasch-Modell). Das setzt aber einen hohen Kenntnisstand voraus.

In der PISA-Studie wurden auch die meisten Daten geschätzt (ca. 2/3 wurden geschätzt).

Gruß

Literatur zum Rasch-Modell:

http://de.wikipedia.org/wiki/Rasch-Modell

http://www.statistik.lmu.de/~helmut/sem ... 09/H11.pdf

Beitrag von **dbarth** » 08.04.2011, 23:20

Hallo,

vielen Dank für Deine Antwort und die Links.

Ich glaube aber mittlerweile, dass ich einfach einen falsche Spezifikation gemacht habe, den die fehlenden Werte müssen bei Definition fehlen und können nicht ersetzt werden.

bei x4 handelt es sich um die durchschnittliche Punkteanzahl einer Fußballmannschaft in der aktuellen Saison. Die ist komplett.

x1 ist die durchschnittliche Punkteanzahl aus der Vorsaison aus derselben Liga

x2 bzw. x3 ist die durchschnittliche Punkteanzahl aus der Vorsaison, wenn die Mannschaft in der nächst höheren bzw. niedrigeren Liga gespielt hat.

Das bedeutet, dass die durchschnittliche Punkteanzahl entweder in x1 oder x2 oder in x3 sein muss. Der Wert kann nicht in jeder von den drei sein, sonder muss per Definition in einer von den drei sein, weil die Mannschaft nur in einer Liga gespielt hat und nicht gleichzeieitg in allen drei. Aus diesem Grund müssen jeweils zwei von den drei Variablen per Definition leer sein.

Allerdings ist mir auch klar, dass ohne Wert keine Regression möglich ist. Ich glaube, dass Problem liegt eher in der Spezifikation der Regression.