Berechnung: gewichtetes Äquivalenzeinkommen

Beitrag von **mika** » 26.02.2011, 16:14

Seit einigen Tagen bin ich regelrecht am verzweifeln.

Mir gelingt es einfach nicht eine bestimmte Variable zu generieren bzgl. des Einkommens zu generieren.
Ich arbeite mit ISSP-Daten zur "Social Inequality". In diesem Datensatz findet sich zum einen die Variable "Personen im Haushalt", zum anderen die Variable "monatliches Haushaltseinkommen".
Das Haushaltseinkommen war ursprünglich kategorial angegeben. Ich habe daher die einzelnen Kategorien zunächst durch das arithmetische Mittel der jeweiligen Kategorie ersetzt. Zudem waren die Missing-Werte sehr hoch, sodass ich diese mit dem arithemtischen Mittel ersetzt habe. Soweit so gut.

In einem nächsten Schritt möchte ich zunächst eine Variable erstellen, in der ich das monatliche Haushaltseinkommen durch due Anzahl der Personen im Haushalt teile. Wobei Person 1 immer das Gewicht 1 haben soll und jede weitere Person mit 0,7 gewichtet werden soll.

Ich wäre sehr froh, wenn mir an dieser Stelle vielleicht jemand helfen kann. Ich verstehe einfach meinen Fehler nicht.

Mein letzter Versuch sah folgendermaßen aus:
f Personen_HH_neu=1 dummy1=1.
if Personen_HH_neu=2 dummy2=1.
if Personen_HH_neu=3 dummy3=1.
if Personen_HH_neu=4 dummy4=1.
if Personen_HH_neu=5 dummy5=1.
if Personen_HH_neu=6 dummy6=1.
if Personen_HH_neu=7 dummy7=1.
if Personen_HH_neu=8 dummy8=1.

AGGREGATE
/OUTFILE=* MODE=ADDVARIABLES
/BREAK=dummy1 dummy2 dummy3 dummy4 dummy5 dummy6 dummy7
/usa116n_mean=MEAN(usa116n).

compute ind_Eink_usa=usa116n_mean/ (1*dummy1 + 0.7*dummy2 + 0.7*dummy3 + 0.7*dummy4 + 0.7*dummy5 + 0.7*dummy6 + 0.7*dummy7)

Richtig war das leider auch nicht.

Viele Grüße
Mika

Beitrag von **drfg2008** » 26.02.2011, 17:02

Hallo ,

durch das arithmetische Mittel der jeweiligen Kategorie ersetzt

du meinst das Mittel der Klasse (z.B. 1000€-2000€ = 1500€) ?

Zudem waren die Missing-Werte sehr hoch, sodass ich diese mit dem arithemtischen Mittel ersetzt habe

Vielleicht kannst du den Datensatz einmal kurz skizzieren.

Der compute-Befehl geht ja über eine Zeile. Und wenn jeder Haushalt eine Zeile umfasst mit der Variablen Personen_HH_neu, dann wäre der Durchschnittwert so zu berechnen:

compute ind_Eink_usa=usa116n_mean/ (1 + (0.7*(Personen_HH_neu-1)))

Wenn die Werte eines Haushalts über mehrere Zeilen verteilt sind, müsste das anders gerechnet werden.

Außerdem berechnest du schon beim Aggregieren einen Mittelwert. Das ist etwas merkwürdig. Und dann hast du noch jede Menge break-Variablen.

Aber ohne Beschreibung des Datensatzes ? Vielleicht kann man den auch irgendwo herunterladen.

Beitrag von **mika** » 26.02.2011, 17:47

Vielen Dank für die schnelle Rückmeldung.

du meinst das Mittel der Klasse (z.B. 1000€-2000€ = 1500€) ?

Ja, richtig, ich meine das Mittel der Klasse.

zu der Sache mit den missings:
Im Datensatz gibt es mehrere Länder, wobei ich drei genauer untersuche. Ich habe also das arithmetische Mittel des Einkommens in jedem Land erhoben. Diesen Wert habe ich dann für die missings eingesetzt. Entstanden ist somit die Variable usa116n, wobei sich diese also aus dem Mittel der Klassen und den angesprochenen ersetzten missings zusammensetzt,

Die Variable "Personen im Haushalt" kann Werte von 1 bis 7 annehmen (1 für eine Person im Haushalt, 2 für 2 Personen im Haushalt und so weiter).

Mit meiner Syntax habe ich folgendes versucht:
Ich habe für Haushalte mit einer Person die dummy-Variable dummy1 erstellt, für Haushalte mit zwei Personen die dummy-Variable dummy2 usw.

Dann wollte ich auf die Haushaltseinkommen aggregieren, wobei ich das Einkommen und die Dummies aufsummieren wollte.

dieses Vorgehen war wohl gänzlich falsch war.

Mein Ziel ist es das gesamte Haushaltseinkommen (usa116n) durch die Zahl der Personen (Variable Personen_HH_neu) zu teilen. Allerdings darf dabei eben nicht jede Person gleich berücksichtigt werdeb, Es soll also jede weitere Person im Haushalt mit dem Faktor 0,7 berücksichtigt werden (Jede zusätzliche Person zählt also 0,7 der Person 1).

Ich habe es auch noch ohne die dummys probiert.....

Auch mit folgendem Befehl (ohne Konstruktion von dummy-Variablen und aggregieren) gelingt es nicht.

compute äquivalenz = usa116n / (1+ (personen_HH_neu-1) * 0.7).

die daten sind frei zugänglich (allerdings ist eine kostenlose anmeldung erforderlich) http://www.issp.org/page.php?pageId=4
Es geht um die Daten "Social Inequalitv" von 1992.

Viele Grüße

Beitrag von **drfg2008** » 26.02.2011, 18:10

Wenn ich das richtig verstanden habe, dann ist das Einkommen des gesamten Haushalts in einer Zeile in der (metrisch skalierten) Variablen usa116n codiert.

Dann sieht der Datensatz verkürzt so aus:

Haushaltsnummer / Personen / Einkommen
1000 / 4 / 4000€

o.k.?

Dann lautet die Syntax :

Code: Alles auswählen

input program.
loop HH_nr =1 to 100 by 1.
end case.
end loop. 
end file.
end input program.
exe.

comp	personen	=RV.BINOM(10,0.5).
COMP hh_einkommen=RV.NORMAL(2500,100).
EXECUTE .

COMPUTE durchschnittseinkommen=hh_einkommen / (1+(0.7* (personen -1))).
EXECUTE.

Die Klammern richtig setzten.

Beitrag von **drfg2008** » 26.02.2011, 18:29

Zudem waren die Missing-Werte sehr hoch, sodass ich diese mit dem arithemtischen Mittel ersetzt habe.

Würde übrigens hier den Median nehmen, denn dass Einkommen eine schiefe Verteilung aufweist, ist ja der Klassiker.

Beitrag von **drfg2008** » 27.02.2011, 08:59

P.S.
Der ZA2310_F1.sav steckt ja voller Fallstricke. Nicht nur, dass so viele Werte fehlen, das Einkommen wird auch noch mal in Tausend und mal im Original angegeben. Fehlt nur noch, dass nicht die gleiche Währung gesetzt wurde. d116 wird jedenfalls in DM angegeben, usa116 in $, Italien in Lire, Russland in Rubel. Mal werden Missings mit 999999, mal mit 0 und mal mit 99 angegeben. Und "no income" wird auf missing gesetzt.

Und dann stimmt die Anzahl Personen im Haushalt (v119) nicht einmal annähernd mit den Angaben v151 bis v171 der Personen im Haushalt überein.

Gruß

Beitrag von **mika** » 27.02.2011, 14:06

Danke, dass du dir den Datensatz ebenfalls mal angesehen hast.
Kurze Erklärung:
Vorerst versuche ich die Ergebnisse einer Diplomarbeit nachzuvollziehen (http://home.fsw.vu.nl/HBG.Ganzeboom/ISMF)
Hier arbeite ich momentan eben daran, auf die Beschreibung seiner unabhängigen bzw. abhängigen Variablen zu kommen (S. 77ff.) Auch wenn ich bereits einige Berechnungen nachvollziehen konnte, so verstehe ich leider nicht wie er auf das Einkommen gekommen ist.

Danke auch für deine Syntax. Ich kann diese leider nicht ganz nachvollziehen, aber ich habe sie probiert und mir gelingt es auch damit nicht, auf die Ergebnisse in der Diplomarbeit zu kommen.

viele Grüße
Mika

Beitrag von **mika** » 27.02.2011, 18:30

Sorry, da habe ich eben wohl einen falschen Link eingefügt. Hier der richtige:

http://amor.cms.hu-berlin.de/~h0187dbr/ ... P_No36.pdf

Beitrag von **drfg2008** » 27.02.2011, 19:46

interessante Studie

Beitrag von **mika** » 27.02.2011, 21:01

Vielleicht kannst du mir ja bei einem weiteren Problem helfen?

Der Autor der Studie berechnet ein sogenanntes "Relationales Einkommen" (S.92). Beim Versuch dieses zu rekonstruieren scheitere ich leider daran, dass ich nicht auf dieselben Zahlen komme wie der Autor (vgl. S. 87).

Meine Werte sehen wie folgt aus: (Seltsam ist ja, dass sie bezüglich der Standardabweichung relativ nah an den Werten des Autors liegen. Kannst du dir den Unterschied erklären?)

N: Minimum/Maximum/Mittelwert/Standardabweichung
usaeink_rel 1271/-5,32/,82/-,9223/,82559
deink_rel 2297/-3,36/,98/-,7452/,50765
neink_rel 1464/-4,16/,49/-,9305/,61049

Vielen Dank schon mal im Voraus!

Beitrag von **drfg2008** » 27.02.2011, 21:25

Hallo Mika,

vielen Dank für das entgegengebrachte Vertrauen, aber so tief kann ich in diesem Rahmen hier leider nicht einsteigen.

Das Beste ist immer, den Autor direkt zu fragen. In naturwissenschaftlich-technischen Arbeiten werden die Quellcodes der eingesetzten Statistikprogramme teilweise mit berichtet. Ob das an der Sozialwissenschaftlichen Fakultät der Ludwig-Maximilians-Universität zu München auch üblich ist, entzieht sich meiner Kenntnis. Allerdings ist die Erfahrung, dass die Qualität und Richtigkeit der Daten mit Abstand zu nat.wi. Fachbereichen exponentiell fällt.

Gruß