Untersuchung von Datensatz mittels SPSS

Beitrag von **ChrisDee** » 25.04.2012, 22:52

Hallo zusammen:) Habe mich so eben in der Smalltalk Newbie Corner neu vorgestellt und wollte auch schonmal hier meine Problematik vorstellen..

Also bei mir geht es grundlegend darum, aus einem vorhandenen Datensatz Gehaltsunterschiede festzustellen - bei verschiendenen Gruppen und ihren jeweiligen Merkmalsunterschieden. Beispielsweise Geschlecht, Nationalität, berufliche Bildung, Zusammensetzung ihres Haushaltes (ob jemand zum Beispiel Kinder hat, Alleinerziehend ist oder ähnliches) und dergleichen. Bislang habe ich aus einer ähnlichen Studie erfahren das bei derlei Fragen wohl eine logaritmische, binäre Regressionsanalyse dann Anwendung findet. Dies wohl deshalb, weil auch einzelne Gruppen als Referenzgruppe bestimmt weren so wie ich das verstanden habe und man bestimmen kann wie weit oder fern sie von fixen Gehaltspunkten entfernt sind; und in wie weit einzelne Merkmale eine starke oder schwache Erklärungskraft aufweise. Wie das im einzelnen von statten geht ist dort leider nicht erklärt, auch bei dem Buch der Bücher dem Backhaus wurde ich leider nicht weiser:) Hier wäre es wirklich klasse wenn sich jemand zum Austausch findet, der mir das Vorgehen quasi step-by-step erklären kann:) Dann kann ich das ganze auch nochmal gerne mehr im Detail erklären wenn das nun unklar oder noch nicht präzisse gewesen sein sollte:) Liebe Grüße, Chris

Beitrag von **Rosenrot** » 26.04.2012, 13:25

Hallo,

ich kann dir da gerne weiterhelfen, brauche aber mehr Informationen. Zum besseren Verständnis musst du erstmals sagen, was du berechnen willst. Hier die Möglichkeiten (u.a.):

1) Univariat: Eine Variable wird getestet: z.B. Wie alt sind deine Befragten im Durchschnitt bzw. prozentual

2) bivariat: Zwei Variablen werden getestet: Entweder prozentual (wieviel Prozent der Männer verdienen weniger als 1.000€ im Monat), durch Mittelwerte (was verdient ein Mann im Durchschnitt) oder mit einem Zusammenhangsmaß (gibt es einen signfikanten Zusammenhang zwischen dem Geschlecht und dem Einkommen und wie hoch ist dieser Zusammenhang)

3) multivariat: Welche Variablen haben Einfluss auf das Gehalt? Diese werden alle zusammen berechnet, um ggf. intervenierende Variablen einzudämmen und herauszufinden, wie gut die Erklärungskraft der einzelnen Variablen (z.B. Geschlecht, Alter etc.) und des Gesamtmodells (aller Variablen zusammen) sind.

Dann muss ich noch wissen, welches Skalenniveau deine Variablen haben. Hier gibt es:

1) nominal: die Ausprägungen deiner Variablen sind einzeln zu betrachten, es gibt keine natürlich Ordnung z.B. Geschlecht - Mann/Frau; Hobby - Skifahren, Snowboarden, Schwimmen

2) Ordinal: Es gibt eine Rangfolge bei den Ausprägungen, aber die Abstände sind nicht gleich z.B. Schulabschluss - Hauptschule/ Realschule/ Gymnasium; Einkommen: unter 1.000/ 1.000 bis 5.000/über 5.000€

3) metrisch/intervall: Es gibt eine Rangfolge, deren Abstände gleich sind und berechenbar: z.B. Geburtsjahr: 1999, 2000, 2001... oder Einkommen 1.000/2.000/3.000/4.000 etc.

So, nun würde ich gerne wissen, was möchtest du genau berechnen? Welches Skalenniveau haben deine Variablen (unabhängig und abhängig). Und als letztes: Möchtest du mit der Syntax (Programmierung) arbeiten oder über das Menü von SPSS?

Liebe Grüße

Beitrag von **ChrisDee** » 28.04.2012, 00:16

Hallo Rosenrot,

vorab, schonmal wie in der Überschrift vielen Dank für deine Antwort und deine Bereitschaft mir zu helfen:) - Also der Datensatz besteht wohl aus den in einer Umfrage erhobenen Daten des Soep (sozio-oekonomisches-panel). Dabei unterstelle ich mal, da das von einem Institut durchgeführt wurde, das die da keine Fehler gemacht haben:) zu den den Fragen die bislang aufgetaucht sind: Die Variablen sind wohl sehr verschieden Skaliert - einerseits gibt es nominale Variablen wie das Geschlecht der befragten Person(en). Weiterhin gibt es bezüglich ordinal skalierte Variablen wie du als beispiel schon anführst den Schulabschluss - dies sollte in der Untersuchung as Abschlussniveau mit aufgenommen werden. Weiterhin auch ebeno eine Intervallskalierung bezüglich der Altersgruppen.
Meine Ausgangsidee ist nun die folgende: Zunächst einmal wird die Armut definiert über ein Durchschnittseinkommen. Daran wird analog ein bestimmter Prozentsatz des Median gewählt: Also 40-50-60% um schonmal ein "grobes Raster" zu haben wie weit der Grad der Armut ist - also wäre das ungefähr : relative Armut, Armutsnah, absolut Arm.
Die Ausgangsüberlegung dabei ist ein Ausschlussverfahren: Also ist Personengruppe a von relativer Armut (1) betroffen? ja / nein - dann ist sie von dem zweiten Grad der Armut (2) Armutsnahh betroffen? ja/nein und dann ist sie von der (3) absoluten Armut betroffen: ja/nein - das kann man sich auch in Form eines Pfeildiagramms vorstellen, wenn das nicht klar genug formuliert war:) (So das sich ergibt wer von Armut betroffen ist und von welchen Armutsgrad oder respektive eben nicht betroffen ist).
Zu diesem Ziel habe ich mir überlegt: Zunächst einmal die Befragten in Gruppen aufzuteilen (vielleicht denke ich hier auch zu kompliziert). Also zunächst einmal: Weiblich/Männlich, Migrationshintergrund/kein Migrationshintergrund, Berufliche Bildung/ Berufliche Status Berufliche Stellung, Haushaltszusammensetzung - also wer ist Single/hat Kinder/lebt als Paar.
Summarisch kann man das also in die Gruppen differenzieren: In demograpschie Variablen - berufsbedingte Variablen - Haushaltsbedingte Variablen.
Dabei sollen dann zwischen den Personengruppen unterschiede festgestellt werden also quasi - wer ist am meisten von welcher Armut betroffen - (z.b. vermute ich hier mal hochqualifizierte verheiratete mit einem Beruf der einen hohen Status genießt weniger als unverheirate Singles ohne Ausbildung mit "lediglich" einer Ausbildung).
Arbeiten würde ich dann am liebsten mit der Menüführung von SPSS:) das dürfte das vorgehen wohl erleichtern:) Für einen besseren Austausch kann ich eventuell auch mal Daten einer solchen Untersuchung hochladen, also als Grafik eingescannt oder als Pdf die das ganze Darstellt, was nun aber aktualisiert dargestellt werden soll.

Liebe Grüße
Chris

Beitrag von **drfg2008** » 28.04.2012, 08:30

Hier entwickelt sich ja eine umfangreiche Diskussion. Da möchte ich doch gerne mitmischen. Nur dazu:

Meine Ausgangsidee ist nun die folgende: Zunächst einmal wird die Armut definiert über ein Durchschnittseinkommen.

Das wird in der Politik tatsächlich so gemacht. In der Konsequenz bedeutet das, wenn ich einmal als Beispiel die saudische Gesellschaft nehme und hier den Mittelwert des Einkommens berechne und dann behaupte, dass eine gewisse Abweichung des Mittelwerts "Armut" bedeutet, dann habe ich "arme" Millionäre.

Von dieser Armut wäre ich gerne betroffen.

Oder ein realistisches Beispiel:

Wenn ich im Jahr 2006 als Einwohner Maltas das Durchschnittseinkommen von weniger als 900.- Euro verdiene [1] und im Rahmen der Europäischen Einigung nach Deutschland ziehe und bei dort geringeren (!) Lebenshaltungskosten aber höherem Durchschnittsverdienst [2] das Gleiche verdiene, wäre ich nach dieser Definition in die Armut gerutscht.

Will Rogers hätte seine Freude daran. [3]
“When the Okies left Oklahoma and moved to California, they raised the average intelligence level in both states.”

[1]
http://www.ba-auslandsvermittlung.de/la ... __nnn=true

[2]
http://de.wikipedia.org/wiki/Liste_von_ ... rufen_2006

[3]
http://de.wikipedia.org/wiki/Will-Rogers-Ph%C3%A4nomen

Beitrag von **Rosenrot** » 28.04.2012, 12:16

Hallo,

ok, ich versuche mal soweit wie möglich dir weiterzuhelfen. Eine Anmerkung noch: Ich habe eine englische SPSS-Ausgabe, daher ist die Menüführung englisch. Ich versuche es so gut wie möglich ins Deutsche zu übersetzen, sollten die Menüpunkte bei dir ein bisschen anders klingen, wundere dich nicht.

1) Also erstmals würde ich mir ein paar Häufigkeiten anschauen. Das machst du unter Analysieren --> Deskriptive Statistik --> Häufigkeiten (das oberste). Dort kannst du die Variable(n) eingeben. Unter Statistik kannst du Mittelwerte, Median & Co. berechnen.

2) Dann würde ich mir deine Variablen bivariat anschauen. Zumindest wenn es eine längere Arbeit werden soll. Es ist ganz hilfreich, um einen ersten Überblick zu erhalten. Du erhältst dabei einen Korrelationskoeffizienten (1=perfekter Zusammenhang; 0=kein Zusammenhang -1=perfekter negativer Zusammenhang) und das Signifikanzniveau (Ergebnis ist i.d.R. signifikant bei kleiner .005).
Bei 2 nominalen (oder 1 nominal, 1 ordinal) Variablen: Analysieren --> Kreuztabellen --> Phi & Cramers V. (bei Zellen kannst du dir die prozentuale Verteilung anzeigen lassen). Bei abhängige V. metrisch und unabhängige kategorial=ETA

Bei 2 intervall: Analysieren --> Korrelationen --> bivariat --> Häkchen bei Pearson; bei 1 intervall 1 ordinal oder beides ordinal Häkchen bei Spearman Rho.

3) Multivariat: Wenn deine abhängige Variable nominal (Armut ja/nein) ist, liegst du mit der binär logistischen Regression richtig.
Analysieren --> Regression --> Binär-logistisch. Unter abhängige deine Armuts-Variable rein. Unter Kovariaten alle unabhängigen Variablen rein. Dann kannst du dort Einstellungen vornehmen, die ich aber auch nicht alle kenne. Wichtig sind: Unter Optionen Hosmer Lemeshow und CI 95% ankreuzen. Unter Save: Das oberste links (deutsche Übersetzung ggf. Wahrscheinlichkeiten), Cooks und Standartisiert.
Unter Kategorien solltest du alle nominalen Variablen eingeben, die mehr als 2 Ausprägungen haben (warum dauert ein wenig zu erklären, lese dich da einfach mal ein).

Auswertung: Der Hosmer Lemeshow sagt dir, ob das Modell signifikant ist. Nagelkerkes R² sagt dir, wie viel der Varianz dein Modell erklären kann (wie gut können deine unabhängigen Variablen deine abhängige erklären). 1.00 wäre perfekter Zusammenhang, 0.12 könnte z.B. 12% der Varianz erklären.
Die unterste Tabelle zeigt dir, welche Variablen signifikant sind (Sig.) und gibt das Odd Ratio (Exp (B)) an. 2,12 heißt dann z.B. dass pro Ausprägung der Variable die Wahrscheinlichkeit um das 2.12fache steigt, Arm zu sein (bzw. nicht arm zu sein, je nach Codierung deiner Variable).

Google am Besten binär-logistische Regression und Odd-Ratio, dann findest du noch weitere Hinweise.

Beitrag von **drfg2008** » 28.04.2012, 16:56

Und ich würde dir erst einmal dringend empfehlen, über das Explanandum nachzudenken: Was soll erklärt werden, wie sinnvoll ist deine Methode, wie paßt deine Methode zum Gegenstand, den du erklären willst, was ließe sich überhaupt daraus ableiten.

Das sollte erst einmal geklärt werden, es sei denn, es handelt sich nur ums "Doing", wie das hier einmal eine Fragestellerin genannt hat.

PS: "Relative Armut". Hier ist nämlich das Relativ falsch gesetzt, also der Gegenstand, gegen den du die Relation setzt.
Und es wird sicherlich jede Menge Definitionen dafür geben, was als Armut verstanden wird, wie es gemessen wird. Da kannst du nicht einfach ohne Bezug auf die bestehende Literatur eine eigene Definition entwickeln.

Beitrag von **ChrisDee** » 29.04.2012, 22:22

Hallo Rosenrot und drfg2008,
vorab vielen lieben Dank für die Antworten bis jetzt:). Also nun zu dem Einwand von drfg2008: Also zum Beispiel mit den saudischen Bevölkerungen und dem Einwohner Maltas, dies wird vermutlich wohl auch zutreffen und der Einwand folglich auch seine Berechtignug finden:) - nun geht es dennoch um die Auswertung von den soep-datensatz, also "lediglich" in Bezug auf D - und kein internationaler/transnationaler Vergleich:). Vielmehr geht es dabei um das topic der Veränderungen von Industriegesellschaften, und mit D als Land:) Bezüglich der Person(en) aus Malta sei gesagt hier sollen "lediglich" "Trends" festgestellt werden und nicht Rückschlüsse erfolgen, wer wann im einzelnen nun von einer der Armutsarten betroffen ist sondern welche sozialen Gruppen sich in wie weit betroffen zeigen:) - zum weiteren , ja kann man es in der tat doch als "doing" bezeichnen, da eine solche Studie auch schon durchgeführt wurde, allerdings lediglich bis zu den Ende der 1990er Jahre.
Quasi soll also die Analyse fortgeführt werden, welche sozialen Gruppen wie bereits beschrieben betroffen sind - was sich somit als eine quasi aktualisierung der Analyse beschreiben läßt:). Die bisherige Analyse ist bislang auch schlüssig, jedoch ist die Durchführung bei SPSS - das "doing" dieser "Bestandsanalyse der Betroffenen" noch im absolut unklaren:) Deshalb würde ich gerne die Möglichkeit auch bieten, ein Bild von der Analyse anzubieten, bzw. diese im Format Pdf zu mailen, das man mir das "step-by-step" erläutern könnte , die Vorgehensweise. Es ist demnach also keine direkte Analye von Ursachen und Folgen.
Hallo Auch Rosenrot:) - herzlichen Dank auch wieder für deine Antwort ich habe derzeit diese "Trial" Version von SPSS und in der deutschen Sprache, aber das Benutzerinterface dürfte doch deckungsgleich sein vermute ich mal. Die Analyse hat neben einer prozentualen (also wohl deskripten Statistik) vornehmlich Ausgabe-Date(i)n von SPSS wo sogenannte (im Programm so genannt)Logitparameter und Effektkoffeizienten dargestellt werden (mit den einzelnen Variablen wie Haushaltstyp, beruflichter Stellung usw aufgelistet werden - allerdings mit Referenzgruppen) - ich würde dieses Modell auch gerne um Aspekte der Schulischen(und nachfolgenden) Bildung und dem Altersaspekt erweitern.

Viele liebe Grüße Chris.

Statistik-Tutorial Forum

Untersuchung von Datensatz mittels SPSS

Untersuchung von Datensatz mittels SPSS

Danke schon mal für die Antwort:)

re

re

vom erklärenden zum nicht erklärten..:)