Lineare Regression mit spezieller Variable

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
roma2011
Beiträge: 3
Registriert: 17.05.2011, 23:53

Lineare Regression mit spezieller Variable

Beitrag von roma2011 »

Guten Abend

Ich habe ein Problem und hoffe, dass mir hier jemand weiterhelfen kann. Ausgangslage ist folgende: Ich mache meine Masterarbeit und untersuche dabei den Zusammenhang zwischen Führungsverhalten (gemessen mit 5-stufiger Likert-Skala --> folglich intervallskaliert) und Meeting Merkmalen wie das Vorhandensein einer Agenda, eines Protokolls, etc. (Antwortdimensionen: ja (kodiert als 1) vs. nein (kodiert als 0)). Nun ist es so, dass jeweils ein ganzes Team die Fragen bzgl. Führungsverhalten und Meeting-Merkmalen beantwortet hat und ich dies jedoch aggregiert über den Mittelwert auf Team-Ebene und nicht auf Individuums-Ebene auswerten will.
Nun ist es so, dass sich die Personen innerhalb des Teams erstaunlicherweise nicht immer einig waren, ob es z.B. eine Agenda gibt oder nicht. Nach der Aggregation über den Mittelwert führt dies zu Mittelwerten wie z.B. 0, 0.25, 0.33, 0.5, 0.67, 1. Somit ist diese dichotome Variable (ja vs. nein bzw. 0 vs. 1) nicht mehr dichotom sondern etwas Komisches, das ich nicht weiss, ob ich das als intervallskaliert interpretieren darf. Problematisch ist, dass es nicht eine schöne Normalverteilung gibt - was ja auch sehr nachvollziehbar ist. D.h. ich habe viele so Häufchen z.B. bei 0 und 1 oder auch z.B. bei 0.67 oder so (je nach Variable unterschiedlich).

Nun stellt sich mir die Frage, ob ich eine Regression von Führungsverhalten (5-stufig, intervallskaliert) auf diese Meeting-Merkmale (dichotom (0,1) --> durch Aggregation evtl. skaliert!?) rechnenn darf oder ob ich das nicht darf und wenn nicht, welches Verfahren müsste ich verwenden, um den Zusammenhang zu berechnen? Darf ich nun trotzdem davon ausgehen, dass durch die Aggregation diese dichotome Variable intervallskaliert wird? Wie sieht es aus, wenn ich diese nicht normalverteilt ist, darf ich da überhaupt eine Regression rechnen (Voraussetzung ist ja eine bivariate Normalverteilung)?

Ich wäre sehr froh, wenn mir jemand antworten könnte, da dieser Fall in keinem Statistikbuch abgehandelt wird und ich irgendwie Angst habe, dass ich etwas falsch gemacht habe! Falls es unverständlich ist, kann ich gerne noch weitere Ausführungen zum Problem machen.

Ich freue mich über jede konstruktive Antwort, die mir in irgendeiner Art und Weise weiterhelfen könnte.

Herzlichen Dank und freundliche Grüsse,
Romana
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Das Problem ist umfangreich in der Literatur beschrieben und nennt sich "Hierarchical linear modeling" oder "Multilevel (hierarchical) modeling"

Du läufst Gefahr, gleich in mehrere stat. Fallen zu tappen.

Die Aggregation von Teams zu einem Gesamtergebnis ist sehr problematisch. Es ist wahrscheinlich, dass du hier einem sog. "ökologischen Fehlschluss" unterliegst.

Dass du aus dichotom erhobenen Prädiktoren dann auch noch Mittelwerte ziehst, ist nicht zielführend.

Die beste Lösung wäre eine hierarchische Multilevel Regression. D.h. die erste Stufe sind die Probanden, die zweite sind die Teams.

SPSS bietet das über den Dialog lineare gemischte Modelle an. Ich schätze allerdings, dass dich das überfordern wird. Daher bietet sich eine etwas einfachere Lösung (bei einer einzigen Hierarchieebene) an.

Dann gehst du wie folgt vor:

(1) lasse sämtliche Variablen, wie sie sind.
(2) dummycodiere die Teams jeweils mit ja = 1 nein = 0
du erhälst damit so viele neue Variablen wie du Teams hast.

Beziehe diese neuen Dummy-Variablen in deine Regression ein.

Hier ein Beispiel:

Code: Alles auswählen

input program.
loop a =1 to 600 by 1.
end case.
end loop. 
end file.
end input program.
exe.

COMPUTE group2=RV.UNIFORM(0,6).
RECODE group2 (Lowest thru 1=1) (Lowest thru 2=2) (Lowest thru 3=3) (Lowest thru 4=4) (Lowest thru 5=5) (Lowest thru 6=6) INTO group.
EXECUTE .
DELETE VARIABLES a group2.

IF  (group = 1) uv=RV.UNIFORM(0,20).
IF  (group = 2) uv=RV.UNIFORM(10,30).
IF  (group = 3) uv=RV.UNIFORM(20,40).
IF  (group = 4) uv=RV.UNIFORM(30,50).
IF  (group = 5) uv=RV.UNIFORM(40,60).
IF  (group = 6) uv=RV.UNIFORM(50,70).


IF  (group = 6) av=uv * 20 + RV.NORMAL(0,50).
IF  (group = 5) av=uv * 20 + RV.NORMAL(0,50) + 300.
IF  (group = 4) av=uv * 20 + RV.NORMAL(0,50) + 600.
IF  (group = 3) av=uv * 20 + RV.NORMAL(0,50) + 900.
IF  (group = 2) av=uv * 20 + RV.NORMAL(0,50) + 1200.
IF  (group = 1) av=uv * 20 + RV.NORMAL(0,50) + 1500.

EXECUTE.

IF  (group = 1) g1 = 1.
IF  (group = 2) g2 = 1.
IF  (group = 3) g3 = 1.
IF  (group = 4) g4 = 1.
IF  (group = 5) g5 = 1.
IF  (group = 6) g6 = 1.


EXECUTE .

RECODE g1 to g6   (MISSING=0).
EXECUTE.

var lab group 'Group'.
var lab uv 'independent variable: predictor'.
var lab av 'dependent variable: dv'.
var lab g1 'group membership: 1 '.
var lab g2 'group membership: 2'.
var lab g3 'group membership: 3'.
var lab g4 'group membership: 4'.
var lab g5 'group membership: 5'.
var lab g6 'group membership: 6'.


GRAPH
  /SCATTERPLOT(BIVAR)=uv WITH av
  /MISSING=LISTWISE.

CORRELATIONS
  /VARIABLES=uv av
  /PRINT=TWOTAIL NOSIG
  /MISSING=PAIRWISE.

REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN 
  /DEPENDENT av
  /METHOD=ENTER uv group.



REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN 
  /DEPENDENT av
  /METHOD=ENTER uv g1 g2 g3 g4 g5 g6.
Gruß
drfg2008
roma2011
Beiträge: 3
Registriert: 17.05.2011, 23:53

Beitrag von roma2011 »

Wow, vielen Dank für die ausführliche Antwort, wobei ich damit nicht gerechnet hätte!
Nun ist es so, dass meine Betreuerin der Arbeit gesagt hat, ich solle es über den Mittelwert aggregieren und direkt mit diesem aggregierten Wert Regressionen rechnen. Deshalb bin ich jetzt etwas verunsichert! Ist es also nicht möglich, diese Zusammenhänge mit irgendeiner Form von Regression oder Korrelation zu rechnen?

Freundliche Grüsse,
roma2011
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re2

Beitrag von drfg2008 »

Leider kenne ich deinen Datensatz nicht genau.


Falls das so aussieht, dass über jede Gruppe Werte gemittelt werden, dann läufst du Gefahr eines sog. "ökologischen" Fehlschlusses. Wenn du das Programmierbeispiel nimmst (einfach in SPSS-Syntax kopieren - alles markieren - und auf STRG + R drücken oder den Pfeil drücken), dann siehst du warum. Innerhalb der Gruppen sind in diesem Beispiel die Zusammenhänge positiv korreliert. Aggregierst du jetzt die Daten gruppenweise, ist der Zusammenhang plötzlich negativ. Das scheinbare Paradox ergibt sich daraus, dass die Gruppen unterschiedlich sind. Das klassische Beispiel sind die Schulklassen. Fragst du die Schüler nach Arbeitsaufwand und Zensur, dann wirst du eine positive Korrelation feststellen. Nimmst du jetzt aber ganze Klassen und diese aus mehrere Klassenstufen (7., 8.,9., usw.), dann kann es (je nach Codierung) passieren, dass plötzlich genau das Gegenteil dabei herauskommt.

Das zu beurteilen setzt allerdings Kenntnisse deines Datensatzes voraus.


Gruß
drfg2008
roma2011
Beiträge: 3
Registriert: 17.05.2011, 23:53

Beitrag von roma2011 »

Vielen Dank für die schnelle Antwort!!!

Wenn ich die Syntax laufen lassen, die Sie hier reingeschrieben habe, erhalte ich sehr hohe und hochsignfikante negative Korrelationen!!!! Ich habe bereits ganz normale einfach lineare Regressionen gerechnet mit UV das aggregierte Führungsverhalten und AV jeweils die aggregierten Meeting Merkmale (also immer Führungsverhalten und ein Merkmal, dan das nächste, u.s.w.) und dabei sind keine negativen Zusammenhänge herausgekommen, sondern alles positive oder einige wenige nahe Null. Einige wenige wurden sogar signifikant, die meisten nicht, aber bei den meisten habe ich vermutet, dass es keine signifikanten Korrelationen gibt. Ich bin einfach nicht sicher, ob ich es so korrekt gemacht habe!?

Also Sie müssen sich vorstellen, ich habe z.B. das Führungsverhalten, das von den Mitarbeitern eingeschätzt wird (5stufige Likert-Skala) und ein Skala besteht beispielsweise aus 15 Items. Das Führungsverhalten wurde aggregiert, es wurden Skalen gebildet und die Skalen sind jeweils normalverteilt.
Dann habe ich die aggregierten Werte dieser dichotomen Skalen wie z.B. Agenda (ja = 1, nein = 0). Gewisse Teams waren sich einig und dann gab es nach der Aggregation einen schönen Wert entweder von 0 (alle haben mit Nein geantwortet) oder mit 1 (alle habe mit ja geantwortet). Dann gibt es aber Teams, bei denen sich die Personen uneinig waren und z.B. 3 ja gesagt haben und 2 Personen nein gesagt haben. Nach der Aggregation hat dieses Team dann einen Wert von 0.6. Bei anderen Teams gibt es z.B. 0.33 oder so. Das führt dazu, dass die Werte zwischen 0 und 1 streuen, jedoch nicht gleichmässig und somit eine Normalverteilung nicht existiert.

Was ich mir auch schon überlegt habe, ist, nach der Aggregation die Werte wieder zu dichotomisieren, in dem ich sie runde auf 0 oder 1, aber das ist ein bisschen willkürlich, da es davon abhängt, wie ich die Kategorien kodiert habe (in meinem Fall wäre es ja 1=ja und 0=nein, aber ist ja reine willkür, könnte auch gerade so gut umgekehrt sein)?

Leider kann ich hier keinen Anhang anfügen, ansonsten hätte ich Ihnen einmal das Ergebnis einer solcher Regression schicken können.

Grüsse,
roma2011


[/quote][/url]
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten