Clusteranalyse mit Missings

Beitrag von **Johannes67** » 21.06.2012, 20:51

Hallo allerseits,

ich analysiere Daten aus dem World Value Survey und möchte eine Clusteranalyse durchführen, um mir mehrere Länder nach diversen Eigenschaften zu clustern......

mein SPS Syntax ist:

CLUSTER POLITY DemocracyScore DemocOwnCountry RealtionDOWDemocScore DEMOPERF DEMOGOV ELEC SECULAR GENDER DemocTaxes DemocRelAuth DemocFreeElec DemocStatAid DemocArmy DemocCivilRights DemocEconom DemocCriminals DemocChangeLaw DemocWomenRights MuslimShare
WestMuslim LaborPartFemale UnemployYouth GiniIndex YearsInSchool15to44Total YearsInSchool15to44Female YearsInSchool15to44Male StartBusiness BIP_perCapita BIPoil BIPagrar BIPserviceIndustries
/METHOD WAVERAGE
/MEASURE=SEUCLID
/ID=countryname
/PRINT SCHEDULE CLUSTER(2,6)
/PLOT DENDROGRAM HICICLE.

Die Sache ist nun, dass ich mit N=36 Länder arbeite und mir bei 24 Ländern mind. 1 - max. 4 Missings vorliegen. D.h. SPSS haut die mir bei der Clusteranalyse alle 24 raus, so dass ich nur noch auf 12 Länder komme, für die alle Daten vorliegen, was nicht sehr zielführend ist.

Welches Verfahren eignet sich am besten um mit den missing values zu arbeiten? bzw. wie viele fehlende Werte (ich habe 24 Variablen) kann und darf ich akzeptieren?

Vielen dank schonmal im voraus

Beitrag von **Johannes67** » 21.06.2012, 21:21

muss meine Frage nochmal ergänzen:.......

ich dachte bei den verfahren die möglich sind an adaptierte Clusteringverfahren, heißt das glaube ich......In der Literatur steht: Verwendung des
Fuzzy C-Means-Algorithmus
mit den drei Möglichkeitden mit fehlenden Daten umzugehen:

Whole-data strategy (WDS)

Partial distance strategy (PDS

Nearest prototype strategy (NPS)

Wenn bei NPS die Werte in Abhängigkeit zu den jeweiligen Clusterzentren geschätzt werden, gibt es ein Gütemaß dafür....

und noch viel wichtiger.....kennt jemand die Syntax Umsetzung der o.g. Verfahren.....

danke

Beitrag von **Generalist** » 21.06.2012, 22:45

Die Sache ist nun, dass ich mit N=36 Länder arbeite (...) (ich habe 24 Variablen)

Was sagt Deine Literatur über so ein groteskes Mißverhältnis?

Beitrag von **Johannes67** » 21.06.2012, 23:30

hehe.....bezogen auf meine Anzahl der Variablen? da kommen ja schon noch einige dazu...(ca. 15 ist das zu wenig?, ich analysiere auf makroebene, da gibt es nicht viel mehr was mir nützlich ist.....)

oder auf die fälle? ich arbeite doch mit einer hierachischen cluster analyse, da müsste doch die geringe anzahl der fälle kein problem sein oder?

Beitrag von **Generalist** » 22.06.2012, 09:18

Mit ist biher noch keine Clusteranalyse begegnet, in der weitaus mehr
Variablen als Fälle auftreten. Deswegen meine Frage, ob das überhaupt
sinnvll durchführbar ist.

Beitrag von **Johannes67** » 22.06.2012, 11:29

ah ok!
vielen dank für den Hinweis, dann sollte ich das wohl nochmal überdenken.

wenn ich ncoh eine antwort bekomme :p an was denkst Du eher? meinst du eine korrespondenzanalys ist dann eher sinnvoll, oder lässt sich das ohne weitere Kenntnis meiner Daten nicht sagen....?

DAnke!

Statistik-Tutorial Forum

Clusteranalyse mit Missings

Clusteranalyse mit Missings

Re: Clusteranalyse mit Missings