Faktorenanalyse mit anschließender Clusteranalyse

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Antworten
Kafen
Beiträge: 1
Registriert: 30.01.2012, 00:09

Faktorenanalyse mit anschließender Clusteranalyse

Beitrag von Kafen »

Hallo zusammen,

ich hab folgendes Problem mit SPSS:

Zuerst einmal zu meiner Aufgabenstellung:

Ich habe eine Datenbank mit mehreren zehntausend Fragebögen und etwa 150 Fragen (Variablen).

Diese 150 Variablen habe ich nun in sinnvolle Gruppen für die Faktorenanalyse unterteilt und daraus insgesamt etwa 20 Faktoren gebildet.

Den einzelnen Fällen habe ich über die Option "Werte als Variable speichern" (über Regression) je einen Wert pro Faktor zugeordnet.

Mit diesen 20 Faktoren und zehntausenden Fällen möchte ich jetzt eine Clusteranalyse durchführen um daraus Gruppen von Konsumenten ableiten zu können.

In einem ersten Schritt möchte ich Ausreiser mit dem single-linkage Verfahren ausschließen und danach mit dem Ward oder average linkage Verfahren Gruppen bilden.


Jetzt meine erste Frage:

Sind die Werte der Fälle pro Faktor (durch Regression gebildet) schon standardisiert oder muss ich sie erst noch standardisieren lassen? Falls ich sie noch standardisieren lassen muss, mit welchem Verfahren? Z-Transformation?

Problem Nummer zwei:

Wenn ich die Clusteranalyse durchführe tritt jedes mal nach 15-30 Minuten der Fehler "unrecoverable application error in the statistics processor" auf.

Woran könnte das liegen? Programmfehler oder eher ein Hardwarefehler? Oder stimmt was mit meinen Daten nicht?


vor allem wäre erstmal Frage eins wichtig zu klären.
Vielen Dank für Eure Hilfe

Viele Grüße,
Kafen
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Re: Faktorenanalyse mit anschließender Clusteranalyse

Beitrag von Generalist »

Mit diesen 20 Faktoren und zehntausenden Fällen möchte ich jetzt eine Clusteranalyse durchführen
Das geht? Ich dachte, die Rechenzeit bei so vielen Fällen wäre enorm.
Schon bei 10'000 Fällen umfasst die Distanzmatrix bereits 100 Millionen
Distanzen.
Sind die Werte der Fälle pro Faktor (durch Regression gebildet) schon standardisiert
Vielleicht hilft Dir eine Stichwortsuche anhand der Hilfefunktion.
http://127.0.0.1:3699/help/index.jsp?to ... ct_sco.htm
(Einzelheiten anzeigen lassen).
oder muss ich sie erst noch standardisieren lassen?
Wozu denn überhaupt? Unterschiedliche Streuungen würden eben die
unterschiedliche Differenzierungsfähigkeit der Faktoren wiederspiegeln.
Wenn ich die Clusteranalyse durchführe tritt jedes mal nach 15-30 Minuten der Fehler "unrecoverable application error in the statistics processor" auf.
Vielleicht tatsächlich zu viele Daten. An sich brauchst Du ja auch nicht
gleich mehrere zehntausend Datensätze. Um eine Clusterstruktur zuverlässig
herauszubekommen, reichen ein ein paar tausend Fälle oder vielleicht sogar
ein paar hundert.
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten