Fehlende Werte in der Clusteranalyse

Beitrag von **Sepp** » 17.06.2008, 15:42

Hallo zusammen!

In der Hoffnung, dass mir hier ein kluger Kopf helfen schildere ich euch mal mein Problem:

Ich möchte eine Clusteranalyse über einige hundert Personen unterschiedlichen Alters rechnen. Als Variablen habe ich nun für jeweils einen Lebensabschnitt von 4 Jahren (14-17; 18-21; 22-25; usw.) vier Merkmalsvariablen, welche die Personen in dem jeweiligen Alter beschreiben.
Daraus würde ich jetzt gerne per CA verschiedene Cluster von Entwicklungsverläufen ermitteln.

Ich hoffe, das war soweit verständlich...

Das große Problem ist jetzt nur, dass durch die Tatsache, dass die Personen unterschiedlich alt sind, jüngere Personen natürlich weniger 4-Jahres Zeitintervalle mit vollständigen Daten aufweisen, als Personen, die beispielsweise 60 Jahre alt sind.
Die Clusteranalyse benötigt ja aber vollständige Datensätze, was dazu führt, dass sie von meinen hunderten Versuchspersonen nur mit denen rechnet die so alt sind, dass sie in jedem Zeitintervall Daten vorliegen haben. Alle jüngeren Versuchspersonen werden komplett rausgeschmissen.... Das soll ja aber nicht Sinn und Zweck der Sache sein.

Soweit ich das verstehe, müsste es sich dabei doch um ein Problem bzgl. des listenweisen bzw. fallweisen Ausschlusses handeln, oder? Ich finde aber auch überhaupt keine Optionen diesbzgl. (außer bei der Clusterzentrenanalyse, aber die sollte ich doch erst machen, nachdem ich eine hierarchische durchgeführt habe, oder?).

Ich bräuchte halt ne Lösung, wie ich SPSS beibiege, dass mit den Personen halt intervallbezogen Fall für Fall verglichen wird und der Fall erst rausfällt, wenn er für die entsprechenden Variablen halt keine weiteren Daten mehr liefert.

Ich weiß, das klingt alles sehr konfus, vielleicht hat ja aber doch eine/r ne Idee, was man machen könnte, ich bin echt seit Wochen dran und finde nichts brauchbares