Liebe Statistik-Profis,
ich brauche eure Hilfe!
Und zwar habe ich 25 Wasserproben auf verschiedene Inhaltsstoffe analysiert (verschiedene Schwermetalle, Anionen, Kationen etc.).
Die Daten sind nicht normalverteilt.
Nun möchte ich die 25 Proben in 2 Klassen einteilen, d.h. die Proben zueinander gruppieren, die sich am ähnlichsten sind.
Meine Frage ist nun, ob ich zur Einteilung der Proben eine Clusteranalyse durchführen darf, obwohl die Daten nicht normalverteilt sind?
Ich hoffe, mir kann jemand weiterhelfen!
Vielen herzlichen Dank schon mal!
Grüße, Aira.
Clusteranalyse bei nicht normalverteilten Daten?
-
- Beiträge: 3
- Registriert: 18.04.2012, 14:24
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
Für manche Verteilungen besteht die Möglichkeit der Transformation, z.B. Box-Cox Transformation.obwohl die Daten nicht normalverteilt sind
In vielen Fällen reicht eine simple z-Transformation, die SPSS bei der Clusterung gleich mit anbietet.
drfg2008
-
- Beiträge: 3
- Registriert: 18.04.2012, 14:24
Und ich finde es immer nett, dem eigentlichen Thema nichts beisteuernde Kommentare von Leuten zu lesen, die meinen, ihre Auffassung von Nettigkeiten „generalisieren“ zu müssen.
Meine Meinung dazu: In verschiedenen Foren treiben sich verschiedene Leute herum, die einem (und jedem weiteren hilfesuchenden Menschen, der zu einem späteren Zeitpunkt auf diesen Post stößt) auf verschiedene Art und Weise helfen können.
Wenn man nun Hilfe in einem Forum bekommen hat, sich vielleicht sogar eine Diskussion zum Thema entwickelt hat, kann man diesen Post dann in den anderen Foren (in meinem Fall einem einzigen weiteren), in denen man seine Frage ebenfalls gestellt hat, verlinken.
Meiner Meinung nach spricht also nichts gegen das Stellen der Frage in mehreren Foren. Im Gegenteil: dies fördert den Austausch über Forengrenzen hinweg und führt auch nicht zu parallel gemachter Mühe.
Und wenn die Aktivität eines Nutzers in zwei verschiedenen Foren nicht erwünscht ist, sollte die „Forendoppelnutzung“ in den Forenregeln untersagt werden!
So, und nun bitte wieder zur Sache: meine Frage steht noch.
Schon jetzt vielen Dank all denen, die sich zu meiner Frage äußern werden.
Meine Meinung dazu: In verschiedenen Foren treiben sich verschiedene Leute herum, die einem (und jedem weiteren hilfesuchenden Menschen, der zu einem späteren Zeitpunkt auf diesen Post stößt) auf verschiedene Art und Weise helfen können.
Wenn man nun Hilfe in einem Forum bekommen hat, sich vielleicht sogar eine Diskussion zum Thema entwickelt hat, kann man diesen Post dann in den anderen Foren (in meinem Fall einem einzigen weiteren), in denen man seine Frage ebenfalls gestellt hat, verlinken.
Meiner Meinung nach spricht also nichts gegen das Stellen der Frage in mehreren Foren. Im Gegenteil: dies fördert den Austausch über Forengrenzen hinweg und führt auch nicht zu parallel gemachter Mühe.
Und wenn die Aktivität eines Nutzers in zwei verschiedenen Foren nicht erwünscht ist, sollte die „Forendoppelnutzung“ in den Forenregeln untersagt werden!
So, und nun bitte wieder zur Sache: meine Frage steht noch.
Schon jetzt vielen Dank all denen, die sich zu meiner Frage äußern werden.
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
Nicht aufregen, Beitrag 3 lesen.
Zusatz: Nein. Die Clusteranalyse hat mit Normalverteilung eigentlich nichts zu tun. Die Normalverteilung ist bei Verfahren wie dem t-Test, der Varianzanalyse wichtig, da diese auf Schätzern basieren, für die die Normalverteilung die Voraussetzung ist. Bei der Clusteranalyse als heuristischem Verfahren hingegen nicht. Denn bei Clusteranalysen als heuristischem
"(...) Vorgehen, bei dem mit begrenztem Wissen über ein System mit Mutmaßungen Aussagen über das System getroffen werden, die dann mit Hilfe empirischer Methoden verifiziert werden, um die Korrektheit der Vorstellung über das System (Systemmodell), auf Grund dessen diese Aussagen entwickelt wurden, zu schärfen (...)" [1]
hängt es von deinen Fragestellungen ab, was sinnvoll ist. Sollte es notwendig sein, dann siehe Beitrag 3.
Meine Empfehlung: z-Transformation der Variablen.
[1]
http://de.wikipedia.org/wiki/Heuristik
Zusatz: Nein. Die Clusteranalyse hat mit Normalverteilung eigentlich nichts zu tun. Die Normalverteilung ist bei Verfahren wie dem t-Test, der Varianzanalyse wichtig, da diese auf Schätzern basieren, für die die Normalverteilung die Voraussetzung ist. Bei der Clusteranalyse als heuristischem Verfahren hingegen nicht. Denn bei Clusteranalysen als heuristischem
"(...) Vorgehen, bei dem mit begrenztem Wissen über ein System mit Mutmaßungen Aussagen über das System getroffen werden, die dann mit Hilfe empirischer Methoden verifiziert werden, um die Korrektheit der Vorstellung über das System (Systemmodell), auf Grund dessen diese Aussagen entwickelt wurden, zu schärfen (...)" [1]
hängt es von deinen Fragestellungen ab, was sinnvoll ist. Sollte es notwendig sein, dann siehe Beitrag 3.
Meine Empfehlung: z-Transformation der Variablen.
[1]
http://de.wikipedia.org/wiki/Heuristik
drfg2008
-
- Beiträge: 3
- Registriert: 18.04.2012, 14:24
Herzlichen Dank für die Antwort!!!
Du hast mir sehr geholfen!
Jetzt kann ich beruhigt meine Masterarbeit wie geplant weiter machen - mein Prof hatte mich kurzzeitig sehr verwirrt, als er die Frage in den Raum warf, ob ich denn überhaupt eine Clusteranalyse bei nicht normalverteilten Daten durchführen dürfe. Dies hatte ich nämlich schon längst gemacht und meine Daten anhand dieser in zwei Gruppen eingeteilt...
Danke!
Du hast mir sehr geholfen!
Jetzt kann ich beruhigt meine Masterarbeit wie geplant weiter machen - mein Prof hatte mich kurzzeitig sehr verwirrt, als er die Frage in den Raum warf, ob ich denn überhaupt eine Clusteranalyse bei nicht normalverteilten Daten durchführen dürfe. Dies hatte ich nämlich schon längst gemacht und meine Daten anhand dieser in zwei Gruppen eingeteilt...
Danke!
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
noch eine Ergänzung:
Es gibt verschiedene Clusterverfahren. Entsprechend unterschiedlich sind die Voraussetzungen an die Daten.
Wenn du die 'Citty-Block', bzw. 'Block' Methode wählst (also praktisch die Entfernung zweier Objekte dadurch bestimmst, dass einmal um einen rechtwinkligen Block gelaufen wird), dann stellt sich die Frage, ob und wenn ja, wofür hier Normalverteilung die Voraussetzung sein soll. Vergleichbares gilt bei der Minkowski Metrik, etc.
Eventuell hat der Dozent jedoch die Bildung von Mittelwerten angesprochen (K-Means). Bei arithmetischen Mitteln wäre eine Normalverteilung der Daten schon von Vorteil, da hier das arithm. Mittel ein geeigneter Schätzer für den Lageparameter µ ist.
Aber es hängt eben alles von der Fragestellung ab, anders als etwa bei stat. Testverfahren wie dem t-Test, der Varianzanalyse. Hier ist die Normalverteilung ein zentrales Argument (aber selbst hier nicht immer absolut notwendig -> siehe Effizienz ARE).
Es gibt verschiedene Clusterverfahren. Entsprechend unterschiedlich sind die Voraussetzungen an die Daten.
Wenn du die 'Citty-Block', bzw. 'Block' Methode wählst (also praktisch die Entfernung zweier Objekte dadurch bestimmst, dass einmal um einen rechtwinkligen Block gelaufen wird), dann stellt sich die Frage, ob und wenn ja, wofür hier Normalverteilung die Voraussetzung sein soll. Vergleichbares gilt bei der Minkowski Metrik, etc.
Eventuell hat der Dozent jedoch die Bildung von Mittelwerten angesprochen (K-Means). Bei arithmetischen Mitteln wäre eine Normalverteilung der Daten schon von Vorteil, da hier das arithm. Mittel ein geeigneter Schätzer für den Lageparameter µ ist.
Aber es hängt eben alles von der Fragestellung ab, anders als etwa bei stat. Testverfahren wie dem t-Test, der Varianzanalyse. Hier ist die Normalverteilung ein zentrales Argument (aber selbst hier nicht immer absolut notwendig -> siehe Effizienz ARE).
drfg2008