Two-Step Clusteranalyse - Datenqualität

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Antworten
Newbie123
Beiträge: 5
Registriert: 09.08.2019, 12:01

Two-Step Clusteranalyse - Datenqualität

Beitrag von Newbie123 »

Hallo zusammen,

ich Versuche mich gerade als Neuling an einer Two-Stop Clusteranalyse.
Ich habe einen Datensatz von ca. 120 Fällen mit 15 Variablen (7 metrisch und 8 binär/nominal). Aufgrund des gemischten Skalenniveaus habe ich mich für eine Two-Step Clusteranalyse entschieden mit Log-Likelihood als Distanzmaß.

Ich habe jetzt noch ein Problem mit dem Datensatz bei dem ich auf keine Lösung komme. Und zwar habe ich zwei verschiedene Bepreisungstypen die auftreten können je nach Geschäftstyp und die ich gerne metrisch wenn sie auftreten mit dem jeweiligen Preis mit einbeziehen würde.
Ein Fall kann beide Preise oder nur jeweils einen enthalten. Wenn ich jetzt das Feld aber leer lasse, wird der Fall ja entsprechend nicht mit in die Analyse einbezogen.

Ich habe überlegt mit höchstem und niedrigstem Preis zu arbeiten, aber das macht im Prinzip ja auch keinen Sinn, weil beide Preise dann gleich sein könnten.

Hat jemand eine Idee wie man das umsetzen könnte ?

Vielen Dank im Voraus !
dutchie
Beiträge: 2640
Registriert: 01.02.2018, 10:45

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von dutchie »

Hallo Newbie123

Du musst nicht two step machen, nur weil du zwei skalenniveaus vertreten hast,
du kannst eine hierarchische machen für die nominalen und eine zweite für die intervallsaklierten..
und dann die beiben Clusterlösungen zusammenführen, das verspricht mit größere Wahrscheinlichkeit die
Clusterstruktur zu erfassen!
Das nominales und metrischen gleichzeitig verarbeitet werden kann ist nicht primäres Ziel der two step..
sondern eher clustern bei große stichproben..

das mit den preisen ist mir nicht ganz klar...?
du mußt natürlich alle Fälle in die Analyse einbeziehen (du hast eher wenige, eine kleine stichprobe)
kann du nicht die beiden zusammenfassen... mitteln?..
der Bepreisungstyp ist selber eine Variable in der Clusteranalyse?
warum unterscheiden sich die Preise in abhängigkeit von Bepreisungstyp?

..schwierig..das ist auch generell das problem..
normalerweis wird bei einer Clusteranalyse (CA) nicht viel interessantes zu tage gefördert..
weil die falschen Variablen einbezogen werden..
spiel mit den daten!!!
du kannst eine CA für die Fälle mit Preistyp A und eine mit Preistyp B dann vergleichen..
gibt es einen Zusammenhang zwischen den Preistypen korrelieren die?
dann kannst du die Daten eventuell imputieren!
du solltes sowieso vorher CA eine Faktorenanalyse machen um zu sehen die Variablen korrelieren.

so weit so gut

dutchie
Newbie123
Beiträge: 5
Registriert: 09.08.2019, 12:01

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von Newbie123 »

Hallo Dutchie,

vielen Dank für deine Antwort!
Ist das mit dem Zusammenführen denn ohne Probleme möglich?

Zu den Preisen: es handelt sich um zwei verschiedene Produkte eines Dienstleisters. Manche bieten nur Produkt A an (Preis als Variable metrisch erfasst) und manche nur Produkt B, manche bieten A&B an.
Wenn sie nun ein Produkt nicht anbieten, dann kann ich ja dafür auch keinen Preis erfassen... verstehst du was ich meine? Wenn dann da Preis 0 steht, dann verzerrt das ja die Daten oder? Alternativ könnte ich vielleicht binär erfassen ob A oder B vorhanden ist oder beides und dann einen gemittelten Preis abbilden, aber das wäre ja dann schon ein bisschen unpräzise oder?
dutchie
Beiträge: 2640
Registriert: 01.02.2018, 10:45

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von dutchie »

hallo Newbie123

...und geclustert werden sollen die Dienstleister?
schwierig...als zwei variablen die den produktpreis beschreiben
mach doch zwei dichotome variablen beschreiben
A verkauf ja -nein
B verkauf ja -nein
aber du siehtst wenn eine variable dichotom, gibts da wenig möglichkeiten zum clustern..
plus eine Variable für den durchschnitts preis..
aber da gibts viel andere möglichkeiten wie das gebastelt werden kann..
problem ist dass man mit infos die nicht vorliegen nicht clustern kann! :shock:
ich würde die variable eiskalt weglassen..clustern..und die entstandenen cluster
bezüglich der Variable vergleichen.

gruß
dutchie
Newbie123
Beiträge: 5
Registriert: 09.08.2019, 12:01

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von Newbie123 »

Hallo Dutchie,

so habe ich es jetzt tatsächlich auch gemacht.
Bleibt noch mein Problem mit den verschiedenen Skalenniveaus sollte ich eine Hierarchische CA machen...
Ich hab meinen Datensatz nämlich diese Woche noch um Ordinale Daten ergänzt (2 variablen mit Werten zwischen 1 und 100, die regionale Bedeutung im Verhältnis wiedergibt) jetzt habe ich 3 verschiedene Skalenniveaus....

Ich hab mir ein bisschen was durchgelesen und ein paar Youtubetutorials angeschaut.

Was ich mitgenommen habe: man muss nur bei den SPSS Steps: Klassifizieren- Hierarchische Clusteranalyse - Methode unter Maße transformieren "Auf Bereich 0-1 skalieren" auswählen. Ist das richtig ?

Ich zweifle ein bisschen daran, weil ich ja eigentlich neben den metrischen Variablen und zwei Ordinaten Variablen, dichotome Variablen habe... Und ich habe gelesen, dass "runterskalieren" eine hohe Gefahr für Informationsverzerrungen birgt.

Du meintest ja alternativ könnte man die Ergebnisse auch zusammenführen?

Vorab vielen Dank
dutchie
Beiträge: 2640
Registriert: 01.02.2018, 10:45

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von dutchie »

Hallo Newbie 123


oh man, oh frau...
Newbie123 hat geschrieben: jetzt habe ich 3 verschiedene Skalenniveaus....
na dann gratulier ich mal schön! :lol:

wichtig: jede Variable, soll mit demselben gewicht (skalierung) in die Analyse eingehen!
d.h. mit der selben Range, oder Spannweite, oder Varianz...oder Bedeutung, wie man es nennen will..
normal: wenn alle Variablen intervallskala sind, standardisiert man, somit haben alle Variablen eine
Varianz von 1.
Newbie123 hat geschrieben:2 variablen mit Werten zwischen 1 und 100, die regionale Bedeutung im Verhältnis wiedergibt)
kann ich mir spontan nichts drunter vorstellen..in welchem Verhältnis? wird da ein A mit einem B verglichen?
das ist dann aber eher intervall?

aufjedenfall muß die Range von 1 bis 100 runter, das kannst du auf 1-0 skalieren, dann hat die Variable dieselbe Range (max =1 min=0)
wie die dichotome Variable (die läßt du so wie sie ist!) wird aber nicht dichotom!
du skalierst nicht runter im sinne auf ein anderes Skalenniveau runter. sondern du machst nur die Range kleiner!
sodaß der maximale wert 1 ist und der minimal 0.
dasselbe kannst mit den metrischen machen..

gruß
dutchie
Newbie123
Beiträge: 5
Registriert: 09.08.2019, 12:01

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von Newbie123 »

Das heißt du würdest mir trotz 3 Skalenniveaus von der Two-Stop CA abraten ?

die beiden "neuen Variablen" sind unabhängig voneinander. Du kannst sie dir jeweils wie ein Prozentsatz vorstellen.

Um konkret zu fragen: du würdest jetzt wie vorgehen?

1. Faktorenanalyse um sicherzugehen, dass keine der Variablen zu sehr mit einander korreliert und zu stark korrelierende ausschließen
2. Daten auf ein Skalenniveau bringen
3. verschiedene Hierarchische CAs (jeweils mit Variablen des selben Skalenniveaus) durchführen und diese am Ende (wie ist mir noch nicht wirklich klar) zusammenführen ?

oder dann doch die Two-Step mit schrittweisem Ausschluss von Variablem mit zu großem Einfluss ?

Vielen Dank für deine Zeit und deine Geduld !
dutchie
Beiträge: 2640
Registriert: 01.02.2018, 10:45

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von dutchie »

hallo newbie123

wenn das wie ein Prozentsatz ist wieso gilt das aln ordinal?

wenn du alle drei skalenniveaus am start hast..

geht 1. nicht, FA mit nominal und ordinal und intervall gleichzeitig...?
und 2. ist auch fraglich dann wären alle Variablen nominal?

und variablen mit großen Einflus nicht ausschließen, sondern das ganze so gestalten, dass
all den gleichen einfluss haben, das bezieht sich auch auf die FA wenn es einen "großen Faktor" gibt und viele kleine
ist es dasselbe Problem.

z.B.: mach erstmal eine CA mit allen intervallskalierten...schau dir die Clusterlösung an...
mach dann eine Kreuztabelle mit einer nominalen und checke den zusammenhang, wenn die zusammenhängen
spricht die nominale variable für die selbe clusterlösung... das ist nur ein Beispiel...bisschen spielen mit den daten.
du hast doch bestimmt schon was gerechnet...

hast du den vorstellungen wie die cluster aussehen sollen, oder ist das alles rein explorativ?
...normal ist, das bei sowas nichts interpretierbares rauskommt...

gruß
dutchie
Newbie123
Beiträge: 5
Registriert: 09.08.2019, 12:01

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von Newbie123 »

Hallo Dutchie,

Naja es hat doch entsprechend eine Rangfolge. bei 95% wären nur 5% besser, entsprechend wäre das ordinal oder nicht ?

Es gibt in der Literatur verschiedene Ansätze für die Cluster die entstehen könnten in dem Markt.
Ich würde gerne schauen ob es sich tatsächlich so darstellt, und wie die Verteilung in dem Markt ist, in dem ich meine Daten erhoben habe.

Sprich: es gibt in meinem Datensatz tatsächlich 3 Cluster, die so ähnlich aussehen wie sie in der Literatur beschrieben sind und verteilen sich zu x% auf Cluster 1 und X% Cluster2 und x% Cluster 3 - also zeigt sich, dass Cluster 3 scheinbar lukrativer ist...

Grüße Newbie123
dutchie
Beiträge: 2640
Registriert: 01.02.2018, 10:45

Re: Two-Step Clusteranalyse - Datenqualität

Beitrag von dutchie »

hallo
Newbie123 hat geschrieben:Naja es hat doch entsprechend eine Rangfolge. bei 95% wären nur 5% besser, entsprechend wäre das ordinal oder nicht ?
ist mir nicht klar, weiß nicht was wie gemessen wurde..für mich sieht das wie intervall aus..!

dann cluster doch in abängigkeit von den vorgegeben clustern, bisher war es so wir suchen irgendwelche cluster..
wie sehen die clusterzentren der vorgebenen cluster aus..füge die als Fälle in deine daten ein und bestimme einfach den abstand
deiner fälle zu den vorgaben..d.h. du clusters gar nicht du vergleicht nur deine Fälle mit den vorgaben!

gruß
dutchie
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten