Testverfahren für zwei nominale Verteilungen?
-
- Beiträge: 6
- Registriert: 09.11.2013, 16:59
Testverfahren für zwei nominale Verteilungen?
Hallo,
ich bin auf der Suche nach einem (nicht-parametrischen) Test für zwei Verteilungen. Ziel: Aussagen, ob diese beiden Verteilungen sich unterscheiden.
Die (empirische) Teststatistik besteht aus gezählten Häufigkeiten aus einer Inhaltsanalyse:
Firma A x-Mal
Firma B y-Mal
Firma C ...
Firma D ...
Firma E ...
UND den Vertretern der Firma
Vertreter der Firma A z-mal
Vertreter der Firma B ...
Vertreter der Firma C ...
Vertreter der Firma D ...
Vertreter der Firma E ...
Ich möchte feststellen, ob sich die beiden Verteilungen voneinander unterscheiden. Es lässt sich keine (sinnvolle) ordinale Reihenfolge der Firmen herstellen, dh. nominales Skalenniveau.
Chi-Quadrat-Test kann nur eine Datenreihe auf eine spezielle Verteilung testen, nicht jedoch 2 Datenreihen miteinander.
Kolmogorov-Smirnov-z-Test wäre noch eine Idee, braucht aber ordinales Niveau.
Welche Lösung bietet sich eurer Ansicht nach an?
Ich danke euch vorab von ganzem Herzen für die Ideen/Lösungen.
Gogetter
ich bin auf der Suche nach einem (nicht-parametrischen) Test für zwei Verteilungen. Ziel: Aussagen, ob diese beiden Verteilungen sich unterscheiden.
Die (empirische) Teststatistik besteht aus gezählten Häufigkeiten aus einer Inhaltsanalyse:
Firma A x-Mal
Firma B y-Mal
Firma C ...
Firma D ...
Firma E ...
UND den Vertretern der Firma
Vertreter der Firma A z-mal
Vertreter der Firma B ...
Vertreter der Firma C ...
Vertreter der Firma D ...
Vertreter der Firma E ...
Ich möchte feststellen, ob sich die beiden Verteilungen voneinander unterscheiden. Es lässt sich keine (sinnvolle) ordinale Reihenfolge der Firmen herstellen, dh. nominales Skalenniveau.
Chi-Quadrat-Test kann nur eine Datenreihe auf eine spezielle Verteilung testen, nicht jedoch 2 Datenreihen miteinander.
Kolmogorov-Smirnov-z-Test wäre noch eine Idee, braucht aber ordinales Niveau.
Welche Lösung bietet sich eurer Ansicht nach an?
Ich danke euch vorab von ganzem Herzen für die Ideen/Lösungen.
Gogetter
-
- Beiträge: 6
- Registriert: 09.11.2013, 16:59
Vielen Dank für die weiteren Fragen:
@Generalist:
Die Häufigkeiten des Vorkommens entstammen aus einer Inhaltsanalyse (d.h. Erhebung gem. festgeschriebener Regeln [Codebuch], verifiziert durch Reliabilitätstests). Letztlich entstehen die Daten durch Zählen der Firmen(-vertreter) in Zeitungsartikeln.
Mit "Verteilung unterscheiden" meine ich, ob z.B. A 100x Vorkommen , B 200x, C 300x und F 1010x, G 2020x, H 3000x sich relativ (nicht) unterscheiden. H0 = Vorkommenswahrscheinlichkeiten (relativ) gleich.
@drfg2008:
Grundsätzlich hast du recht. Problematisch wird das ganze aber (wie in meinem Fall), wenn die Daten nicht auf dem selben (absoluten) Niveau liegen (sondern nur relativ vergleichbar sind). Je nachdem, welche Verteilung man als Prüfstatistik und welche man als theoretische Verteilung wählt (d.h. Reihenfolge!), entstehen unterschiedliche Chi-Quadrat-Werte. Und das kann ja nun nicht sein!
Vielen Dank für die Weiterführung der Diskussion...
@Generalist:
Die Häufigkeiten des Vorkommens entstammen aus einer Inhaltsanalyse (d.h. Erhebung gem. festgeschriebener Regeln [Codebuch], verifiziert durch Reliabilitätstests). Letztlich entstehen die Daten durch Zählen der Firmen(-vertreter) in Zeitungsartikeln.
Mit "Verteilung unterscheiden" meine ich, ob z.B. A 100x Vorkommen , B 200x, C 300x und F 1010x, G 2020x, H 3000x sich relativ (nicht) unterscheiden. H0 = Vorkommenswahrscheinlichkeiten (relativ) gleich.
@drfg2008:
Grundsätzlich hast du recht. Problematisch wird das ganze aber (wie in meinem Fall), wenn die Daten nicht auf dem selben (absoluten) Niveau liegen (sondern nur relativ vergleichbar sind). Je nachdem, welche Verteilung man als Prüfstatistik und welche man als theoretische Verteilung wählt (d.h. Reihenfolge!), entstehen unterschiedliche Chi-Quadrat-Werte. Und das kann ja nun nicht sein!
Vielen Dank für die Weiterführung der Diskussion...
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Ich verstehe es leider immer noch nicht. Ich fragte: "Was sieht denn das Forschungsdesign aus, wo kommen die Daten her, wie wurden sie erhoben, an wem? Und was meinst Du konkret mit "ob sich die beiden Verteilungen unterscheiden".Die Häufigkeiten des Vorkommens entstammen aus einer Inhaltsanalyse (d.h. Erhebung gem. festgeschriebener Regeln [Codebuch], verifiziert durch Reliabilitätstests). Letztlich entstehen die Daten durch Zählen der Firmen(-vertreter) in Zeitungsartikeln.
Mit "Verteilung unterscheiden" meine ich, ob z.B. A 100x Vorkommen , B 200x, C 300x und F 1010x, G 2020x, H 3000x sich relativ (nicht) unterscheiden. H0 = Vorkommenswahrscheinlichkeiten (relativ) gleich.
-
- Beiträge: 6
- Registriert: 09.11.2013, 16:59
Da die Inhaltsanalyse über mehrere Jahre und Zeitungen angelegt ist, erlaubt sie grundsätzlich Längs- als auch Querschnittsuntersuchungen.
In der hier dargestellten Fragestellung wird auf die mediale Häufigkeit zweier möglicher Zitierung abgestellt: Firmenname (Organisation) vs. Individuen. Mittels Inhaltsanalyse wird in den Zeitungsartikel die Häufigkeit der Firmen A bis E gezählt sowie die Häufigkeit von Firmenvertretern (Individuen) der Firmen A bis E.
Es existieren in der untersuchten Berufsgruppe Branchenführer die häufiger als andere erwähnt werden. Bspw. oben in meinem vorhergehenden Beitrag (dort verkürzt für 3 Firmen dargestellt).
Offen ist, ob die relativen Anteile der Firmen (Summe A bis E = 1) und die relativen Anteile der Individuen der Firmen A bis E (Summe ebenfalls = 1) entsprechen (mit bestimmten Alpha).
[Die Firmen A bis E sind nominalskaliert, gezählt wird deren Häufigkeit]
Gibt es Ideen zur Lösung des Tests auf die zwei nominalen Verteilung?
In der hier dargestellten Fragestellung wird auf die mediale Häufigkeit zweier möglicher Zitierung abgestellt: Firmenname (Organisation) vs. Individuen. Mittels Inhaltsanalyse wird in den Zeitungsartikel die Häufigkeit der Firmen A bis E gezählt sowie die Häufigkeit von Firmenvertretern (Individuen) der Firmen A bis E.
Es existieren in der untersuchten Berufsgruppe Branchenführer die häufiger als andere erwähnt werden. Bspw. oben in meinem vorhergehenden Beitrag (dort verkürzt für 3 Firmen dargestellt).
Offen ist, ob die relativen Anteile der Firmen (Summe A bis E = 1) und die relativen Anteile der Individuen der Firmen A bis E (Summe ebenfalls = 1) entsprechen (mit bestimmten Alpha).
[Die Firmen A bis E sind nominalskaliert, gezählt wird deren Häufigkeit]
Gibt es Ideen zur Lösung des Tests auf die zwei nominalen Verteilung?
-
- Beiträge: 6
- Registriert: 09.11.2013, 16:59
Mittels Chi-Quadrat-Anpassungstest (Nicht: Unterschiedstest!!) habe ich das Problem nun gelöst.
Der Test erlaubt den Vergleich einer nominalskalierten empirischen Verteilungsfunktion mit einer theoretischen. Die theoretische Verteilung habe ich vorgegeben (relative Häufigkeiten der Firmen). Die empirische Verteilung war die Anzahl der Firmenvertreter.
Da Chi-Maßgrößen durch die absolute Höhe der Daten beeinflusst werden, habe ich das geringere absolute Niveau (Anzahl der Firmenvertreter < Anzahl der Firmen) verwendet und somit eher auf Information verzichtet, als zusätzliche - nicht vorhandene Information - vorzugaugeln.
Ich hoffe und denke, dass ist nun in Ordnung.
Danke für den Gedankenaustausch!
Der Test erlaubt den Vergleich einer nominalskalierten empirischen Verteilungsfunktion mit einer theoretischen. Die theoretische Verteilung habe ich vorgegeben (relative Häufigkeiten der Firmen). Die empirische Verteilung war die Anzahl der Firmenvertreter.
Da Chi-Maßgrößen durch die absolute Höhe der Daten beeinflusst werden, habe ich das geringere absolute Niveau (Anzahl der Firmenvertreter < Anzahl der Firmen) verwendet und somit eher auf Information verzichtet, als zusätzliche - nicht vorhandene Information - vorzugaugeln.
Ich hoffe und denke, dass ist nun in Ordnung.
Danke für den Gedankenaustausch!
-
- Beiträge: 6
- Registriert: 09.11.2013, 16:59
Hallo Jonny,
Cramers V ist aus meiner Sicht auch nicht anwendbar. Es normiert zwar den Zusammenhang von nominalskalierten Maßen, setzt aber an der Größe Chi^2 an und somit für mich zu spät!
In meinem Fall sind ja bereits die beobachtete und die erwartete Häufigkeit auf unterschiedlichen Skalen!! Chi^2 würde somit nicht korrekt ermittelt; eine anschließende Normierung ändert daran auch nichts mehr.
Insofern denke ich, dass mein Vorgehen der "Runterskalierung" der häufigeren Werte weiterhin die einzige Lösung bleibt.
Gibt es andere Ansichten und Gedanken?
Cramers V ist aus meiner Sicht auch nicht anwendbar. Es normiert zwar den Zusammenhang von nominalskalierten Maßen, setzt aber an der Größe Chi^2 an und somit für mich zu spät!
In meinem Fall sind ja bereits die beobachtete und die erwartete Häufigkeit auf unterschiedlichen Skalen!! Chi^2 würde somit nicht korrekt ermittelt; eine anschließende Normierung ändert daran auch nichts mehr.
Insofern denke ich, dass mein Vorgehen der "Runterskalierung" der häufigeren Werte weiterhin die einzige Lösung bleibt.
Gibt es andere Ansichten und Gedanken?
-
- Beiträge: 14
- Registriert: 08.02.2014, 20:55
Ich versteh einfach nicht was dein Problem ist, du wirfst ganz schön mit Fremdwörtern um dich... 
Um einen Zusammenhang zwischen 2 Nominalskalierten Variablen zu testen ist chi^2 der passende Wert. Was meinst du mit theoretischer Verteilung? Chi^2 ist symetrsich.
Was meisnt du mit chi^2 setzt zu spät an?
Wieso sind erwartete und beobachtete Häufigkeit auf verschiedenen Skalen?
Wenn du gezählte Häufigkeiten hast, wie kommst du überhaupt auf die Idee, dass es sich um nominal skalierte Häufigkeiten handelt?

Um einen Zusammenhang zwischen 2 Nominalskalierten Variablen zu testen ist chi^2 der passende Wert. Was meinst du mit theoretischer Verteilung? Chi^2 ist symetrsich.
Was meisnt du mit chi^2 setzt zu spät an?
Wieso sind erwartete und beobachtete Häufigkeit auf verschiedenen Skalen?
Wenn du gezählte Häufigkeiten hast, wie kommst du überhaupt auf die Idee, dass es sich um nominal skalierte Häufigkeiten handelt?
-
- Beiträge: 6
- Registriert: 09.11.2013, 16:59
Hallo Jonny,
ich versuche die Situation nochmal konkreter zu schildern.
Mir liegen aus einer Inhaltsanalyse folgende Häufigkeiten vor:
Firma A 307 Nennungen der Firma allgemein
Firma B 186
Firma C 208
Firma D 93
Firma E 105
UND den Vertretern der Firma (Einzelpersonen)
Vertreter der Firma A 106 Nennungen
Vertreter der Firma B 82
Vertreter der Firma C 89
Vertreter der Firma D 37
Vertreter der Firma E 45
Ich nenne diese beiden Datenreihen mal "Verteilungen". Beides sind empirisch festgestellte Verteilungen.
Ich möchte nun feststellen, ob sich die beiden Verteilungen voneinander unterscheiden (d.h. ob sich die relativen Anteile der Firmen (Summe A bis E = 1) und die relativen Anteile der Individuen der Firmen A bis E (Summe ebenfalls = 1) entsprechen); oder ganz verkürzt: Gibt es Unterschiede in der medialen Häufigkeit einer Erwähnung zwischen einer Firma als solches und deren Einzelpersonen?
Es lässt sich keine (sinnvolle) ordinale Reihenfolge der Firmen herstellen, dh. nominales Skalenniveau.
Es ist zu erkennen, dass sich die Häufigkeiten der Firma von denen der Vertreter unterscheiden. Die relativen Anteile der Firmen scheinen jedoch sehr ähnlich zu sein!!
Ich möchte nun testen, ob die relative Verteilung der Firmen derjenigen der Vertreter entspricht! Dafür eignet sich nach meinem jetzigen Kenntnisstand der Chi-Quadrat-Anpassungstest (auch Goodness-of-fit-Test bekannt; gemeint ist nicht der Unterschiedstest!!). Dieser kann eine empirische Verteilung (eine der beiden o.g. Datenreihen von mir) mit einer theoretischen Verteilung (diese kann man vorgeben; hier verwende ich die andere Datenreihe von oben und tue so, als wäre es eine theoretische Verteilung) vergleichen.
Nun das Problem: Verwende ich o.g. Zahlen, so kommt es zu verschiedenen Chi-Quadrat-Ergebnissen, je nachdem welche der Datenreihe ich als empirische und welche ich als theoretische bezeichne! Chi-Quadrat funktioniert nur, wenn die absoluten Häufigkeiten auf einem vergleichbaren absoluten Niveau sind. Bei mir gibt es aber 899 Firmennennungen, aber nur 359 Vertreternennungen! Man kann dies gern mal nachrechnen, die ERgebnisse verändern sich.
Daher meine Idee zur Lösung: die häufigeren Zählwerte (Summe 899) auf das Niveau von 359 skalieren, dh. die Firmenhäufigkeiten verringern, ohne dass sich deren relative Anteile verändern.
Damit dann den Chi-Quadrat-Anpassungstest durchführen.
Seid ihr mit diesem Vorschlag einverstanden? Gibt es Einwände?
ich versuche die Situation nochmal konkreter zu schildern.
Mir liegen aus einer Inhaltsanalyse folgende Häufigkeiten vor:
Firma A 307 Nennungen der Firma allgemein
Firma B 186
Firma C 208
Firma D 93
Firma E 105
UND den Vertretern der Firma (Einzelpersonen)
Vertreter der Firma A 106 Nennungen
Vertreter der Firma B 82
Vertreter der Firma C 89
Vertreter der Firma D 37
Vertreter der Firma E 45
Ich nenne diese beiden Datenreihen mal "Verteilungen". Beides sind empirisch festgestellte Verteilungen.
Ich möchte nun feststellen, ob sich die beiden Verteilungen voneinander unterscheiden (d.h. ob sich die relativen Anteile der Firmen (Summe A bis E = 1) und die relativen Anteile der Individuen der Firmen A bis E (Summe ebenfalls = 1) entsprechen); oder ganz verkürzt: Gibt es Unterschiede in der medialen Häufigkeit einer Erwähnung zwischen einer Firma als solches und deren Einzelpersonen?
Es lässt sich keine (sinnvolle) ordinale Reihenfolge der Firmen herstellen, dh. nominales Skalenniveau.
Es ist zu erkennen, dass sich die Häufigkeiten der Firma von denen der Vertreter unterscheiden. Die relativen Anteile der Firmen scheinen jedoch sehr ähnlich zu sein!!
Ich möchte nun testen, ob die relative Verteilung der Firmen derjenigen der Vertreter entspricht! Dafür eignet sich nach meinem jetzigen Kenntnisstand der Chi-Quadrat-Anpassungstest (auch Goodness-of-fit-Test bekannt; gemeint ist nicht der Unterschiedstest!!). Dieser kann eine empirische Verteilung (eine der beiden o.g. Datenreihen von mir) mit einer theoretischen Verteilung (diese kann man vorgeben; hier verwende ich die andere Datenreihe von oben und tue so, als wäre es eine theoretische Verteilung) vergleichen.
Nun das Problem: Verwende ich o.g. Zahlen, so kommt es zu verschiedenen Chi-Quadrat-Ergebnissen, je nachdem welche der Datenreihe ich als empirische und welche ich als theoretische bezeichne! Chi-Quadrat funktioniert nur, wenn die absoluten Häufigkeiten auf einem vergleichbaren absoluten Niveau sind. Bei mir gibt es aber 899 Firmennennungen, aber nur 359 Vertreternennungen! Man kann dies gern mal nachrechnen, die ERgebnisse verändern sich.
Daher meine Idee zur Lösung: die häufigeren Zählwerte (Summe 899) auf das Niveau von 359 skalieren, dh. die Firmenhäufigkeiten verringern, ohne dass sich deren relative Anteile verändern.
Damit dann den Chi-Quadrat-Anpassungstest durchführen.
Seid ihr mit diesem Vorschlag einverstanden? Gibt es Einwände?
-
- Beiträge: 14
- Registriert: 08.02.2014, 20:55
"Es lässt sich keine (sinnvolle) ordinale Reihenfolge der Firmen herstellen, dh. nominales Skalenniveau"
Das stimmt so nicht. Die Häufigkeiten sind metrisch. Du musst auf die Ausprägung des Items schauen nicht auf den Namen.
"Die relativen Anteile der Firmen scheinen jedoch sehr ähnlich zu sein!! "
Was meinst du damit?
"Ich möchte nun testen, ob die relative Verteilung der Firmen derjenigen der Vertreter entspricht! Dafür eignet sich nach meinem jetzigen Kenntnisstand der Chi-Quadrat-Anpassungstest"
Der Anpassungstest testet doch jediglich, ob deine Daten einer bestimmten Verteilung entsprechen. Also nicht wirklich das, was du willst.
"Daher meine Idee zur Lösung: die häufigeren Zählwerte (Summe 899) auf das Niveau von 359 skalieren, dh. die Firmenhäufigkeiten verringern, ohne dass sich deren relative Anteile verändern. "
Hä?
Berechne doch einfach die Mittelwerte beider Verteilungen und führe einen tTest auf Mittelwertunterschiede durch.
Das stimmt so nicht. Die Häufigkeiten sind metrisch. Du musst auf die Ausprägung des Items schauen nicht auf den Namen.
"Die relativen Anteile der Firmen scheinen jedoch sehr ähnlich zu sein!! "
Was meinst du damit?
"Ich möchte nun testen, ob die relative Verteilung der Firmen derjenigen der Vertreter entspricht! Dafür eignet sich nach meinem jetzigen Kenntnisstand der Chi-Quadrat-Anpassungstest"
Der Anpassungstest testet doch jediglich, ob deine Daten einer bestimmten Verteilung entsprechen. Also nicht wirklich das, was du willst.
"Daher meine Idee zur Lösung: die häufigeren Zählwerte (Summe 899) auf das Niveau von 359 skalieren, dh. die Firmenhäufigkeiten verringern, ohne dass sich deren relative Anteile verändern. "
Hä?
Berechne doch einfach die Mittelwerte beider Verteilungen und führe einen tTest auf Mittelwertunterschiede durch.