Hallo,
ich habe da ein größeres Problem, der Aussage meiner Daten eine gewisse Signifikanz zu geben, deshalb suche ich hier nach Hilfe
Zu meinen Daten sehen verallgemeinert so aus:
Gruppe 1 (10000 Daten = 100%)
Gruppe 2 (20000 Daten = 100%)
Gruppe 3 (5000 Daten = 100%)
etc.
Die Daten in den einzelnen (von einander unabhängigen) Gruppen sind dann noch in verschiedene Klassen unterteilt:
Gruppe 1 (10000 = 100%)
Klasse A: 1000 = 10%
Klasse B: 100 = 1%
Klasse C: 50 = 0,5%
Gruppe 2 (20000 = 100%)
Klasse A: 1000 = 5%
Klasse B: 200 = 1%
Klasse C: 0 = 0%
etc.
Ich würde nun gerne zB Gruppe 1 gegen alle anderen Gruppen (insgesammt 15) vergleichen und zu der Aussage kommen, dass zB Klasse A in Gruppe 1 signifikant größer bzw kleiner ist als bei allen anderen. Wie man aus dem Bsp sieht, geht das nur über einen Vergleich der relativen Häufigkeiten.
Ich denke, dass es sicherlich einen einfachen Ansatz gibt, aber nach über 2 std Internetrecherche bin ich deutlich verwirrter als vorher.
Deshalb wäre ich dankbar für jede Hilfe!
Vergleiche relativer Häufigkeiten
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Du musst das schon präzise ausdrücken. Was soll in "dass z.B. Klasse A signifikant größer in Gruppe 1 als in Gruppe 2 ist" das "z.B." bedeuten? Entweder machst Du zugeschnitzte Vergleiche, also in jeder Gruppe alle non-A's zusammenschmeissen und dann Kreuztabellen von Gruppe (1 versus 2, dann 1 versus 3, ... dann 1 versus 15) versus Merkmal (A versus non-A) mit Chi-Quadrat Test rechnen. Oder Du hast erstmal gar keine solchen genauen Vorstellungen, dann einfach Kreuztabellen von Gruppe versus Merkmal (A, B, C).
-
- Beiträge: 3
- Registriert: 06.12.2010, 18:10
Ok, ein Beispiel:Generalist hat geschrieben:Du musst das schon präzise ausdrücken. Was soll in "dass z.B. Klasse A signifikant größer in Gruppe 1 als in Gruppe 2 ist" das "z.B." bedeuten?
Gruppe 1 (10000 Stück Obst insgesamt)
Klasse A: 1000 Äpfel
Klasse B: 100 Birnen
Klasse C: 50 Trauben
und so weiter (insgesamt habe ich ungefähr 1000 Klassen, wobei die Klassen für jede Gruppe natürlich gleich sind)
Gruppe 2 (20000 Stück Obst insgesamt)
Klasse A: 1000 Äpfel
Klasse B: 200 Birnen
Klasse C: 0 Trauben
und so weiter (insgesamt habe ich 5 Gruppen)
Ich will jetzt lediglich die Aussage machen, dass sich in Gruppe 1 mehr Äpfel befinden als in Gruppe 2. Das kann ich mit den absoluten Werten nicht, denn die sind gleich, es geht nur mit dem relativen Bezug zum gesammten Obstbestand der einzelnen Gruppen.
Konkreter:
10% allen Obsts in Gruppe 1 sind Äpfel.
5% allen Obsts in Gruppe 2 sind Äpfel.
3% allen Obsts in Gruppe 3 sind Äpfel.
6% allen Obsts in Gruppe 4 sind Äpfel.
8% allen Obsts in Gruppe 5 sind Äpfel.
Ab wann kann ich jetzt sagen, dass in Gruppe 1 signifikant mehr Äpfel da sind, als in allen anderen Gruppen?
Im Prinzip habe ich es auch mit dem Chi-Quadrat-Test angefangen. Somit bräuchte ich ja keinen relativen Häufigkeiten, denn die Gesamtmenge wird für jede Gruppe mit in den Erwartungswert eingerechnet. Wäre soweit für mich ideal.Generalist hat geschrieben: Entweder machst Du zugeschnitzte Vergleiche, also in jeder Gruppe alle non-A's zusammenschmeissen und dann Kreuztabellen von Gruppe (1 versus 2, dann 1 versus 3, ... dann 1 versus 15) versus Merkmal (A versus non-A) mit Chi-Quadrat Test rechnen. Oder Du hast erstmal gar keine solchen genauen Vorstellungen, dann einfach Kreuztabellen von Gruppe versus Merkmal (A, B, C).
Allerdings habe ich ein Problem mit der Aussage des Tests (vielleicht verstehe ich sie auch nur falsch). Mit dem Chi² vergleiche ich immer 2 merkmale und berechne zB ob sie unabhängig von einander sind. So etwas suche ich hier allerdings nicht. Ich möchte lediglich wissen, ob die Ausprägung eines Merkmales unter verschiedenen Bedingungen häufiger vertreten ist. Ich versuchs nochmal mit einer weiteren Vereinfachung meines Beispieles von oben:
Jede Gruppe stellt einen anderen Obstverkäufer da.
Gruppe 1 ist zB ein Verkäufer im Stadtzentrum
Gruppe 2 ein Verkäufer am Stadtrand
Gruppe 3 ein Verkäufer auf dem Land
Die einzelnen Klassen stellen seine verkauftes Obst da. Verkäufer 1 (Gruppe 1) hat 10000g Obst verkauft, davon 1000g Äpfel, Verkäufer 2 hat 20000g Obst verkauft, davon ebenfalls 1000g Äpfel, etc.
Eine stark abstrahierte Aussage davon wäre jetzt, dass Leute im Stadtzentrum weniger Obst kaufen, aber in Relation zur Gesamtmenge mehr Äpfel als Leute am Stadtrand.
Ist es so klarer, was ich will? Ich hab das Gefühl, dass es eigentlich recht trivial ist, aber ich komme einfach nicht dahinter, wie ich vorgehen muss.
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Wenn es Dir um den relativen Anteil genau nur von Äpfeln unter den verschiedenen Bedingungen geht, dann ist Kreuztabelle mit Chi-Quadrat angebracht. "Gruppe und Apfel-Rate sind nicht unabhängig voneinander", bzw. "Gruppe und Apfel sind miteinander assoziiert" ist genau dasselbe wie "die relative Häufigkeit von Apfel ist in Gruppe 1 anders als in Gruppe 2".
-
- Beiträge: 3
- Registriert: 06.12.2010, 18:10
Hi, ich wieder
Musste meine Arbeit wegen Krankheit ein wenig liegenlassen. Leider hat sich die Sache allerdings für mich immer noch nicht ganz geklärt.
Also nochmal ein paar konkretere Fragen. Ich habe folgende Zeilen (Die einzelnen Gruppen sind durch ";" getrennt)
Äpfel: 49;2;2;0;4
Birnen: 32;214;136;22;949
etc.
Daraus berechne ich die erwarteten Werte -> kein problem
Damit berechne ich die einzelnen Prüfgrößen -> immer noch kein problem
Damit berechne ich mein Chi-Quadrat -> da fängt's schon an problematisch zu werden
Den Wert vergleiche ich dann gegen die Tabelle um meine Hypothese abzulehnen oder nicht -> problem...
Dein letzter post hat mir da zwar ein wenig weitergeholfen, aber so ganz hab ich es immer noch nicht.
1) Ich habe 5 Spalten und 1052 Zeilen in meiner Häufigkeitstabelle. 382 der 1052 Zeilen haben in jeder Zelle einen Erwartungswert größer 5 - die kann ich also sicher benutzen. Damit habe ich dann 1524 freiheitsgrade? Macht doch auch wieder keinen Sinn, oder?
2) Ich würde gerne sagen können, dass die Häufigkeit von Apfel in Gruppe 1 (und nur in Gruppe 1!) anders ist als bei allen anderen, nicht nur, dass es eine Relation zwischen Apfel und einer beliebigen der 5 Gruppen gibt.
Kannst du es vielleicht einmal für mich vorrechnen?
Also:
Äpfel: 49;2;2;0;4
Birnen: 32;214;136;22;949
Zeilensumme Äpfel: 57
Zeilensumme Birnen: 1353
Spaltensumme Gruppe 1: 7602
Spaltensumme Gruppe 2: 8649
Spaltensumme Gruppe 3: 6423
Spaltensumme Gruppe 4: 8931
Spaltensumme Gruppe 5: 10513
Gesamtsumme: 42118
Damit sollte der Groschen dann endlich mal bei mir fallen
Musste meine Arbeit wegen Krankheit ein wenig liegenlassen. Leider hat sich die Sache allerdings für mich immer noch nicht ganz geklärt.
Also nochmal ein paar konkretere Fragen. Ich habe folgende Zeilen (Die einzelnen Gruppen sind durch ";" getrennt)
Äpfel: 49;2;2;0;4
Birnen: 32;214;136;22;949
etc.
Daraus berechne ich die erwarteten Werte -> kein problem
Damit berechne ich die einzelnen Prüfgrößen -> immer noch kein problem
Damit berechne ich mein Chi-Quadrat -> da fängt's schon an problematisch zu werden
Den Wert vergleiche ich dann gegen die Tabelle um meine Hypothese abzulehnen oder nicht -> problem...
Dein letzter post hat mir da zwar ein wenig weitergeholfen, aber so ganz hab ich es immer noch nicht.
1) Ich habe 5 Spalten und 1052 Zeilen in meiner Häufigkeitstabelle. 382 der 1052 Zeilen haben in jeder Zelle einen Erwartungswert größer 5 - die kann ich also sicher benutzen. Damit habe ich dann 1524 freiheitsgrade? Macht doch auch wieder keinen Sinn, oder?
2) Ich würde gerne sagen können, dass die Häufigkeit von Apfel in Gruppe 1 (und nur in Gruppe 1!) anders ist als bei allen anderen, nicht nur, dass es eine Relation zwischen Apfel und einer beliebigen der 5 Gruppen gibt.
Kannst du es vielleicht einmal für mich vorrechnen?
Also:
Äpfel: 49;2;2;0;4
Birnen: 32;214;136;22;949
Zeilensumme Äpfel: 57
Zeilensumme Birnen: 1353
Spaltensumme Gruppe 1: 7602
Spaltensumme Gruppe 2: 8649
Spaltensumme Gruppe 3: 6423
Spaltensumme Gruppe 4: 8931
Spaltensumme Gruppe 5: 10513
Gesamtsumme: 42118
Damit sollte der Groschen dann endlich mal bei mir fallen