Hallo,
ich habe eine Frage zur Bonferroni-Korrektur für multiple Vergleiche.
Ich habe den t-test und den Wilcoxon-test genutzt (je nachdem, welcher aufgrund des Tests auf Normalverteilung angebracht war) um gepaarte Stichproben zu vergleichen. Beide Tests wurden mehrfach angewandt (t-test: 4mal, Wilcoxon: 20 mal). Die Bonferroni-Korrektur würde bedeuten, dass das kritische Signifikanzniveau beim t-test auf 0.0125 und beim Wilcoxon auf 0.0025 sinkt. Was bedeutet dies, in Bezug auf meine Ergebnisse? Ist ein Ergebnis, welches vorher beim Wilcoxon mit p=0.017 signifikant war auf einmal nicht mehr signifikant? Oder sind die Ergebnisse ohne Korrektur lediglich mit größerer Vorsicht zu genießen?
Des weiteren, wenn diese Art der Signifikanzprüfung in zwei verschiedenen Testreihen stattgefunden hat (die Pbn waren die gleichen, jedoch die Methoden der Tests nicht), wäre es möglich das korrigierte Signifikanzniveau anhand der Anzahl der Tests in einer der Reihen zu bestimmen (Bsp.: Wilcoxon test in Reihe A 10 mal genutzt: kritisches p=0.005 anstatt 0.0025). Oder gehe ich recht in der Annahme, dass nur die gesamte Anzahl der Tests ausschlaggebend ist?
Bonferroni
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
Die BF-Korrektur ist nur die asymptotische Korrektur,
(die exakte ist: p[Einzeltest]=1-(1-alpha [gesamt]) exp 1/k). Bei einer geringen Anzahl anTests ist der Unterschied zur BF-Korrektur aber gering.
Die BF-Korrektur wird eingesetzt, um das Gesamt-Alpha einzuhalten. Sollte die BF-Korrektur nicht eingesetzt werden, ist das Gesamt-Alpha praktisch nicht kontrolliert.
Bei n=20 Einzelvergleichen zu einem Gesamt-Alpha von 5% wäre die Signifikanzgrenze des jeweiligen Einzeltests unter 0,05/n also 0,0025.
Dem liegt folgende Überlegung zugrunde: Der Fehler 1. Ordnung (also alpha) ist wichtiger als die Teststärke. Denn die Teststärke (1-beta oder Power) steigt natürlich mit der Anzahl der Tests.
Vielleicht ist das auch der Grund, weshalb in wissenschaftlichen Arbeit nur selten die Gesamtzahl der durchgeführten Tests bekannt gegeben wird.
Gruß
Als Nachtrag: Tests sind Zufallsexperimenten gleichzusetzen, d.h. wenn über die gleichen Probanden zu den selben Fragestellungen einfach nur verschiedene Tests gerechnet werden (also bspw. t-Test für a.Stp. und Wilk.), dann bedeutet das eine Wiederholung ein und desselben Zufallsexperiments und unterliegt der Korrektur.
(die exakte ist: p[Einzeltest]=1-(1-alpha [gesamt]) exp 1/k). Bei einer geringen Anzahl anTests ist der Unterschied zur BF-Korrektur aber gering.
Die BF-Korrektur wird eingesetzt, um das Gesamt-Alpha einzuhalten. Sollte die BF-Korrektur nicht eingesetzt werden, ist das Gesamt-Alpha praktisch nicht kontrolliert.
Bei n=20 Einzelvergleichen zu einem Gesamt-Alpha von 5% wäre die Signifikanzgrenze des jeweiligen Einzeltests unter 0,05/n also 0,0025.
Dem liegt folgende Überlegung zugrunde: Der Fehler 1. Ordnung (also alpha) ist wichtiger als die Teststärke. Denn die Teststärke (1-beta oder Power) steigt natürlich mit der Anzahl der Tests.
Vielleicht ist das auch der Grund, weshalb in wissenschaftlichen Arbeit nur selten die Gesamtzahl der durchgeführten Tests bekannt gegeben wird.
Gruß
Als Nachtrag: Tests sind Zufallsexperimenten gleichzusetzen, d.h. wenn über die gleichen Probanden zu den selben Fragestellungen einfach nur verschiedene Tests gerechnet werden (also bspw. t-Test für a.Stp. und Wilk.), dann bedeutet das eine Wiederholung ein und desselben Zufallsexperiments und unterliegt der Korrektur.
-
- Beiträge: 8
- Registriert: 01.06.2010, 16:04
@drfg 2008: Vielen Dank für die schnelle Antwort. Wie das sehe, stimmst du grundsätzlich meinen Annahmen zu (z.B. bei 20 Tests ist das kritische p nach BF Korrektur = 0.0025).
Zum besseren Gesamtverständnis muss ich jedoch nochmals nachfragen, in welcher Form das BF-korrigierte p über die Annahme oder Ablehnung der Null-Hypothese entscheidet. Wenn vor BF das Ergebnis mit p= 0.017 signifikante Unterschiede vermuten lässt, wäre nach BF mit einem kritischen p von 0,0025 keine Signifikanz mehr da. Richtig?
Zum besseren Gesamtverständnis muss ich jedoch nochmals nachfragen, in welcher Form das BF-korrigierte p über die Annahme oder Ablehnung der Null-Hypothese entscheidet. Wenn vor BF das Ergebnis mit p= 0.017 signifikante Unterschiede vermuten lässt, wäre nach BF mit einem kritischen p von 0,0025 keine Signifikanz mehr da. Richtig?
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
So kann man das auch sagen.
Oder so: Wenn du einmal auf eine Zielscheibe schießt und triffst direkt ins Schwarze, bist du ein guter Schütze. Wenn du mit einem Maschinengewehr dein Magazin leerschießt und auch einmal ins Schwarze triffst, bist du ein "Texanischer Scharfschütze" (Beck-Bornholdt/Dubben S.67 [1]).
[1] http://www.amazon.de/gp/product/3499621 ... 3499621967
Oder so: Wenn du einmal auf eine Zielscheibe schießt und triffst direkt ins Schwarze, bist du ein guter Schütze. Wenn du mit einem Maschinengewehr dein Magazin leerschießt und auch einmal ins Schwarze triffst, bist du ein "Texanischer Scharfschütze" (Beck-Bornholdt/Dubben S.67 [1]).
[1] http://www.amazon.de/gp/product/3499621 ... 3499621967