T-Test bei verbundenen Stichproben
-
rj
- Beiträge: 9
- Registriert: 19.05.2010, 10:30
T-Test bei verbundenen Stichproben
Hallo liebe Statistiker,
Ich möchte gerne mein Vorgehen und meine Interpretation durch euch prüfen lassen. Es geht um folgendes:
Online-Befragung von Jugendlichen:
Frage 1: Wie viel trinkst du durchschn. pro Woche?
Frage 2: Wie viel hast du letzte Woche getrunken?
Hypothese: Jugendliche unterschätzen ihren Alkoholkonsum.
Vorgehen:
1. Plausibilisierung der Daten: Alles was nicht innerhalb 2er Std-Abw. ist, wird nicht betrachtet (ca. 100 von 2800 Fälle fallen weg)
2. T-Test bei verbundenen Stichproben.
Resultat:
Mittelwert F1 = 11.55
Mittelwert F2 = 12.00
Untere: -0.951
Obere: 0.054
T = -1.750
Sig: 0.080
Interpretation der Daten:
Mit Wahrscheinlichkeit von 8% liege ich falsch, wenn ich behaupte der Mittelwert von F2 (realer Konsum) liegt zwischen 11.55 - 0.951 und 11.55 + 0.054.
Folgerung:
Auch wenn die Sig. von 8% eventuell noch vertretbar wäre, kann die Hypothese kaum gestützt werden, weil das Intervall des geschätzten Mittelwerts höhere Werte als den Mittelwert für Frage 1 einschliesst (vgl. Obergrenze 0.054).
Frage an euch:
Ist das Vorgehen korrekt?
Ist meine Interpretation der Daten korrekt?
Ist meine Folgerung ok?
Vielen Dank und die besten Grüsse
rj
Ich möchte gerne mein Vorgehen und meine Interpretation durch euch prüfen lassen. Es geht um folgendes:
Online-Befragung von Jugendlichen:
Frage 1: Wie viel trinkst du durchschn. pro Woche?
Frage 2: Wie viel hast du letzte Woche getrunken?
Hypothese: Jugendliche unterschätzen ihren Alkoholkonsum.
Vorgehen:
1. Plausibilisierung der Daten: Alles was nicht innerhalb 2er Std-Abw. ist, wird nicht betrachtet (ca. 100 von 2800 Fälle fallen weg)
2. T-Test bei verbundenen Stichproben.
Resultat:
Mittelwert F1 = 11.55
Mittelwert F2 = 12.00
Untere: -0.951
Obere: 0.054
T = -1.750
Sig: 0.080
Interpretation der Daten:
Mit Wahrscheinlichkeit von 8% liege ich falsch, wenn ich behaupte der Mittelwert von F2 (realer Konsum) liegt zwischen 11.55 - 0.951 und 11.55 + 0.054.
Folgerung:
Auch wenn die Sig. von 8% eventuell noch vertretbar wäre, kann die Hypothese kaum gestützt werden, weil das Intervall des geschätzten Mittelwerts höhere Werte als den Mittelwert für Frage 1 einschliesst (vgl. Obergrenze 0.054).
Frage an euch:
Ist das Vorgehen korrekt?
Ist meine Interpretation der Daten korrekt?
Ist meine Folgerung ok?
Vielen Dank und die besten Grüsse
rj
-
rj
- Beiträge: 9
- Registriert: 19.05.2010, 10:30
Normalverteilung
Hallo,
Habe festgestellt, dass die Variabeln normalverteilt sein sollten, was bei mir nicht der Fall ist.
Ich glaube meine Funktion ist logarithmisch verteilt (Mit den Verteilungen bin ich echt schlecht!!), d.h. die Häufigkeit der der Werte nimmt mit zunehmender Grösse der Werte ab...
Heisst das nun ich müsste die Variablen zuerst umformen:
F1 -> logF1 ?
F2 -> logF2 ?
Bin echt dankbar, wenn mir hier jemand Erleuchtung verschaffen kann!
Beste Grüsse,
rj
Habe festgestellt, dass die Variabeln normalverteilt sein sollten, was bei mir nicht der Fall ist.
Ich glaube meine Funktion ist logarithmisch verteilt (Mit den Verteilungen bin ich echt schlecht!!), d.h. die Häufigkeit der der Werte nimmt mit zunehmender Grösse der Werte ab...
Heisst das nun ich müsste die Variablen zuerst umformen:
F1 -> logF1 ?
F2 -> logF2 ?
Bin echt dankbar, wenn mir hier jemand Erleuchtung verschaffen kann!
Beste Grüsse,
rj
-
Generalist
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Nicht die Variablen sollten aus normalverteilten Grundgesamtheiten
stammen, sondern die Differenzwerte. Und auch bei diesen ist die
Normnalverteilung nur von Interesse, wenn die Stichprobe klein ist.
Bei großen Stichproben wie der hier vorliegenden greift mit Sicherheit
der zentrale Grenzwertsatz.
Nebenbei, da selbstverständlich die Variable extrem rechtsschief
verteilt sein muss (negative Trinkmengen gibt es nicht), aber auch
grundsätzlich ist unverständlich, wieso willkürlich fast 3% der
Stichprobe mit hohen Werten ausgeschlossen werden soll. Werte
> 2 SD gehören ebensogut zu einer Verteilung wie alle anderen.
Und wann kommt jetzt die SPSS-bezogene Frage?
stammen, sondern die Differenzwerte. Und auch bei diesen ist die
Normnalverteilung nur von Interesse, wenn die Stichprobe klein ist.
Bei großen Stichproben wie der hier vorliegenden greift mit Sicherheit
der zentrale Grenzwertsatz.
Nebenbei, da selbstverständlich die Variable extrem rechtsschief
verteilt sein muss (negative Trinkmengen gibt es nicht), aber auch
grundsätzlich ist unverständlich, wieso willkürlich fast 3% der
Stichprobe mit hohen Werten ausgeschlossen werden soll. Werte
> 2 SD gehören ebensogut zu einer Verteilung wie alle anderen.
Und wann kommt jetzt die SPSS-bezogene Frage?
-
rj
- Beiträge: 9
- Registriert: 19.05.2010, 10:30
Vielen Dank schon mal!
Die SPSS-bezogene Frage betrifft die Interpretation des Outputs, wie ich sie im ersten Beitrag formuliert habe. Kann ich T-Wert, Sig., Ober- und Untergrenze, die mir SPSS ausspuckt, so interpretieren, wie ich es gemacht habe?
Ich versteh, aber deine Frage: Nach genauerer Überlegung habe ich den Post wohl im falschen Forum platziert. Die Interpretation ist ja schliesslich nicht von SPSS abhängig. Kann ich den Beitrag selbst in ein anderes Forum verschieben?
Wenn du trotzdem eine Aussage zu meiner Interpretation des Outputs machen kannst, bin ich dir sehr dankbar.
Liebe Grüsse
rj
Die SPSS-bezogene Frage betrifft die Interpretation des Outputs, wie ich sie im ersten Beitrag formuliert habe. Kann ich T-Wert, Sig., Ober- und Untergrenze, die mir SPSS ausspuckt, so interpretieren, wie ich es gemacht habe?
Ich versteh, aber deine Frage: Nach genauerer Überlegung habe ich den Post wohl im falschen Forum platziert. Die Interpretation ist ja schliesslich nicht von SPSS abhängig. Kann ich den Beitrag selbst in ein anderes Forum verschieben?
Wenn du trotzdem eine Aussage zu meiner Interpretation des Outputs machen kannst, bin ich dir sehr dankbar.
Liebe Grüsse
rj
-
rj
- Beiträge: 9
- Registriert: 19.05.2010, 10:30
Zur Erläuterung deiner Frage bez. Ausschluss der Werte: Es ging darum
Werte, die fernab jeglicher Realität sind (Tippfehler etc.), aus der Auswertung
auszuschliessen (z.B. 1200 Drinks pro Woche). Die Methode mit den 2 SD
wurde gewählt, damit es eben nicht so willkürlich ist. Das selbe Verfahren
wurde in einer anderen Studie so gewählt.
Liebe Grüsse
rj
Werte, die fernab jeglicher Realität sind (Tippfehler etc.), aus der Auswertung
auszuschliessen (z.B. 1200 Drinks pro Woche). Die Methode mit den 2 SD
wurde gewählt, damit es eben nicht so willkürlich ist. Das selbe Verfahren
wurde in einer anderen Studie so gewählt.
Liebe Grüsse
rj
-
Generalist
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Die 2 SD sind offenkundig ein untauglicher Grenzwert. Zudem sollte es bei
gerade einmal 100 suspekten Fällen möglich sein, diese in Augenschein zu
nehmen. Manipulationen am Datensatz durch Fallausschluss werden lege
artis bei eindeutig festgestelltem Datenfehler vorgenommen, nicht nach
Maßgabe von Bequemlichkeit.
gerade einmal 100 suspekten Fällen möglich sein, diese in Augenschein zu
nehmen. Manipulationen am Datensatz durch Fallausschluss werden lege
artis bei eindeutig festgestelltem Datenfehler vorgenommen, nicht nach
Maßgabe von Bequemlichkeit.
-
rj
- Beiträge: 9
- Registriert: 19.05.2010, 10:30
Auch wenn ich diese Fälle in Augenschein nehme, muss ich ja einen Grenzwert festlegen, bis zu welchem ich die Antworten als plausibel erachte.
Der Datensatz selbst liefert keine Hinweise, durch welche die Plausibilität erschlossen werden können. Wie würdest du das den handhaben.
Zu meiner eigentlichen Frage bez. Output T-Test. Ich habe mittlerweile herausbekommen, dass meine Hypothese einen einseitigen Test verlangt und deshalb der Sig.-Wert halbiert werden kann. Das würde heissen er wäre 0.04 und somit knapp signifikant.
Inwiefern lässt sich damit eine Aussage über den Grad der Verschiedenartigkeit der Mittelwerte machen?
Grüsse,
rj
Der Datensatz selbst liefert keine Hinweise, durch welche die Plausibilität erschlossen werden können. Wie würdest du das den handhaben.
Zu meiner eigentlichen Frage bez. Output T-Test. Ich habe mittlerweile herausbekommen, dass meine Hypothese einen einseitigen Test verlangt und deshalb der Sig.-Wert halbiert werden kann. Das würde heissen er wäre 0.04 und somit knapp signifikant.
Inwiefern lässt sich damit eine Aussage über den Grad der Verschiedenartigkeit der Mittelwerte machen?
Grüsse,
rj
-
Generalist
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Zumindest erstmal die Daten explorieren und mir vor allem dieDer Datensatz selbst liefert keine Hinweise, durch welche die Plausibilität erschlossen werden können. Wie würdest du das den handhaben.
Grafiken (Boxplots, Histogramme) dabei ansehen.
Sicherlich nicht. Ein Großteil aller Forschungshypothesen ist gerichtet,Zu meiner eigentlichen Frage bez. Output T-Test. Ich habe mittlerweile herausbekommen, dass meine Hypothese einen einseitigen Test verlangt
aber das zieht in den seltensten Fällen einen einseitigen Signifikanztest
nach sich. Vgl. FAQ 3 in http://www.uni-graz.at/ilona.papousek
/teaching/docs/faq.html
Nach einem Signifikanztest die Regeln zu ändern, ist nicht lege artis.und deshalb der Sig.-Wert halbiert werden kann. Das würde heissen er wäre 0.04 und somit knapp signifikant.
Nach wie vor besteht kein signifikanter Unterschied. Man mussInwiefern lässt sich damit eine Aussage über den Grad der Verschiedenartigkeit der Mittelwerte machen?
weiter davon ausgehen, dass in der Grundgesamtheit, aus der
die Werte stammen, die durchschnittliche Abweichung = 0 beträgt.
Aber selbst wenn man das nachträgliche Ändern des Testverfahrens
schlucken wollte, das eigentliche Wichtige wäre dann nicht, dass
dann ein "signifikanter" Unterschied herauskäme, sondern dass der
Unterschied im Schnitt minimal ist. Bei einer so großen Fallzahl
wie hier ist der Schatzfehler für den Effekt schon recht klein, so dass
man anhand der Stichprobendaten schon zuverlässig etwas zur Größe
des Unterschieds sagen kann.
Außerdem ist fraglich, ob Aussagen über die Gesamtgruppe nicht mehr
verschleiern als enthüllen könnten. Eigentlich interessant ist doch,
ob und wie stark in verschiedenen Trinkmengen-Subgruppen Unterschiede
auftreten. Subgruppen zum Beispiel anhand von Vorwissen und Literatur
definiert als "kein Konsum, wenig Konsum, viel Konsum, sehr viel Konsum"
oder wie auch immer.
-
rj
- Beiträge: 9
- Registriert: 19.05.2010, 10:30
Wenn ich das nun im Bericht ausdrücken will, worauf des SPSS-Outputssondern dass der Unterschied im Schnitt minimal ist.
beziehe ich mich dann. Auf die ausgewiesenen Mittelwerte? Im Sinne:
"Auch wenn der T-Test knapp einen signifikanten Unterschied nachweist
(wir schlucken es jetzt mal), kann aufgrund des geringen Unterschieds der
Mittelwerte nicht auf eine bedeutende Unterschätzung des Alkoholkonsums
geschlossen werden."
Oder wie würdest du das formulieren? Bzw. auf welchen Wert des
Outputs nimmst du hier Bezug?
Mittelwert F1 = 11.55
Mittelwert F2 = 12.00
Untere: -0.951
Obere: 0.054
T = -1.750
Das ist das letzte Mal, dass ich dich belästige... vielen Dank für die Hinweise.
liebe Grüsse
rj



