Was tun bei kleinen Datensätzen?
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
Was tun bei kleinen Datensätzen?
Hallo ihr lieben!
Ich ahbe ein Probelm: Ich muss einen Datensat auswerten (den ich nicht selbst erstellt habe), der leider viel zu klein (37 Personen) ud auch sehr löchrig ist. WIe kann ich kleine Zahlenmengen auswerten? Meistens oll herausgefunden werden ob zwei Variablen miteinander korellieren oder nicht. Bei einfachen Kreuztabellen haben aber immer zu viele Zellen eine zu kleine Wahrscheinlichkeit...
Weiss einer Hilfe?
Danke
Carrion
Ich ahbe ein Probelm: Ich muss einen Datensat auswerten (den ich nicht selbst erstellt habe), der leider viel zu klein (37 Personen) ud auch sehr löchrig ist. WIe kann ich kleine Zahlenmengen auswerten? Meistens oll herausgefunden werden ob zwei Variablen miteinander korellieren oder nicht. Bei einfachen Kreuztabellen haben aber immer zu viele Zellen eine zu kleine Wahrscheinlichkeit...
Weiss einer Hilfe?
Danke
Carrion
-
- Beiträge: 818
- Registriert: 26.09.2006, 14:52
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
Hey Patrick (und der ganze Rest)!
Mein Datensatz sieht folgendermaßen aus: Ich habe eine medizinische Datenbank, es geht um Brüche und ihre Behandlung im Wirbelbereich. Ich muss jetzt herausfinden ob es beispielsweise zwischen dem Alter (unterteilt in Gruppen, das hab ich schon umkodiert) und beispielsweise der dauer der OP (auch in Gruppen) einen Zusammenhang gibt. Das ist aber selbst bei sehr grober einteilung der Gruppen mit einer Kreuztabelle nicht möglich. Das darf ich doch gar nicht, oder? Ich habe das jetzt mit demexakten test nach Fisher versucht...keinen Ahnung ob ich das darf.
Das zweite Problem dass ich habe, ist, dass ich daten im Verlauf habe. Die Leute wurden zu 4 verschiedenen Zeiten gefragt wie sie sich fühlen und die Werte sollen jetzt verglichen werden. Ich habe alleridngs zum zeitpunkt A 25 Antworten bei B nur 20 Bei C dann wieder 27 und bei D etwa 23. Wie kann ich die miteinander vergleichen? Mittelwerte können ja nicht die Lösung sein....
Oder vielleicht Mittelwerte wenn ich die Standardabweichung berechne?
HILFE! Es ist zum verzweifeln... =/
Carrion
Mein Datensatz sieht folgendermaßen aus: Ich habe eine medizinische Datenbank, es geht um Brüche und ihre Behandlung im Wirbelbereich. Ich muss jetzt herausfinden ob es beispielsweise zwischen dem Alter (unterteilt in Gruppen, das hab ich schon umkodiert) und beispielsweise der dauer der OP (auch in Gruppen) einen Zusammenhang gibt. Das ist aber selbst bei sehr grober einteilung der Gruppen mit einer Kreuztabelle nicht möglich. Das darf ich doch gar nicht, oder? Ich habe das jetzt mit demexakten test nach Fisher versucht...keinen Ahnung ob ich das darf.
Das zweite Problem dass ich habe, ist, dass ich daten im Verlauf habe. Die Leute wurden zu 4 verschiedenen Zeiten gefragt wie sie sich fühlen und die Werte sollen jetzt verglichen werden. Ich habe alleridngs zum zeitpunkt A 25 Antworten bei B nur 20 Bei C dann wieder 27 und bei D etwa 23. Wie kann ich die miteinander vergleichen? Mittelwerte können ja nicht die Lösung sein....
Oder vielleicht Mittelwerte wenn ich die Standardabweichung berechne?
HILFE! Es ist zum verzweifeln... =/
Carrion
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
Oh sorry: die Daten sind meist ordinal manchmal intervall skaliert. Nomiknal kommt praktisch nicht vor. es wurden bestimmte winklel gemessen (im Bereich der Rückenwirbel der Patienten) und das Befinden der PÜatienten wurde mit Hilfe einer visuellen Analogskala abgetestet (1-100).
Danke für jeden winzig kleinen Tipp schon mal...
carrion
Danke für jeden winzig kleinen Tipp schon mal...
carrion
-
- Beiträge: 174
- Registriert: 12.05.2006, 12:00
Hallo carrion,
dann kannst Du halt nur die Fälle auswerten, bei denen alle Befindungstests durchgeführt wurden, wusste gar nicht das es so etwas gibt. Du musst dann über das Menü Daten -> Fälle auswählen, nur die Fälle ausfiltern lassen, bei denen alle Tests durchgeführt wurden. Am Besten Du benutzt dazu die Funktion Missing(). D. h. Filtere mir alle Fälle, bei denen die Variable Befinden keine fehlenden Werte aufweist und da es 4 verschiedene Messzeitpunkte waren, könnte es dann so aussehen:
Not Missing(befinden1) And Not Missing(befinden2) And Not Missing(Befinden3) And Not Missing(befinden4)
Übrigens, das mit dem Dürfen ist eine kausale Entscheidung, da kann Dir niemand einen allgemeinen Vorschlag machen, der davon keine Ahnung hat. Da müsstest Du schon einen Orthopäden oder Chirurgen fragen. Ich gehe aber davon aus, da du anscheinend einen Exakten Test nach Fisher rechnen konntest, dass Du nur 2 Gruppen in Deiner Variable für die OP-Zeite hast, also lange OP versus kurze OP oder beim Alter: jung gegen alt.
Nicht verzweifeln,
MedDokAss
dann kannst Du halt nur die Fälle auswerten, bei denen alle Befindungstests durchgeführt wurden, wusste gar nicht das es so etwas gibt. Du musst dann über das Menü Daten -> Fälle auswählen, nur die Fälle ausfiltern lassen, bei denen alle Tests durchgeführt wurden. Am Besten Du benutzt dazu die Funktion Missing(). D. h. Filtere mir alle Fälle, bei denen die Variable Befinden keine fehlenden Werte aufweist und da es 4 verschiedene Messzeitpunkte waren, könnte es dann so aussehen:
Not Missing(befinden1) And Not Missing(befinden2) And Not Missing(Befinden3) And Not Missing(befinden4)
Übrigens, das mit dem Dürfen ist eine kausale Entscheidung, da kann Dir niemand einen allgemeinen Vorschlag machen, der davon keine Ahnung hat. Da müsstest Du schon einen Orthopäden oder Chirurgen fragen. Ich gehe aber davon aus, da du anscheinend einen Exakten Test nach Fisher rechnen konntest, dass Du nur 2 Gruppen in Deiner Variable für die OP-Zeite hast, also lange OP versus kurze OP oder beim Alter: jung gegen alt.
Nicht verzweifeln,
MedDokAss
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
Hey!
Danke schon mal!
Hier noch eine Frage an der ich langsam verzweifle: ichhabe drei Gruppen (sortiert nach Ater) und es sieht so aus, als sei ein zusammenhang gegebne zwischen dem alter und einer prozentualen einengung des Spinalkanals (völlig unwichhtig was das ist =)). ich habe also drei gruppen und völlig verschiedene Zahlen: in der ersten liegt es immer zwischen 0 und 30 % in der zwieten biks 60 und in der dritten bis 90. Allerdinsg hat jeder Patienten einen ganz eigenen Wert. Kann ich da irgendwie eine signifikanz berechnen? Oder muss ich dazu wieder gruppen bilden?
Liebe grüße
carrion
Danke schon mal!
Hier noch eine Frage an der ich langsam verzweifle: ichhabe drei Gruppen (sortiert nach Ater) und es sieht so aus, als sei ein zusammenhang gegebne zwischen dem alter und einer prozentualen einengung des Spinalkanals (völlig unwichhtig was das ist =)). ich habe also drei gruppen und völlig verschiedene Zahlen: in der ersten liegt es immer zwischen 0 und 30 % in der zwieten biks 60 und in der dritten bis 90. Allerdinsg hat jeder Patienten einen ganz eigenen Wert. Kann ich da irgendwie eine signifikanz berechnen? Oder muss ich dazu wieder gruppen bilden?
Liebe grüße
carrion
-
- Beiträge: 818
- Registriert: 26.09.2006, 14:52
Hallo Carrion
Du hast also das Alter der Patienten und die Dauer der OP gruppiert - warum eigentlich? Um einen Zusammenhang zu berechnen für zwei intervallskalierte Variablen (Alter, Dauer) musst Du keine Gruppen machen - rechne einfach eine Korrelation (Pearson) oder eine Regression!
Zum zweiten Problem: Da sich die N zu den versch. Messzeitpunkten wenig ändern, könnte man evt. einfach die Mittelwerte vergleichen (t-Test, ANOVA). Aber wie MedDokAss bereits erwähnte, ist es eher eine inhaltliche Entscheidung als eine statistische/mathematische.
Es kommt auch auf Deine Hypothese an: Welche Zeitpunkte werden verglichen?
Zu Deinen Daten: Alter (Jahre, Tage), Dauer (Std, Min, Sek, ...); Winkelmessungen... sind alles mind. Intervallskalen. Eine Befindlichkeitsmessung mit einer VAS erreicht auch Intervallskalennivau. Du 'verschlechterst' somit Deine Daten, wenn Du 'künstliche' Gruppen bildest und diese dann miteinander vergleichst!
Gruss
Patrick
Du hast also das Alter der Patienten und die Dauer der OP gruppiert - warum eigentlich? Um einen Zusammenhang zu berechnen für zwei intervallskalierte Variablen (Alter, Dauer) musst Du keine Gruppen machen - rechne einfach eine Korrelation (Pearson) oder eine Regression!
Zum zweiten Problem: Da sich die N zu den versch. Messzeitpunkten wenig ändern, könnte man evt. einfach die Mittelwerte vergleichen (t-Test, ANOVA). Aber wie MedDokAss bereits erwähnte, ist es eher eine inhaltliche Entscheidung als eine statistische/mathematische.
Es kommt auch auf Deine Hypothese an: Welche Zeitpunkte werden verglichen?
Zu Deinen Daten: Alter (Jahre, Tage), Dauer (Std, Min, Sek, ...); Winkelmessungen... sind alles mind. Intervallskalen. Eine Befindlichkeitsmessung mit einer VAS erreicht auch Intervallskalennivau. Du 'verschlechterst' somit Deine Daten, wenn Du 'künstliche' Gruppen bildest und diese dann miteinander vergleichst!
Gruss
Patrick
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
Hey Patrick!
Danke erst mal! Ich versuche jetzt mal die Regressionsanalyse, habe vorher eben versucht es mit Kreuztabellen zu lösen, daher die Gruppen. Ich bin allerdings auch kein Statistiker, und versuche deswegen immer die "einfachen" Sachen zu machen, bevor ich etwas versuche das ich nciht kenne.
Danke, ich melde mich dann ob es geklappt hat =)
Carrion
Danke erst mal! Ich versuche jetzt mal die Regressionsanalyse, habe vorher eben versucht es mit Kreuztabellen zu lösen, daher die Gruppen. Ich bin allerdings auch kein Statistiker, und versuche deswegen immer die "einfachen" Sachen zu machen, bevor ich etwas versuche das ich nciht kenne.
Danke, ich melde mich dann ob es geklappt hat =)
Carrion
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
@ Patrick (wenn ich deine Zeite nochmal beanspruchen darf)!
Ich habe gerade mal eine bivariate Korrelation berechnet, zwischen dem Alter und der Therapieform (1,2, oder 3).
Als Ausgabe bekam ich für die korrelation nach Pearson 0,059 (also hart an der Grenze) und die zusätzliche info, dass die zweiseitige signifikanz 0,742 ist. Was fange ich denn jetzt damit an?
Vor allem hab ich das zweimal bekommen: einmal für die Varibale Alter und einmal für die Varibale therpaie in einer Tabelle... ???
Mach ich was falsch?
LG
Carrion
Ich habe gerade mal eine bivariate Korrelation berechnet, zwischen dem Alter und der Therapieform (1,2, oder 3).
Als Ausgabe bekam ich für die korrelation nach Pearson 0,059 (also hart an der Grenze) und die zusätzliche info, dass die zweiseitige signifikanz 0,742 ist. Was fange ich denn jetzt damit an?
Vor allem hab ich das zweimal bekommen: einmal für die Varibale Alter und einmal für die Varibale therpaie in einer Tabelle... ???
Mach ich was falsch?
LG
Carrion
-
- Beiträge: 818
- Registriert: 26.09.2006, 14:52
aha - da gibt es noch therapieformen! suchst du denn zusammenhänge oder unterschiede?
z.B.: unterscheiden sich die patienten hinsichtlich alter, spinalkanalöffnung, etc. bei den therapieformen? dann rechnest du wohl mittelwertvergleiche. da die variable mehr als 2 stufen hat, müsstest du eine varianzanalyse rechnen.
wenn du tatsächlich zusammenhänge suchst zwischen alter und therapieform (scheint mir aber eine eigenartige fragestellung), dann solltest du nicht nach pearson rechnen (interval x interval) sonder - ich glaube - eine punktbiserale korrelation nehmen.
zum output: korrelationen stellen keine kausalzusammenhänge dar!! du kannst nicht interpretieren, dass die eine variable von der andern abhängt. es kann auch der umgekehrte fall sein! deshalb werden alle möglichkeiten ausgegeben. wenn r=0.059 ist, dann ist die korrelation sehr schlecht. sollte p=.059 sein, dann wäre sie zumindest fast signifikant, was aber nicht viel heisst, wenn r klein ist!
einseitige vs. zweiseitige fragestellung bezieht sich auf deine hypothese. wenn sie eine klare richtung postulieren ('alte menschen haben einen engeren spinalkanal als junge' --> einseitig; 'therapieform 1 unterscheidet sich signifikant von therapieform 2' --> zweiseitig)
gruss
patrick
z.B.: unterscheiden sich die patienten hinsichtlich alter, spinalkanalöffnung, etc. bei den therapieformen? dann rechnest du wohl mittelwertvergleiche. da die variable mehr als 2 stufen hat, müsstest du eine varianzanalyse rechnen.
wenn du tatsächlich zusammenhänge suchst zwischen alter und therapieform (scheint mir aber eine eigenartige fragestellung), dann solltest du nicht nach pearson rechnen (interval x interval) sonder - ich glaube - eine punktbiserale korrelation nehmen.
zum output: korrelationen stellen keine kausalzusammenhänge dar!! du kannst nicht interpretieren, dass die eine variable von der andern abhängt. es kann auch der umgekehrte fall sein! deshalb werden alle möglichkeiten ausgegeben. wenn r=0.059 ist, dann ist die korrelation sehr schlecht. sollte p=.059 sein, dann wäre sie zumindest fast signifikant, was aber nicht viel heisst, wenn r klein ist!
einseitige vs. zweiseitige fragestellung bezieht sich auf deine hypothese. wenn sie eine klare richtung postulieren ('alte menschen haben einen engeren spinalkanal als junge' --> einseitig; 'therapieform 1 unterscheidet sich signifikant von therapieform 2' --> zweiseitig)
gruss
patrick
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
Hi Patrick!
Eigentlich suche ich ja Zusammenhänge. Werden alte Menschen mit der selben Verletzung anders therapiert als junge. Nach dem Motto.
Ich dachte immer mittelwerte seien genereller Datenmord? Oder meinst du mit mittelwertvergleiche rechnen eetwas anderes?
Nach Pearson kann ich da glaiube ich ja auch gar nicht rechnen, da meine Therapieform ja eine string-Varibale ist (Therapie A, B, C, D), ich die ja also folglichnicht ordnen kann (auch wenn ich sie mit 1,2,3 und 4 codiert habe...)
Korrelationen sagen mir nur, dass es einen wenn dann zusammenhang zwischen den variablen gibt, aber nicht in welche Richtung, das ist soweit doch korrekt, ode? aber ich dachte gerade pearson gibt mir die richtung und die stärke des Zusammenhangs an? (r ist die Korrelation, richtig? DIe war sehr schlecht. Habe gerade nachgelesen, die geht von -1 bis +1, da ging mir ein Licht auf)
die Regressionsanalyse ist mir irgendwie zu hoch, ähnliches gilt für die varianzanalyse fürhcte ich.
Wo hast du das denn alles gelernt?
Carrion
P.S: du rettest mir gerade meine Arbeit...
Eigentlich suche ich ja Zusammenhänge. Werden alte Menschen mit der selben Verletzung anders therapiert als junge. Nach dem Motto.
Ich dachte immer mittelwerte seien genereller Datenmord? Oder meinst du mit mittelwertvergleiche rechnen eetwas anderes?
Nach Pearson kann ich da glaiube ich ja auch gar nicht rechnen, da meine Therapieform ja eine string-Varibale ist (Therapie A, B, C, D), ich die ja also folglichnicht ordnen kann (auch wenn ich sie mit 1,2,3 und 4 codiert habe...)
Korrelationen sagen mir nur, dass es einen wenn dann zusammenhang zwischen den variablen gibt, aber nicht in welche Richtung, das ist soweit doch korrekt, ode? aber ich dachte gerade pearson gibt mir die richtung und die stärke des Zusammenhangs an? (r ist die Korrelation, richtig? DIe war sehr schlecht. Habe gerade nachgelesen, die geht von -1 bis +1, da ging mir ein Licht auf)
die Regressionsanalyse ist mir irgendwie zu hoch, ähnliches gilt für die varianzanalyse fürhcte ich.
Wo hast du das denn alles gelernt?
Carrion
P.S: du rettest mir gerade meine Arbeit...
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
Ach du SCHANDE!
Stimmt es, das ich den fisher test nur anwenden darf, wenn ich maximal 2 Ausprägungen einer variabeln habe? Das wäre jetzt ungefähr der untergang. Was soll ich denn machen, wenn ich mehrere Ausprägungen habe und den Chi-Quadrat Test nicht anwenden kann weil ich zu wenige (=37 Daten) habe? Was mache ich denn dann um Korrelationen zu berechnen?
Carrion
Stimmt es, das ich den fisher test nur anwenden darf, wenn ich maximal 2 Ausprägungen einer variabeln habe? Das wäre jetzt ungefähr der untergang. Was soll ich denn machen, wenn ich mehrere Ausprägungen habe und den Chi-Quadrat Test nicht anwenden kann weil ich zu wenige (=37 Daten) habe? Was mache ich denn dann um Korrelationen zu berechnen?
Carrion
-
- Beiträge: 818
- Registriert: 26.09.2006, 14:52
--> Analyse von Häufigkeitencarrion hat geschrieben:Werden alte Menschen mit der selben Verletzung anders therapiert als junge.
Du solltest chi2-test machen. klicke für auswertung 'eta' an (nominal-interval), um auf signifikanz zu testen.
Bei Häufigkeiten rechnest Du keine Korrelationen, sonder eben chi2!
??carrion hat geschrieben:Ich dachte immer mittelwerte seien genereller Datenmord?
Der Vergleich zweier (od. mehrerer) MIttelwerte ist doch kein Datenmord?!?
Die Richtung gibt's Dir schon an: je nach Vorzeichen von r. Du kannst aber keine Kausalität ableiten! r>=0 proportionaler Zusammenhang (je mehr desto mehr oder je weniger desto weniger). wenn r <0 besteht ein umgekehrt prop. zusammenhang.carrion hat geschrieben:Korrelationen sagen mir nur, dass es einen wenn dann zusammenhang zwischen den variablen gibt, aber nicht in welche Richtung, das ist soweit doch korrekt, ode?
man darf aber nicth sagen, dass die eine variable steigt, weil es die andere tut (dies wäre eine aussagen zur kausalität - bei korrelationen ist das VERBOTEN!)
Grüsse und viel Glück bei Deiner Arbeit!
Patrick
-
- Beiträge: 174
- Registriert: 12.05.2006, 12:00
Jetzt mal ganz langsam
Hallo carrion,
jetzt mal ganz langsam. Vor jeder bivariaten Korrelation (Voraussetzung mindestens 2 intervallskalierte Variablen, also Alter und Messwerte, aber nicht in Gruppen) macht man erst mal ein Streudiagramm und danach die Korrelation nach Pearson oder Spearman. Der mögliche Korrelationskoeffizient r geht von max. -1 bis max 1. -1 stellt den max. gegenläufigen Zusammenhang, 1 den max. gleichlaufenden Zusammenhang dar und ein r von 0 bedeutet, dass es gar keinen Zusammenhang gibt.
Wenn man einen Mittelwertevergleich mit mehr als 2 Ausprägungen rechnen möchte dann rechnet man entweder eine Einfaktorielle ANOVA (falls parametrisch) oder einen Kruskal-Wallace-Test (falls nichtparametrisch).
Ach übrigens, warum ist egal ob der Spinalkanal eingeengt ist oder nicht? Oder meinst Du, wir wüssten nicht was der Spinalkanal ist?
Gruß MedDokAss
Upps, da war der Noonen schneller! Ich kann mich aber nur seinen Aussagen anschließen!
jetzt mal ganz langsam. Vor jeder bivariaten Korrelation (Voraussetzung mindestens 2 intervallskalierte Variablen, also Alter und Messwerte, aber nicht in Gruppen) macht man erst mal ein Streudiagramm und danach die Korrelation nach Pearson oder Spearman. Der mögliche Korrelationskoeffizient r geht von max. -1 bis max 1. -1 stellt den max. gegenläufigen Zusammenhang, 1 den max. gleichlaufenden Zusammenhang dar und ein r von 0 bedeutet, dass es gar keinen Zusammenhang gibt.
Wenn man einen Mittelwertevergleich mit mehr als 2 Ausprägungen rechnen möchte dann rechnet man entweder eine Einfaktorielle ANOVA (falls parametrisch) oder einen Kruskal-Wallace-Test (falls nichtparametrisch).
Ach übrigens, warum ist egal ob der Spinalkanal eingeengt ist oder nicht? Oder meinst Du, wir wüssten nicht was der Spinalkanal ist?
Gruß MedDokAss
Upps, da war der Noonen schneller! Ich kann mich aber nur seinen Aussagen anschließen!
-
- Beiträge: 11
- Registriert: 11.11.2006, 21:18
Hey Ihr Lieben!
Also: Mein problem ist, dass ich auch mit STrin-Variablen rechnen muss. Das heisst, das einige Tests gar nicht funktionieren.
@ Patrick: der chi2 funktioniert bei mir praktisch nie, dazu habe ich zuwenig Fälle, da habe ich gar keine chance (deswegen ahbe ich das ja immer mit dem fisher gemacht). Da nutzt doch auch eta anklicken niochts, oder ? (ich höre gerne das gegenteil)
Ich muss einfach gesagt daten vergleichen (und zwar nominale, ordinale und intervallskalierte) und sehen können ob sie etwas miteinander zu tun haben. Ob sie korellieren zum Beispiel (Pearson) aber auch ob sie "voneinander abhängen", also eigentlich kreuztabellen (mit signifikanzen), die ich aber auf Grund meiner geringen fallzahl nicht rechnen darf...
Wie mache ich das? Fisher?
verzweifelt
carrion
Also: Mein problem ist, dass ich auch mit STrin-Variablen rechnen muss. Das heisst, das einige Tests gar nicht funktionieren.
@ Patrick: der chi2 funktioniert bei mir praktisch nie, dazu habe ich zuwenig Fälle, da habe ich gar keine chance (deswegen ahbe ich das ja immer mit dem fisher gemacht). Da nutzt doch auch eta anklicken niochts, oder ? (ich höre gerne das gegenteil)
Ich muss einfach gesagt daten vergleichen (und zwar nominale, ordinale und intervallskalierte) und sehen können ob sie etwas miteinander zu tun haben. Ob sie korellieren zum Beispiel (Pearson) aber auch ob sie "voneinander abhängen", also eigentlich kreuztabellen (mit signifikanzen), die ich aber auf Grund meiner geringen fallzahl nicht rechnen darf...
Wie mache ich das? Fisher?
verzweifelt
carrion