Welches Verfahren muss ich verwenden?

Beitrag von **Mogli** » 30.07.2013, 14:33

Hallo zusammen,

ich habe ein Problem mit dem Finden des passenden Verfahrens. Ich erläutere kurz das Studiendesign, meine Variablen, die Fragestellung und meine bisherigen Ideen und Probleme.

Im vorliegenden Studiendesign wurden in einer Feldforschung physiologische Belastungsdaten bei je 2 Probanden in 9 Einrichtungen erhoben. Dafür wurden die Belastungen während der Arbeitsschichten kontinuierlich gemessen, welche in einer späteren Videoanalyse bzgl. der jeweiligen Tätigkeiten der Probanden in verschiedene Messintervalle eingeteilt wurden. Dadurch erhält man beispielsweise für die Tätigkeit „Spielen“ 647 Messintervalle, welche sich in ungleichen Anzahlen auf die insgesamt 18 Probanden aufteilen (nicht alle Probanden „spielten“ während der Messung gleich oft).
Die 9 Einrichtungen wurden vor den Messungen anhand verschiedener Parameter in 3 Klassifizierungsstufen eingeteilt, niedriger, mittlerer und hoher Interventionsbedarf.

Fragestellung: Gibt es zwischen den Klassifizierungsstufen Unterschiede in der Belastung?

Die abhängige Variable ist also beispielsweise die Rumpfvorbeugung, Rumpfseitneigung, Rückentorsion,… sie ist intervallskaliert und laut Tests nicht annähernd normalverteilt (bei 647 Messwerten). Allerdings sehen auch die Histogramme (Kurvenverlauf ähnlich 1/x) und QQ-Plots nicht nach Normalverteilung aus. Ich möchte hier mit den prozentualen Anteilen in ungünstigen Körperhaltungen eines jeden Messintervalls rechnen.
Die unabhängige Variable ist die Klassifizierung, welche nominal skaliert ist.

Analyseverfahren: Erst dachte ich an eine uni- oder multivariate AN(C)OVA, je nachdem ob ich die eben erwähnten abhängigen Variablen zusammenfassen kann/möchte oder nicht. Auf Grund der nicht vorliegenden Normalverteilung müsste ich hier die Daten evtl. transformieren, weiß aber nicht ob und wie das funktioniert. Dann bliebe aber auch immernoch das Problem der Unabhängigkeit der Beobachtungen. Von den 647 Messintervallen der Tätigkeit „Spielen“ sind bspw. X>1 Intervalle von demselben Probanden, diese X Intervalle sind damit nicht unabhängig (verbessert mich wenn ich falsch liege). Falls ich aber die Werte eines Probanden mittele oder den Median heranziehe, komme ich nur noch auf eine Stichprobengröße von n=18 Messwerten, 6 Messwerte pro Klassifizierungsstufe, 2 Messwerte pro Einrichtung, was doch ebenfalls problematisch ist.
Ein weiteres Verfahren welches ich kurzzeitig ins Auge gefasst hatte war eine Mehrebenenanalyse. Ebene 1 die Messintervalle, Ebene 2 der Proband und Ebene 3 die Klassifizierung der Einrichtung (wenn ich „Ebene 2,5“, die Einrichtung, außen vor lasse). Mein erster Eindruck sagt mir aber, dass dieses Verfahren weder genau zu meinen Daten, noch in den Umfang meiner Arbeit passt.

Meine Fragestellung müsste doch einfacher zu bearbeiten sein oder nicht? Welche Verfahren würdet ihr nutzen um auf signifikante Unterschiede in den Belastungsdaten zwischen den Klassifizierungsstufen zu untersuchen?

Vielen Dank für eure Hilfe. Gerne lasse ich euch die Tests und Grafiken bzgl. der Verteilung meiner abhängigen Variable per Mail zukommen.

Beitrag von **Generalist** » 30.07.2013, 14:54

Du vergleichst 3 Gruppen mit je 6 Personen. Das einzige wirkliche Problem scheint darin zu bestehen, ob Du eine Art Messwiederholungsanalyse dabei rechnen möchtest, oder die Belastungsdaten probandenweise zusammenfasst.

Beitrag von **Mogli** » 30.07.2013, 15:56

Danke für deine schnelle Antwort.

(Eine Art Messwiederholungsanalyse würde doch auf Unterschiede in den einzlnen Messintervallen eines Probanden untersuchen, oder nicht? Im späteren Verlauf meiner Arbeit werde ich zu einer anderen Fragestellung die Messwiederholungsanalyse verwenden, wenn nämlich die Messungen in 6 der 9 Einrichtungen wiederholt werden und auf Grund von Lehrgängen/Interventionen hoffentlich geringere Belastungen aufgezeichnet werden. (Wäre es hier ein Problem wenn die Anzahl der Messungen nicht identisch wäre? Wenn also in der t0-Messung von einem Probanden 10mal gespielt wurde, in der t2-Messung aber 24mal?))

Für die jetzige Fragestellung ist es nur interessant ob sich die Gruppen unterscheiden. Aber wenn ich die Belastungsdaten probandenweise zusammenfasse ist mein Stichprobenumfang mit n=18 Probanden (ich könnte das vielleicht noch auf n=36 ausbauen, weil die Belastungen jedes Probanden an 2 Tagen gemessen wurden (somit aber Problem der Unabhängigkeit?!)) zu gering?!
Auch in Anbetracht der nicht normalverteilten Daten, wie wäre diese Analyse anzugehen?

Beitrag von **Generalist** » 31.07.2013, 09:35

(ich könnte das vielleicht noch auf n=36 ausbauen, weil die Belastungen jedes Probanden an 2 Tagen gemessen wurden

Ein und denselben Probanden zweimal zu messen macht aus ihm nicht 2 Probanden.

Auch in Anbetracht der nicht normalverteilten Daten, wie wäre diese Analyse anzugehen?

Du hast noch gar keine passende Normalverteilungsanalyse gemacht. Die ganzen Messintervalle in einen Topf zu werfen und zu untersuchen, ist für die eigentliche Analyse, wie auch immer sie aussehen wird, nicht angemessen.

Wenn Du drei Gruppen mit je 6 Leuten vergleichen willst, dann wäre am einfachsten und robustesten ein Kruskal-Wallis H-Test. Abhängige Messungen könnten dabei diejenigen Parameter sein, welche im Rahmen Deiner Theorie bzw. praktischen Ziele die Belastung gut repräsentieren oder den Interventionsbedarf indizieren (Durchschnittsbelastung eines Probanden, seine mittlere Belastung, intra-individuelle Streuung der Belastung, Höchstbelastung, Anteil Intervalle mit Belastung über einem definierten Grenzwert, längste Dauer einer Belastung über einem definierten Grenzwert...was auch immer).

Beitrag von **Mogli** » 26.08.2013, 12:45

Danke sehr noch mal für deine Hilfe.

Ich habe den Kruskal-Wallis-H-Test jetzt mit den interessierenden abhängigen Variablen gerechnet, nämlich der absoluten Dauer die der Proband über einem bestimmten Schwellwert für den jeweiligen Parameter gearbeitet hat. Es gab in den meisten Fällen keine Signifikanzen zwischen den 3 Gruppen, vereinzelt traten welche auf, in denen an sich aber keine Regelmäßigkeiten zu erkennen waren. Die Klassifizierung der Gruppen spiegelte sich für mich also nicht in den Messergebnissen wieder.

*****************************************************
Ich habe jetzt eine neue Fragestellung.
Zusätzlich zu den Messungen wurden in der Studie Fragebögen verteilt, an etwa 250 Probanden. In den Fragebögen wurden u.a. die Fragen "Haben sie beschwerden (...)? Ja / Nein" oder auch "Wie groß sind die Beschwerden im Nacken auf einer Skala von 1-7?" beantwortet.

Diese Antwortmöglichkeiten möchte ich jetzt mit den Messergebnissen in Verbindung bringen. Es interessiert, ob ich aus den Fragebögen (ohne in Zukunft vor Ort Messungen durchführen zu müssen) auf höhere körperliche Belastungsdaten schließen kann.
Angedacht war für die eben zuerst erwähnte Frage beispielsweise die binäre Regression. Problem ist aber jetzt, dass ich zwar 250 Fragebögen habe, aber nur bei 18 von diesen Probanden Messungen durchgeführt wurden. Mit einem N=18 ist eine binäre Regression meines Wissens aber nicht durchzuführen. Nicht mit Aussagekraft zumindest.

Alternative (?):
Wäre es möglich evtl je Proband mehrere Messintervalle (vllt die 10 mittlersten) heranzuziehen, statt mit der mittleren Belastung zu rechnen? Dann würde man zu jedem der Messintervalle die Antwort auf die Frage wiederholen, hätte pro Proband also 10 mal die gleiche Antwort, aber 10 verschiedene Messintervalle?! Klingt für mich ein wenig konstuiert und nicht passend, was meint ihr?

Ansonsten müsste ich wahrscheinlich ein anderes Verfahren heranziehen um meine Frage zu beantworten. Ich wäre euch sehr dankbar wenn ihr mir helfen könntet.

Vielen Dank im Voraus
LG
Patrick

Beitrag von **Mogli** » 30.08.2013, 11:22

Mogli hat geschrieben:Danke sehr noch mal für deine Hilfe.

Ich habe den Kruskal-Wallis-H-Test jetzt mit den interessierenden abhängigen Variablen gerechnet, nämlich der absoluten Dauer die der Proband über einem bestimmten Schwellwert für den jeweiligen Parameter gearbeitet hat. Es gab in den meisten Fällen keine Signifikanzen zwischen den 3 Gruppen, vereinzelt traten welche auf, in denen an sich aber keine Regelmäßigkeiten zu erkennen waren. Die Klassifizierung der Gruppen spiegelte sich für mich also nicht in den Messergebnissen wieder.

*****************************************************
Ich habe jetzt eine neue Fragestellung.
Zusätzlich zu den Messungen wurden in der Studie Fragebögen verteilt, an etwa 250 Probanden. In den Fragebögen wurden u.a. die Fragen "Haben sie beschwerden (...)? Ja / Nein" oder auch "Wie groß sind die Beschwerden im Nacken auf einer Skala von 1-7?" beantwortet.

Diese Antwortmöglichkeiten möchte ich jetzt mit den Messergebnissen in Verbindung bringen. Es interessiert, ob ich aus den Fragebögen (ohne in Zukunft vor Ort Messungen durchführen zu müssen) auf höhere körperliche Belastungsdaten schließen kann.
Angedacht war für die eben zuerst erwähnte Frage beispielsweise die binäre Regression. Problem ist aber jetzt, dass ich zwar 250 Fragebögen habe, aber nur bei 18 von diesen Probanden Messungen durchgeführt wurden. Mit einem N=18 ist eine binäre Regression meines Wissens aber nicht durchzuführen. Nicht mit Aussagekraft zumindest.

Alternative (?):
Wäre es möglich evtl je Proband mehrere Messintervalle (vllt die 10 mittlersten) heranzuziehen, statt mit der mittleren Belastung zu rechnen? Dann würde man zu jedem der Messintervalle die Antwort auf die Frage wiederholen, hätte pro Proband also 10 mal die gleiche Antwort, aber 10 verschiedene Messintervalle?! Klingt für mich ein wenig konstuiert und nicht passend, was meint ihr?

Ansonsten müsste ich wahrscheinlich ein anderes Verfahren heranziehen um meine Frage zu beantworten. Ich wäre euch sehr dankbar wenn ihr mir helfen könntet.

Vielen Dank im Voraus
LG
Patrick

Brauch ihr mehr Information von mir für diese Frage? Wäre nett wenn mir doch noch jemand ein paar Anregungen geben könnte.
Danke euch!