Relative Häufigkeiten - fehlende Werte

Beitrag von **AmyMiller** » 08.04.2019, 10:57

Hallo alle zusammen,
ich möchte in meiner Arbeit verschiedene deskriptive Daten bzw. Häufigkeiten berichten. Leider habe ich nun ein paar missing data (nicht viele , aber immer mal wieder 2-5 fehlende Werte).

Nun frage ich mich, welche relative Häufigkeit ich berichten soll. Die der "gültigen Prozent", also dass 100= alle die geantwortet haben und dann relativ zu dieser Stichprobe oder von der Gesamtprobandenanzahl?

Beispielweise bei der Fragestellung, wie viele Probanden nun Nichtraucher sind und 2 Personen haben nicht geantwortet, ob sie aktuell rauchen oder nicht. Wäre es also besser anzugeben wie viel Prozent derer, die geantwortet haben, sind nun Nichtraucher oder wie viel Prozent aller Probaneden sind nun Nichtraucher? Darf ich dann überhaupt sagen, dass beispielsweise 20% der Probanden nun Nichtraucher sind?

Irgendwie bin ich ein wenig verwirrt, aber vlt. stehe ich ja auch nur auf dem Schlauch und mir kann jemand helfen!?
Vielen lieben Dank schon einmal!

Beitrag von **dutchie** » 08.04.2019, 20:02

hallo Amy

du gibst an wie groß N = 100 (z.B.) ist, also mit missings.
dann gibst du auf jedenfall die absoluten Zahlen an:
40 Raucher 40 Nichtraucher und 20 missings...

Prozente müssen hier gar nicht sein...
eher falsch wäre: 40% der probanden sind Nichtraucher.
das wäre nur richtig wenn alle missings raucher wären..
eher richtig wäre: mindestens 40% der probanden sind Nichtraucher.
richtig ist: 50% der gültigen werte sind Nichtraucher.

aber das ganze ist nicht ohne, wenn du die absoluten werte berichtest ist alles
gesagt, den rest kann sich der leser in % selber zusammenreimen.
Das Bedürfnis alles in % anzugeben ist nicht notwendig, eher eine gewohnheit.

gruß
dutchie

Beitrag von **TobyWonder** » 09.04.2019, 20:15

Hey!

Gute Frage - wäre auch eine (von vielen) Fragen gewesen, die ich dazu gehabt hätte. Also ist es eher der Gang der Dinge, dass man die Anzahl von N angibt - unabhängig davon, wie viele aus Gruppe von N dann wirklich geantwortet haben?

Bei mir ist es nämlich ähnlich, dass ich etwa 100 Teilnehmer hatte und etwa nur die Hälfte hat bis zum Ende durchgehalten....Gehe ich dann trotzdem von den 100 aus und kennzeichne (je nach Fragenbeteiligung) die nicht dran teilnehmenden. Ist ja de facto auch noch einmal ein Unterschied zwischen nicht zu Ende ausgefüllt und deswegen nicht teilgenommen oder nicht teilgenommen, weil Frage übersprungen....

Vielen lieben Dank!

Edit:

Ich glaube mich korrigieren zu müssen nachdem ich noch einmal drüber nach gedacht habe. Insofern der Teilnehmer die Daten noch einmal hätte ändern können, darf man m.E. nicht beendete Fragebögen nicht mit auswerten. Wenn man jedoch nicht zurückgehen kann (erinnert mich schwer an Super Mario aufm GameBoy...yesssss...sooooo alt

), dann kann man es unter vorbehalt mit berücksichtigen...Sehe ich das richtig?

Beitrag von **dutchie** » 09.04.2019, 20:47

hallo

alle Teilnehmer an der Befragung = N , unabhängig davon ob die geantwortet haben..
auch wenn die nur kurz einen blick drauf werfen und dann einschlafen..
dann gilt es zu beschreiben wer wann wie warum keinen vollständigen datensatz (n<N) produziert...

auf diese differenzieren hat man oft keinen bock..muss aber sein!
ansonsten kann man z.B. Repräsentanz der Stichprobe nicht beurteilen...
man kann auch nicht entscheiden ob die missings random sind... bzw. ob die statsitken verzerrt sind...

TobyWonder hat geschrieben:Ist ja de facto auch noch einmal ein Unterschied zwischen nicht zu Ende ausgefüllt und deswegen nicht teilgenommen oder nicht teilgenommen, weil Frage übersprungen....

genauso machst du das, ist ja kein problem das festzustellen,
wenn du 50% dropout hast, ist eher das dein thema und weniger die ursrünglichen Hypos..
dann ist die befragung eben nicht gelungen...

gruß
dutchie

Beitrag von **dutchie** » 09.04.2019, 20:54

Hallo #toby

verstehe dein edit nicht wirklich.
man kann auch unvollständige datensätz benutzen..kommt drauf an...

ob die daten wie gändert worden?
da besteht zwischen online und paper pecile ein unterschied
die befragten sind eigentlich nicht zu einer reihenfolge der beantwortung gezwungen
bereits gegebene fragen zu ändern ist doch kein problem?

gruß

Beitrag von **TobyWonder** » 09.04.2019, 21:29

Hey Dutchie,

ah okay - dachte ich selektiere am Anfang und definiere so das bereinigte N (bei mir: alle beendeten Umfragen) und begründe das einmal global. Aber nach Deinen jetzigen Ausführungen nehme ich alle Teilnehmer erst einmal auf (=N) und beschreibe die jeweiligen Absprünge (haben Umfrage ab hier nicht weiter beantwortet) bzw. Auslassungen (hatten keine Meinung zu einer Frage). Die Ausdifferenzierung macht sicherlich doch Laune.

Und wenn ich dann zwischen Antworten verlinke, d.h. Beziehungen aufbauen will, dann muss n jedoch gleich sein? (für einen mit Statistik-Know-How wahrscheinlich leicht "Au-Backe-Frage").

Und bzgl. Stichprobe hätte ich dann auch eine Frage, aber will es vorerst nicht übertreiben

Vielen, vielen, vielen Dank!

VG

Toby

Beitrag von **dutchie** » 10.04.2019, 18:31

hallo toby

TobyWonder hat geschrieben:Und wenn ich dann zwischen Antworten verlinke, d.h. Beziehungen aufbauen will, dann muss n jedoch gleich sein?

nicht unbedingt kommt auf die frage an..
du korreliert x mit y bei n=230
un x mit z bei n= 150
problem ist aber dass du dann immer eine andere stichprobe hast
da muss man sich genau überlegen, wie mit den missing verfahren werden soll.
z.B berechen ich den Gesamtsore eine testes für Probend xy wenn 50 % der Items fehlen...

gruß
dutchie

Beitrag von **TobyWonder** » 11.04.2019, 10:30

Hey Dutchie!

Okay. Vielleicht habe ich es noch nicht ganz verstanden, aber wenn ich immer auf die gleiche Stichprobe (mit den gleichen Teilnehmern, d.h. n bleibt nicht gleich, weil einmal einer sich ausgeklammert hat und bei der nächsten Frage ein anderer sich ausgeklammert hat) verlinke, dann sollte das doch m.E. ohne Problem sein, oder?

..

Vielen Dank!

Toby

Beitrag von **dutchie** » 11.04.2019, 20:26

hallo Toby

ich weiß nicht nicht was du mit verlinken meinst.

Wenn du ein Groß N hast und dieses in der Stichprobenbeschreibung definiert hast,
und bei einzelnen analyse ein kleineres n angibst,
ist klar das der unterschied fehlende werte markiert.
aber beide Nns müssen gegeben sein das Maximal N und das aktuell n.
wobei N konstant ist und n sich je nach umständen ändert.

und mit stichprobe sind nicht die Leute gemeint sondern die Zahlen.
ok

gruß
dutchie

Beitrag von **TobyWonder** » 12.04.2019, 10:04

Hey Dutchie!

Vielen Dank...ick weiß es ist nicht einfach mit mir

...Danke für Deine Geduld.

Okay. Intuitiv habe ich jeweils (groß) N definiert, wie Du es beschrieben hattest:

dutchie hat geschrieben:alle Teilnehmer an der Befragung = N , unabhängig davon ob die geantwortet haben..
auch wenn die nur kurz einen blick drauf werfen und dann einschlafen..

Bei dem jeweiligen (kleinen) n pro Frage die jeweilige Teilnehmersumme.

Jetzt war (bin) ich der Meinung, dass wenn man Bezüge zwischen den Fragen herstellt (das meine ich mit Verlinkung), dass die Vergleichsmasse gleich sein muss, bspw. wenn 90 (von 100 = n) gerne Bier trinken und 30 (von 50 =n) nur einmal während der Feier aufs Klo gehen müssen, kann ich doch nicht behaupten, dass da ein Zusammenhang (unabhängig vom Inhalt) besteht, wenn das n nicht gleich ist, oder? Muss ich nicht vielmehr schauen, ob die Bierbefürworter aus der ersten Frage gleichsam einmal aufs Klo gehen. Spitzen-Bsp - ich weiß

.

Und bzgl. der Stichprobe ging ich immer davon aus, dass ich (eine wie auch immer abgegrenzte Gesamtheit habe, woraus ich z.B. per Zufall eine Stichprobe gezogen habe). Also 1000 gibt es insgesamt und 278 (95/5) ist meine Stichprobe. Soviel Rückfluss bräuchte ich ja, um den Rahmenbedingungen (95% Konfidenzintervall / 5 % Fehlerspanne) gerecht zu werden. Klar - müsste natürlich viel mehr anschreiben, damit ich auf die 278 komme, je nachdem mit welcher Rücklaufquote ich rechne. Aber bei mir ist es jetzt so, dass ich auch alle hätte anschreiben können und dennoch komme ich nicht auf diesen Wert. Dennoch ist die Auswertung m.E. sinnvoll, da es ein Spezialthema ist. Wie machen die das denn, die nur 10 Leute befragen...deren Ergebnis muss doch nicht schlechter sein - es geht doch eher darum, ob die Merkmale, die ich definiere durch die Gruppe abgedeckt werden - und das tun sie m.E. alle 1000.

...weißt wie ichs mein?

Besten DAnk!!

Beitrag von **dutchie** » 12.04.2019, 18:40

hallo Toby

äää??? nein - ich weiß nicht was du meinst!

bezüglich bier und klo, hast du doch vier stichproben, je nachdem welche die größte
ist bestimmt ob es einen zusmmenhnag gibt..

gruß
dutchie

Beitrag von **TobyWonder** » 13.04.2019, 00:43

Hey Dutchie,

ich bin konfus...aber so richtig

.

Wieso jetzt vier Stichproben?

VG

Statistik-Tutorial Forum

Relative Häufigkeiten - fehlende Werte

Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte

Re: Relative Häufigkeiten - fehlende Werte