Überprüfung Repräsentativität
-
- Beiträge: 4
- Registriert: 26.06.2012, 16:59
Überprüfung Repräsentativität
Hallo zusammen!
Ich schreibe gerade meine Diplomarbeit und stehe vor einem statistischen Problem.
Zum Hintergrund: Es gibt zwei Datensätze. Der eine Datensatz (B) besteht aus nach bestimmten Kriterien ausgewählten Untersuchungseinheiten des Datensatzes (A). Ich soll nun überprüfen, ob die Untersuchungseinheiten in Datensatz B eine repräsentative Subpopulation des Datensatzes A darstellen.
Ich würde vermuten hierfür eignen sich am besten Mittelwertsvergleiche in Form eines z-tests (die Anzahl der Beobachtungen ist relativ groß). Liege ich da richtig? Was gibt es noch für weitere Alternativen, um obige Fragestellung statistisch "sauber" zu untersuchen?
Vielen Dank im Voraus für Eure Hilfe - wäre echt sehr glücklich ein paar Antworten zu bekommen!
Ich schreibe gerade meine Diplomarbeit und stehe vor einem statistischen Problem.
Zum Hintergrund: Es gibt zwei Datensätze. Der eine Datensatz (B) besteht aus nach bestimmten Kriterien ausgewählten Untersuchungseinheiten des Datensatzes (A). Ich soll nun überprüfen, ob die Untersuchungseinheiten in Datensatz B eine repräsentative Subpopulation des Datensatzes A darstellen.
Ich würde vermuten hierfür eignen sich am besten Mittelwertsvergleiche in Form eines z-tests (die Anzahl der Beobachtungen ist relativ groß). Liege ich da richtig? Was gibt es noch für weitere Alternativen, um obige Fragestellung statistisch "sauber" zu untersuchen?
Vielen Dank im Voraus für Eure Hilfe - wäre echt sehr glücklich ein paar Antworten zu bekommen!
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
Liege ich da richtig?
Nein. Eigentlich entspricht die Fragestellung der einer sauber durchgeführten Randomisierung. Und die würde mit einem verallgemeinerten Linearen Modell oder einem Log. Modell geprüft. Du hast die abhängige Variable: Gruppenzugehörigkeit - zwei Gruppen A, B und als "vorhersagende" Variablen eben die übrigen. Keine der "vorhersagenden" Variablen sollte signifikant sein p<0,05.
drfg2008
-
- Beiträge: 4
- Registriert: 26.06.2012, 16:50
Vielen Dank für Deine Antwort und Hilfe!
Das ist auf alle Fälle eine super Möglichkeit die Repräsentativität insegsamt zu überprüfen. Ich werde das entsprechend einbauen.
Zudem gibt es in den beiden Datensätzen einige Variablen, die bestimmte Informationen über die Untersuchungseinheiten beinhalten. Ich soll nun hier auch für jede Variable einzeln prüfen, ob es Unterschiede gibt zwischen den Untersuchungseinheiten in beiden Datensätzen (wobei der eine Datensatz eine Teilmenge des anderen Datensatzes ist). Könnte ich hier systematische Unterschiede mit Hilfe von Mittelwertsvergleichen finden (t-Test oder z-Test)? Oder gebe es auch hier eine andere (bessere) Alternative?
Was ich nämlich eingangs nicht erwähnt hatte (sorry dafür) ist, dass man davon ausgehen kann, dass er eine Datensatz nicht repräsentativ für den anderen ist. Ich sollte dann also die auftauchenden Unterschiede noch genauer untersuchen...
Vielen Dank für Eure Hilfe - ich weiß das wirklich sehr zu schätzen!
Das ist auf alle Fälle eine super Möglichkeit die Repräsentativität insegsamt zu überprüfen. Ich werde das entsprechend einbauen.
Zudem gibt es in den beiden Datensätzen einige Variablen, die bestimmte Informationen über die Untersuchungseinheiten beinhalten. Ich soll nun hier auch für jede Variable einzeln prüfen, ob es Unterschiede gibt zwischen den Untersuchungseinheiten in beiden Datensätzen (wobei der eine Datensatz eine Teilmenge des anderen Datensatzes ist). Könnte ich hier systematische Unterschiede mit Hilfe von Mittelwertsvergleichen finden (t-Test oder z-Test)? Oder gebe es auch hier eine andere (bessere) Alternative?
Was ich nämlich eingangs nicht erwähnt hatte (sorry dafür) ist, dass man davon ausgehen kann, dass er eine Datensatz nicht repräsentativ für den anderen ist. Ich sollte dann also die auftauchenden Unterschiede noch genauer untersuchen...
Vielen Dank für Eure Hilfe - ich weiß das wirklich sehr zu schätzen!
-
- Beiträge: 4
- Registriert: 26.06.2012, 16:50
Danke für das Feedback. In der Tat war ich wahrscheinlich zu wenig konkret. Deshalb nun ein konkretes Beispiel:
In der Literatur finden sich zahlreiche Hinweise, dass die Struktur der Beschäftigten eines Betriebs (insbesondere Anzahl Voll- vs. Teilzeitbeschäftigte) einen Einfluss auf dessen Weiterbildungsverhalten hat (da Teilzeitbeschäftigte weiterzubilden aus Sicht der Unternehmen eventuell weniger lukrativ ist, weil es aufgrund der kürzeren Arbeitszeit dieser Mitarbeiter weniger von den positiven Effekten der Weiterbildung profitiert).
Es gibt nun zwei Datensätze (Untersuchungseinheiten sind jeweils Unternehmen), in denen auch Informationen darüber enthalten sind, wieviele Voll- und Teilzeitbeschäftigte in der jeweiligen Firma tätig sind. Datensatz A enthält alle befragten Betriebe. Datensatz B enthält nur eine Teilmenge der Betriebe aus Datensatz A, dafür aber eine Menge weiterer Infomationen, mit deren Hilfe interessante Forschungsfragen beantwortet werden können.
Mich interessiert nun, welche statistische Möglichkeiten es gibt, zu untersuchen, ob die Unternehmen in Datensatz B sich nicht systematisch unterscheiden von allen in Datensatz A enthaltenen Unternehmen hinsichtlich der Struktur der Beschäftigten.
Es gibt noch eine Vielzahl weiterer Variablen, die ich gerne analog untersuchen möchte.
Meines Erachtens könnte das Ganze gut mit einem z-Test oder t-Test überprüft werden. Meine Frage ist, ob ich mich hier auf dem Holzweg befinde und ob es noch andere (bessere) Verfahren gibt, die mir bei der Beantwortung meiner Fragestellung helfen können.
Ich hoffe das Ganze ist nun etwas klarer. Falls nicht, bin ich natürlich jederzeit offen für weiteres Feedback! Herzlichen Dank für Eure Hilfe!
In der Literatur finden sich zahlreiche Hinweise, dass die Struktur der Beschäftigten eines Betriebs (insbesondere Anzahl Voll- vs. Teilzeitbeschäftigte) einen Einfluss auf dessen Weiterbildungsverhalten hat (da Teilzeitbeschäftigte weiterzubilden aus Sicht der Unternehmen eventuell weniger lukrativ ist, weil es aufgrund der kürzeren Arbeitszeit dieser Mitarbeiter weniger von den positiven Effekten der Weiterbildung profitiert).
Es gibt nun zwei Datensätze (Untersuchungseinheiten sind jeweils Unternehmen), in denen auch Informationen darüber enthalten sind, wieviele Voll- und Teilzeitbeschäftigte in der jeweiligen Firma tätig sind. Datensatz A enthält alle befragten Betriebe. Datensatz B enthält nur eine Teilmenge der Betriebe aus Datensatz A, dafür aber eine Menge weiterer Infomationen, mit deren Hilfe interessante Forschungsfragen beantwortet werden können.
Mich interessiert nun, welche statistische Möglichkeiten es gibt, zu untersuchen, ob die Unternehmen in Datensatz B sich nicht systematisch unterscheiden von allen in Datensatz A enthaltenen Unternehmen hinsichtlich der Struktur der Beschäftigten.
Es gibt noch eine Vielzahl weiterer Variablen, die ich gerne analog untersuchen möchte.
Meines Erachtens könnte das Ganze gut mit einem z-Test oder t-Test überprüft werden. Meine Frage ist, ob ich mich hier auf dem Holzweg befinde und ob es noch andere (bessere) Verfahren gibt, die mir bei der Beantwortung meiner Fragestellung helfen können.
Ich hoffe das Ganze ist nun etwas klarer. Falls nicht, bin ich natürlich jederzeit offen für weiteres Feedback! Herzlichen Dank für Eure Hilfe!
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Es müssten verglichen werden die Unternehmen, die in Datensatz B
sind mit Unternehmen, die nicht in Datensatz B sind. Falls das
Vergleichskriterium allein sein soll "Anteil Teilzeitbeschäftigte",
so wäre ein U-Test die einfachste Möglichkeit.
Sofern ein inferenzstatistischer Test überhaupt zielführend sein kann --
bei kleinen Stichproben ist sowas oft nicht sensitiv genug, bei großen
Stichproben werden auch unerhebliche Unterschiede "signifikant".
sind mit Unternehmen, die nicht in Datensatz B sind. Falls das
Vergleichskriterium allein sein soll "Anteil Teilzeitbeschäftigte",
so wäre ein U-Test die einfachste Möglichkeit.
Sofern ein inferenzstatistischer Test überhaupt zielführend sein kann --
bei kleinen Stichproben ist sowas oft nicht sensitiv genug, bei großen
Stichproben werden auch unerhebliche Unterschiede "signifikant".
-
- Beiträge: 4
- Registriert: 26.06.2012, 16:50
Vielen Dank für Deine Antwort und die große Hilfe!
Ich habe mich etwas informiert und bin dabei auf ein paar weitere Fragen gestoßen, bei denen ich mir unsicher bin:
1. Die Datensätze sind sehr unterschiedlich, was ihre Größe betrifft. Datensatz B enthält ungefähr 150 Unternehmen, wohingegen Datensatz A über 15000 Betriebe enthält. Somit gibt es mit der Signifikanz auf alle Fälle Probleme. Könnte ich das Problem mindern, wenn ich Effektstärken berücksichtige oder macht das in diesem Fall keinen Sinn (1. aufgrund der Megagröße des Datensatzes A sowie dem großen Unterschied der beiden Datensätze?).
2. Bei meinen Recherchen fand ich heraus, dass der U-test im Prinzip weniger strenge Voraussetzungen hat als der t-test (hinsichtlich Normalverteilung und Variablenskalierung). Ich hoffe die Frage ist nicht zu blöd, aber wieso gibt es dann überhaupt den t-test? Ist er genauer, falls die Voraussetzungen erfüllt sind?
3. Du sagtest ein inferenzstatistischer Test ist eventuell nicht zielführend hier. Gäbe es deiner Meinung nach andere Möglichkeiten das Ganze zu untersuchen?
Vielen Dank auf alle Fälle für die große Hilfe. Ich sehe, dass es Zeit wird ein paar Grundlagenbücher zu diesen Themen zu lesen. Das Ganze ist zu Beginn doch recht komplex für den Laien... Ich hoffe schnell zu lernen und bald weniger "Beginnerfragen" zu stellen...
Ich habe mich etwas informiert und bin dabei auf ein paar weitere Fragen gestoßen, bei denen ich mir unsicher bin:
1. Die Datensätze sind sehr unterschiedlich, was ihre Größe betrifft. Datensatz B enthält ungefähr 150 Unternehmen, wohingegen Datensatz A über 15000 Betriebe enthält. Somit gibt es mit der Signifikanz auf alle Fälle Probleme. Könnte ich das Problem mindern, wenn ich Effektstärken berücksichtige oder macht das in diesem Fall keinen Sinn (1. aufgrund der Megagröße des Datensatzes A sowie dem großen Unterschied der beiden Datensätze?).
2. Bei meinen Recherchen fand ich heraus, dass der U-test im Prinzip weniger strenge Voraussetzungen hat als der t-test (hinsichtlich Normalverteilung und Variablenskalierung). Ich hoffe die Frage ist nicht zu blöd, aber wieso gibt es dann überhaupt den t-test? Ist er genauer, falls die Voraussetzungen erfüllt sind?
3. Du sagtest ein inferenzstatistischer Test ist eventuell nicht zielführend hier. Gäbe es deiner Meinung nach andere Möglichkeiten das Ganze zu untersuchen?
Vielen Dank auf alle Fälle für die große Hilfe. Ich sehe, dass es Zeit wird ein paar Grundlagenbücher zu diesen Themen zu lesen. Das Ganze ist zu Beginn doch recht komplex für den Laien... Ich hoffe schnell zu lernen und bald weniger "Beginnerfragen" zu stellen...
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
"Auf alle Fälle" sicherlich nicht. Warum sollte es?Datensatz B enthält ungefähr 150 Unternehmen, wohingegen Datensatz A über 15000 Betriebe enthält. Somit gibt es mit der Signifikanz auf alle Fälle Probleme.
Der ist bei Erfüllung der Voraussetzungen sensitiver als ein U-Test, undIch hoffe die Frage ist nicht zu blöd, aber wieso gibt es dann überhaupt den t-test?
er testet außerdem Mittelwertsunterschiede, was der U-Test (der basiert
auf Rängen) nicht leisten kann.
Deskriptivstatistik. Bei 14'850 und 150 braucht man doch keineGäbe es deiner Meinung nach andere Möglichkeiten das Ganze zu untersuchen?
Signifikanztests mehr. Mal davon ab, interessiert normalerweise hier,
ob Unterschiede groß oder klein sind, aber nicht, ob inferenzstatistisch
"signifikant".