Hallo Leute,
Ich habe einen Datensatz mit Angaben zu unterschiedlichen Firmen, indem eine Menge Missing Values auftauchen. Diese machen etwa 50% des gesamten Datensatzes aus. Ein Missing Value wurde im Datensatz immer dann eingetragen, wenn die Anzahl an Firmen innerhalb eines Landkreises <= 2 ist.
Für meine spätere Analyse könnte ich nun die Missing Values einfach weglassen oder sie durch repräsentative Werte ersetzen. Ich habe mich für das Ersetzen entschieden, da es auch sehr viele Landkreise ohne Firmen gibt und ich später in meiner Analyse diese abtrennen will von solchen die wenigstens eine oder zwei Firmen haben.
Die Verteilung meiner Variablen (z.B. die Zahl der angestellten) ist extrem linksschief, der Mittelwert ist daher nicht repräsentativ. Ich dachte mir daher den Median ggf. als Repräsentanten zu nehmen. Das ist aber eine rein subjektive Idee und ich weiß nicht ob das formal in Ordnung geht.
Hat jemand eine Ahnung was ich da machen kann?
Umgang mit Missing Values bei schiefer Verteilung
-
- Beiträge: 1
- Registriert: 12.11.2012, 15:46