Hallo zusammen,
ich habe folgendes Problem. Ich habe einen Datensatz mit 423 Fällen, der u.a. Heizenergiekennwerte von Gebäuden enthält. Bei einigen Fällen (Gebäuden) existieren unplausibel hohe bzw. niedrige Kennwerte (teilweise weis ich, dass es an defekten Zählern oder ähnlichem liegt). Meine Frage ist nun folgende: Wie gehe ich mit diesen Ausreißern um? Ich selbst habe zwei Sachen versucht:
a) man nimmt an, dass die untersten und obersten 5% der Fälle Ausreißer sind. Die 5% deshalb, da die Kennwerte dann einen Bereich annehmen der inhaltlich plausibel ist. Das das Verfahren allerdings statistisch nicht untermauert ist, habe ich folgendes versucht
b) Bei den Boxplots werden Ausreißer als das 1,5fache (oder mehr) des Quartilsabstand angenommen. Wenn ich damit rechne komme ich für die unplausibel hohen Werte auf ähnliche Ergebnisse wie bei a). Leider kann ich damit nicht die unplausibel niedrigen Werte eliminieren.
Kann mir jemand helfen einen dritten Ansatz zu finden? Oder kann man das vielleicht sogar so machen wie in a)?
Vielen Dank für eure Hilfe
steven
Umgang mit Ausreissern
-
- Beiträge: 939
- Registriert: 13.05.2008, 10:52
ausreisser werden eigentlich nicht nur bei abweichung nach oben ausgewählt, zumindest nicht von der prozedur "explorative datenanalyse". zur not kannst du eine neue variable erstellen (transformieren berechnen), die die abweichung vom kriterium (1,5 fache des quartilsabstandes) enthält, und anhand derer dann die ausreisser nach oben und unten bestimmen.
-
- Beiträge: 5
- Registriert: 08.09.2009, 11:25
Vielen Dank!
Leider kann ich durch den 1,5fachen Quartilsabstand die Ausreißer nach unten nicht erfassen. Es gäbe statistisch keine. Inhaltlich sind die Werte jedoch teilweise vollkommen unplausibel.
Ich musste inzwischen auch feststellen, dass sich unter den Fällen, die ich nach rein inhaltlichen Kriterien als Ausreißer bezeichnen würde, zumindest auch ein Fall befindet, für den der Wert tatsächlich so ist (das ist dann wohl im der Anektode zur Ozonproblematik vergleichbar)
Für meine Auswertung brauche ich die Mittelwerte/ Durchschnittswerte der Kennwerte. Ich habe nun also daran gedacht alle Werte (also auch die Ausreißer) zu berücksichtigen, jedoch nicht den arth. Mittelwert zu nutzen, sondern ggf. M-Schätzer oder den Median. Ich präferiere M-Schätzer, denn dann werden die als inhaltlich unplausibel erachteten Werte berücksichtigt, jedoch mit einem geringeren Gewichtungsfaktor (zumindest bei dem von Huber), oder?. Zum Vergleich meiner Stichprobe mit der Grundgesamtheit (Bundesdurchschnitt) liegt mir das arth. Mittel der Grundgesamtheit vor. Kann ich einen M-Schätzer-Wert nach Huber, aber mit einem arith. Mittelwert vergleichen?
Leider kann ich durch den 1,5fachen Quartilsabstand die Ausreißer nach unten nicht erfassen. Es gäbe statistisch keine. Inhaltlich sind die Werte jedoch teilweise vollkommen unplausibel.
Ich musste inzwischen auch feststellen, dass sich unter den Fällen, die ich nach rein inhaltlichen Kriterien als Ausreißer bezeichnen würde, zumindest auch ein Fall befindet, für den der Wert tatsächlich so ist (das ist dann wohl im der Anektode zur Ozonproblematik vergleichbar)
Für meine Auswertung brauche ich die Mittelwerte/ Durchschnittswerte der Kennwerte. Ich habe nun also daran gedacht alle Werte (also auch die Ausreißer) zu berücksichtigen, jedoch nicht den arth. Mittelwert zu nutzen, sondern ggf. M-Schätzer oder den Median. Ich präferiere M-Schätzer, denn dann werden die als inhaltlich unplausibel erachteten Werte berücksichtigt, jedoch mit einem geringeren Gewichtungsfaktor (zumindest bei dem von Huber), oder?. Zum Vergleich meiner Stichprobe mit der Grundgesamtheit (Bundesdurchschnitt) liegt mir das arth. Mittel der Grundgesamtheit vor. Kann ich einen M-Schätzer-Wert nach Huber, aber mit einem arith. Mittelwert vergleichen?
-
- Beiträge: 939
- Registriert: 13.05.2008, 10:52
ok, dann hab ich das missverstanden. es gibt rechnerisch also keine werte, die nach unten hin stark abweichen. es gibt aber werte, die inhaltlich keinen sinn machen. unmögliche werte kann man natürlich ausschliessen z.b. wenn jemand seine kinderzahl mit 2,1 angeben würde. ob man den einen fall, der tatsächlich so niedrig ist, behalten soll oder nicht, ist auch eine inhaltliche frage. wenn du ihn als anekdote bezeichnest, dann hat er wohl mit den anderen fällen nichts gemeinsam? in dem fall wäre er auch ein ausreisser bzw. gibt es wahrscheinlich noch andere variablen, in denen sich der fall von den anderen fällen unterscheidet.
zum m-schätzer kann ich leider nichts sagen.
zum m-schätzer kann ich leider nichts sagen.