Stichproben zusammenführen

Beitrag von **ravengor** » 08.11.2011, 15:58

Hallo

Kennt jemand eine Theorie oder irgendwelche Werke ob und wie Daten aus zwei Stichproben der gleichen Grundgesamtheit zusammengeführt werden können?

Die Sache ist die, dass ich eine Stichprobe habe, bei der der Verdacht besteht, dass aufgrund des Ziehungsverfahrens ein Systematischer fehler (zu häufig gezogene Objekte eines betimmten Typs) drin ist. Ich habe eine weitere Stichprobe zur Verfügung, welche unabhängig von der ersten Gezogen wurde und die eine reine Zufallsstichprobe ist.
Allerdings hat die zweite Stichprobe nicht alle Attribute meiner beobachteten Objekte (systembedingt nicht erfassbar mit der zweiten Ziehungsmethode) - im gegensatz zur ersten Stichprobe, welche alle Attribute erfasst.

Wenn ich nun einfach beide Datensätze zusammenkopiere macht das wenig Sinn, da ich dann sehr viele (etwa 50:50) leere Werte für wichtige Parameter habe, was eine Auswertung auf der Basis der Stichprobe unsinnig und unmöglich macht.

Was ich versuchen wollte, ist dass ich die Verteilung der vollständigen aber verzerrten Stichprobe mit der unvollständigen aber rein zufälligen korrigiere.

Ich brauche dann aber ein Mass um die Korrektur betimmen zu können und hinweise wie viel Fehler durch diese Methode zusätzlich generiert wird.

Danke für eure Hilfe.

Gruss

Beitrag von **Generalist** » 08.11.2011, 23:01

Das ist alles doch sehr abstrakt geschildert. Solche Probleme löst man aber konkret. Was ist denn da jetzt die konkrete Fragestellung, wer wurde da gemessen, worin bestehen die Messungen ("Attribute"), was hat es mit dem Zieheungsverfahren auf sich, wie groß sind die Stichproben?

Beitrag von **ravengor** » 09.11.2011, 08:01

Hallo

Hier die Geschichte etwas detaillierter:
Ich habe eine Grundgesamthet von Millionen von Paketen (Versand).
Wir haben ein Zeihungsverfahren, die zu bestimmten Zeiten an bestimmten Orten Pakete aus der Sortierung nimmt und sie genau unter die Lupe nimmt (sprich Messungen vornimmt wie Gross, Schwer, Bestimmungsort, etc).
Dieses Verfahren, da sie von Menschen durchgeführt wird ist fehlerbehaftet: aus Bequemlichkeiten werden Pakete direkt nacheinander gezogen (was aus verschiedenen Gründen zu Verzerrungen führt) und/oder der Ziehungsplan gemäss derer gezogen werden soll(te) ist schlecht.
Alternativ, können wir dieses Anschau-Spielchen durch Menschen, durch eine Maschine machen lassen, die kann aber die Gewichte nicht messen.
Vorteil: Maschine wählt anhand einer (pseudo)-Zufallsgenerator zu analysierende Pakete (=Zufallsstichprobe wie man's gern hat) und man braucht keine Ziehungspläne.
Die Stichprobe (von Mensch Erhoben) hat einen Volumen von 20000 Paketen (etwa).
Die Maschinell generierte kann theoretisch auch eine Vollerhebung werden, zur Zeit ist's auf 20000 festgelegt. Aber eben: ohne wie ziemlich wichtige Info (Gewicht).
Natürlich wäre eine Waage in der Sortieranlage die beste Lösung

dann müsste ich auch keine weiteren Fragen stellen...
Ich habe bereits die Gewichte durch ein GLM-Modell simuliert (die Lösung ist ganz passabel) aber da es sehr aufwendig ist das Modell zu validieren und immer aktuell zu halten wollte ich noch alternative Verfahren prüfen.

Danke für die Hilfe.

Gruss

Beitrag von **Generalist** » 09.11.2011, 08:36

Das Untersuchungsziel ist die Berechnung (Schätzung) der Paketgewichte? Ich weiß nicht, wie Du mit GLM gerechnet hast, vielleicht analog zu dem, was mir einfallen würde:multiple Regression an einem Teil von Datensatz 1, Überprüfung (Validierung) an den übrigen Fällen anhand dem restlichen Datensatz 1, schließlich Verwendung der ermittelten Regressionskoeffizienten in Datensatz 2. Allerdings ist mir unklar, was es mit

Ich habe bereits die Gewichte durch ein GLM-Modell simuliert (die Lösung ist ganz passabel) aber da es sehr aufwendig ist das Modell zu validieren und immer aktuell zu halten

auf sich hat. So eine Berechnung ist ja normalerweise schnell erstellt, wenn die Daten erst einmal vorliegen.

Beitrag von **ravengor** » 09.11.2011, 10:13

Hallo

Ja ich habe sowas wie lineare regression auf den Daten gemacht um die Gewichte zu schätzen. Das funktioniert ganz gut, aber eben mein Ziel ist es einen alternativen Weg zu finden.
Ich müsste die Daten ohne Gewichte irgendwie so verwenden können, dass ich keine Gewichte schätzen muss, sondern lediglich die bekannte eigenschaft der Datenmenge, dass sie wirklich zufällig ist, verwende.

Gibt es eine Möglichkeit?

Danke, Gruss