Hallo,
ich habe ein Problem mit dem Zusammenfügen von 3 Datensätzen einer Quasi-Längsschnittstudie (zu den 3 verschiedenen MZP wurden je andere Variablen erhoben). Aufgrund der trotz hohem Dropouts noch recht großen Stichprobe (N = jeweils zu T1: ca. 3500; T2: ca. 1200; T2: ca.800) ist es fast unmöglich, das alles manuell zu machen - ich hoffe, hier finde ich Hilfe.
- Es wurde ein 6-stelliger Code (Buchstaben-Zahlen-Kombination) benutzt
- manche Teilnehmer haben die Buchstaben innerhalb des 6-stelligen Codes teils zu einem Messzeitpunkt groß, zum nächsten dann klein geschrieben
- unglücklich gewählter Code: insbesondere zu T1 gibt es mehrere Doppel- teils Dreifachbelegungen ein und desselben Codes
- nach erster Inspektion scheint es diverse Fälle zu geben, bei denen im Code z.B. nur eine Zahl anders ist ("verrechnen" ist möglich, da eine Summe gebildet werden musste), d.h. manuell nachkorrigiert werden könnte - blöd, dass es 3 Datensätze sind...
- Weitere "Hilfsvariablen" gibt es keine (Emailadresse als Kontakt für die weiteren Messzeitpunkte liegt leider nur für T1 vor).
- die zeitlich späteren Datensätze enthalten mehrheitlich die Personen der früheren Zeitpunkte, es haben sich aber auch leider neue Personen "eingeschlichen", so dass ich quasi neue Personen UND neue Fälle habe, die es zu kombinieren gibt
- ach ja: bei uns wird SPSS 17 genutzt
Gibt es eine Möglichkeit, wie man sich ( - vor einer wohl zumindest teilweise nötigen manuellen Nachbesserung ? -) die "eindeutigen" Matches anzeigen lassen kann oder dafür eine Variable automatisch kreieren lassen kann, so dass man danach sortieren kann?
Welche Lösung(en) gibt es, damit man das nicht alles manuell machen muss???
Für Hilfe wäre ich echt dankbar!
3 Datensätze kombinieren - Problem Schlüsselvariable
-
- Beiträge: 1
- Registriert: 20.01.2010, 16:47
-
- Beiträge: 939
- Registriert: 13.05.2008, 10:52
für die groß- und kleinschreibung gibt es schon mal die string-funktionen upper und lower, so dass man alles in klein- oder großbuchstaben umwandeln könnte.
doppel- und dreifachbelegung wird man nur per hand korrigieren können - einfach eine zahl anhängen wäre mein vorschlag.
beim verrechnen ist es so ähnlich: möglicherweise könnte man syntax erstellen für typische fehler, aber wenn es nur einzelne und keine regelmässigkeit vorhanden, dann geht korrektur nur per hand.
gibt es vielleicht eine möglichkeit, einen ganz neuen code zu erstellen z.b. aus emailadresse oder eine kombination aus geburtsdatum, geschlecht und noch einer weiteren variablen? dazu würde ich die variablen kopieren, in string-format umwandeln und per concat und ltrim bzw. rtrim zu einem langen code zusammensetzen. per häufigkeitsverteilung prüfen, ob dies tatsächlich zu einem eindeutigen code führt.
neue personen: ich gehe mal davon aus, das t1 und spätere messpunkte separate dateien sind? dann ich würde zunächst in der datei t1 die neuen fälle anlegen, weil das ja einfach geht, indem man die codes der neuen fälle in der t1-datei in die spalte mit den codes kopiert. so sind alle variablen zu t1 für diese personen leer. spätere messungen können dann als variablen angehängt werden.
doppel- und dreifachbelegung wird man nur per hand korrigieren können - einfach eine zahl anhängen wäre mein vorschlag.
beim verrechnen ist es so ähnlich: möglicherweise könnte man syntax erstellen für typische fehler, aber wenn es nur einzelne und keine regelmässigkeit vorhanden, dann geht korrektur nur per hand.
gibt es vielleicht eine möglichkeit, einen ganz neuen code zu erstellen z.b. aus emailadresse oder eine kombination aus geburtsdatum, geschlecht und noch einer weiteren variablen? dazu würde ich die variablen kopieren, in string-format umwandeln und per concat und ltrim bzw. rtrim zu einem langen code zusammensetzen. per häufigkeitsverteilung prüfen, ob dies tatsächlich zu einem eindeutigen code führt.
neue personen: ich gehe mal davon aus, das t1 und spätere messpunkte separate dateien sind? dann ich würde zunächst in der datei t1 die neuen fälle anlegen, weil das ja einfach geht, indem man die codes der neuen fälle in der t1-datei in die spalte mit den codes kopiert. so sind alle variablen zu t1 für diese personen leer. spätere messungen können dann als variablen angehängt werden.