Daten auswählen anhand von vorher bestimten Häufigkeiten

Beitrag von **TineTampere** » 08.09.2011, 14:33

Hallo miteinander,

ich bin neu hier und habe eine Frage zur Datenauswahl bei SPSS.
Ich habe eine Liste mit Logfiles bei denen bestimmte Ausprägungen von Userids (variable) mehrmals vorkommen. Genauer gesagt, sind mehrere Aktionen bestimmter Nutzer aufgezeichnet. Von manchen allerdings nur jeweils eine Aktion.

Ich möchte nun die Daten so bereinigen, dass nur die Userids angezeigt werden, die häufiger als 10 mal vorkommen. Ist das so bei SPSS überhaupt möglich?

Die Anfrage müsste sowas sein wie:

Wähle Fälle aus WHERE userid Häufigkeit größergleich 10

Die Häufigkeiten habe ich zur ersten Übersicht berechnen lassen und SPSS wirft sie mir in einer Extratabelle aus.

Habt ihr Ideen oder Anregungen?

Viele Grüße
Tine

Beitrag von **Generalist** » 08.09.2011, 15:17

Daten aggregieren, dabei Person als break Variable nehmen und Häkchen bei "Zahl der Fäle" (o.s.ä.) setzen.

Beitrag von **TineTampere** » 08.09.2011, 15:33

Hmm soweit so gut, danke für den ersten Hinweis!

ich hatte vllt vergessen zu erwähnen, dass ich noch keinerlei Erfahrung mit SPSS habe.

Er breakt da zwar was, aber ich will als Ausgabe eine Tabelle haben, in der die Userids die seltener als 10x vorkommen gleich rausgelöscht werden... und dabei sollen stehts die restlichen 4 Variablen die ebenfalls in der Tabelle stehen, bestehen bleiben...

Beitrag von **Generalist** » 08.09.2011, 16:23

Leider verstehe ich Dein Anliegen nicht. Daher muss ich raten. Du hast jetzt in eine Variable (nennen wir die Anzahl.Id), die angibt, wie oft die Id einer Zeile im Datensatz insgesamt vorkommt. Jetzt kannst Du Fälle mit Anzahl.Id < 10 ganz filtern ("Fälle auswählen") oder deren Id umkodieren ("Umkodieren in dieselben Variablen", Bedingung "Falls Anzahl.Id < 10).

Beitrag von **TineTampere** » 08.09.2011, 22:12

Leider ist das nicht so einfach

Ich habe eine Liste. Die Liste besteht aus mehreren Spalten (1. userid, 2.bla 3.bla 4.bla).

In der 1. Spalte können die gleichen IDs mehrmals vorkommen, da sie zu einem bestimmten Nutzer gehören. Beispielsweise kommt in der ganzen Spalte 10x userid 123456 vor, 12x 54678 und 8x 22222

Also etwa so: userid spaltenname1 spaltenname2 spaltenname3
123456 nutzer hat dok 1 angklickz
222222 nutzer hat dok 5 angeklict
111111
54678
222222
usw
Ich hoffe man kann den Aufbau so etwas nachvollziehen...

Da die Tabelle riesengroß ist und ich keine Ahnung habe, wie oft die jeweilige userid vorkommt, habe ich eine Häufigkeitsabfrage gemacht über Daten, deskriptive Statistik. Das Ergebnis wurde mir in einer Extratabelle ausgegeben. Somit weiß ich, dass es mehrere userids gibt, die in der ganzen Tabelle öfter vorkommen.

Für meine Analyse brauche ich nun den gleichen Datensatz, indem allerdings nur die userids vorkommen, die in der gesamten Liste mindestens 10x vorkommen. Da das ausdrückt, dass der Nutzer mit der id sowieso 10 Aktionen durchgeführt hat, die aufgezeichnet wurden.

Ich will also eine Art Filter, und nur die Datensätze angezeigt bekommen, bei denen die userids mehr als 10 mal vorkommen, also um beim Beispiel zu bleiben.
Also alle Zeilen mit der Nutzer id 123456 und auch alle Zeilen in denen die userid 54678 vorkommt...

Seehr kompliziert

Ich hoffe das ist so verständlicher...

Beitrag von **Generalist** » 08.09.2011, 23:15

Ich schreibe es jetzt zum dritten und letzten mal: Du fügst mit Aggregieren eine weitere Variable (Spalte) hinzu, in der drinsteht, wie oft die Userid der Zeile im Datensatz insgesamt auftaucht. Wenn 123456 50mal auftritt, dann enthält diese neue Variable (Spalte) bei jedem Auftreten von 123456 eben die Zahl 50. Nach dieser durch Aggregieren gebildeten neuen Variablen kannst Du nach Herzenlust filtern. "Wenn die neue Variable > 10, dann benutze diesen Fall (diese Zeile) für die Auswertung". Je nach Gusto kann man die nicht gewünschten Fälle damit auch ganz löschen.

Beitrag von **TineTampere** » 09.09.2011, 07:25

Ah okay, jetzt hab ich verstanden was du meinst. Nun aber meine nächste Frage, das mit dem aggregieren hatte ich gestern schonmal ausprobiert,
wie mache ich dem Programm denn klar, dass er in die neue Spalte die Häufigkeit reinschreiben soll. Kann ich die neue Variable irgendwo festlegen, damit ich sie dann dort auswählen kann?

Und wie schaffe ich es, dass er in meiner Tabelle die neue Spalte hinzufügt? Gestern hatte ich dann auf einmal eine neue Tabelle mit nur 2 Spalten, also der userid und der break-spalte.

Danke für deine Geduld:)