Frage zur Vorgehensweise

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
smith0815
Beiträge: 4
Registriert: 13.08.2011, 20:58

Frage zur Vorgehensweise

Beitrag von smith0815 »

Hi

Ich habe einen Datenpaket von ca. 800.000 Datensätzen.
Jeder Datensatz enthält dabei genau 38 einzelne Merkmale.
Die Merkmale bestehen aus realen oder boolschen Werten.

Das ganze Datenpaket habe ich zur späteren Regressionsanalyse
in 3 Teile geteilt,

- Trainingsdaten ca. 400.000 Datensätze
- Testdaten ca. 60.000 Datensätze
- Validierungdaten ca. 350.000 Datensätze

Da die spätere Verwendung teilweise Probleme mit großen
Datenmengen hat, habe ich beschlossen die Trainingsdaten und
die Testdaten zu tauschen.

Die Datensätze wurden vor der Teilung aber gemischt, erwarte ich also,
dass trotz des Tausches ähnliche Ergebnisse rauskommen sollten.

Kann ich nur anhand der Datensätze genau dieses nachweisen?
smith0815
Beiträge: 4
Registriert: 13.08.2011, 20:58

Beitrag von smith0815 »

Hat denn keiner eine Lösung für mein Problem???

Vielleicht kann der Korrelartionskoeffizient helfen, doch der benötigt immer bestimmte Voraussetzungen, die aber nicht jeder Teil der Daten erfüllt.
z.B. bei den boolschen Werten gibt es keine Normalverteilung.
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten