ich habe eine kurze Frage zur Aufbereitung von Daten für eine Regression.
Wie klassifiziert man (sachlogisch oder statistisch motiviert) intervallskalierte Variablen? Beispielsweise habe ich die Variable "Anzahl Leute in der Firma", die von 6 bis 99 reicht. Nun möchte ich eine Regression rechnen, halte aber eine Standardisierung für ungünstig, da ich denke, dass es eine Grenze für den linearen Zusammenhang mit der Zielvariable gibt. Wie erkenn ich diese Grenze?
Angenommen, die Freude am Ungang mit Kollegen steigt signifikant mit der Zahl der Mitarbeiter, aber nur bis zu einer Mitarbeiterzahl von 20. Dann wüsste ich, dass ich den Trennwert bei 20 Mitarbeitern setze und hätte 2 Ausprägungen?! Stimmt das? Und wie bekomm ich so etwas raus?
Bisher habe ich es so gemacht, dass ich die Ausprägungen einfach bei 50% der Fälle geteilt habe und eine Dummy-Variable draus gemacht habe.
Wär schön, wenn mir das jemand erklären könnte, da fehlt mir echt die Logik für
