Hallo Zusammen,
ich arbeite gerade an einem CRM-Projekt. Nun wird im Kundenbeziehungsmanagement oft gescored – und davon will ich wegkommen, da mir das irgendwie zu willkürlich vorkommt. Gibt es für die Geschlechtsausprägung en, deren hoher Einfluss in einer multiblen logisischen Regression nachgewiesen wurde, für „männlich“ 9 und für „weiblich“ 6 Punkte oder doch nur 9 und 4? Ich glaube ihr wisst, was ich meine.
In meinen MVA-Kursen im Studium habe ich gelernt, dass man in der linearen Regression für jeden einzelnen Fall die Schätzung der Logits ausrechen kann:
Z= konstante + Regressionskoeffizient Variable 1*Ausprägung Variable 1 + …+ Regressionskoeffizient Variable n*Ausprägung Variable n (ich hab da leider die korrekte Formel nicht)
Mit z eines Falls kann man dann die Wahrscheinliche Ausprägung der AV (Kunde tätigt in den nächsten 6 Monaten einen Wiederkauf) berechnen:
P= ez/1+ ez = 1/(1+e-z)
Durch viele alte Kundendaten von Abgeschlossenen Nutzungsintervallen (ich spreche von mehreren Tausend) möchte ich allgemeingülte Werte für die Regressionskoeffizienten der Variablen berechnen. Und dann die Ausprägungen der aktuellen Fälle in die obige Gleichung einsetzen, welche mir dann die Wahrscheinlichkeit eines Wiederkaufs in 6 Monaten für jeden einzelnen Kunden angibt. Das muss man dann nur noch ranken, und schon habe ich eine Liste derer, bei denen sich Dialogmaßnahmen am meisten lohnen.
Irgendwie finde ich das überzeugender als ein Scoringsystem, was denkt ihr?
Das ganze steht vor folgendem Hintergrund:
Es geht in dem Projekt darum, den Wiederkaufszeitpunkt von Bestandskunden zu berechnen. Dabei stehen die ganzen alten Kundendaten der letzten 10 Jahre zur Verfügung, über Profildaten (Geschlecht, Alter, usw), die Nutzungsdauer (so 6-8 Jahre) bis zum Serviceverhalten. Ich habe vor, diese historischen Daten in zwei Gruppen zu teilen: von der einen Hälfte nehme ich den Datenstand wenige Monate nach dem Kauf, von der anderen Hälfte den Datenstand von 6 Monaten vor dem Wiederkauf. Somit habe ich genug echte Beobachtungen: die eine Hälfte hat eben nicht nach sechs Monaten gerebuyt (wow, was für ein Wort), die andere schon.
Ist diese Herangehensweise zulässig? Ist natürlich keine Wissenschaft, aber ich denke, lieber nehme ich die Erfahrungen aus 10000 Fällen abgeschlossenen und wende sie auf die neuen an, als ein Scoringsystem über den Daumen zu brechen.
Oder hat jemand ein alternativvorschlag, was die Methode anbelangt? Eine Zeitreihenanalyse geht leider nicht, hat mir mein Mathematikerkollege gesagt, dazu haben wir zu wenig Beobachtungspunktgspunkte pro Fall.
Bitte gerne nachfragen, falls etwas zu undeutlich ausgeführt ist!
Logistische Regression: Fallweise Wahrscheinlichkeiten
-
- Beiträge: 3
- Registriert: 10.08.2011, 11:39
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
Scoring ist die primitivste Form der Statistik und nur deshalb im CRM weit verbreitet, weil die Heinis dort keinen blassen Schimmer haben. Die können ja nicht einmal programmieren. Allerdings ist meine Erfahrung aus Gesprächen mit Unternehmen, dass komplizierte Vorgehensweisen schnell an Akzeptanzgrenzen stoßen. Was der Bauer nicht kennt, frisst er nicht. Außerdem hat jeder Bauer Angst von seiner Kuh herausgetreten zu werden.Irgendwie finde ich das überzeugender als ein Scoringsystem, was denkt ihr?
Dein Modell ist nicht so ganz klar. Außerdem müsste überlegt werden, mit welchem Programmpaket gearbeitet wird. SAS/SPSS/R. Manchmal wird mit Modeler oder dergleichen gearbeitet, für den Fall, dass die jung dynamischen 'Inhouse-Experts' nur mit der Maus klicken können. Das sind so die Alternativen. Die Zuordnungen werden dann von den Programmpakenten automatisch generiert, auch die Modellparameter.
Als Modelle eignen sich logistische, diskriminanzanalytische, KNN, CHAID usw.
Eigentlich wird ein Datensatz gesplittet, um die Vorhersagen der einen Hälfte gegen die andere Hälfte zu testen. Deine Vorgehensweise ist nicht so klar.Ich habe vor, diese historischen Daten in zwei Gruppen zu teilen: von der einen Hälfte nehme ich den Datenstand wenige Monate nach dem Kauf, von der anderen Hälfte den Datenstand von 6 Monaten vor dem Wiederkauf.
Gruß
drfg2008
-
- Beiträge: 3
- Registriert: 10.08.2011, 11:39
Wow, danke für die schnelle Antwort!
Zu 1:
Weshalb ich meine Idee so gut fand, war genau so ein Einfachheitsgrund: Die Regression müsste nur einmal von mir mit SPSS gerechnet werden, um die Regressionskoeffizienten zu bekommen.
Die stehen dann fest und lasse sie in ein Script programmieren, in das einfach noch die Werte der aktuellen Kunden eingekippt werden.
Als Ergebnis der Analyse käme beispielsweise heraus:
z= Konstante + 0,6*Geschlecht + 0,003*Alter
Die Werte des 53-Jährigen Herrn Meier ergäbe das
z= -2,77 + 0,6*1 + 0,003*53
(-2,77 ist die Konstante, Regressionskoeffizient Alter*1 weil er ein Mann ist, * Regressionskoeffizient Alter*Lebensalter)
das z wird dann in die Gleichung für die Wahrscheinlichkeit P eingesetzt. Das sind zwei sehr einfache Formeln, ich denke, das dürfte sich sehr leicht automatisieren lassen, damit die Kaufwahrscheinlichkeiten der aktuellen Kunden monatlich neu berechnet werden können.
Wir sind in dem Projekt schon als die Statistik-Nerds engagiert worden, von daher denke ich, das wenn wir irgendwas voll abgefahren kompliziertes machen (log.Reg.), was aber nur einmal anfällt und dann ganz einfach implementiert werden kann ganz gut ankommt. Aber auf jeden Fall danke für deine Einschätzungen zur Akzeptanz komplexerer Methoden!
Zu 2.:
Das Problem ist: Jeder ersetzt das Produkt, um das es geht, immer durch ein neues. Daher macht eine AV kauft/kauft nicht keinen Sinn. Richtig interessant ist für mich aber sowieso der Zeitpunkt: ich will vorher wissen, wann jemand einen Rebuy macht. Wenn ich aber nun von allen historischen Kunden den Datenstand 6 Monate vor Rebuy analysiere, habe ich, wenn meine AV "kauft in den nächsten 6 Monaten" lautet, zu 100% "ja beobachtet.
Die Frage ist also: Wer ist reif zum Rebuy? Die, deren Nutzungsintervall zu Ende geht. Wer ist es nicht? Die die gerade erst gekauft haben. Daher die Trennung. Eigentlich ist es gar keine Trennung, der Begriff ist evtl nur Unglücklich gewählt. Von der einen Hälfte Kunden nehme ich den Datenstand, kurz nachdem sie gekauft haben. Dazu füge ich die Daten der anderen Hälfte der Kunden , kurz bevor sie Wiederkaufen. Ich "konstruiere" Quasi eine Beobachtung, bei der eine Hälfte innerhalb von 6 Monaten kauft und die andere Hälfte nicht.
Ich hoffe, das ist so klarer geworden.
Zu 1:
Weshalb ich meine Idee so gut fand, war genau so ein Einfachheitsgrund: Die Regression müsste nur einmal von mir mit SPSS gerechnet werden, um die Regressionskoeffizienten zu bekommen.
Die stehen dann fest und lasse sie in ein Script programmieren, in das einfach noch die Werte der aktuellen Kunden eingekippt werden.
Als Ergebnis der Analyse käme beispielsweise heraus:
z= Konstante + 0,6*Geschlecht + 0,003*Alter
Die Werte des 53-Jährigen Herrn Meier ergäbe das
z= -2,77 + 0,6*1 + 0,003*53
(-2,77 ist die Konstante, Regressionskoeffizient Alter*1 weil er ein Mann ist, * Regressionskoeffizient Alter*Lebensalter)
das z wird dann in die Gleichung für die Wahrscheinlichkeit P eingesetzt. Das sind zwei sehr einfache Formeln, ich denke, das dürfte sich sehr leicht automatisieren lassen, damit die Kaufwahrscheinlichkeiten der aktuellen Kunden monatlich neu berechnet werden können.
Wir sind in dem Projekt schon als die Statistik-Nerds engagiert worden, von daher denke ich, das wenn wir irgendwas voll abgefahren kompliziertes machen (log.Reg.), was aber nur einmal anfällt und dann ganz einfach implementiert werden kann ganz gut ankommt. Aber auf jeden Fall danke für deine Einschätzungen zur Akzeptanz komplexerer Methoden!
Zu 2.:
Das Problem ist: Jeder ersetzt das Produkt, um das es geht, immer durch ein neues. Daher macht eine AV kauft/kauft nicht keinen Sinn. Richtig interessant ist für mich aber sowieso der Zeitpunkt: ich will vorher wissen, wann jemand einen Rebuy macht. Wenn ich aber nun von allen historischen Kunden den Datenstand 6 Monate vor Rebuy analysiere, habe ich, wenn meine AV "kauft in den nächsten 6 Monaten" lautet, zu 100% "ja beobachtet.
Die Frage ist also: Wer ist reif zum Rebuy? Die, deren Nutzungsintervall zu Ende geht. Wer ist es nicht? Die die gerade erst gekauft haben. Daher die Trennung. Eigentlich ist es gar keine Trennung, der Begriff ist evtl nur Unglücklich gewählt. Von der einen Hälfte Kunden nehme ich den Datenstand, kurz nachdem sie gekauft haben. Dazu füge ich die Daten der anderen Hälfte der Kunden , kurz bevor sie Wiederkaufen. Ich "konstruiere" Quasi eine Beobachtung, bei der eine Hälfte innerhalb von 6 Monaten kauft und die andere Hälfte nicht.
Ich hoffe, das ist so klarer geworden.
-
- Beiträge: 2391
- Registriert: 06.02.2011, 19:58
re
das ist eine komplexe Thematik, die ohne genaue Kenntnisse der Daten auf dieser Plattform so allgemein nicht seriös beantwortet werden kann.
Ich kenne jedenfalls nur aus eigener Erfahrung Modelle, die ganze Seiten umfassen. Mit zwei Variablen ist man nicht dabei. Auch externe Quellen, wie PLZ-DB, werden angezapft. Eine Mischung aus hochkomplizierte RDBMS und Modellbildungen. Manuell kommt man da nicht mehr durch.
Interessante Einführungsliteratur (auch für SPSS geeignet) ist der Backhaus/Erichson/Plincke/Weiber: Multivariate ...
Selbst der Bühl hat gute Beispiele.
Gruß
Ich kenne jedenfalls nur aus eigener Erfahrung Modelle, die ganze Seiten umfassen. Mit zwei Variablen ist man nicht dabei. Auch externe Quellen, wie PLZ-DB, werden angezapft. Eine Mischung aus hochkomplizierte RDBMS und Modellbildungen. Manuell kommt man da nicht mehr durch.
Interessante Einführungsliteratur (auch für SPSS geeignet) ist der Backhaus/Erichson/Plincke/Weiber: Multivariate ...
Selbst der Bühl hat gute Beispiele.
Gruß
drfg2008