Hallo!
Ich hoffe ich bin hier im richtigen Forum gelandet mit meiner praktischen Frage zum Thema lineare Regression. Schreibe grade meine Masterthesis über Risikokapital und suche nach Faktoren in einer Investition, welche die Entfernung zwischen dem Investor und seinem "Ziel" (die Firma, wo die Kohle hingeht) beeinflussen. Jede meiner ca. 1600 Beobachtungen enthält eine Investition mit Investor, Ziel, Entfernung zwischen den beiden und den ganzen anderen Faktoren. Die Idee für mein Modell ist, Entfernung (in km) als AV zu nehmen und dann meine verschiedenen Faktoren als UV in einer linearen Regression zu untersuchen. Nun ein paar Fragen, zu denen ich mir grade den Kopf zerbreche:
1) Die Häufigkeitsverteilung meiner AV ist stark rechtsschief (d.h.viele Investitionen haben eine kleine Entfernungen, nur wenige sind weit weg). Nun dachte ich mir, dass zwei Investitionen mit einer Entfernung von 5km bzw. 100km sich wohl stärker unterscheiden als zwei Investitionen von 1005km bzw. 1100km, soll heißen der Effekt der Entfernung ist nicht linear. Habe daher die AV logarithmisch transformiert und habe jetzt eine bimodale Verteilung! Ist diese Transformation nachvollziehbar bzw. sinnvoll für das weitere Vorgehen?
2) Fast alle meiner UVs sind kategorische Variablen (z.B. Investor ist Bank, privat, oder staatlich gefördert). Solche Variablen füge ich am besten als Dummy ins Modell ein, wobei ich eine Kategorie als Referenzkategorie weglasse. Soweit richtig? Muss ich sonst noch was bei kategorischen Variablen beachten? Kann ich kategorische UV in einer OLS Regression ohne weiteres auf eine bimodal verteilte AV anwenden?
3) Eine meiner UV ist "Erfahrung des Investors" und ist ziemlich normalverteilt. Darf ich eine normalverteilte UV und eine bimodal verteilte AV (siehe oben) in eine lineare Regression packen? Habe offen gesagt nicht ganz verstanden, wann Normalverteilung wichtig ist und wann ich sie ignorieren kann. Ist das überhaupt wichtig? Ein grob linearer Zusammenhang von Entfernung (logarithmiert) und Investor-Erfahrung im Scatter Plot ist jedenfalls erkennbar.
Wäre toll wenn mir jemand helfen kann. Ich arbeite mit Stata, aber das dürfte für die Fragen wohl erstmal keine Rolle spielen. Bitte kurz anmerken, wenn ich was unklar formuliert habe, ich bemühe mich dann um Klärung.
Ciao,
Tom
Bestimmung der UV in einem Entfernungs-Modell
-
- Beiträge: 1
- Registriert: 19.04.2010, 11:11