ich habe eine Verständnisfrage zum Thema GLMs:
Was ich glaube verstanden zu haben:
Bei einem GLM müssen die Residuen nicht normalverteilt sein. Ich muss meinem Statistik-Programm aber sagen, aus welcher Verteilungsfunktion die Residuen (Ausprägung der Responsevariable minus vorhergesagter Wert) stammen. Das ist notwendig, damit das Programm den besten Fit für mein Model (z.B. y = a + b*x) berechnen kann (mit Maximum-Likelihood, numerisch).
Jetzt zur Frage:
Woher soll ich wissen, aus welcher Verteilung die Residuen stammen? Der Residuen ergeben sich doch erst aus Daten minus Fit und den Fit kann ich nur machen, wenn ich die Verteilung der Residuen angebe (Zirkelschluss).
Beispiel:
Im folgenden Bild sieht man 10 Datenpunkte mit einer diskreten Responsevariable und einer kontinuierlichen erklärenden Variable. Ich möchte ein lineares Modell fitten, wüsste aber nicht aus welcher Verteilung die Residuen stammen. Nehm ich jetzt einfach Poisson, weil es nach einem Zählprozess aussieht? Wie gehe ich systematisch vor, um die Verteilung der Residuen meiner Respondevariabel herauszukriegen?
