Was ist relevanter: großes R² o. kleines Konfidenzintervall?

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
Nina86
Beiträge: 3
Registriert: 18.09.2011, 17:07

Was ist relevanter: großes R² o. kleines Konfidenzintervall?

Beitrag von Nina86 »

Hallo Zusammen,

ich habe folgendes Problem, ohne dessen Lösung ich nicht so recht weiter komme mit meiner Masterarbeit:

ich habe für verschiedene Parameter Korrelations- und Regressionsanalysen durchgeführt. Anschließend habe ich den gesamten Stichprobenumfang unterteilt (in verschiedene Kundengruppen), da ein stärkerer Einfluss der Kunden auf die jeweilgen Parameter vermutet wurde.

Nun hat sich bei den meisten Kundengruppen das Bestimmtheitsmaß verbessert, allerdings ist das Konfidenzintervall der Erwartungswerte zum Teil erheblich vergrößert. Dies verwundert mich nicht wirklich, da der Stichprobenumfang sich teilweise stark verkleinert hat (n liegt zwischen 4 und 130 bei den verschiedenen Kundengruppen).

Nun weiß ich nicht, wie ich das genze bewerten soll. Soll ich für die Kunden, bei denen sich ein hohes R² ergibt, trotz des großen Konfidenzintervalls, die Regressionsgleichung der Daten innerhalb dieser Kundengruppen verwenden? oder ist die Konsequenz aus dem Ergebnis, dass ich bei der Regressionsgleichung, die sich aus den gesamten Ergebnissen ergibt, bleibe? (also was ist ausschlaggebender: das hohe R² oder das kleine Konfidenzintervall?)
oder darf ich eine Regression für solch kleine Stichprobenumfänge grundsätzlich nicht machen?

ich hoffe ihr versteht, was eigentlich meine Frage ist und ich wäre für jede Antwort sehr dankbar :)

Lg, Nina
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Re: Was ist relevanter: großes R² o. kleines Konfidenzinterv

Beitrag von Generalist »

ich habe für verschiedene Parameter Korrelations- und Regressionsanalysen durchgeführt. Anschließend habe ich den gesamten Stichprobenumfang unterteilt (in verschiedene Kundengruppen), da ein stärkerer Einfluss der Kunden auf die jeweilgen Parameter vermutet wurde.
Da ist alles derart abstrakt geschildert, dass ich es wenig nachvollziehen kann. Ene konkrete Problembeschreibung ist allemal hilfreicher. Es scheinen Wechselwirkungen zwischen Prädiktoren und Kundengruppen vorzuliegen? Sowas kann man ins Gesamt-Modell aufnehmen.

Ob Du eine Regression mit n=4 tatsächlich ernstnehmen willst, solltest Du Dich selbst fragen. Die Konfidenzintervalle gegen den entsprechenden Hinweis. Skeptisch bist Du ja bereits.

Ich weiß nun leider nicht, ob Du einfach in dem Datensatz herumrechnest und "interessante" Ergebnisse herausfilterst, oder ob Du zumindest ansatzweise ein theoretisches Modell testest. Eine explorative Analyse mehrfach zu wiederholen führt fast zwangsläufig dazu, dass man den Zufall ausnutzt und die Koeffizienten unzuverlässig sind. Das wird bei den Konfidenzintervallen noch nichtmal berücksichtigt, sonst wären sie noch größer.
Nina86
Beiträge: 3
Registriert: 18.09.2011, 17:07

Beitrag von Nina86 »

Hallo,

danke schonmal für die schnelle Antwort.

dann versuche ich mal konkreter zu werden :)
ein Beispiel für 2 Parameter, für die ich eine Korrelationsanalyse durchgeführt habe, sind sie Kundensonderwünsche eines Auftrags und der Bearbeitungsaufwand eines Auftrags. Nachdem die Daten zu sehr streuen und ich den Verdacht hatte, dass der Aufwand auch von dem jeweiligen Kunden des Auftrags abhängt (da die einen schwierige Kundensonderwünsche und andere einfache haben), habe ich alle Aufträge in verschiedene Kundengruppen unterteilt.
Hier haben die Daten dann nicht so weit gestreut, was natürlich zum teil auch daran liegt, dass ich für manche Aufträge nur 4 oder 6 Aufträge zum Auswerten hatte. Aber auch für Kunden, bei denen ich einen Stichprobenumfang von 100 habe, zeigt sich ein höheres Bestimmtheitsmaß.

Nun weiß ich nicht was ich für eine Regression nutzen soll:
Die Formel der Regressionsgerade, die sich aus allen Aufträgen ergibt?
Oder die Formel der Regressionsgeraden, die sich aus den Daten der einzelnen Kundengruppen ergibt? Letztere weist meist das höhere Bestimmtheitsmaß auf, aber auch das größere Konfidenzintervall....

Es ist wahrscheinlich immer noch abstrakt, aber ich hoffe man kann es jetzt besser nachvollziehen.

Es ist richtig, dass Wechselwirkungen zwischen Prädikatoren und Kundengruppen bestehen. Und wie nehme ich das ins Modell auf? Sorry, ich bin kein Statistik-Profi :(
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Beitrag von Generalist »

Leider kenne ich keine Einführungstexte für die multiple Regressionsanalyse. Im Netz gibts aber bestimmt einiges an Introduction. S.z.B http://gruener.userpage.fu-berlin.de/spss-tutorials.htm - wichtig für Dich wäre Regression mit dummyvariablen.

Ansonsten Statistikberatung an der Uni, oder Du gibst irgendwas im Bereich 120-360 Euro (je nachdem, was sonst noch zu machen ist) für einen Profi aus.

Vielleicht kann auch hier jemand eine Schritt-für-Schritt-Anleitung geben.
Nina86
Beiträge: 3
Registriert: 18.09.2011, 17:07

Beitrag von Nina86 »

Vielen Dank für deine Hilfe!

Andere Kommentare/Tipps nehme ich auch weiterhin gerne an :)
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten