Privacy Policy Cookie Policy Terms and Conditions Logistische Regression - Wikipedia

Logistische Regression

aus Wikipedia, der freien Enzyklopädie

Logistische Funktion für den Fall G=1, k=1, f(0)=1/2
vergrößern
Logistische Funktion für den Fall G=1, k=1, f(0)=1/2

Unter logistischer Regression versteht man ein Verfahren zur (meist multivariaten) Analyse binärer abhängiger Variablen. Hierbei hat man Daten (Y_i,x_i), i=1,\ldots,n gegeben, wobei Yi einen binären Response bezeichnet. Das heißt Yi nimmt nur die Werte 0 oder 1 an. Des Weiteren bezeichnet xi eine bekannten und festen Kovariablenvektor und n die Anzahl der Beobachtungen.

Die Einflüsse auf solche Variablen können nicht mit dem Verfahren der linearen Regressionsanalyse untersucht werden, da wesentliche Anwendungsvoraussetzungen insbesondere in inferenzstatistischer Hinsicht (Normalverteilung der Residuen, Varianzhomogenität) nicht gegeben sind. Ferner kann ein lineares Regressionsmodell bei einer solchen Variablen zu unzulässigen Vorhersagen führen: Wenn man die beiden Ausprägungen der abhängigen Variablen mit 0 und 1 kodiert, so kann man zwar die Vorhersage eines linearen Regressionsmodells als Vorhersage der Wahrscheinlichkeit auffassen, dass die abhängige Variable den Wert 1 annimmt – formal: P(Yi = 1) –, doch kann es dazu kommen, dass Werte außerhalb dieses Bereichs vorhergesagt werden.Die logistische Regression löst dieses Problem durch eine geeignete Transformation der abhängigen Variablen P(Yi = 1).

Das logistische Regressionsmodell lautet

\mathrm{P}(Y_i=1|X_i=x_i)=\frac{\exp(x_i^T \beta)}{1+\exp(x_i^T \beta)},

hierbei gilt \beta=(\beta_1,\ldots,\beta_n).

Es geht aus von der Idee der Odds, d.h. dem Verhältnis von P(Yi = 1) zur Gegenwahrscheinlichkeit 1 − P(Yi = 1) bzw. P(Yi = 0) (bei Kodierung der Alternativkategorie mit 0)

\mathrm{Odds}(Y_{1/0})=\frac{\mathrm{P}(Y_i=1)}{1-\mathrm{P}(Y_i=1)}=\frac{\mathrm{P}(Y_i=1)}{\mathrm{P}(Y_i=0)}

Die Odds können zwar Werte größer 1 annehmen, doch ist ihr Wertebereich nach unten beschränkt (er nähert sich asymptotisch 0 an). Eine unbeschränkter Wertebereich wird durch die Transformation der Odds in die sog. Logits

\mathrm{Logit}(Y_{1/0})=\ln\frac{\mathrm{P}(Y_i=1)}{1-\mathrm{P}(Y_i=1)}

erzielt; diese können Werte zwischen minus und plus unendlich annehmen.

In der logistischen Regression wird dann die Regressionsgleichung

\mathrm{Logit}(Y_{1/0}|X_i=x_i)=\beta_0+\beta_1 X_1+\dots+\beta_n X_n

geschätzt; es werden also Regressionsgewichte bestimmt, nach denen die geschätzten Logits für eine gegebene Matrix von unabhängigen Variablen X berechnet werden können. Die folgende Graphik zeigt, wie Logits (X-Achse) mit den Ausgangswahrscheinlichkeiten P(Yi = 1) (Y-Achse) zusammenhängen:

Bild:Logitkurve.jpg

Die Regressionkoeffizienten der logistischen Regression sind nicht einfach zu interpretieren. Daher bildet man häufig die sog. Effektkoeffizienten durch Bildung des Antilogarithmus; die Regressionsgleichung bezieht sich dadurch auf die Odds:

\mathrm{Odds}(Y_{1/0}|X_i=x_i)=\exp(\beta_0+\beta_1 X_1+\dots+\beta_n X_n)

Die Koeffizienten expn) werden oft auch als Effektkoeffizienten bezeichnet. Hier bezeichnen Koeffizienten kleiner 1 einen negativen Einfluss auf die Odds, ein positiver Einfluss ist gegeben, wenn expn) > 1.

Durch eine weitere Transformation lassen sich die Einflüsse der logistischen Regression auch als Einflüsse auf die Wahrscheinlichkeiten P(Yi = 1) ausdrücken:

\mathrm{P}(Y=1|X_i=x_i)=\frac{\exp(\beta_0+\beta_1 X_1+\dots+\beta_n X_n)}{1+\exp(\beta_0+\beta_1 X_1+       \dots+\beta_n X_n)}

Die Regressionsparameter werden auf der Grundlage des Maximum Likelihood-Verfahrens geschätzt. Inferenzstatistische Verfahren stehen sowohl für die einzelnen Regressionskoeffizienten als auch für das Gesamtmodell zur Verfügung (siehe Wald-Statistik und Likelihood-Verhältnis-Test); in Analogie zum linearen Regressionsmodell wurden auch Verfahren der Regressionsdiagnostik entwickelt, anhand derer einzelne Fälle mit übergroßem Einfluss auf das Ergebnis der Modellschätzung identifiziert werden können. Schließlich gibt es auch einige Vorschläge zur Berechnung einer Größe, die in Analogie zum R2 der linearen Regression eine Abschätzung der "erklärten Varianz" erlaubt; man spricht hier von sog. Pseudo-R2. Auch das AIC und das BIC werden in diesem Kontext gelegentlich herangezogen.

Als (im wesentlichen gleichwertige) Alternative kann das Probit-Modell herangezogen werden, bei dem eine Normalverteilung zugrunde gelegt wird.

Eine Übertragung der logistischen Regression (und des Probit-Modells) auf abhängige Variable mit mehr als zwei (nominal- oder ordinalskalierten) Merkmalen ist möglich (siehe Multinomiales Logit und Ordinales Logit.)

[Bearbeiten] Literatur

  • Agresti, Alan: Categorical Data Analysis. New York: Wiley, 1990.
  • Andreß, Hans-Jürgen/Hagenaars, J.-A./Kühnel, Steffen: Analyse von Tabellen und kategorialen Daten. Berlin u.a.: Springer, 1997.
Andere Sprachen

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -