Bestimmtheitsmaß

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten (Unterschied zur vorletzten Version).

Das Bestimmtheitsmaß (abk. $R^2\;$ , auch Determinationskoeffizient) ist ein Maß der Statistik für den Anteil der erklärten Varianz eines Zusammenhangs.

Interpretationsbeispiel: Beträgt es für zwei Variablen $X \;$ und $Y \;$ beispielsweise $R^2=0,5 \;$ , dann heißt dies, dass die Hälfte (50%) der Streuung von $Y \;$ durch lineare Abhängigkeit von $X \;$ erklärt werden kann.

Inhaltsverzeichnis

1 Das (unbereinigte) Bestimmtheitsmaß
- 1.1 Kritik
2 Das angepasste Bestimmtheitsmaß
- 2.1 Vergleich: Unbereinigtes und bereinigtes Bestimmtheitsmaß
3 Pseudo-Bestimmtheitsmaß
4 Siehe auch

[Bearbeiten] Das (unbereinigte) Bestimmtheitsmaß $R^2 \;$

Das Bestimmtheitsmaß wird oft mit $R^2 \;$ abgekürzt. $R^2 \;$ liegt zwischen

0 (kein linearer Zusammenhang: das Regressionsmodell besteht nur aus einer Konstanten) und

1 (exakter linearer Zusammenhang: alle Fehlerterme sind Null).

Es gibt an, in welchem Maße die Varianz einer Variablen durch die Varianz einer anderen Variablen bestimmt wird.

Einfachregression: Es entspricht bei einfachen Regressionen dem Quadrat des Pearson'schen Korrelationskoeffizienten $R \;$ und lässt sich aus der Kovarianz und den Einzelvarianzen berechnen:

$R^2 = \frac{\operatorname{Cov}(X,Y)^2}{\operatorname{Var}(X)\operatorname{Var}(Y)}$

Multiple Regression: Bei multiplen Regressionen entspricht das $R^2 \;$ der Wurzel aus dem multiplen Korrelationskoeffizienten und wird wie folgt berechnet:

$R^{2} = \frac{SS_{Reg}}{SS_{Total}} = 1 - \frac{SS_{Res}}{SS_{Total}} = 1 - \frac{RSS}{SS_{Total}}$

wobei $SS_{Reg} = \sum\limits_{i=1}^{n} (\hat{Y}_i - \overline{Y})^2 \ , \quad \overline{Y}=\frac{1}{n}\sum\limits_{i=1}^{n} Y_i \;$ die Summe der quadrierten Regressionswerte darstellt. Diese wird als die durch die Regression erklärte Variabilität interpretiert.

$SS_{Res}=RSS=\sum\limits_{i=1}^{n} (Y_i - \hat{Y}_i)^2$ ist die Summe der quadrierten Residuen (residual sum of squares), diese wird als die nicht erklärte Variabilität gedeutet.

$SS_{Total}=\sum\limits_{i=1}^{n} (Y_i - \overline{Y})^2$ stellt die Summe der quadrierten Beobachtungen (total sum of squares) dar. Diese wird als die totale Variabilität interpretiert.

Aus der ersten Gleichung zu $R^2\;$ erkennt man, dass $R^2\;$ das Verhältnis von erklärter Variabilität und totaler Variabilität darstellt. Falls somit $R^2\;$ sehr nahe bei 1 liegt, dann liegt die erklärte Variabilität sehr nahe bei der totalen Variabilität. Ferner gilt die Streuungszerlegung

$SS_{Total}=SS_{Reg}+SS_{Res} \;$

[Bearbeiten] Kritik

Das Bestimmtheitsmaß zeigt zwar die Qualität der linearen Approximation, jedoch nicht, ob das Modell richtig spezifiziert wurde. Modelle, die mittels kleinster Quadrate geschätzt wurden, werden daher die höchsten $R^2 \;$ erhalten.
Außerdem sagt es nichts über die statistische Signifikanz des ermittelten Zusammenhangs und der einzelnen Regressoren aus. Dazu muss zusätzlich ein Signifikanztest durchgeführt werden.
Ein weiterer Nachteil liegt in der Empfindlichkeit gegenüber Trends: Sofern sich eine exogene Variable parallel zu einer erklärenden entwickelt, werden unabhängig von der wahren Erklärungskraft des Modells hohe $R^2 \;$ ausgewiesen.

[Bearbeiten] Das angepasste Bestimmtheitsmaß $\bar R^2$

Das Bestimmtheitsmaß birgt verschiedene Probleme, von daher ist es ratsam auch das bereinigte oder angepasste Bestimmtheitsmaß zu Rate zu ziehen.

$\bar R^2 = 1- (1-R^2) \frac{n-1}{n-p}$

Hierbei gibt

$n\;$ die Anzahl der Daten und
$p\;$ die Anzahl der unbekannten Parameter an.

Ein Problem des nichtangepassten Bestimmtheitsmaßes $R^2 \;$ ist, dass dieses bei Hinzufügen eines weiteren, aber evtl. ungeeigneten Regressors, nicht kleiner werden kann. Das angepasste Bestimmtheitsmaß $\bar R^2 \;$ steigt dagegen nur, falls $R^2\;$ ausreichend steigt, um den gegenläufigen Effekt des Quotienten $\frac{n-1}{n-p}$ auszugleichen und kann auch sinken. Auf diese Weise lässt sich $\bar R^2 \;$ als Entscheidungskriterium bei der Auswahl zwischen zwei alternativen Modellspezifikationen (etwa einem restringierten und einem unrestringierten Modell) verwenden.

[Bearbeiten] Vergleich: Unbereinigtes und bereinigtes Bestimmtheitsmaß

Das unbereinigte Bestimmtheitsmaß $R^2\;$ hat zudem die nicht erwünschten Eigenschaften, dass es

mit steigender Varianz von $Y\;$ steigt, ohne dass der Grad der Anpassung sich verbessert hat und
mit dem Umfang der Stichprobe steigt.

Auch diese negativen Eigenschaften werden durch das bereinigte Bestimmtheitsmaß über den Korrekturfaktor $\frac{n-1}{n-p}\;$ ausgeglichen. Es wird von daher auch möglich Schätzungen mit unterschiedlichem Stichprobenumfang oder unterschiedlicher Varianz der Abhängigen Variablen miteinander zu vergleichen.

Das bereinigte Bestimmtheitsmaß $\bar R^2$ kann auch negative Werte annehmen und ist kleiner als das unbereinigte, außer falls $R^2= 1\;$ , dann ist auch $\bar R^2=1 \;$ .

[Bearbeiten] Pseudo-Bestimmtheitsmaß

Bei bestimmten statistischen Modellen, z.B. bei Maximum-Likelihood-Schätzungen, existiert das Bestimmtheitsmaß $R^2\;$ nicht. In solchen Modellen wird das sogenannte Pseudo-Bestimmtheitsmaß verwendet. Unter diesem Begriff wurden verschiedene Maße vorgeschlagen, darunter das unter Ökonomen am häufigsten verwendete von McFadden (mit $\ln L_0 \;$ aus dem Modell mit lediglich einer Konstanten):