6  Einfache lineare Regression

Hat man einen linearen Zusammenhang zwischen zwei Variablen entdeckt, möchte man diesen Zusammenhang präzise beschreiben und quantifizieren. Das Ziel der Regressionsanalyse ist es, die Gerade anzugeben, die den linearen Zusammenhang am besten beschreibt. Im Unterschied zur Korrelation wird hier ein gerichteter Zusammenhang untersucht. Wir möchten die Variabilität einer abhängigen Variable \(Y\), in unserem Beispiel der Kalorienverbrauch, durch eine unabhängige Variable \(X\), die Laufgeschwindigkeit, erklären.

6.1 Lernziele

Important
  1. Definiere die erklärende Variable als unabhängige Variable (Prädiktor) und die Antwortvariable als abhängige Variable.

  2. Erstelle Streudiagramme so, dass die unabhängige Variable auf der x-Achse und die abhängige Variable auf der y-Achse liegt.

  3. Wenn \(X\) die unabhängige und \(Y\) die abhängige Variable ist, wird das lineare Regressionsmodell gebildet als
    \[Y_i = \beta_0 + \beta_1x + \epsilon_i, \quad i=1,\dots,n\] wobei der Koeffizient \(\beta_0\) den Schnittpunkt mit der y-Achse (Achsenabschnitt, engl. intercept) und der Koeffizient \(\beta_1\) die Steigung der Geraden beschreibt. Wir nehmen meistens an, dass die Fehler \(\epsilon_i\) unabhängig und gleichverteilt sind (meistens wird eine Normalverteilung angenommen), dass diese Erwartungswert 0 haben (\(E(\epsilon_i) = 0\)), und dass die Varianz der Fehler konstant ist (\(Var(\epsilon_i) = \sigma^2\)).

    • Die Punktschätzungen (aus den beobachteten Daten) für \(\beta_0\) und \(\beta_1\) sind \(\hat{\beta}_0\) bzw. \(\hat{\beta}_1\).
  4. Definiere die Residuen \(e_i\) als Differenz zwischen den beobachteten \(Y_i\) und den durch das Modell vorhergesagten (gefitteten) \(\hat{Y}_i\) Werten der abhängigen Variablen.

  5. Definiere die Kleinstquadratlinie (Regressionsgerade) als die Linie, welche die Summe der quadrierten Residuen minimiert.

  6. Du kannst die Bedingungen dafür nennen, dass die Konfidenzintervalle und Hypothesentests für die Koeffizienten der Kleinstquadratlinie gültig sind und diese überprüfen:

    1. Linearität –> Scatterplot
    2. Konstante Variabilität (Homoskedastizität) –> Residuen-Plot
    3. Normalverteilung der Residuen –> QQ-Plot
  7. Interpretiere die Steigung \(\beta_1\) wie folgt

    • “Für jede Einheit um die sich der Wert von \(x\) erhöht, erwarten wir, dass \(Y\) im Durchschnitt um \(|\beta_1|\) Einheiten grösser bzw. kleiner wird.”
    • Beachte dass es vom Vorzeichen von \(\beta_1\) abhängig ist, ob der Wert der abhängigen Variable zu- oder abnimmt.
  8. Beachte, dass die Kleinstquadratlinie stets durch den Mittelwert der abhängigen \(\bar{y}\) und der unabhängigen Variable \(\bar{x}\) verläuft.

  9. Interpretiere \(\hat{\beta}_0\) (intercept) folgendermassen: “Wenn \(x = 0\), erwarten wir dass \(Y\) im Durchschnitt den Wert von \(\hat{\beta}_0\) annimmt.

  10. Berechne den geschätzten Wert der abhängigen Variablen für einen bestimmten Wert der unabhängigen Variablen, \(x^*\), durch Einsetzen von \(x^*\) in das lineare Modell:
    \[\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1x^*\]

    • Verwende nur Werte für \(x^*\), die im Bereich der beobachteten Daten liegen.
    • Extrapoliere nicht über die Variationsbreite hinaus, ausser du bist dir sicher, dass das lineare Muster darüber hinaus gültig ist.
  11. Definiere das Bestimmtheitmass \(R^2\) als prozentualen Anteil der Variabilität der abhängigen Variablen, der durch die unabhängige Variable erklärt wird.

    • Im Falle einer einfachen linearen Regression wird das Bestimmtheitsmass berechnet als das Quadrat des Korrelationskoeffizienten nach Pearson: \(R^2 = r^2\)
  12. Entscheide anhand des Outputs im Statistikprogramm (\(t\)-Wert und P-Wert), ob die unabhängige Variable ein signifikanter Prädiktor für die abhängige Variable ist.

  13. Führe die einfache lineare Regression in R durch und interpretiere den Output.

6.2 Eine Bücherbestellung

Ein Buchhändler muss jeweils einen Monat bevor das Semester beginnt die Statistik-Bücher für die Studierenden im Statistik-Kurs bestellen. Er geht davon aus, dass die Anzahl Statistik-Bücher, die er in diesem Semester verkaufen wird, davon abhängt, wieviele Studierende für den Statistik-Kurs angemeldet sind. Aus den vergangenen 12 Semestern besitzt der Buchhändler die Listen mit der Anzahl der eingeschriebenen Studierenden und mit der Anzahl der pro Semester verkauften Bücher.

Tabelle 6.1: Buchhandlung
Semester Studierende Buecher
1 36 32
2 28 29
3 35 34
4 39 35
5 30 29
6 30 30
7 31 30
8 38 38
9 36 34
10 38 33
11 29 29
12 26 26

Für das kommende Semester haben sich 33 Studierende für den Statistikkurs angemeldet. Um möglichst nicht zu viele oder zu wenige Bücher zu bestellen, bittet er uns um Hilfe.

6.3 Unabhängige und abhängige Variable

Im vorliegenden Fall können wir davon ausgehen, dass ein kausaler Zusammenhang zwischen der Anzahl der Studierenden und der Anzahl der verkauften Bücher vorliegt: Der Wert der Variablen Studierende erlaubt eine Vorhersage über den Wert der Variablen Buecher oder m.a.W. der Wert der Variablen Buecher hängt vom Wert der Variablen Studierendeab. Damit können wir die Variable Buecherals abhängige Variable und die Variable Studierende als unabhängige Variable bzw. als Prädiktor bezeichnen.

6.3.1 Zusammenhang zwischen den Variablen

Wie bereits gewohnt, formulieren wir zuerst die Hypothesen:

  • \(H_0: \rho = 0\) Es gibt keinen Zusammenhang zwischen der Anzahl Studierender und der verkauften Anzahl Bücher.
  • \(H_A: \rho \neq 0\) Es gibt einen Zusammenhang zwischen der Anzahl Studierender und der verkauften Anzahl Bücher.

Als nächstes erstellen wir ein Streudiagramm: Wenn ein kausaler Zusammenhang vermutet wird, wird die unabhängige Variable auf der x-Achse und die abhängige Variable auf der y-Achse dargestellt.

Abbildung 6.1: Zusammenhang Anzahl verkaufte Bücher und Anzahl Studierende

Die Daten zeigen einen moderaten bis starken positiven linearen Zusammenhang zwischen der abhängigen und der unabhängigen Variablen. Mit der Berechnung des Korrelationskoeffizienten können wir die Stärke des Zusammenhangs quantifizieren (das Signifikanzniveau legen wir auf \(\alpha = 0.05\) fest):


    Pearson's product-moment correlation

data:  bookstore$Studierende and bookstore$Buecher
t = 7.3326, df = 10, p-value = 2.504e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.7279819 0.9771876
sample estimates:
      cor 
0.9182485 

Die Daten liefern Evidenz für einen statistisch signifikanten, starken, positiven und linearen Zusammenhang zwischen der Anzahl an Studierenden und der Anzahl verkaufter Bücher (\(r\) = 0.918 [0.73; 0.98], p < 0.001)

6.4 Einfache lineare Regression

Mit der Korrelation konnten wir die Annahme eines Zusammenhangs zwischen Anzahl Studierender und der Anzahl verkaufter Bücher bestätigen. Die Frage ist allerdings nicht beantwortet, wieviele Bücher der Buchhändler für dieses Semester, an dem 33 Studierende für den Statistik-Kurs eingeschrieben sind, bestellen muss. Es wäre ideal, wenn wir auf Grundlage der vorliegenden Daten ein funktionelles Modell erstellen könnten, das uns bei der Schätzung der Anzahl Bücher helfen würde.

Die Regressionsanalyse liefert das Werkzeug dafür: Sie liefert uns ein Modell - nämlich eine Gerade und die zugehörige Gleichung - welches unsere Daten so gut wie möglich beschreibt. Im vorliegenden Fall hilft uns die Gleichung vorherzusagen, wieviele Bücher wir für jede zusätzliche Studierende verkaufen werden.

6.4.1 Die Regressionsgerade

Kurzes Repe Mathematik - Lineare Funktion: Geradengleichung

  • Eine lineare Funktion kann grafisch durch eine Gerade dargestellt werden.

  • Die allgemeine Formel für eine Gerade im zweidimensionalen Koordinatensystem lautet: \(y = a + bx\).

    \(a\) = Achsenabschnitt: Wo schneidet die Gerade die y-Achse wenn x = 0?
    \(b\) = Steigung: Um wieviel steigt y, wenn x um 1 Einheit grösser wird?

Abbildung 6.2: Geradengleichung

Wir sehen, dass wenn \(x\) um eine Einheit zunimmt (\(\Delta x\)), nimmt \(y\) um zwei Einheiten zu (\(\Delta y\)), d.h.

\[b = \frac{\Delta y}{\Delta x} = \frac{2}{1} = 2\]

Wenn \(x = 0\) ist \(y = 4\), d.h. \(a = 4\).

Unsere Geradengleichung lautet somit:

\[y = 4 + 2x\]

6.4.2 Lineares Modell

Lineare Regression ist die statistische Methode, eine Gerade für zwei Variablen \(X\) und \(Y\) zu konstruieren, wenn die Beziehung dieser beiden Variablen einigermassen linear ist, also durch eine Gerade beschrieben werden kann. Die Gerade dient als Modell und wird so konstruiert, dass sie die Daten möglichst passend beschreibt. Die allgemeine Formel für ein lineares Modell lautet:

\[Y_i = \beta_0 + \beta_1x + \epsilon_i, \quad i=1,\dots,n\] Die Fehler sind im Schnitt Null und haben gleiche Varianz, \(E(\epsilon_i)=0\) und somit \[E(Y_i)=\beta_0+\beta_1x\]

\(\beta_0\) und \(\beta_1\) sind die Parameter des Modells. Diese werden in der Regel mit Stichprobendaten geschätzt und wir schreiben wir die Formel als

\[\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1x_i\]

  • \(\hat{\beta}_0\) der geschätzte Achsenabschnitt, gibt den Wert für \(Y\) an, wenn x = 0 (in Statistikprogrammen als intercept bezeichnet).
  • \(\hat{\beta}_1\) gibt die geschätzte Steigung der Geraden an.

\(\epsilon\) beschreibt den Fehler, welche das Modell bei der Schätzung macht. Kein Modell ist perfekt, d.h. keine Schätzung ist 100% genau, ausser, alle Punkte liegen perfekt auf einer Geraden (dann gilt \(\epsilon = 0\)). Dass y eine Schätzung ist, erkennt man am Hütchen. Mehr zu den Fehlern eines Modells folgt weiter unten unter Residuen.

6.4.3 Die Kleinst-Quadrat-Linie

Leider ist es in Wirklichkeit selten so, dass die Daten so genau einem linearen Modell entsprechen und es stellt sich die Frage, auf welche Weise eine Gerade konstruiert werden kann, welche die Daten zwar nicht perfekt, aber doch möglichst genau modelliert.

Betrachten wir noch einmal das Streudiagramm unseres Buchhändlers: Wie würden Sie die Gerade einzeichnen, welche die Daten am ehesten repräsentieren? Welche der vorgeschlagenen Geraden würden Sie als das am besten zutreffende Modell wählen?

Abbildung 6.3: Welche Gerade ist ein optimales Modell?
  1. Die Gerade beschreibt keinen linearen Zusammenhang.
  2. Die Gerade beschreibt keinen linearen Zusammenhang.
  3. Mögliches Modell, allerdings liegen mehr Punkte über als unter der Geraden.
  4. Mögliches Modell, allerdings liegen mehr Punkte unter als über der Geraden.
  5. Optimales Modell
  6. Die Gerade beschreibt einen negativen linearen Zusammenhang, das ist in dieser Situation Unsinn.

Abbildung 6.4: Anzahl verkaufter Bücher nach der Anzahl der Studierenden

Die Abbildung 6.4 zeigt die Gerade (e), die den funktionalen Zusammenhang zwischen Studierenden und verkauften Büchern modelliert. Die blauen Punkte sind die Anzahl effektiv verkaufter Bücher pro Studierendenanzahl und die roten Punkte sind die Anzahl der Bücher, die unser Modell vorhersagt. Die roten Punkte sind also die vom Modell berechneten Werte (fitted values) und wir sehen, dass die Gerade die meisten blauen Punkte verfehlt. Die senkrechten Linien zwischen den gemessenen Werten (blau) und den gefitteten Werten (rot) bezeichnen wir als Residuen.

Definition Residuum: Senkrechte Differenz zwischen dem Modell vorhergesagten Wert \(\hat{y}\) (gefitteter Wert) und dem tatsächlich beobachteten Wert \(y\). Das Residuum \(e_i\) der i-ten Beobachtung ist die Differenz zwischen dem beobachteten Wert \(y_i\) und dem vom Modell vorhergesagten Wert \(\hat{y_i}\).

\[e_i = y_i-\hat{y_i}\]

\(\hat{y_i}\) berechnen wir durch Einsetzen von \(x_i\) in die Regressionsgleichung.

Nun stellt sich die Frage: Was ist ein objektives Mass um die beste Gerade zu finden? Aus mathematischer Sicht möchten wir eine Linie, die möglichst kleine Residuen ergibt. Die erste Option ist, eine Linie zu finden, bei der die Summe der Absolutwerte der Residuen minimal ist:

\[|e_1| + |e_2| + ... + |e_n|=minimal\]

Dies wäre eine durchaus eine Möglichkeit, die üblichere Praxis ist allerdings, dass eine Gerade berechnet wird, bei der die Summe der quadrierten Residuen minimal ist (sog. Kleinst-Quadrat-Methode):

\[e_1^2 + e_2^2 + ... + e_n^2 = minimal\]

Vorteile der Kleinst-Quadrat-Methode

  1. Es ist die übliche Methode.
  2. Mit Quadraten lässt sich einfacher rechnen als mit Beträgen.
  3. Jede Statistiksoftware berechnet die Regressionsgerade standardmässig mit dieser Methode.
  4. Durch das Quadrieren erhalten grosse Abweichungen ein stärkeres Gewicht als kleine Abweichungen; diese Methode “bestraft” das Modell, wenn grosse Abweichungen vorkommen.

Die ersten beiden Gründe sind reine Konvention, der letzte Grund rechtfertigt die Methode jedoch aus mathematischer Sicht.

Abbildung 6.5: Universitäre Unterstützung nach Familieneinkommen

Die Abbildung 6.5 zeigt die finanzielle Unterstützung durch die Universität Elmhurst (Illinois) in Abhängigkeit vom Familieneinkommen (Bertrand and Mullainathan, n.d.). Die gestrichelte Linie wurde mit der Methode der Summe der Absolutwerte der Residuen und die ausgezogene Linie mit der Kleinst-Quadrat-Methode berechnet. Beide Varianten würden ein plausibles Modell ergeben, aber die Kleinst-Quadrat-Methode hat sich als Standard etabliert.

Die Berechnung der Geradengleichung überlassen wir i.d.R. R. Hier die Formeln für die Berechnung von Hand für die einfache lineare Regression:

Berechnung der Steigung

\[\hat{\beta}_1 = \frac{s_y}{s_x}r\] wobei \(s_y\) die Standardabweichung von \(y\), \(s_x\) die Standardabweichung von \(y\) und \(r\) der Korrelationskoeffizient nach Pearson ist.

Berechnung des Achsenabschnitts

\[\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\]
wobei \(\bar{y}\) der Mittelwert von \(y\) und \(\bar{x}\) der Mittelwert von \(x\) ist.

in R benutzen wir die Funktion lm():

# lineares Modell erstellen und Zusammenfassung ausgeben
lm_bookstore <- lm(Buecher ~ Studierende, data = bookstore)
summary(lm_bookstore)

Call:
lm(formula = Buecher ~ Studierende, data = bookstore)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.01515 -0.72083 -0.02424  0.56894  2.98485 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.9333     3.1148   2.868   0.0167 *  
Studierende   0.6864     0.0936   7.333  2.5e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.388 on 10 degrees of freedom
Multiple R-squared:  0.8432,    Adjusted R-squared:  0.8275 
F-statistic: 53.77 on 1 and 10 DF,  p-value: 2.504e-05

Für unser Beispiel berechnet R für die Koeffizienten

  • \(\hat{\beta}_0\) = 8.93 (Intercept)
  • \(\hat{\beta}_1\) = 0.69

eingesetzt in die lineare Gleichung resultiert

\[\widehat{Buecher} = 8.93 + 0.69 \times Studierende\]

Interpretation

  • \(\hat{\beta}_0\) Achsenabschnitt: wenn keine Studierenden den Statistikkurs belegen (\(x=0\))
  • \(\hat{\beta}_1\) Steigung: Pro zusätzliche Studierende steigt der Buchverkauf um 0.69 Bücher.

Unser Modell ermöglicht uns, eine Vorhersage zu machen für Werte, die wir so bisher noch gar nicht beobachtet haben. Wir können jetzt die Anzahl Bücher schätzen, die der Buchhändler im nächsten Semester, in dem 33 Studierende eingeschrieben sind, verkaufen wird, indem wir die Zahl 33 für x einsetzen.

\[\widehat{Buecher}_{x = 33} = 8.93 + 0.69 \times 33 = 31.7\]

Unser Modell sagt voraus, dass der Buchhändler 32 (31.7) Statistikbücher im nächsten Semester verkaufen wird.

Abbildung 6.6: Buchhandlung: Vorhersage für 33 Stud.

6.4.4 Warum man nicht über die gemessenen Daten hinaus extrapolieren sollte

Die Regressionsgleichung ist nur für den gemessenen Datenbereich gültig. Was dabei herauskommt, wenn man die Vorhersage über den gemessenen Datenbereich hinaus extrapoliert zeigt das folgende Beispiel.

Im September 2004 publizierte das Magazin Nature einen Artikel, in dem die Entwicklung der olympischen Siegerzeiten über 100m Sprint zwischen Männern und Frauen seit 1900 verglichen wurden. Die Autoren machten die Vorhersage, dass im Jahre 2156 die Frauen die 100m-Distanz schneller laufen werden als die Männer (Tatem et al. 2004).

Abbildung 6.7: Olympische Zeit für 100m-Sprint

Die Steigung bei den Frauen ist etwas stärker negativ als bei den Männern (\(b_{1, f}\) = -0.02, \(b_{1,m}\) = -0.01). Das heisst, dass die Frauen in den Jahren 1928 bis 2004 ihre Geschwindigkeit im Durchschnitt um 0.01 Sekunden mehr steigern konnten als die Männer: Frauen wurden im Durchschnitt pro Jahr um 0.02 Sekunden schneller, Männer um 0.01 Sekunden.

Abbildung 6.8: Zeit für 100m-Sprint Frauen extrapoliert

Die Autoren des Artikels haben nun berechnet, wie sich die Laufzeiten in Zukunft entwickeln werden. Extrapoliert man die Regressionsgleichung der olympischen Zeiten für 100m-Sprint über den Messzeitraum hinaus, überschneiden sich die Regressionsgeraden im Jahr 2156. Ab dann überholen die Frauen die Männer!

Man kann die Extrapolation jedoch noch weiter treiben: Wenn die Regressionsgleichung über den Messzeitraum hinaus gültig wäre, würden Frauen ab dem Jahr 2637 weniger als 0 Sekunden für den 100m-Lauf benötigen und in der Zeit zurück reisen!

Abbildung 6.9: Zeit für 100m-Sprint Frauen bis ins Jahr 2800 extrapoliert

Wir lernen daraus, dass die Regressionsgerade immer nur für den effektiv gemessenen Datenbereich gültig ist.

6.4.5 Das Bestimmtheitsmass \(R^2\)

Das Bestimmtheitsmass \(R^2\)

  • sagt uns, wieviel Prozent der Streuung der abhängigen Variable \(Y\) durch die unabhängige Variable \(x\) erklärt wird. Anders formuliert: Wieviel Prozent der Änderung in \(Y\) von einem Datenpunkt zum anderen durch \(x\) erklärbar ist.
  • kann Werte zwischen 0 und 1 annehmen (0 bis 100%).
  • ist bei der einfachen linearen Regression das Quadrat des Korrelationskoeffizienten nach Pearson: \(R^2 = r^2\).
  • ist umso grösser, je geringer Daten um die Regressionsgerade streuen.

Abbildung 6.10: Wie die Streuung der Daten R2 beeinglusst

Eine Variable \(y\) kann folglich umso besser durch die Variable \(x\) erklärt werden, je größer die Korrelation \(r\) zwischen beiden Variablen dem Betrag nach ist. Anders formuliert: Je größer \(R^2\) ist, desto besser ist die Anpassung der Regressionsgeraden an die Daten.

\(R^2\) lässt sich auch mit einer anderen Herangehensweise berechnen. Wie gross wären die Residuen, wenn wir keine Prädiktorvariable, also nur den Mittelwert als besten Schätzer zur Verfügung hätten?

Abbildung 6.11: Totale Variabilität

Wenn man alle diese Abstände in Abbildung 6.11 quadriert und aufsummiert, dann bekommt man die totalen Sum of Squares, kurz \(SS_{total}\). In unserem Fall ist \(SS_{total} = 122.92\).

Wie gross sind die Sum of Squares, wenn wir nun eine Prädiktorvariable hinzufügen? Diese Abbildung haben Sie oben schon gesehen:

Abbildung 6.12: Verbleibende Variabilität nach Hinzunahme der Prädiktorvariable

Wenn man nun diese Abstände in Abbildung 6.12 quadriert und aufsummiert, dann kommt man auf die verbleibenden Sum of Squares, kurs \(SS_{residuals}\). Man sieht, dass sich die Abstände verkleinert haben: \(SS_{residuals} = 19.28\).

Man kann sich nun fragen, um wie viel die Prädiktorvariable die Sum of Squares reduziert hat:

\(SS_{model} = SS_{total} - SS_{residuals} = 122.92 - 19.28 = 103.64\)

Wenn man diesen Anteil in Prozent ausrechnet, dann erhält man genau \(R^2\):

\(R^2 = \frac{SS_{model}}{SS_{total}} = \frac{103.64}{122.92} = 0.8432\)

Die Sum of Squares reduzieren sich um 84.32% –> Von der ursprünglichen Variabilität der abhängigen Variable kann mit Hilfe der Prädiktorvariable 84.32% erklärt werden.

6.5 Einfache lineare Regression in R

6.5.1 Modell erstellen und Output interpretieren

Zur Erläuterung des R-Outputs verwenden wir die Fragestellung aus der Buchhandlung. Es werden nur die wichtigsten Angaben erläutert. Eine detaillierte Beschreibung des Outputs findet man z.B. hier

# ein lineares Modell berechnen
model <- lm(Buecher ~ Studierende, data = bookstore)

# Zusammenfassung des Modells anzeigen
summary(model)

Call:
lm(formula = Buecher ~ Studierende, data = bookstore)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.01515 -0.72083 -0.02424  0.56894  2.98485 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.9333     3.1148   2.868   0.0167 *  
Studierende   0.6864     0.0936   7.333  2.5e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.388 on 10 degrees of freedom
Multiple R-squared:  0.8432,    Adjusted R-squared:  0.8275 
F-statistic: 53.77 on 1 and 10 DF,  p-value: 2.504e-05

Erläuterung zum Output

Unter Call: sehen wir noch einmal die Formel, also was die abhängige und was die unabhängige Variable ist.

Im nächsten Abschnitt Residuals: sehen wir einige Lagemasse für die Residuen, welche einen ersten Anhaltspunkt dazu geben, ob die Residuen symmetrisch um 0 verteilt sind. Weiter unten wird aber noch genauer auf die Residuendiagnostik eingegangen.

Der Teil Coefficients: ist der wichtigste Abschnitt des Outputs hier sehen wir unter Estimate die geschätzten Koeffizenten \(\hat{\beta}_0\) (Intercept) und \(\hat{\beta}_1\) (Studierende). In den Spalten dahinter folgen der Standardfehler, der \(t\)-Wert und der P-Wert für die jeweiligen Koeffizienten. Meistens interessiert die Frage, ob die Steigung von 0 verschieden ist (Steigung = 0 bedeutet kein Zusammenhang). Die Hypothesen zu dieser Frage, also bzgl. \(\beta_1\) sind:

  • \(H_0: \beta_1 = 0\)
  • \(H_A: \beta_1 \neq 0\)

\(\beta_0\) bezieht sich auf die Frage, wie viele Bücher man mit 0 Studierenden verkauft. Die Hypothese bzgl. \(\beta_0\) lauten:

  • \(H_0: \beta_0 = 0\)
  • \(H_A: \beta_0 \neq 0\)

Die Hypothese bzgl. dieser Quantität ist meistens nicht von Interesse.

Das Statistikprogramm führt immer einen t-Test durch und ermittelt den \(t\)-Wert und den P-Wert für die Koeffizienten. Ist der P-Wert kleiner als das Signifikanzniveau, das meist auf \(\alpha\) =0.05 festgelegt wird, liegt Evidenz dafür vor, dass die Nullhypothese, dass kein Zusammenhang zwischen abhängiger und unabhängiger Variable vorlieg, verworfen werden kann.

Meist interessiert nur der P-Wert für den Test der Steigung \(\beta_1\). Im vorliegenden Fall ist \(p < 0.001\), was uns schlussfolgern lässt, dass ein signifikanter Zusammenhang zwischen der Anzahl verkaufter Bücher und der Anzahl Studierenden vorliegt.

Mit dem Standardfehler und der Anzahl Freiheitsgraden \(df\) (siehe unten im Output) können wir ein Konfidenzintervall für z.B. \(\beta_1\) berechen:

t_krit <- qt(0.975, 10) # Das 97.5te Percentil bei einer t-Verteilung mit df = 10.
se <- 0.0936 # Siehe Output
b1 <- 0.6864 # Siehe Output
LL <- b1-se*t_krit # Unteres Limit des CI's
UL <- b1+se*t_krit # Oberes LImit des CI's

paste("95% CI = [", round(LL, 3), "; ", round(UL, 3), "]")
[1] "95% CI = [ 0.478 ;  0.895 ]"

Natürlich gibt es auch dafür eine eigene R-Funktion, welche zum gleichen Ergebnis führt:

confint(model)
                2.5 %     97.5 %
(Intercept) 1.9930720 15.8735947
Studierende 0.4778009  0.8949263

Wir sehen, dass das Konfidenzintervall für \(\beta_1\) den Nullwert nicht beinhaltet, was kongruent mit dem P-Wert ist.

Noch weiter unten im Output steht Residual standard error. Die Benennung ist etwas unglücklich: Dieser Wert ist die Standardabweichung der Residuen. Weil die Residuen in einem linearen Modell aber die Fehler darstellen, wurde wohl dieser Begriff gewählt. Die Freiheitsgerade ergeben sich durch \(df = n - Anzahl geschätze Parameter\), in unserem Fall also \(12-2 = 10\), da wir \(\beta_0\) und \(\beta_1\) schätzen.

In der zweitletzten Zeile sehen Sie Multiple R-squared, also \(R^2\). Das Adjusted R-squared und die F-Statistics sind erst bei der multiplen linearen Regression von Bedeutung, diese wird im nächsten Kapitel behandelt.

6.6 Voraussetzungen für die Gültigkeit des linearen Modells

Wir nehmen an, dass die Fehler \(\epsilon\) normalverteilt sind mit Erwartungswert 0 und einer konstanten Varianz \(\sigma^2\). Weil wir die wahre Regressionslinie nicht kennen, kennen wir auch die wahren Fehler nicht. Wir beurteilen stattdessen die Residuen:

  1. Die Residuen sind voneinander unabhängig (schwierig zu prüfen, abhängig vom Studiendesign)
  2. Die Streuung \(\sigma\) der Residuen ist über den Bereich von \(x\) konstant (Homoskedastizität).
  3. Die Residuen sind normalverteilt mit dem Mittelwert 0 und der Streuung \(\sigma\) (oder grosses \(n\), zentraler Grenzwertsatz).

Achtung: Die lineare Regression macht keinerlei Annahmen bezügliche der Verteilung der Variablen selber! die Annahme einer Normalverteilung bezieht sich nur auf die Fehler!

6.6.1 Diagnostische Plots

Die Verteilung der Residuen (als Schätzer für die Fehler \(\epsilon_i\)) wird anhand eines QQ-Plots der Residuen geprüft. Die Streung der Residuen anhand eines Plots, der die gefitteten Werte auf der x-Achse und die Residuen auf der y-Achse darstellt.

In R kann über die Funktion plot(model) eine Serie von 4 diagnostischen Plots ausgegeben werden. Der erste Plot erlaubt die Beurteilung der Homoskedastizität, der zweite Plot ist ein QQ-Plot.

# Modell erstellen, wenn nicht schon gemacht
model <- lm(Buecher ~ Studierende, data = bookstore)

# über 'which' wählen wir die ersten beiden Plots 
plot(model, which = c(1, 2))

6.6.2 Interpretation der Plots:

  • QQ-Plot: Die Punkte sind einigermassen auf der Linie und wir entscheiden auf Normalverteilung der Residuen. Bei kleinen Stichproben wie im vorliegenden Fall ist die Entscheidung meist nicht ganz sicher möglich.
  • Residuen vs. gefittete Werte: Die Streuung der Residuen wird von links nach rechts, d.h. mit zunehmender geschätzter Zahl an verkauften Büchern etwas grösser. Streng genommen ist damit die Voraussetzung nicht erfüllt, dass die Streuung der Residuen über den gesamten Messbereich gleich ist und es liegt Heteroskedastizität vor. Jedoch gilt auch hier: bei kleinen Stichproben ist die Entscheidung meist nicht ganz sicher möglich.

6.6.3 Was bedeutet es, wenn die Voraussetzungen nicht erfüllt sind?

  • Signifikanztests und Konfidenzintervalle für die Koeffizienten haben nicht die erwarteten Eigenschaften und werden dadurch schlecht interpretierbar.
  • Die Koeffizienten sind immer noch gültig!

6.6.4 Beispielplots zu Homo- und Heteroskedastizität

Abbildung 6.13: Beispiele für Homoskedastizität, bzw. Heteroskedastizität

Nur Abb. c) erfüllt die Bedingung für Homoskedastizität. In Abb. a) bilden die Residuen ein Muster, was die Annahme verletzt, dass die Residuen zufällig um die Null-Linie herum streuen. In Abb. b) und d) ist die Verteilung heteroskedastisch; mit zunehmendem x nimmt auch die Streuung der Residuen um die Null-Linie herum zu.

6.7 Einfache lineare Regression mit dichotomen Prädiktorvariablen

Im Beispiel mit den Büchern war die unabhängige Variable eine quantitative Variable. Man kann eine lineare Regression aber auch mit qualitativen (kategorischen) unabhängigen Variablen verwenden. Zur Illustration dieser Situation wird der Datensatz zu den embryonalen Stammzellen (ESC) verwendet, welchen Sie bereits aus dem Kaptiel 4 kennen (Hat die Behandlung mit embryonalen Stammzellen (ESC) einen Effekt auf die Pumpfunktion des Herzens nach einem Herzinfarkt?). Wir untersuchen also den linearen Zusammenhang zwischen der Gruppenzugehörigkeit und der Pumpfunktion.

Die folgende Tabelle enthält die Kennzahlen aus einem Experiment, bei dem der Effekt von ESC bei Schafen, die einen Herzinfarkt erlitten hatten, geprüft wurde. Jedes dieser Schafe wurde randomisiert der Gruppe ESC oder der Kontrollgruppe zugewiesen, dann wurde ihre Herzkapazität (Auswurffraktion) gemessen (Ménard et al. 2005). Ein positiver Wert entspricht einer Steigerung der Auswurffraktion, was einer besseren Erholung entspricht.

Codebook für den Datensatz stemcell .

Variable Beschreibung
trtm Behandlung: ctrl = Kontrolle, esc= embryonale Stammzellen
before Baseline: Auswurffraktion vor der Behandlung
after Follow-Up: Auswurffraktion nach der Behandlung
Differenz after - before
Tabelle 6.2: ESC-Daten: Effekt der Behandlung
trmt n m s
ctrl 9 -4.33 2.76
esc 9 3.50 5.17

Die Kennzahlen zeigen, dass die Auswurffraktion in der Kontrollgruppe CTRL um durchschnittlich -4.33% abgenommen und in der Interventionsgruppe ESC um 3.5% zugenommen hat. Die absolute Mittelwertsdifferenz beträgt somit 7.83%.

In Abbildung 6.14 werden diese Daten in einem Streudiagramm eingezeichnet. Dafür wird die Gruppe ctrl mit 0 codiert und die Gruppe esc mit 1. Die Regressionslinie (rot) ist ebenfalls eingezeichnet. Vielleicht ahnen Sie schon, worauf das Ganze hinausläuft?

Abbildung 6.14: Streudiagramm wenn die unabhängige Variable dichotom skaliert ist

Der Output für der linearen Regression sieht wie folgt aus:

model <- lm(Differenz ~ trmt, data = stem_cell)
summary(model)

Call:
lm(formula = Differenz ~ trmt, data = stem_cell)

Residuals:
    Min      1Q  Median      3Q     Max 
-6.2500 -2.2500 -0.6667  2.3958 10.7500 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   -4.333      1.382  -3.135  0.00639 **
trmtesc        7.833      1.955   4.007  0.00102 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.147 on 16 degrees of freedom
Multiple R-squared:  0.5009,    Adjusted R-squared:  0.4697 
F-statistic: 16.06 on 1 and 16 DF,  p-value: 0.001016

Was bedeuten nun die Regressionskoeffizienten? \(\hat{\beta}_0\) ist die durchschnittliche Differenz, wenn \(x = 0\). \(x = 0\) ist gleichbedeutend mit “das Schaf ist in der Kontrollgruppe”. Also ist \(\hat{\beta}_0\) die durchschnittliche Differenz der Schafe in der Kontrollguppe: \(\hat{\beta}_0 = -4.33%\). Sie können diese Aussage mit den deskriptiven Angaben weiter oben verifizieren.

\(\hat{\beta}_1\) ist die Steigung. Also um wie viel sich die durchschnittliche Differenz ändert, wenn sich x um 1 erhöht. “x um 1 erhöht” ist gleichbedeutend mit “das Schaf ist in der Interventionsgruppe”. Das heisst wenn das Schaf in der Interventionsgruppe ist, dann ist die durchschnittliche Differenz 7.83% höher als wenn es in der Kontrollguppe ist: \(\hat{\beta}_1 = 7.83\). \(\hat{\beta}_1\) ist also nichts anderes als die Mittelwertsdifferenz! (Auch hier können Sie mit den obigen deskriptiven Statistiken verifizieren).

Der Standardfehler für diese Mittelwertsdifferenz beträgt 1.955, somit beträgt der \(t\)-Wert von 4.007, was einen P-Wert von 0.00102 ergibt. Wenn Sie nun denken, dass ein T-Test zum gleichen Resultat kommen müsste, dann haben Sie absolut recht!

t.test(Differenz ~ trmt, data = stem_cell, var.equal = TRUE)

    Two Sample t-test

data:  Differenz by trmt
t = -4.0073, df = 16, p-value = 0.001016
alternative hypothesis: true difference in means between group ctrl and group esc is not equal to 0
95 percent confidence interval:
 -11.977290  -3.689376
sample estimates:
mean in group ctrl  mean in group esc 
         -4.333333           3.500000 

Ein zweistichproben T-Test und eine einfache lineare Regression mit der Gruppe als Prädiktorvariable führen exakt zum gleichen Resultat!

6.8 Anhang: hilfreiche R Codes für die einfache lineare Regression

# Erstellen der Variablen x und y
x <- c(-2, -1.5, -.5, 0, 1, 3, 4)
y <- c(5, 4.5, 6, 5.5, 6, 6.5, 7.5)

# Streudiagramm erstellen
plot(x, y)

# Einfache lineare Regression rechnen und Resultat in R-Objekt speichern
lm.xy <- lm(y ~ x)

# Zusammenfassung des Modells anschauen
summary(lm.xy)

# Vertrauensintervalle der Koeffizienten ausgeben
confint(lm.xy)

# Regressionslinie in Streudiagramm einzeichnen
plot(x, y)
abline(lm.xy)

# Residuenplot
plot(lm.xy, which = 1)

# QQ-Plot der Residuen
plot(lm.xy, which = 2)