Regression und Korrelation

RegressionLineare Regression
Zur Untersuchung der linearen Abhängigkeit zweier Zufallsgrößen besteht die Möglichkeit, in diesem Teilprogramm bis zu 40 Wertepaare (x[i],y[i]) einzugeben. Mittels der Gaußschen Methode der kleinsten Quadrate wird eine Korrelationsgerade

    \[ y = f(x) = m·x + b \]

ermittelt, welche den Wertepaaren am besten entspricht, d.h. die Abweichung der Ausgangszahlenpaare von theoretischen Werten der Geraden wird minimal.
Die Aufgabenstellung besteht dabei darin, für

    \[ \sum_{i=1}^n {(y_i - mx_i - b)^2} \]

ein Minimum zu finden.
Die Eingabe der Werte erfolgt paar- und spaltenweise, d.h., zuerst wird in der 1. Zeile und 1. Spalte der x-Wert, dann in der 2. Spalte der y-Wert eingegeben. Anschließend wird die 1. Zeile der 3. und 4. Spalte gefüllt usw. Sind 12 Paare eingegeben worden, erfolgt die weitere Eingabe in der 2. Zeile usw., d.h., die Eingabe erfolgt waagerecht. Außer Zahlen können Sie auch Terme in der Form PI/2, SQRT(2), usw. eingeben.

Beispiel: Von 10 Schülern ist die Körpergröße in Metern und deren Masse in kg gemessen worden.

X 1.35 1.45 1.39 1.42 1.37 1.37 1.34 1.44 1.35 1.46
Y 29.3 35.2 34.5 32.1 33.6 32.3 27.2 36.7 26.9 38.3

Das Programm bewertet die Messwertreihe und schätzt die Beziehung (Korrelation) zwischen Körpergröße und Masse ein. Vermutet man einen linearen Zusammenhang, so ergibt sich die Korrelationsgerade

    \[ Y = 74.5943 \cdot X - 71.3745 \]

Der Korrelationskoeffizient wird zu 0.871762 und die Stichprobenvarianz für die x-Werte zu 0.001824 (y-Werte … 13.3549) ermittelt.

Über die Güte der Korrelation, d.h. die Qualität des tatsächlichen Zusammenhangs beider Messgrößen, gibt der Korrelationskoeffizient Auskunft. In Abhängigkeit von der Anzahl von Paaren und der Wahl der Größe eines Konfidenzintervalls (Vertrauensintervalls) wird die Korrelation bewertet. Wurde zum Beispiel ein Konfidenzintervall von 90% gewählt, so bedeutet das Ergebnis
Korrelation sicher
dass mit einer anzunehmenden Sicherheit von 90% ein linearer Zusammenhang zwischen beiden Zufallsgrößen x und y besteht. Bei einer Einschätzung von
Korrelation unsicher
besteht entweder kein Zusammenhang oder der Stichprobenumfang ist zu klein, um eine sichere Aussage zu treffen. In unserem Beispiel beträgt der Konfidenzwert für 10 untersuchte Paare bei einer Sicherheit von 90% 0.5490. Da der Korrelationskoeffizient größer ist, besteht mit 90%iger Sicherheit ein linearer Zusammenhang zwischen der Körpergröße und der Masse der Schüler. Dagegen muss diese Vermutung verworfen werden, wenn Sie 99.9% Garantie erwarten.

Die Größe des Konfidenzintervalls können Sie in der aufklappbaren Box einstellen. Zur Ermittlung der Größe des Konfidenzintervalls wird die Student-t-Verteilung für eine kleine Stichprobe benutzt.

Möchten Sie eine Veranschaulichung der Untersuchung, so wählen Sie den Schalter Darstellung. Das Programm stellt die Korrelationsgerade bzw. -funktion und die Punktwolke der Wertepaare dar.
Anzumerken ist, dass Sie bei einer Vielzahl von Wertepaaren die Darstellungsintervalle auf der x- und y-Achse einstellen müssen, da die Standardbereiche von [-5 , 5] oft überschritten werden.

Beachten Sie bitte: Bei einer Regressionsgeraden von x = konst. bzw. y = konst. wird die Auswertung abgebrochen. Zur Auswertung sind weiterhin mindestens drei Paare notwendig. Sie können auch eine Ursprungsgerade Y = m * X als Regressionstyp wählen.

Zum Lieferumfang gehört das Beispiel REGEN, das interessante Daten zur Untersuchung auf Korrelation enthält.
REGEN enthält Wertepaare, deren erster Wert das Mittel der Sonnenfleckenzahl und als zweite Zahl den Gesamtniederschlag (in mm) der Sternwarte Ukkel (Belgien) der Jahre 1901 bis 1935 darstellen. Interessant ist, ob – wie oft behauptet – ein Zusammenhang zwischen aktiver Sonne und der Häufigkeit von Regen existiert. Wählen Sie das Beispiel in der aufklappbaren Liste aus, ermittelt das Programm einen Korrelationskoeffizienten von 0.1148. Ein Zusammenhang ist daher äußerst unwahrscheinlich.

Die weiteren Beispiele der Liste sind:

  • Länderschulden : erster Wert = Schulden der Bundesländer in Milliarden Euro, zweiter Wert = Einwohnerzahl in Millionen
  • Schüler : erster Wert = Körperhöhe von Schülern, zweiter Wert = Masse in Kilogramm
  • Sinuswerte : erster Wert = Argumente x, zweiter Wert = genäherte Funktionswerte für die Sinusfunktion
  • Störche und Babys : erster Wert = Anzahl Störche je Hektar in Brandenburg, zweiter Wert = Babys je Tausende Einwohner in Berlin (Achtung! Beispiel für Cum hoc ergo propter hoc“)

Nichtlineare Regression
Innerhalb der linearen Regression geht man davon aus, dass die Beziehung zwischen den Größen linear ist. In der Praxis muss dies nicht der Fall sein. Vielmehr treten andere Zusammenhänge wesentlich häufiger auf. Im Programm können Sie daher nichtlineare Zielfunktionen wählen:

  • Logarithmische Regression Y = A + B\ln{X}
  • Exponentielle Regression Y = A \cdot B^X
  • Geometrische Regression Y = A \cdot X^B
  • Trigonometrische Regression Y = A + B \sin(X)
  • Reziproke Regression Y = A +\frac{B}{X}
  • Quadratische Regression Y = A + B X^2
  • Kubische Regression Y = A + B X^3
  • Reziprok-quadratische Regression Y = A +\frac{B}{X^2}

Hierfür sucht das Programm ebenso die Parameter A und B für die beste Annäherung an die gegebenen Werte. Darüber hinaus werden die ermittelten Regressionsfunktionen grafisch dargestellt. Durch den Vergleich der Korrelationskoeffizienten können Sie schnell überprüfen, welcher Regressionstyp Ihre Werte am besten annähert.

Beispiel: Für das oben genannte Beispiel Größe-Masse von Schülern erhalten Sie:

Regressionstyp Funktion Korrelationskoeffizient
linear Y=74.5943 X-7.13745 0.871762
logarithmisch Y=104.6126 LN(X)-2.0911 0.873646
exponentiell Y=1.2898·10.1002x 0.862667
geometrisch Y=11.0433 · X3.2488 0.864966
trigonometrisch Y=444.017 SIN(X)-404.087 0.884007
reziprok Y=-146.6227/X+137.8893 -0.875492

und somit nur unwesentliche Unterschiede der Korrelationsstärke. Dennoch würde man die logarithmische Regression vorziehen. Dies würde die Erweiterung der Daten um Größen und Massen von älteren Schülern verdeutlichen. Eine weitere Möglichkeit der Ermittlung von Messwertpaaren annähernden Funktionen finden Sie im Abschnitt „Allgemeine Kurvenanpassung“.

Beachten Sie bitte: Die Struktur der nichtlinearen Zielfunktionen erfordert folgende Einschränkungen:

  • Logarithmisch: alle xi müssen größer 0 sein
  • Exponentiell: alle yi müssen größer 0 sein
  • Geometrisch: alle xi und yi müssen größer 0 sein
  • Reziprok: alle xi müssen verschieden von 0 sein