Statistische Tests

Statistische TestsIn der Praxis der mathematischen Stochastik und Statistik spielen „Statistische Tests“ von Zufallsgrößen eine herausragende Rolle. In diesem Unterprogramm können Sie drei Arten von Tests durchführen.

Wählen Sie Stichprobentest werden drei auf der Student-t-Verteilung basierende Tests von normalverteilten Größen angeboten:

  • Test eines normalverteilten Stichprobenmittelwertes
  • Test zweier normalverteilter Stichprobenmittelwerte
  • Test einer Stichprobenhäufigkeit

Test eines normalverteilten Stichprobenmittelwertes
Von einer Stichprobe mit dem Umfang n und der Varianz s² aus einer normalverteilten Grundgesamtheit mit dem ermittelten Mittelwert m soll überprüft werden, ob dieser Mittelwert m von einem zu erwartenden Mittelwert µ zufällig abweicht. Für einen statistischen Test wird dazu die Nullhypothese H0 aufgestellt:

H0 = Die Abweichung des Mittelwertes m vom Erwartungswert µ ist zufälliger Natur, d.h. m = µ.

Nach der Ermittlung einer Testgröße t wird ein Vergleich mit einem Tabellenwert tb der t-Verteilung durchgeführt. Dieser Wert ist von einer gewählten Irrtumswahrscheinlichkeit α abhängig. Gilt t < tb, so kann die Nullhypothese mit der Irrtumswahrscheinlichkeit α angenommen werden. Andernfalls muss die Hypothese verworfen werden. Es ist dann davon auszugehen, dass die Abweichung nicht zufällig, sondern signifikant ist.

Dabei muss aber beachtet werden, dass aufgrund der zufälligen Stichprobe Fehlentscheidungen möglich sind.

Ein Fehler 1. Art liegt vor, wenn die Nullhypothese verworfen wird, obwohl sie richtig ist. Wird H0 angenommen, obwohl die Hypothese falsch ist, tritt ein Fehler 2. Art auf.
Je größer die Stichprobe ist, desto geringer wird die Häufigkeit einer Fehlentscheidung. In der Technik werden Irrtumswahrscheinlichkeiten α von 0.05 bevorzugt, in der Medizin 0.01. Entscheidet der statistische Test über sehr brisante Fakten, sollte α sehr klein und der Stichprobenumfang so groß wie möglich gewählt werden. Damit sinkt sowohl die Wahrscheinlichkeit eines Fehlers 1. Art als auch die des mitunter schlimmeren Fehlers 2. Art.

Für den Stichprobenmittelwert ist nun die Testgröße

    \[ t=\sqrt{n}\cdot \frac{|m-\mu|}{s} \]

zu berechnen. Aus der Student-t-Verteilungstafel ist die Testgröße tb mit f = n – 1 Freiheitsgraden zu entnehmen, was natürlich das Programm für Sie übernimmt.

Beispiel 1: Aus einer 65 Teile umfassenden Stichprobe wird ein Mittelwert von m = 14.3 bei einer Varianz s² von 1.6 berechnet. Der erwartete Mittelwert m beträgt jedoch 14. Bei einer Irrtumswahrscheinlichkeit von 0.05 ermittelt das Programm: Testgröße = 1.912 und Tabellenwert = 1.99
Damit kann die Hypothese, dass die Abweichung zufällig ist, angenommen werden.

Beispiel 2 (einseitiger Test): Für n = 5000 Batterien gibt der Hersteller eine mittlere Betriebszeit von 180 Stunden an. Zur Überprüfung werden 50 Stück getestet und ein Mittelwert m von 175 Stunden bei einer Standardabweichung von 18 Stunden ermittelt. Ein einseitiger Test mit 0.05 Irrtumswahrscheinlichkeit führt zur Ablehnung der Nullhypothese, d.h., mit 95% Sicherheit wäre eine Reklamation berechtigt. Bei 99% Sicherheit wird die Nullhypothese angenommen.

Test zweier normalverteilter Stichprobenmittelwerte
Liegen zwei Stichproben mit den Umfängen n1 und n2 aus normalverteilten Grundmengen vor und haben Sie die Mittelwerte m1 und m2 sowie die Varianzen s²1 und s²2 berechnet, so ergibt sich für diesen Test die Testgröße zu

    \[ t=\frac{|m_1-m_2|}{S}\cdot \sqrt{\frac{n_1 n_2}{n_1+n_2}} \]

wobei der Parameter S aus den Varianzen zu ermitteln ist. Für die Freiheitsgrade gilt f = n1 + n2 – 2.

Beispiel: Bei zwei Werkstoffen wurden aus 20 bzw. 32 Teststücken mittlere Zerreißfestigkeiten von m1 = 18 bzw. m2 = 24 … bei Varianzen von 4 und 6 ermittelt. Die Nullhypothese besagt, dass dieser Unterschied zufällig ist. Nach Eingabe der Werte erhalten Sie t = 9.2 und bei 50 Freiheitsgraden (Irrtumswahrscheinlichkeit 0.05) einen Tabellenwert von 2.01, womit die Hypothese abgelehnt werden muss. Der Unterschied der Zerreißfestigkeiten ist signifikant, also nicht zufällig.

Test einer Stichprobenhäufigkeit
Tritt in einer Stichprobe vom Umfang n ein Ereignis a mal ein, ist dagegen die zu erwartende Wahrscheinlichkeit des Eintritts p und nicht gleich dem empirisch ermittelndem Wert a / n , so erhalten Sie mit

    \[ t=\frac{|a-np|}{\sqrt{np(1-p)}} \]

eine Testgröße für die Nullhypothese eines zufälligen Abweichens.

Beispiel: Aufgrund langfristiger Untersuchungen besteht bei einer Tiererkrankung eine Sterbeziffer von p = 0.4. 71 erkrankte Tiere werden mit einem neuen Medikament behandelt, mit dem Ergebnis, dass nur 20 Tiere sterben. Für die Freiheitsgrade f = n – 1 = 70 und einer Irrtumswahrscheinlichkeit α von 0.01 ergibt sich ein Tabellenwert von 2.65. Die Testgröße beträgt 2.035, womit die Nullhypothese bestätigt wird, d.h., eine besondere Wirkung des neuen Medikaments kann nicht festgestellt werden.

Je Test wählen Sie zuerst die gewünschte Irrtumswahrscheinlichkeit zwischen 0.05, 0.01 und 0.001 (für einseitige Tests 0.005). Ausgehend vom jeweiligen Beispiel entscheiden Sie zusätzlich an den Schaltfeldern für Tests normalverteilter Mittelwerte, ob der Test einseitig oder zweiseitig durchgeführt werden soll.

Binomial-Signifikanztest
Während bei den bisherigen Teilprogrammen zur Stochastik die Wahrscheinlichkeit des Eintretens eines Ereignisses entweder bekannt war oder aber aus bestimmten Werten berechnet werden sollte, gibt es Situationen, wo die Wahrscheinlichkeit p unbekannt ist oder aber nur Behauptungen aufgestellt werden können, deren Wahrheitswert einzuschätzen ist. Dazu verwendet man statistische Prüfverfahren. Ist zu erwarten, dass die Stichprobenverteilung binomialverteilt ist, so benutzt man einen Binomial-Signifikanztest, der in diesem Teilprogramm umgesetzt wurde.

Liegt eine binomialverteilte Stichprobe des Umfangs n vor, bei der das interessierende Ereignis A genau k mal eingetreten ist, so beträgt die empirisch gefundene Wahrscheinlichkeit p = k / n. Ist nun zu erwarten, dass das Ereignis A theoretisch mit der Wahrscheinlichkeit p0 eintreten müsste, so kann ein Unterschied zwischen p und p0 zufällig oder aber signifikant, d.h. wesentlich sein.

Zur Überprüfung wird nun die Nullhypothese H0 / p = p0 aufgestellt und für eine frei wählbare Irrtumswahrscheinlichkeit α der sogenannte Ablehnungsbereich K ermittelt. Zuvor prüft man, ob der Test zweiseitig, d.h., der Irrtum wird gleichmäßig auf die Randbereiche des Intervalls [1;n] verteilt, oder einseitig (linksseitig oder rechtsseitig) ist. Zum Beispiel wird man die Güte eines Spielwürfels zweiseitig testen, da ein Würfel, der zu wenig oder aber zu viel Sechsen würfelt, nicht günstig ist.

Verspricht Ihnen hingegen ein Hersteller, dass sein Artikel zum Beispiel 100 Stunden ohne Defekt arbeitet, wird man nur einen einseitigen Test durchführen, da Sie sicherlich nichts gegen eine längere Betriebsdauer des Artikels einzuwenden hätten. Anschließend ermitteln Sie für die theoretische Binomialverteilung Bn;p0 die Zahlen a und b, für die

  • zweiseitig: P(X<a) ≤ α/2 und P(X≥b) ≤ α/2
  • rechtsseitig: P(X≥b) = 1 – Fn;p0(b-1) ≤ α
  • linksseitig: P(X<a) = Fn;p0(a) ≤ α

gilt. Aus diesen Werten ergibt sich damit der Ablehnungsbereich K zu

  • zweiseitig: K = {0, …, a} ∪ {b, …, n}
  • rechtsseitig: K = {b, …, n}
  • linksseitig: K = {0, …, a}

Liegt der in der Stichprobe gefundene Werte k des Eintretens des Ereignisses A in dem Ablehnungsbereich, müssen Sie davon ausgehen, dass Ihre Nullhypothese nicht korrekt ist. Die Hypothese wird damit abgelehnt und Sie können mit der Irrtumswahrscheinlichkeit α annehmen, dass die theoretische Wahrscheinlichkeit p0 von der empirisch gefundenen p signifikant abweicht. Zu beachten ist hierbei aber, dass Ihnen mit der Wahrscheinlichkeit α ein Fehler 1. Art (Risiko 1. Art) unterlaufen kann. Dieser tritt ein, wenn Sie Ihre Nullhypothese ablehnen, da k ∈ K ist und dennoch die Nullhypothese H0 wahr ist.

Diese etwas langwierige Rechnung nimmt Ihnen das Programm in diesem Unterprogramm ab.

Tragen Sie dazu den Stichprobenumfang n, die theoretische Wahrscheinlichkeit p(0), die Anzahl des Eintretens des Ereignisses A in der Stichprobe und die Irrtumswahrscheinlichkeit α unter Signifikanz (in %) ein. Betätigen Sie den Schalter Berechnung oder die RETURN-Taste berechnet das Programm den Annahmebereich K und entscheidet, ob die Nullhypothese abgelehnt oder angenommen wird.

Beispiel: Der Hersteller eines Artikels verspricht, dass der Ausschussanteil höchstens 3% beträgt. Ein Käufer findet aber unter 100 erworbenen Artikeln 7 defekte Teile. Ist eine Reklamation zur Irrtumswahrscheinlichkeit von 5% berechtigt?

Offensichtlich ist ein rechtsseitiger Test durchzuführen. Nach Eingabe der Werte n = 100, p0 = 0.03, k = 7 und α = 5% ermittelt das Programm einen Annahmebereich von 0 bis 6. Da k = 7 außerhalb dieses Bereichs liegt, wird die Nullhypothese, dass die hohe Ausschussrate Zufall ist, abgelehnt. Eine Reklamation ist somit berechtigt.

Chi²-Test, χ²-Verteilungstest
Neben Tests von Mittelwerten und Häufigkeiten werden empirisch gefundene Verteilungen mit theoretischen Verteilungen verglichen. In diesem Unterprogramm können Sie Ergebnisse eines Zufallsexperiments auf Normal- bzw. Gleichverteilung sowie eine von Ihnen eingegebene theoretische Verteilung testen.

Ergibt ein Zufallsexperiment, eine Messreihe usw. die Menge xi von Ergebnissen, so teilen Sie diese in k (maximal 12) unbedingt gleich breite Klassen, d.h. Intervalle, ein, stellen in diesen die absolute Häufigkeit hi des Eintritts fest und tragen die Klassenmittelpunkte und die absoluten Häufigkeiten in die zwei Spalten ein.

Nach Betätigung des Schalters Berechnung errechnet das Programm den Mittelwert sowie die Varianz der eingegebenen Werte und daraus, je nach Wahl an den Schaltfeldern, eine theoretische absolute Häufigkeit ki für eine normalverteilte bzw. gleichverteilte Zufallsgröße.

Über einen χ²-Verteilungstest (Anpassungstest) wird nun die Testgröße zu

    \[ \chi ^2=\frac{(h_1-k_1)^2}{k_1}+\frac{(h_2-k_2)^2}{k_2}+...+\frac{(h_n-k_n)^2}{k_n} \]

ermittelt. Dabei wird gefordert, dass die theoretische Häufigkeit je Klasse mindestens 5 beträgt. Ist dies nicht der Fall, fasst das Programm selbstständig einzelne Klassen automatisch zusammen.

Anschließend bestimmt dieses Unterprogramm Tabellenwerte der χ²-Verteilung und vergleicht diese mit der Testgröße. Die Anzahl der Freiheitsgrade f = k – m – 1 ergibt sich für die Normalverteilung zu f = k – 3 (m = 2 … Mittelwert und Varianz wurden geschätzt) bzw. für die Gleichverteilung zu f = k – 2 (m = 1 … Mittelwert wird geschätzt).

Daraus resultiert, dass eine Mindestzahl von Klassen k mit einer theoretischen Häufigkeit größer 5 notwendig ist. Ist dies nicht der Fall, erhalten Sie die Fehlermeldung: Zu wenig verwertbare Klassen !
Widersprechen die Werte generell einem Test, z.B. weniger als drei eingegebene Klassen, meldet das Programm: Kein Test durchführbar !

Ausgehend von der Nullhypothese, dass die zu testenden Werte gleich- bzw. normalverteilt sind, fällt das Programm die Entscheidung, ob die Nullhypothese verworfen werden muss oder angenommen werden kann.

Beachten Sie: Diese Entscheidung ist mit einer Irrtumswahrscheinlichkeit behaftet. Sogenannte Fehler 1. bzw. 2. Art sind möglich.

Beispiel 1: Von 80 gefertigten Werkstücken werden ein Merkmal gemessen, die Maße in acht Klassen eingeteilt und deren Häufigkeiten h(i) berechnet. Die Klassen haben eine Breite von 2.

Klassenmittelpunkte 34 36 38 40 42 44 46 48
hi 1 2 8 13 25 16 13 2

Bei Vermutung einer Normalverteilung berechnet das Programm die theoretischen Klassenhäufigkeiten:

ki 0.38 2.15 7.56 16.44 22.08 18.32 9.39 2.97

Da die Forderung einer Mindesthäufigkeit von 5 existiert, werden die ersten drei und die letzten zwei zu Klassen zusammengefasst und die Testgröße zu t = 2.045 berechnet. Bei einer Irrtumswahrscheinlichkeit von 0.05 beträgt der Vergleichswert 5.99, womit das Zahlenmaterial als gleichverteilt angesehen werden kann.

Beispiel 2: Ein Würfel wird 100 mal geworfen. Für die Augenzahlen ergibt sich:

Klassenmittelpunkte 1 2 3 4 5 6
absolute Häufigkeit 21 16 11 26 12 14

Ein Test auf Gleichverteilung ergibt für die Irrtumswahrscheinlichkeit 0.05 eine Testgröße von 10.04 und einen Tabellenwert von 9.49, d.h. eine Ablehnung der Nullhypothese. Scheinbar liegt kein idealer Würfel vor. Eine endgültige Entscheidung ist hier aber nicht möglich oder sollte zumindest nicht getroffen werden. Die sehr kleine Zahl von nur 100 Würfen provoziert einen Fehler 1. Art. Erst mit einer größeren Zahl (etwa 10.000) von Würfen sollte die Güte des Würfels eingeschätzt werden.

Test einer theoretischen Verteilung
Wünschen Sie zwei Verteilungen zu vergleichen, d.h., beide Verteilungen müssen nicht notwendigerweise normal- bzw. gleichverteilt sein, so tragen Sie in der Spalte theoretische Häufigkeit Ihre zweite Reihe ein.
Der Schalter Berechnung ermittelt nun, ob zwischen den Werten ein signifikanter Unterschied besteht oder nicht.

Beispiel: Für die Haltbarkeit von Zündkerzen eines Fahrzeugmotors wird ermittelt, wie viele 10000 km eine Zündkerze funktionstüchtig bleibt und nicht gewechselt werden muss. Dabei vermutet man, dass die Haltbarkeit eine exponentialverteilte Zufallsgröße darstellt. Zur Überprüfung der Vermutung werden die absoluten Häufigkeiten hi der Haltbarkeit gezählt und eine theoretische Exponentialverteilung eingetragen. Diese Werte können Sie zum Beispiel im Unterprogramm Stetige Verteilungen ermitteln und dem Beispiel anpassen.

Klassenmittelpunkte in 10000 km 40 45 50 55 60 65 70
hi 1048 176 42 6 2 1 1
Theoretische Exponentialverteilung ki 968 195 39 7.9 1.6 0.33 0.1

Wählen Sie nun eine Irrtumswahrscheinlichkeit von 0.01, ermittelt das Programm eine Testgröße von 8.694. Da der Tabellenwert jedoch nur 6.64 beträgt, muss die Hypothese fallen gelassen werden. Es ist wahrscheinlich, dass die Haltbarkeit der Zündkerzen nicht exponentialverteilt ist.
Zu bemerken wäre, dass in der Praxis neben dem χ²-Test auch Tests mittels F- oder t-Verteilung gebräuchlich sind.