Seminararbeit zum Thema Statistische Tests Verfasst von: Matthias B ¨ OCK, 01226255 Martina RIEBENBAUER, 01302468 David R ¨ UHRINGER, 00828405 Kevin SPIES, 01446708 Lehrveranstaltung: 250119 KO Mathematik macht Freu(n)de Vorgelegt bei: Univ.-Prof. Dr. Michael EICHMAIR 11. M¨ arz 2018
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Seminararbeit
zum Thema
Statistische Tests
Verfasst von:
Matthias BOCK, 01226255
Martina RIEBENBAUER, 01302468
David RUHRINGER, 00828405
Kevin SPIES, 01446708
Lehrveranstaltung: 250119 KO Mathematik macht Freu(n)de
Diese Tests werden auch nichtparametrische Tests genannt, weil keine spezielle Vertei-
lung der Daten vorausgesetzt wird (Skalenniveau: Nominalskala oder Ordinalskala). Sie
haben den Vorteil, dass sie bei kleinen Stichproben geeignet sind und relativ einfache
Formeln verwendet werden. Außerdem sind sie bei Unklarheit uber die Skalenniveaus
anwendbar, weil es kaum Voraussetzungen gibt.
Dem gegenuber steht, dass die Teststarke (siehe Kapitel 2.2.2), bei gleichen Voraus-
setzungen, immer geringer ist als bei vergleichbaren parametrischen Tests, es kaum
Verfahren gibt mit denen mehr als eine Variable auf einmal berechnet werden kann
und, dass bei großen Stichproben der Aufwand zur Berechnung exakter Wahrschein-
lichkeiten groß ist.7
2.1.4 Normalverteilte Tests
Bei normalverteilten (=parametrischen) Tests wird in Bezug auf die Populationsvertei-
lung angenommen, dass diese einer Verteilung (in der Regel: Normalverteilung) unter-
liegt. Zum Anwenden dieser Tests sind Daten vom Skalenniveau von mindestens einer
Intervallskala notwendig. 8
2.2 Testqualitat
Um Aussagen uber die Qualitat von Tests machen zu konnen gibt es verschiedene
Moglichkeiten. Einige davon werden in den nachfolgenden Kapiteln erlautert.
2.2.1 Testkriterien
Grundsatzlich sollte ein Test gewisse Anforderungen (sogenannte Testgutekriterien)
erfullen, wobei die ersten drei von großerer Bedeutung sind. Die zehn Kriterien lauten:
1. Objektivitat: Das Merkmal wird unabhangig vom Testleiter bzw. von der Test-
leiterin und der Ergebnisinterpretation gemessen.
2. Reliabilitat: Ein Merkmal wird zuverlassig, d.h. ohne Messfehler gemessen.
3. Validitat: Das zu messen angegebene Merkmal wird wirklich gemessen und nicht
ein anderes.
4. Skalierung: Die Testwerte bilden die Merkmalsrelationen adaquat ab.
5. Normierung(Eichung): Es existiert ein Bezugssystem, mit dem die Ergebnis-
se von zwei Testpersonen miteinander verglichen und eindeutig eingeordnet und
interpretiert werden konnen.
7Vgl. Schafer, Thomas (2009): Methodenlehre II - Verfahren fur nominalskalierte Daten. Chemnitz, S. 1 f.8Vgl. Schafer, Thomas (2009): Methodenlehre II - Verfahren fur nominalskalierte Daten. Chemnitz, S. 1
4
6. Testokonomie: Im Vergleich zu dem Erkenntnisgewinn werden relativ wenig Res-
sourcen (z.B.: Zeit, Geld) beansprucht.
7. Nutzlichkeit: Das gemessene Merkmal besitzt praktische Relevanz und bei Ent-
scheidungen auf Basis dieses Wissens ist zu erwarten, dass mehr Nutzen als Scha-
den geschieht.
8. Zumutbarkeit: Der Nutzen des Tests ist (in Relation gesehen) hoher, als die
zeitliche, psychische und korperliche Beanspruchung von Testpersonen.
9. Unverfalschbarkeit: Testpersonen konnen die Ergebnisse nicht (un)bewusst verfalschen.
10. Fairness: Die Testwerte fuhren zu keiner systematischen Benachteiligung von
Personen(gruppen) mit bestimmten ethnischen, soziokulturellen oder geschlechts-
spezifischen Auspragungen.9
2.2.2 Teststarke
Die Teststarke (oder”Power“) gibt die Wahrscheinlichkeit an, dass ein statistischer
Test einen Effekt bestimmter Große von reinem Zufall unterscheiden kann. Wenn also
die Resultate eines Tests bekannt sind, ist sie ein Maß dafur wie aussagekraftig ein Test
ist. Die Teststarke hangt von drei Faktoren ab:
1. Die Große der gesuchten Abweichung: je starker die Manipulation ist, umso
leichter ist sie zu entdecken.
2. Die Große der Stichprobe: wenn mehr Daten vorhanden sind, sind geringere
Manipulationen leichter zu erkennen.
3. Messfehler: Manche Merkmale sind schwieriger zu erfassen (z.B. Erschopfung)
als andere (z.B. Munzwurfe) - dementsprechend kann es zu großeren Abweichungen
kommen.
Von unzureichender Teststarke ist die Rede, wenn eine Studie zu klein ist, um den
gesuchten Effekt zu entdecken. 10
9vgl. Moosbrugger, Helfried/Kelava, Augustin (Hrsg, 2008): Testtheorie und Fragebogenkonstruktion. Heidelberg,S.7-24
10vgl. Reinhart Alex (2016): Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden. Rhein-breitbach S. 35-43
5
3 Der Hypothesentest
Ein wesentlicher Bestandteil von Forschungsstudien sind Hypothesentests. Ein Hypo-
thesentest ist eine statistische Vorgehensweise, in der man Daten verwendet, um eine
Behauptung uber eine Grundgesamtheit zu bestatigen oder zu widerlegen. Hierbei ist
vor allem wichtig, dass sich die Hypothesen nicht auf die Stichproben beschranken, son-
dern sich auf die Grundgesamtheit beziehen, deren Parameter meist unbekannt sind.
Hypothesentests werden in allen moglichen Bereichen eingesetzt, die sich auf das Leben
auswirken: medizinische Studien, Werbung, Wahlerbefragungen und praktisch uberall,
wo Vergleiche anhand von Mittelwerten oder Anteilen gezogen werden. 11
3.1 Die statistische Hypothese
Bei statistischen Hypothesen handelt es sich um Behauptungen, formalisierte Aussagen
und moglichst prazise Annahme, die wir mit statistischen Mitteln – und zwar einem
Kalkul auf der Basis von Verteilungsannahmen – systematisch uberprufen.
”Die Grundeinheit einer statistischen Hypothese ist die Variable. Eine mit den Mitteln
der Statistik zu prufende Hypothese ist immer als eine prazise Aussage zu formulieren,
in der ein Zusammenhang zwischen mindestens zwei Variablen behauptet wird. Da-
bei besitzt eine Variable immer mindestens zwei Auspragungen. Jede Hypothese muss
so formuliert sein, dass sie auch scheitern kann, d.h. sich empirisch im Rahmen der
durchgefuhrten Studie und auf der Basis der dafur erhobenen Daten als falsch erweisen
kann.“ 12 So konnte eine einfach Hypothese etwa lauten:”Frauen sind klimabewusster
als Manner.“ 13 Die Variablen waren hier zum einen Frau/Mann und zum anderen
klimabewusst/nicht klimabewusst.
3.1.1 Nullhypothese und Alternativhypothese
Der statistische Hypothesentest ist immer eine Entscheidung zwischen zwei Moglichkeiten
(Hypothesen), die einander gegenuber gestellt werden: die Nullhypothese und die Al-
ternativhypothese.14
Bevor auf die Begriffe Nullhypothese und Alternativhypothese naher eingegangen wird,
muss darauf hingewiesen werden, dass es sich beim Hypothesentest um kein mathema-
tisches Instrument handelt, mit dem man feststellen kann, ob die eine Hypothese richtig
oder falsch ist, denn so ein Instrument existiert nicht. Man kann lediglich uberprufen,
11Vgl. Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 37f.12Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auflage,
Wiesbaden, 2010/2013), 144.13Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 144.14Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 145.
6
ob die Hypothese mit den Daten konsistent ist.15
Die als Alternativhypothese (H1) formulierte Aussage ist jene Hypothese, die im Mittel-
punkt des Interesses der Forschenden steht. Hiermit mochte man bestimmte Phanomene
erklaren und Zusammenhange offen legen. Da man dies nur im Falle eines bisher nicht
oder nur unzureichend erklarten Sachverhalts macht, ist der Begriff”alternativ“ tref-
fend; immerhin handelt es sich um eine neue Erklarung, alternativ und/oder erganzend
zum bisherigen Forschungsstand.
Die Nullhypothese (H0) ist nun eine formale Gegenhypothese zur formulierten Alterna-
tivhypothese. Sie ist eine Negativhypothese, mit der behauptet wird, dass die zur Al-
ternativhypothese komplementare Aussage richtig ist. Die Nullhypothese besagt, dass
der postulierte Zusammenhang null und nichtig ist16, dass nichts Neues geschehen wird
oder dass eine Gruppe einen bestimmten Durchschnittswert hat und ausschließlich der
Zufall am Werk ist.
Eine anschauliche Erklarung uber den intuitiven Ablauf des Hypothesentests liefert De-
borah Rumsey:”Hypothesentests entsprechen in gewisser Weise Anklagen vor Gericht.
In einer Anklage entspricht die Nullhypothese H0 dem Urteil”nicht schuldig“, und die
Alternativhypothese H1 dem Urteil”schuldig“. In einer Gerichtsverhandlung wird so
lange von der Unschuldsvermutung ausgegangen, bis die Schuld zweifelsfrei bewiesen
werden konnte. Nur wenn der Beweis uber alle Zweifel erhaben ist, wird H0 zugunsten
von H1 abgelehnt.“17
Wird nun in der Forschung H0 zugunsten von H1 abgelehnt, so kann der Wissenschaft-
ler behaupten, ein statistisch signifikantes Ergebnis gefunden zu haben. 18 Eigentlich
hat die Nullhypothese die besseren Chancen, dass die Entscheidung fur sie ausfallt,
denn solange man die empirischen Gegebenheiten mit hinreichender Wahrscheinlich-
keit aus dem Zufall erklaren kann, solange behalt man auch die H0 bei. 19
Was bedeutet nun”mit hinreichender Wahrscheinlichkeit aus dem Zufall erklaren kann“?
3.2 Der p-Wert
Wenn man ein Experiment durchfuhrt, die notigen Daten erhebt und zu einem Ergebnis
kommt, dann muss man sich eine kritische Frage stellen. Und zwar: Konnte es sein, dass
das Ergebnis einfach nur durch zufalliges Gluck oder unbedeutenden Schwankungen zu-
stande gekommen ist oder handelt es sich tatsachlich um ein statistisch signifikantes
Ergebnis, wo die Abweichungen großer sind als durch rein zufallige Fluktuationen zu15Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,
mitp Verlag, 2016), 26.16Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 145.17Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 236.18Ebda, 237.19Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 145.
7
erwarten waren? Um diese Frage zu beantworten, hilft der p-Wert. Denn der sagt:
”Wenn wirklich nur der Zufall am Werk ware, wie wahrscheinlich ware dann noch
das Ergebnis von unserem Experiment?“ Der p-Wert misst also, wie wahrscheinlich
es ist, die Stichprobenergebnisse zu erhalten, wenn die Nullhypothese zutrifft. Anders
formuliert: Ausgehend von der Annahme, dass ein echter Effekt oder ein wirklicher Un-
terschied nicht vorhanden ist – also H0 zutrifft -, gibt der p-Wert die Wahrscheinlichkeit
dafur an, dass die gesammelten Daten mindestens dem tatsachlich beobachteten Wert
entsprechen oder einen extremeren Wert annehmen.20
3.2.1 Berechnung des p-Werts
Wie berechnet man nun diesen p-Wert?
Angenommen man nimmt acht Glaser eines Energydrinks, wobei in vier Glasern der
acht Glaser die normale Variante des Energydrinks ist und in den anderen vier die
ungezuckerte Variante. Es gilt nun nur durch reines Kosten jene Energydrinks heraus-
zufinden, die ungezuckert sind. Angenommen, der Versuchskandidat bzw. die Versuchs-
kandidatin erkennt drei von vier richtig. So muss im nachsten Schritt herausgefunden
werden, ob dieses Ergebnis reines Gluck war, oder, ob er oder sie sehrwohl einen Un-
terschied schmecken kann.
Dazu stellen wir die Nullhypothese”Es war reiner Zufall, dass drei von vier ungezu-
ckerte Energydrinks richtig erkannt wurden“ auf.
Als erstes berechnen wir die Wahrscheinlichkeiten fur alle moglichen Ausgange dieses
Experiments. Also wie wahrscheinlich es ist keinen, einen, zwei, drei oder sogar alle
vier richtig zu erkennen. Da dies einem Ziehen ohne Zurucklegen, also einer hypergeo-
metrischen Verteilung, entspricht, berechnen wir dies mit der Formel:
P =
(M
k
)·
(N −Mn− k
)(N
n
) (1)
21
Dabei ist N die Anzahl der Grundgesamtheit, M die Anzahl, der fur uns gunstigen
Elemente, n die Anzahl die wir”entnehmen“ und k die Elemente aus M, die in n
enthalten sind.
Nach Berechnung mit dieser Formel erhalten wir, dass die Wahrscheinlichkeit, null
Richtige zu erwischen bei 1,4% liegt, jene fur ein richtiges Glas bei 22,9%, fur zwei bei
20Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,mitp Verlag, 2016), 23-26.
51,4%, die fur drei richtige bei 22,9% und die Wahrscheinlichkeit alle vier richtig zu
erraten liegt bei 1,4%.
Nun ist der p-Wert aber nicht jener Wert, der in unserem Beispiel bei drei Richtigen
herauskommt! Denn der p-Wert gibt an, wie wahrscheinlich es ist, ein Ergebnis zu
erzielen, welches mindestens so gut ist, wie unser Ausgangsergebnis. Mindestens so
gut wie drei Richtige sind also drei Richtige und mehr. Daraus folgt, dass wir die
Wahrscheinlichkeiten fur drei und fur vier Richtige addieren mussen und erhalten einen
p-Wert von 24,3%.
Wie kann man nun anhand des p-Wertes beurteilen, ob ein Unterschied tatsachlich
signifikant ist und welche Hypothese nun verworfen wird?
3.3 Das Signifikanzniveau
Dafur legt man das sogenannte Signifikanzniveau fest. Dieses beschreibt eine Schwelle
fur den p-Wert. In den meisten Fallen belauft sich das Signifikanzniveau auf 5%. In
manchen Fallen findet man aber auch Signifikanzniveaus von 1% oder sogar von 0,1%,
wenn man noch sicherer gehen will, dass das Ergebnis nicht bloßer Zufall war.
”Die Wahl des Signifikanzniveaus ist abhangig von der Stichprobengroße einerseits und
von den Konsequenzen eines Fehlers andererseits.“ 22 Daher sollte man bei sehr großen
Stichproben das Signifikanzniveau niedrig wahlen. Dasselbe gilt, wenn eine Entschei-
dung zugunsten der Alternativhypothese schwerwiegende Folgen haben konnte. Aus
diesen Grunden ist es immer wichtig, sich vor dem Test genau zu uberlegen, wie man
das Signifikanzniveau wahlt.
Liegt der p-Wert uber dem festgelegten Signifikanzniveau, so sagt man, dass das Er-
gebnis nicht signifikant ist. Ist der p-Wert kleiner als das festgelegte Signifikanzniveau,
so ist das Ergebnis statistisch signifikant. Wenn der p-Wert unter 1% liegt, so nennt
man das Ergebnis sehr oder hoch signifikant. Wenn nun die Wahrscheinlichkeit, dass
ein Ergebnis rein vom Zufall abhangt, kleiner als das festgelegte Signifikanzniveau ist,
so wird die H0-Hypothese zugunsten der H1-Hypothese verworfen. Der p-Wert ist al-
so kein Maßstab dafur, wie richtig (oder falsch) man mit der Hypothese liegt oder
wie bedeutsam ein Unterschied im Endeffekt ist. Es ist eher ein Indikator dafur, wie
unerwartet oder uberraschend ein Ergebnis ausfallt.23
Wenn wir uns an unser Beispiel zuruckerinnern, so liegt unser p-Wert von 24,3% deut-
lich uber dieser Schwelle. Daraus kann man folgern, dass das Ergebnis nicht signifikant
ist. In anderen Worten: Die Wahrscheinlichkeit, durch bloßes Raten die zuckerfreien
Energydrinks herauszufiltern, liegt bei 24,3% und ist damit viel zu hoch.
22Kuckartz, Radiker, Ebert, Schehl, Statistik - Eine verstandliche Einfuhrung, 2013, S.14923Deborah Rumsey, Statistik fur Dummies (3. Auflage, WILEY-VCH Verlag, Weinheim, 2015), 240-243.
9
3.4 Fehler erster und zweiter Art
Beim Entscheidungsprozess zwischen Nullhypothese und Alternativhypothese existie-
ren nun prinzipiell vier Varianten fur eine richtige beziehungsweise falsche Entschei-
dung:
Abbildung 2: Fehler erster und zweiter Art 24
Dabei sind die Felder H0/H0 sowie H1/H1 unproblematisch. Diese sagen aus, dass in der
Grundgesamtheit H0 (H1) gilt und man sich aufgrund der Ergebnisse der Stichprobe
auch fur H0 (H1) entscheidet. 25 Bei den Kombinationen H0/H1 oder H1/H0 hingegen
handelt es sich um Fehler, die in der Wissenschaft soweit wie moglich ausgeschlossen
werden sollten.
1. α-Fehler (Fehler 1. Art oder Falsche Positive): Die Nullhypothese wird
abgelehnt, obwohl sie richtig ist. Dies bedeutet, dass geschlussfolgert wird, dass es
einen Effekt gibt, der tatsachlich nicht vorhanden ist.
2. β-Fehler (Fehler 2. Art oder Falsche Negative): Die Nullhypothese wird
akzeptiert, obwohl sie falsch ist, was so viel bedeutet wie, dass ein tatsachlich
vorhandener Effekt ubersehen wird. 26
Alex Reinhart beschreibt das Problem der Fehler trefflich:
”In gewisser Hinsicht sind falsche Positive und falsche Negative zwei Seiten derselben
Medaille: Wenn wir allzu bereit sind, auf einen Effekt zu schließen, laufen wir Gefahr,
falsche Positive zu erhalten – sind wir hingegen zu zuruckhaltend, begehen wir den
Fehler, einen Effekt nicht zu erkennen und erhalten falsche Negative.“ 27
Um diese Fehler gering zu halten, bietet sich das Neyman-Pearson-Kriterium an. Ney-
man und Pearson argumentierten, dass es zwar unmoglich ist, falsche Positive und
falsche Negative vollig auszuschließen, aber, dass es sehr wohl moglich ist, ein forma-
les Entscheidungsverfahren zu entwickeln das gewahrleistet, dass falsche Positive nur24Statistik - Eine verstandliche Einfuhrung, S. 15125Vgl. Udo Kuckartz, Stefan Radiker, Thomas Ebert, Julia Schehl, Statistik. Eine verstandliche Einfuhrung (2. Auf-
lage, Wiesbaden, 2010/2013), 151f.26Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage,
mitp Verlag, 2016), 29.27Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden (1. Auflage, mitp
Verlag, 2016), 29.
10
gemaß einer vorgegebenen Rate α auftreten. Nun liegt es nur mehr daran, das beste
Testverfahren zu ermitteln, welches die niedrigste Anzahl falscher Positiver bei vorgege-
benen α liefert. Vgl. Alex Reinhart, Statistics Done Wrong. Statistik richtig anwenden
und gangige Fehler vermeiden (1. Auflage, mitp Verlag, 2016), 29.
Das Signifikanzniveau wird auch des Ofteren als Irrtumswahrscheinlichkeit bezeichnet.
Legt man das Signifikanzniveau auf die ublichen 5% fest, so ist die Irrtumswahrschein-
lichkeit eben genauso groß. Die Irrtumswahrscheinlichkeit besagt namlich, mit welcher
Wahrscheinlichkeit man einen Fehler der ersten Art begeht. Das bedeutet also, wenn
wir ein Signifikanzniveau bzw. eine Irrtumswahrscheinlichkeit von 5% haben, so wei-
sen wir mit einer Wahrscheinlichkeit von 5% die Nullhypothese zuruck, obwohl diese
eigentlich richtig war.
3.5 Einseitiger und zweiseitiger Hypothesentest
Bei Hypothesentests kann man zwischen zwei verschiedenen Arten unterscheiden: dem
einseitgen und dem zweiseitigen Test. Bei einem einseitigen Hypothesentest ist die auf-
gestellte Hypothese gerichtet, das heißt, dass ein Zusammenhang mit der Richtung
der Hypothese besteht. Einfach gesagt bedeutet das, dass der p-Wert einfach eine be-
stimmte Schwelle uber - bzw. unterschreiten muss, damit die Nullhypothese verworfen
wird. Wenn die Hypothese ungerichtet ist, wird nichts uber die Richtung des Zusam-
menhangs ausgesagt, daher benotigt man einen zweiseitigen Test. Dieser hat nun zwei
Bereiche, in denen die Nullhypothese verworfen wird. Fur einen zweiseitigen Test gilt
naturlich, dass das Signifikanzniveaus an beiden Randern aufgeteilt werden muss, um
die Irrtumswahrscheinlichkeit zu erhalten. Dies wird in folgender Grafik (Abbildung 3)
dargestellt. 28
Abbildung 3: Zweisweitiger Hypothesentest 29
28Vgl. Statistik - Eine verstandliche Einfuhrung,147 - 151.29Kuckartz, Radiker, Ebert, Schehl, Statistik - Eine verstandliche Einfuhrung, 2013, S.151
11
4 Konfidenzintervalle
Bis jetzt haben wir den p-Wert untersucht, um die Beweiskraft eines Forschungsergeb-
nisses zu beurteilen. Es gibt jedoch eine Alternative, um dieselben Fragen zu beantwor-
ten und gleichzeitig genauere Informationen zu erhalten - die Konfidenzintervalle. Der
Vorteil dabei ist, dass die Ergebnisse einfacher zu interpretieren sind und gleichzeitig
mehr Aussagekraft haben. 30
Die Berechnung der Konfidenzintervalle ist abhangig davon, welches Merkmal einer
Stichprobe untersucht wird, beziehungsweise welche Daten vorhanden sind. Wir wer-
den Konfidenzinervalle fur den Anteil an der Grundgesamtheit naher betrach-
ten. Das bedeutet, dass wir in unserer Stichprobe einen Anteil p mit einer gewissen
Eigenschaft haben und dafur ein Konfidenzintervall konstruieren wollen, um so auf die
Grundgesamtheit schließen zu konnen. Konfidenzintervalle konnen aber beispielsweise
auch fur den Mittelwert oder den Erwartungswert einer Verteilung aufgestellt werden.
Jedoch wurde es den Rahmen dieser Arbeit sprengen, auf all die unterschiedlichen Be-
rechnungen einzugehen.
Wie der Name schon verrat, handelt es sich um ein Intervall. Es beschreibt den Bereich,
der durch eine statistische Große plus/minus der Fehlergrenze definiert ist.
4.1 Fehlergrenze
Die Fehlergrenze gibt nun jenen Wertebereich an, in dem der Wert der Grundgesamt-
heit wahrscheinlich liegt, den man mit Hilfe eines Stichprobenergebnisses zu schatzen
versucht. 31 Die Grundlage der Fehlergrenze bildet der Standardfehler, welcher fur einen
Stichprobenanteil folgendermaßen berechnet wird (hier ist die vereinfachte Formel an-
gegeben, welche jedoch nur verwendet werden kann, wenn folgende Faustregel zutrifft:
np(1− p) & 9):
σp =√
p·(1−p)n
Wobei p den Stichprobenanteil und n die Stichprobengroße darstellen.
Hierbei wird sofort ersichtlich, dass der Standardfehler kleiner wird, je großer die Stich-
probengroße gewahlt wird. Um nun die Fehlergrenze zu erhalten, wird der Standard-
fehler mit dem Z-Wert des gewunschten Konfidenzniveaus multipliziert.
30vgl. Reinhart Alex (2016): Statistics Done Wrong. Statistik richtig anwenden und gangige Fehler vermeiden. Rhein-breitbach S. 33
31vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 197
12
4.2 Konfidenzniveau
Der Begriff Konfidenz soll deutlich machen, dass man ein bestimmtes Maß an Vertrauen
(engl. confidence) in einen Vorgang hat. Das Konfidenzniveau beschreibt die Große des
Vertrauens.32 Ublicherweise wird ein Niveau von 95% gewahlt. In der folgenden Tabelle
sind die Z-Werte fur einige Konfidenzniveaus dargestellt.
Abbildung 4: Z-Werte der Konfidenzniveaus 33
Wahlt man nun ein bestimmtes Konfidenzniveau aus, so muss der Standardfehler mit
dem entsprechenden Z-Wert multipliziert werden, um die Fehlergrenze zu erhalten. Je
hoher das Niveau gewahlt wird, desto großer wird die Fehlergrenze.
4.3 Konfidenzintervall berechnen
Betrachten wir nun ein konkretes Beispiel. Angenommen, man mochte den Prozentsatz
der Motorrader an den motorisierten Fahrzeugen in Osterreich ermitteln. Dazu wird
zu unterschiedlichen Zeitpunkten an mehreren Autobahnen eine Zufallsstichprobe von
1000 Fahrzeugen genommen. Man zahlt dabei 50 Motorrader, also sind es bei dieser
Stichprobe 5%.
Selbstverstandlich kann nun nicht gesagt werden, dass 5% aller motorisierter Fahrzeuge
in Osterreich Motorrader sind, da es sich ja nur um eine Stichprobe handelt. Man hofft
allerdings, dass das dem tatsachlichen Ergebnis sehr nahe kommt. Um nun diesem Er-
gebnis mehr Aussagekraft zu verleihen, berechnen wir uns die Fehlergrenze und wahlen
ein Konfidenzniveau von 95%. Der dazugehorige Z-Wert betragt 1, 96:
1, 96 ·√
0,05·(1−0,05)1000 = 0, 0135
Unsere Fehlergrenze betragt folglich rund 1, 4%. Das Konfidenzintervall reicht nun von
5% +/− 1, 4%, also von 3, 6% bis 6, 4%. Was bedeutet das nun?
Wurde man weiterhin zufallige Stichproben nehmen, so waren die Stichprobenwerte zu
95% innerhalb dieses Konfidenzintervalls. Mochte man eine hohere Sicherheit, erhoht
sich das Konfidenzniveau und damit wird auch das Intervall großer.
32vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 211
13
5 Haufige Fehler
In der Statistik gibt es viele Fehlerquellen, die zu irrefuhrenden oder sogar falschen
Ergebnissen fuhren konnen. Im Folgenden werden einige Fehler aufgezeigt, die immer
wieder auftreten.
5.1 Keine Fehlergrenze
Um ein statistisches Ergebnis bewerten zu konnen, muss die Genauigkeit uberpruft
werden. Dies geschieht in den meisten Fallen mithilfe der Fehlergrenze.34 Ist bei einer
Studie oder Statistik keine solche angegeben, so kann das Ergebnis nicht genau be-
wertet werden, es sei denn, man hat die Rohdaten der Statistik und kann sich diese
selbst ausrechnen. In heimischen Medien findet man immer wieder Statistiken, wo die
Fehlergrenze nicht angegeben ist.
5.2 Zufallsstichprobe?
Damit eine Stichprobe wirklich reprasentativ ist, muss es sich um eine Zufallsstichprobe
handeln.
Eine Zufallsstichprobe ist eine Teilmenge der Grundgesamtheit, die so ausgewahlt wur-
de, dass jedes Mitglied der Grundgesamtheit die gleiche Chance hat, ausgewahlt zu
werden [...]. Bei der Zufallsstichprobe gibt es keine systematische Bevorzugung oder
Ablehnung.35
In vielen Fallen ist es fast unmoglich tatsachlich eine Zufallsauswahl zu treffen. Viele
medizinische Studien zum Beispiel werden an freiwilligen Testpersonen durchgefuhrt,
was nicht einer Zufallsstichprobe entspricht. Hierbei kann nur gepruft werden, wie gut
die Grundgesamtheit reprasentiert wird.
5.3 Korrelation
Die wohl meisten Fehlinterpretationen in der Statistik gibt es bei dem Begriff der
Korrelation.
In der Statistik wird als Korrelation die Starke und die Richtung einer linearen Bezie-
hung zwischen zwei quantitativen Variablen bezeichnet.36
Korrelation bedeutet allerdings nicht, dass auch ein Kausalzusammenhang besteht.
Nehmen wir beispielsweise an, dass eine Studie zum Ergebnis kommt, dass Menschen,
die einen bestimmten (niedrigen) Cholesterinspiegel haben, ein um 25% geringeres In-
farktrisiko haben. Das bedeutet nicht, dass eine Person welche ihren Cholesterinspiegel
34vgl. Kapitel Fehlergrenze35vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 33436vgl. Deborah Rumsey(2015): Statistik fur Dummies. Weinheim S. 335
14
auf diesen bestimmten Wert - beispielsweise durch gesunde Ernahrung - senkt, nun au-
tomatisch ein geringes Infarktrisiko hat. Denn es wurde in der Studie nicht gepruft,
welchen Effekt das Senken des Cholesterinspiegels auf das Infarktrisiko hat.
5.4 Pravalenzfehler
Bei Wahrscheinlichkeiten muss man unterscheiden zwischen bedingten und unbeding-
ten Wahrscheinlichkeiten. Ein Ereignis A hat eine unbedingte Wahrscheinlichkeit, wenn
es von keinem anderen Ereignis beeinflusst wird. Beispielsweise kann jeder Mensch
krank werden, ohne es direkt an ein Ereignis zu knupfen. Man kann aber auch krank
werden, wenn man einem bereits erkrankten die Hand reicht und sich anschließend uber
den Mund fahrt und daraus resultierend erkrankt. Dies ware ein Ereignis B, welches
Ereignis A beeinflussen kann. Die bedingte Wahrscheinlichkeit ist nun jene, die angibt,
wie wahrscheinlich es ist, dass jemand krank wird (also Ereignis A eintritt), wenn man
zuvor einem kranken Menschen (also Ereignis B eintritt) die Hand schuttelt.
Hat man nun eine solche bedingte Wahrscheinlichkeit und will diese berechnen, so muss
man sowohl die unbedingte Wahrscheinlichkeit fur Ereignis A bedenken, als auch die
bedingte Wahrscheinlichkeit von Ereignis A in Abhangigkeit von Ereignis B. Hierbei
kann ein sogenannter Pravalenzfehler begangen werden. Ein solcher Fehler tritt genau
dann auf, wenn man bei der Berechnung der bedingten Wahrscheinlichkeit von Ereignis
A, die unbedingte A-priori-Wahrscheinlichkeit von A außer Acht lasst.37
Um solchen Pravalenzfehlern vorzubeugen, gibt es den Satz von Bayes. Dieser lasst die
Wahrscheinlichkeit von Ereignis A unter der Bedinung, dass Ereignis B eingetreten ist,
durch die Wahrscheinlichkeit von B unter der Bedingung von A berechnen.
1. Welche ist die grundsatzliche Frage beim Hypothesentest?
2. Eine Testsatistik ist eine der Daten aus einem Experiment in einen Wert.
3. Die Nullhypothese sagt aus
4. Was beschreiben die Wahrscheinlichkeiten im Video, die durch die hypergeometrische Verteilung berechnet wer-
den?
5. Kreuzen Sie an:
Der p-Wert wird unter der Annahme, dass nur der Zufall am Werk ist berechnet.
Der p-Wert gibt an wie wahrscheinlich der Aussgang eines Experiments ist.
Ein hoher p-Wert bedeutet, dass das Ergebnis signifkant ist.
Der p-Wert ist die Summe der aquivalenten oder besseren Wahrscheinlichkeiten.
Das Signifikanzniveau gibt den Toleranzbereich fur den p-Wert an.
wahr falsch
� �
� �
� �
� �
� �
6. Ist der p-Wert unter so ist das Ergebnis signifikant. Ist der p-Wert unter ,
so ist das Ergebnis hoch signifkant.
7. Was bedeutet statistisch signifikant?
8. Warum ist ein Experiment mit nur acht Tassen nicht ideal?
9. Erklaren Sie in eigenen Worten, was ein Hypothesentest, der p-Wert und das Signifikanzniveau sind!
18
6.4 Losungen zum Arbeitsblatt
1. Welche ist die grundsatzliche Frage beim Hypothesentest?
Ist es moglich, dass da Ergebnis nur durch bloßes Gluck zustande gekommen ist?
2. Eine Testsatistik ist eine Zusammenfassung der Daten aus einem Experiment in einen einzelnen Wert.
3. Die Nullhypothese sagt aus, dass das Ergebnis durch reinen Zufall zustande gekommen ist.
4. Was beschreiben die Wahrscheinlichkeiten im Video, die durch die hypergeometrische Verteilung berechnet wer-
den?
Diese beschreiben die Wahrscheinlichkeiten, genau ein bestimmtes Ergebnis zu erzielen
5. Kreuzen Sie an:
Der p-Wert wird unter der Annahme, dass nur der Zufall am Werk ist berechnet.
Der p-Wert gibt an wie wahrscheinlich der Aussgang eines Experiments ist.
Ein hoher p-Wert bedeutet, dass das Ergebnis signifkant ist.
Der p-Wert ist die Summe der aquivalenten oder besseren Wahrscheinlichkeiten.
Das Signifikanzniveau gibt den Toleranzbereich fur den p-Wert an.
wahr falsch√
�
�√
�√
√�
√�
6. Ist der p-Wert unter 5% so ist das Ergebnis signifikant. Ist der p-Wert unter 1%, so ist das Ergebnis hoch
signifkant.
7. Was bedeutet statistisch signifikant?
Der p-Wert liegt unter dem Signifkanzniveau, was bedeutet, dass die Wahrscheinlichkeit, dass
das Ergebnis nur durch reines Gluck zustande gekommen ist, gering genug ist um anerkannt zu
werden.
8. Warum ist ein Experiment mit nur acht Tassen nicht ideal?
Die Testmenge ist viel zu klein. Mit nur acht Tassen ist die Wahrscheinlichkeit um einiges hoher,
dass man wirklich nur durch bloßes Raten ein gutes Ergebnis erzielt. Fuhrt man das Experiment
mit 1000 Tassen aus, so ist es viel schwieriger z.B.: 75% der Tassen richtig zu erkennen als bei 8
Tassen
9. Erklaren Sie in eigenen Worten, was ein Hypothesentest, der p-Wert und das Signifikanzniveau sind!
Der Hypothesentest ist dafur da, eine Hypothese zu uberprufen, wobei hier die Annahme getroffen
wird, dass bei einem Experiment nur der Zufall am Werk ist.
Der p-Wert wird dazu verwendet um anzugeben, wie wahrscheinlich es ist, ein mindestens genauso
gutes Ergebnis, wie im Ausgangsexperiment zu erzielen.
Das Signifikanzniveau beschreibt den Schwellenwert fur den p-Wert. Fallt der p-Wert unter das
Signifikanznievau bedeutet das, dass es extrem unwahrscheinlich ist, dass nur der Zufall am Werk
war. Das Ergebnis wird nun statistisch signifikant genannt. Ubliche Werte fur das Signifikanznievau
sind 5% oder 1% (hoch signifikant). Das Niveau muss man so wahlen, dass es zum jeweiligen
Experiment passt.
19
6.5 Aufgabenstellungen
1. Man geht davon aus, dass die Augenfarbe einer Person mit dessen Haarfarbe korre-liert. Wir wissen allerdings, dass beispielsweise nicht alle braunhaarigen Menschendie selbe Augenfarbe haben. Aber ist eine Augenfarbe wahrscheinlicher?Fuhrt nun eine ’Mini-Studie’ an eurer Schule durch. Dazu uberlegt ihr euch zu Be-ginn, welche beiden Merkmale ihr untersuchen wollt (zum Beispiel schwarzhaarigund braunaugig). Zu dieser Kombination soll nun:
a) ein Projektplan erstellt werden (wer erleigt was?).b) eine Umfrage/Ermittlung der Daten durchgefuhrt werden.c) eine Hypothese aufgestellt werden. (zum Beispiel: 90% aller schwarzhaarigen Men-
schen haben braune Augen)
Nun soll uberpruft werden, ob die aufgestellte Hypothese verworfen werden sollte,oder nicht. Kann man mit den Ergebnissen dieser Stichprobe auf einen allgemeinenZusammenhang schließen?
2. Vor einer Nationalratswahl wird in Osterreich eine unabhangige Wahlumfrage mit2000 Befragten durchgefuhrt und soll Aufschluss daruber geben, wie die Wahl amdarauffolgenden Sonntag wahrscheinlich ausgeht. In der unten stehenden Grafik sinddie Umfragewerte aufgelistet.(Hierbei handelt es sich nicht um eine tatsachliche Um-frage, die Werte wurden fur dieses Beispiel angepasst.)
a) Eine Zeitung, welche diese Umfrage veroffentlicht, schreibt, dass die Neos trotzdieser Umfragewerte gute Chancen fur den Einzug in den Nationalrat (mindestens4%) haben, da die Schwankungsbreite sehr hoch ist. Ist diese Annahme richtig?Fuhre einen Hypothesentest durch und uberprufe die Hypothese mit Hilfe einesKonfidenzintervalls. Wahle dazu ein Konfidenzniveau von 0, 95%.
b) Worauf muss bei der Durchfuhrung einer derartigen Umfrage geachtet werden?
c) Ist es sinnvoll eine großere Umfrage durchzufuhren, damit das Ergebnis nochgenauer wird? Uberprufe dazu, wie sich das Intervall andert, wenn das n großerwird. Nimm hierfur an, dass die Anteile der Partein bei großerem n gleich bleiben.
20
6.5.1 Losung
6.6 Wiederholung
Nach etwa einem Monat sollte der behandelte Stoff wiederholt werden, um eine Festigungzu vereinfachen. Dafur bietet sich zum Beispiel das Format