BiostatistikVorlesung + Übung
Institut für Medizinische Biometriehttp://www.uni-tuebingen.de/biometry/Westbahnhofstr. 55,72070 Tuebingen
PD Dr. Hans-Peter Dü[email protected] / 29 78259
Ort: Lehr- und Lerngebäude, Elfriede-Aulhorn-Str. 10, 72076 Tübingen, Raum 202/203Lehrmaterialien unter https://ovidius.uni-tuebingen.de/ilias3
Folie 2 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Inhaltsübersicht Biostatistik WS 2012/13Ein-heit
Datum Thema Übung
1 16./17./18. 10. 2012
Beschreibende Statistik, Grundbegriffe, Skalentyp & Diagramme. Lage- & Streuungsmaße. Histogramm, Verteilungsfunktion.
Einführung, deskriptive Statistik, Grafiken
2 23./24./25. 10. 2012
Korrelation, Regression, Residuen.Normalverteilung, Standard-Normalverteilung, Z-Transformation
Korrelation, Regression, Z-Transformation
Woche 30.10./31.10/1.11. 2012: keine Vorlesung (Allerheiligen)
3 6./7./8. 11. 2012
Referenzbereich, Log-Transformation von Daten, Konfidenzbereich,Verteilung von Mittelwerten, Standardfehler des Mittelwerts, t-Verteilung.
Referenzbereich,Konfidenzbereich
Woche 13./14./15. 11. 2012: keine Vorlesung
4 20./21./22.11. 2012
Statistische Tests, Prinzip, p-Wert, Signifikanz, Fehler 1. und 2. Art (� und�), t-Test (1- und 2-Stichproben t-Test), gepoolte Varianz
1-Stichproben t-Test2-Stichproben t-Test
5 27./28./29. 11. 2012
Nicht-parametrische Tests: RangbildungMann-Whitney, Wilcoxon, Kruskal-Wallis.
Mann-Whitney-Test Wilcoxon-Test
6 04./05./06. 12. 2012
Das Rechnen mit Häufigkeiten: Konfidenzintervall für Anteile,Unabhängige & abhängige W'keiten, � 2-Test, Fisher's exakter Test
�2-TestFisher's exakter Test
7 11./12./13. 12. 2012
Ergänzungen zu Kontingenztafeln, Multiples Testen (Bonferroni-Korrektur).Überlebenszeitanalyse, Logistische Regression.
Logistische Regression
8 18./19./20. 12. 2012
Wahrscheinlichkeitsrechnung, Additionssatz, MultiplikationssatzDiskrete Verteilungen, Binomialverteilung, Poissonverteilung.
Binomialtest
9 8./9./10. 01. 2013
Anwendungen in Diagnostik und Epidemiologie: Sensitivität/Spezifität,Positiver/Negativer Vorhersagewert, Relatives Risiko, Odds Ratio, mit KI.
OR/RR mit Kon-fidenzintervall
10 15./16./17. 01. 2013
Varianzanalyse, F-TestBesprechung der Hausarbeit
Einfaktorielle ANOVA in Excel
Hausarbeit, Bearbeitungs
zeitraum voraussichtl. 07.-21.12.12
Folie 3
Lehrbücher
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Biostatistik, Stanton Glantz, Mcgraw-Hill Professional, 1998.Engl. Ausgabe: Primer of Biostatistics, Stanton A. Glantz, Verlag McGraw-Hill, 500 Seiten, 6. Auflage, 2005, 20-40 €
Medizinische StatistikVolker Harms2012 (8. Auflage)544 Seitenca. 30€
Practical Statistics for Medical Research, Douglas G. Altman, Chapman & Hall, 1990, 624 Seiten, Englisch, 50-100€
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 11. Grundbegriffe2. Skalentyp & Diagramme,
insbesondere: Histogramm3. Lagemaße4. Verteilungsfunktion &
Überlebenskurve5. Streuungsmaße
Folie 5 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Stichprobe
deskriptiveStatistik
induktiveStatistik
1) Grundgesamtheit und Stichprobe
Grundgesamtheit
Folie 6 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Grundbegriffe
Begriff Beispiel
Beobachtungseinheiten:Merkmalsträger, an denen die Ausprägungen eines Merkmals beobachtet werden
Patient Gewebe-probe
Merkmale:Eigenschaften, die untersucht werden
Behandlungs-erfolg
Gewicht
Merkmalsausprägungen:Werte, die ein Merkmal annehmen kann
ja, nein 0.564 g
Folie 7
2) Merkmalsskalen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Qualitativ (nominal): Ausprägung hat keinezahlenmäßige Ordnung
Augenfarbe
Quantitativ: Ausprägung hat zahlenmäßige Ordnung
• ordinal: kann geordnet werden
• diskret: natürliche Zahlen
• stetig: reelle Zahlen
Befindlichkeitsskala
Anzahl Geschwister
Druck
0,1,2,3, …
Folie 8
2) Merkmalsskalen: Diagramme
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Skala Diagramm
Boxplot
dichotom keines (Anzahl u. Anteil angeben)
nominal Kuchen oder Mosaikordinal Mosaik geordnet
diskret Balkendiagramm
Histogrammstetig Verteilungsfunktion
Folie 9 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
A44%
038%
B12%
AB6%
2) Merkmalsskalen: Diagramme
Kuchendiagramm
oder
Bsp. Blutgruppe Bsp. Schulnoten
geordneter Mosaikplot(oder einfach Tabelle)
Mosaikplot
37%18% 12%
3%30%
1 2 3 4 5
44% 38% 12% 6%
A 0 B AB
AnteilAnzahlEinheit(Genauigkeit)
75% Rh+ von99Studenten(ein %punkt)
Bsp. Rhesusfaktor
Diskrete Daten
010203040506070
0 1 2 3 4 5 6 7 8
Anzahl Geschwister
Abso
lute
Häu
figke
it
00.10.20.30.40.5
Rel
ativ
e H
äufig
keit
Modalwert
Absolute H'keitRelative H'keit s. nachher
Ordinale DatenDichotome Daten Nominale Daten
Folie 10 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
2) Merkmalsskalen: Diagramme
Absolute Häufigkeit= Anzahl Fälle pro Klasse
Relative Häufigkeit
=
Dichte
=
absolute HäufigkeitStichprobenumfang
relative HäufigkeitKlassenbreite
"Die Fläche jedes Balkens zeigt,
wie oft eine Klasse
beobachtet wurde"
2
4
6
8
10
12
abso
lute
Häu
figke
it
0.05
0.10
0.15
0.20
rela
tive
Häu
figke
it (=
abs.
H'k
eit /
N)
0.01
0.02
0.03
0.04
Dic
hte
(=re
l.H'k
eit /
Kla
ssen
brei
te)
155 160 165 170 175 180 185 190195
Körpergröße [cm]
stetige Daten: Histogramm
Folie 11
3) Lagemaße
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Modalwert häufigster beobachteter Wert
• Quantile Median unteres und oberes QuartilPerzentile
nx...xxx n���
� 21• arithmetischer
Mittelwert
nng x...xxx ���� 21
• geometrischer Mittelwert
� �ni ix1
" Summe über alle xi "
�ni ix1
" Produkt über alle xi "
Folie 12 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
3) Lagemaße: Bestimmung des Medians
"Ordne die Werte nach ihrer Größe und nehme den Mittleren davon"
115 cm128 cm
145 cm161 cm
183 cm
115 cm128 cm 145 cm
161 cm183 cm
115 cm128 cm
161 cm161 cm183 cm
"...ist die Stichprobe geradzahlig, dann nehme den Mittelwert der beiden mittleren Werte"
3 6 7 18
6.5
Folie 13 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
3) Lagemaße: Quantile
Beispiel: Körpergröße [cm] von 20 StudentenRohdaten
10% Quantil (10. Perzentil)
"...ist die Stichprobe geradzahlig, dann nehme den Mittelwert der beiden mittleren Werte"
3 6 7 18
6.5
ID Wert1 1802 1683 1844 1935 1756 1607 1808 1809 15710 17111 17612 18413 18014 17815 17616 15817 17018 19019 18520 186
Sortiert
ID Wert9 15716 1586 1602 16817 17010 1715 17511 17615 17614 1781 1807 1808 18013 1803 18412 18419 18520 18618 1904 193
25% Quantil (1. Quartil)
50% Quantil (Median)
75% Quantil (3. Quartil)
90% Quantil (90. Perzentil)95% Quantil (95. Perzentil)
10% der Werte
25% der Werte
50% der Werte
75% der Werte
90% der Werte
95% der Werte
Median:
Folie 14 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
3) Alternative zu Histogramm: Box & Whiskers Plot
10
15
20
25
30
Dau
er (T
)
unteres Quartil
oberes Quartil
MedianBox
Whiskerhier: 90%(10%)-Quantil,aber auch andere Definitionen möglich
Außenpunkt
Folie 15 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
arithmetischer Mittelwert der Logarithmen
3) Lagemaße: Geometrischer Mittelwert
Merke: " wird der arithmetische Mittelwert aus logarithmierten Werten berechnet, dann entspricht dies der Berechnung eines geometrischen Mittelwertes "
��
�� ���
�
����
nxxx
nng
n
xxxx
)log(...)log()log(
21
21
10
...
Folie 16 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
AddOn: ein paar Rechenregeln für den Geom. Mittelwert
��
�� ���� n
nxxx1
21 )...(log
RechenregelLogarithmierte Werte (Transformation)
A r i t h m e t i s c h e r M i t t e l w e r t
)log()log()log(
21
21
xxxx
���
)log()log( kxxk �
nn xx �1
Der geometrische Mittelwert ergibt sich dann durch das Delogarithmieren (Rücktransformation)
log10xgx �
� �)log(...)log()log(121log nxxx
nx ����
)...log(121 nxxx
n����
� �nnxxx ���� ...log 21
Folie 17 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
3) Bsp. für Berechnung eines geometrischen Mittelwertes
Einkommen von 5 Leuten: 1000, 1500, 1500, 2000 und 5000 €.
Version 1: Berechnung über Wurzel aus Produkt
� � €.
xg
186410252
50002000150015001000
5116
5
���
�����
€
x
.....
g
18641010
10
2735733323233
5log(5000log(2000)log(1500)log(1500)log(1000)
���
�
��
�� ����
��
�� ����
Version 2: Berechnung über arithmetischen Mittelwert der Logarithmen
Folie 18 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
3) Lagemaße: VergleichEinkommen von 5 Leuten: 1000, 1500, 1500, 2000 und 5000 €.
Was verdienen diese 5 Leute „im Mittel“ denn so?
GeometrischerMittelwert
� � €18641025.2
50002000150015001000
5116
5
���
�����gx
Median €1500�
ArithmetischerMittelwert €2200
511000
550002000150021000
������
�x
0
5
10
15
0 5000 10000 15000 20000 25000Netto-Monatseinkommen
Häu
figke
it
Durch welchen Mittel-wert würden Sie die Einkommensverteilung beschreiben?
Arithm. Mittelwert: 1700€Geom. Mittelwert: 1340€Median: 1300€
Folie 19 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 100.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 10
4) Vom Histogramm zur Verteilungsfunktion
0.0
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
Die empirische Verteilungsfunktion F(x) gibt an, welcher Anteil der Beobachtungen
kleiner oder gleich dem Wert x ist (��)
F(x)
f(x)
Folie 20 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
4) Verteilung�Verteilungsfunktion�SurvivalUrliste:
Pat. daysJK 8.83AB 9.54ZN 10.17MK 10.21AL 10.71KL 11.17LW 11.33KS 11.38VH 11.50RS 11.67FT 11.96JW 12.17SN 12.25EN 12.33ER 12.33UC 12.50TE 13.04LB 13.25HT 13.79NA 13.96UN 14.04PJ 14.08NN 14.13BE 14.92LK 14.92PA 15.33BE 15.83DE 17.79RH 20.75AU 28.00
2
4
6
Cou
nt
0.05
0.10
0.15
0.20
Pro
babi
lity
0 5 10 15 20 25 30
0.00.20.40.60.8
Cum
Pro
b
0 5 10 15 20 25 30
1.0
0.00.20.40.60.8
1-C
um P
rob
0 5 10 15 20 25 30days
1.0
Verteilung
Verteilungsfunktion(=kumulierte Verteilung)
Survival(=1-Verteilungsfunktion)
"90% der Mütter bleiben höchstens (�) 17.7 Tage
in der Klinik"
"10% der Mütter bleiben mehr als (>) 17.7 Tage
in der Klinik"
Folie 21 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
4) Verteilung�Verteilungsfunktion�SurvivalUrliste:
Pat. daysJK 8.83AB 9.54ZN 10.17MK 10.21AL 10.71KL 11.17LW 11.33KS 11.38VH 11.50RS 11.67FT 11.96JW 12.17SN 12.25EN 12.33ER 12.33UC 12.50TE 13.04LB 13.25HT 13.79NA 13.96UN 14.04PJ 14.08NN 14.13BE 14.92LK 14.92PA 15.33BE 15.83DE 17.79RH 20.75AU 28.00
0.00.20.40.60.8
Cum
Pro
b
0 5 10 15 20 25 30
1.090%
75%
50%25%
10%
oberes Perzentil
oberes Quartil
Median
unteres Quartil
10%-Perzentil
und ihre Quantile
17.7
Tag
e
14.9
Tag
e
12.5
Tag
e11
.3 T
age
10.1
Tag
e
Folie 22
5) Streuungsmaße
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• SpannweiteDifferenz zwischen kleinstem und größtemWert (= Variationsbreite, Range)
• QuartilsabstandDifferenz (oberes minus unteres Quartil)
• (empirische) VarianzStandardabweichung s= Wurzel aus Varianz
• Variationskoeffizient100% ( Standardabweichung / Mittelwert )
1
)( 2
12
�
� �� �
n
xxs
n
ii
Folie 23 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
5) Streuungsmaße: StandardabweichungEinkommen von 5 Leuten: 1000 €, 2 x 1500 €, und 2 x 2000 €.
� � � � � � � � � �
� � � � � � � � � �
3.41817500015
20002000150015001000
1
1
)(
22222
2
5
2
4
2
3
2
2
2
1
2
1
��
����������
�
����������
�
�
��
��
xxxxx
nxxxxxxxxxx
n
xxs
n
ii
Einkommen Mittelwert Differenz Differenz 2̂ SAQ /(n-1) Wurzel1000 -600 3600001500 -100 100001500 1600 -100 10000 700000 175000 418.32000 400 1600002000 400 160000
Summe der Abweichungs-
Quadrate
Folie 24 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
5) Streuungsmaße: Variationskoeffizient
0.05
0.10
0.15
0.20
0.25
Pro
babi
lity
0 500 1500 2500 3500 4500 5500 6500
Gewicht [kg]
Standard-abweichung 1000 kg 200 kgs
Arithmetischer Mittelwert 5000 kg 1000 kgx
0.10
0.20
0.30
0.40
0.50
Pro
babi
lity
0 500 1500 2500 3500 4500 5500 6500
Gewicht [kg]
xsVariations-
koeffizient 20% 20%
Bei welchem Tier streut das Gewicht stärker, beim Elefant oder bei der Kuh ?
Relativ zum Mittelwert
gesehen, streut das Gewicht bei beiden Tieren
gleich
Folie 25 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
5) Lage- und Streuungsmaße
Welche Berechnung bei welchem Skalenniveau?
stetigNominal-
skalaOrdinal-
skalaIntervall-
skalaVerhältnis-
skalaDiagnose Visus ° Celsius Kelvin
Häufigkeit + + + +Modalwert + + + +Summenhäufigkeit + + +Quartilsabstand + + +Median + + +arithmetischer Mittelwert + +Standardabweichung + +Variationskoeffizient +
Folie 26 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Tem
pera
ture
[°C
]
-5-4-3-2-10123456
A B
Warum darf man bei Intervallskala keinen Variationskoeffizienten berechnen?
streut B 10 x stärker als A?
B streut fast gleich stark wie A!
+s
-s
x%200
21
�����
VKCsCx
%20002
1.0
���
��
VKCs
Cx
A B
%730.02274
���
VKKs
Kx
%732.02
1.273
���
VKKs
Kx
A B
Antwort: Liegt der Mittelwert nahe des (nicht natürlichen) Nullpunktes, dann entsteht ein Fehler durch die Division mit dem Mittelwert.
p[
]
222222222222
Tem
pera
ture
[K]
Folie 27
Verteilungen: Form und Beschreibung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
(rechts-)schief
Median(geometrisches Mittel)Interquartilsspanne(oder Extrema)
symmetrischarithmetisches Mittel(= Median)Standardabweichung
bimodal ModalwerteHistogramm
Folie 28
Noch zu Mittelwerten: Das Simpson-Paradoxon
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Bonzendorf Habenixweiler
Mittelwert Vorher
Nachher
€ € €
Herr Hatwas zieht von Bonzendorf nach Habenixweiler. Damit werden beide Dörfer im Mittel reicher!
€ € €
€€€ €€€€
€€ €€€
€€ €€€€ €€ €€€
€
Beispiel: Patientenserum mit mittlerem Titer wird 'umgruppiert': von der Gruppe mit hohem Titer zur Gruppe mit niedrigem Titer
Folie 29
Simpson-Paradoxon: Beispiel in der Medizin
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Das Ergebnis der Gesamtmenge widerspricht dem Ergebnis der Teilmengen!
Das neue Medikament ist besser, sowohl im Früh- als
auch im Spätstadium
Das neue Medikament ist schlechter, wenn beide Stadien
gemeinsam betrachtet werden
Folie 30 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
5) Rechenregeln für Erwartungswert und Varianz
bXEabaXE ���� )()(
)Var()Var( 2 XabaX ���
Der Erwartungswert skaliert linear mit Faktor a
die Varianz jedoch quadratisch,
XbaX a �� ���
und die Standardabweichung wieder linear:
Werte in Liter
Werte in ml
2.732 27322.669 26694.345 43452.237 22377.794 77949.443 9443
Mittelwert 4.870 4870
empirische Varianz 9.219 9218512
Standard-abweichung 2.772 2772
Bei
spie
l
Zu offset b:Monsterschuheerhöhen nur den Mittelwert, nicht die Streuung.
Messwert = X Neuer Wert = baX �
Folie 31
M E R K Z E T T E L
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Beachte 'Natur' der Daten: nominal, ordinal, oder stetig?
• Quantile und Median sind immer gut, um eine Verteilung zu beschreiben (und überhaupt: DATEN ZEIGEN, z. B. als Verteilung)
• Der arithmetische Mittelwert sollte nur verwendet werden, wenn die Daten symmetrisch verteilt sind.
• Wenn die Verteilung der Daten 'schief' ist:Geometrischen Mittelwert, Quantile, Median, etc. verwenden
• Vorsicht beim Gruppieren: Simpson
• Begriffe: Streuung, Standardabweichung, Variationskoeffizient �
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einführung: JMP• Software JMP: Einführung• Installation, Sprache• Tabellen, Zeilen, Spalten• Menüs, Tools• Distribution, Fit Y by X• Preferences• Visualisierung• Scripte, Journals• Formeln
Folie 33
Einführung in software JMP
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Campus-Lizenz TÜ unterhttp://www.zdv.uni-tuebingen.de/dienstleistungen/software/beschaffung/jmp.html
• Webcasts (empfehlenswert) unterhttp://www.jmp.com/germany/webcasts/erste_schritte_mit_jmp/
• Sprache auf Englisch einstellen: Voreinstellungen• Tabelle erstellen, öffnen (Lehrdatensatz.jmp)• Zeilen- / Spaltenstruktur, Datentypen (Cols), Status (Rows)• Erste Analyse: Distribution über mehrere Spalten
• Preferences: Horizontal layout• Interaktive Markierung von Grafiken & Reihen• Tools: ?, Hand, Marker, Lasso...• Optionen (Bsp. fit normal distribution)• Subset (Doppleklick auf Balken)• Menüleiste Marker, Farben
• Arbeiten mit Tabellen: • Group, Summary• Tabulate
• Fit Y by X und Datentypen• JMP-Scripte, -Reports, -Journals• Visualisierung (Graph builder)• Formeleditor
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 1• Deskriptive Statistik• Diagramme (Kuchen, Mosaikplot,
Streudiagramm, Box & Whiskers Plot)• Histogramm• Quantile• Log-Transformation• Geometrischer Mittelwert• Verteilungsfunktion• Survival• Streuungsmaße
Folie 35
Übung 1: Lagemaße, Triglyzeride (Lehrdatensatz.jmp)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Erstellen Sie eine Verteilung der Variable Trig
• Arithm. Mittelwert: _________• Median: _________• Lassen Sie sich die
dazugehörige Normalverteilung anzeigen
• – Passt diese? ______________,weil _________________________________________________
• Speichern Sie Ihre Analyse in ein "Journal": >Edit>Journal (nehmen Sie auch die folgenden Analysen mit in das Journal)
HotSpot: Continuous Fit
>Normal
Zuvor: bitte sichern Sie den Lehrdatensatz mit Namen "Lehrdatensatz-Uebung1.jmp" und arbeiten Sie mit diesem heute.
Das Zeichen">"verweist auf
Menüs und die darunter
verzweigenden Menüeinträge
Folie 36
Übung 1: log-Transformation, geom. MW
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Erstellen Sie eine Verteilung der Variable log10(Trig)
• Arithm. Mittelwert: _________• Median: _________• Lassen Sie sich die
dazugehörige Normalverteilung anzeigen
• – Passt diese? ______________,weil _________________________________________________
• Transformieren Sie Mittelwert und Median zurück (Taschenrechner):
Geom. Mittelwert = ___________Median = ___________(warum ist der Median identisch mit demjenigen zuvor?)
HotSpot: >Continuous Fit
>Normal
Folie 37
Übung 1: Verteilungsfunktion
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Erstellen Sie eine Verteilung der Variable stamina[minutes]
• Lassen Sie sich die dazugehörige Verteilungsfunktion (CDF Plot) anzeigen
• Welches sind die Quartile für die Ausdauer in Minuten? Erstes Quartil: _______ ( ______%)Zweites Quartil: _______ ( ______%) Drittes Quartil: _______ ( ______%)
• Gibt es Situationen, in denen eine Verteilungsfunktion absteigende Kurvenabschnitte zeigt? ______________, weil ______________________________
• Warum gibt diese Verteilung bzw. die CDF die tatsächlichen Werte nicht korrekt wieder, wenn Ihnen die Information gegeben wird, dass es sich bei stamina[minutes] um zensierte Werte handle? ____________________________________________________________
HotSpot:CDF Plot
Übung von Hand: Histogramm,Verteilungsfunktion, LagemaßeVervollständigen Sie die Spalten der Datenabelle (A) über die Körpergrößen von 16 Schülern (Berechnen Sie die Häufigkeiten ausnahmsweise auf 4 Dezimalstellen genau) und zeichnen Sie die Verteilungsfunktion (B) ein. Wie groß ist das 30% Quantil (C) und wie lautet seine Einheit? Erstellen aus den Daten einen Box-Plot (D), bei dem die "whiskers" das 10% und das 90% Quantil veranschaulichen. Berechnen Sie die Werte in (E).
(A) Körpergrößen von 16 Schülern
ArithmetischerMittelwertGeometrischerMittelwertMedian
Grö
ße
[cm
]A
bsol
ute
Häu
figke
it
Rel
ativ
e H
äufig
keit
Kum
ulie
rte
Häu
figke
it
162 1
168 1
169 1
172 3
173 1
174 1
176 1
179 1
180 1
182 2
185 1
190 1
198 1
160 162 164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196 198 200Körpergröße
(D) Box-Plot
(E)
1
2
3
Abs.
H'k
eit
160 162 164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196 198 200
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
Kum
ulat
ive
Häu
figke
it
160 162 164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196 198 200
Körpergröße [cm]
(C) 30% Quantil:__________
(B) Verteilungsfunktion
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 21. Streudiagramm2. Korrelation
Pearson's Korrelationskoeffizient r
3. Lineare RegressionBestimmtheitsmaß r2
4. KorrelationRangkorrelationskoeffizient rS
5. NormalverteilungDichte & Verteilungsfunktion
6. Standard- NormalverteilungQuantile & Z-Wert
Folie 40
Wiederholung & Fahrplan
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Stetige DatenKorrelation
RegressionResiduen
Normalverteilung
Folie 41
Korrelation / Regression Gruppenvergleiche: t-Test & Co
Logistische Überlebenszeit- Regression Analyse
�2-Test & Fishers exakter Test
X: Ursache
Y: W
irkun
g
10152025
vor-her
nach-her
BM
I
Kon
zent
ratio
n Y
1.60
1.701.80
1.902.00
A 0 BABBlutgruppe
Vorher/nachher-Ver-gleiche (ladder plot):
Diagramme und Auswertungen unter Kombination zweier Skalen:
Streudiagramm
Phä
noty
p0.000.25
0.50
0.751.00
A1 A2 BC.Genotyp
y1
y2
y3y4y5Mosaikplot
Boxplots
Y: S
tetig
Y: N
omin
al
0.000.250.500.751.00
0 10 20 30Monate W
'kei
t (Ü
berle
ben)
W'k
eit (
Kra
nk)
00.250.500.75
1
50 60 70 80Konzentration
Ja
Nein
Kaplan-Meier-
Verfahren
X: Stetig X: Nominal
1) Vorausschau
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
JMP: Fit Y by X
Folie 42 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Korrelation - Regression
• KorrelationsanalyseUntersuchung des (linearen) Zusammen-hangs zweier (oder mehrerer) Merkmale, die an den selben Merkmalsträgern beobachtet wurden. Pearsons Korrelationskoeffizient gibt die Stärke des Zusammenhangs an.
• Lineare RegressionSchätzung eines y-Wertes durch die Angabe eines x-Wertes (Modellannahme: y hängt linear von x ab).
Folie 43 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Interpretation:
r = +1 X und Y sind vollständig positiv korreliert
r = –1 X und Y sind vollständig negativ korreliert
r = 0 X und Y sind nicht korreliert
Bedeutung:r misst die Stärke des linearen Zusammenhangs zweier stetiger Zufallsvariablen
���
��
���
22 )()(
))((
yyxx
yyxxr
ii
ii
Berechnung:
55
60
65
70
75
80
85
165 170 175 180 185 190Körpergröße [cm]
Kör
perg
ewic
ht [k
g]
2) Pearsons Korrelationskoeffizient r
Beobachtung (xi, yi)
Folie 44 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
r = + 1,000 r = - 1,000
r = 0,650r = - 0,938
2) Beispiele zur Korrelation
Folie 45 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
MischpopulationenX und Y sind innerhalb ihrer Gruppe
unabhängig, aber die Gruppen unterscheiden sich
30000
40000
50000
60000
70000
Eink
omm
en
30 35 40 45Schuhgröße
r=-0.9
r=0.4
r=0.5
% E
iwei
ß in
Tr
ocke
nsub
stan
z
Scheinkorrelationbzw. gemeinsame
UrsacheX und Y sind unabhängig,
werden aber jeweils von einer dritten Variable Z modifiziert
1.31.41.51.61.71.81.9
Geb
urte
nrat
e (p
ro F
rau)
500 1000 1500 2000Anzahl Störche
formale KorrelationKorrelation ist trivial, da
rein rechnerisch bedingt. Bsp.: X und Y addieren sich
auf nahezu 100%
Korrelation beschreibt nicht
Kausalität, sondern "nur" Assoziation
0
20
40
60
80
100
0 20 40 60 80 100
% Fett in Trockensubstanz
Bsp.: Zusammen-setzung von Gewebe
Folie 46 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Körpergröße [cm]
Kör
perg
ewic
ht [k
g]
Residuum
Erwartungswert
Achsen-abschnitt Steigung Residuum
abhängige Größe unabhängige Größe
Regressionsgerade
Regressionsgleichung
Res10 ��� XbbY
b1 und b0 werden so geschätzt, dass ��Res 2minimal wird
Beobachtung (xi,yi)
Bestimmtheitsma� �� �YVar
Varr Res12 ��
3) Lineare Regression
55
60
65
70
75
80
85
165 170 175 180 185 190
Folie 47
3) Bestimmtheitsmaß r2
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
]1;0[2 �r� �
)(Res1
)()( 102
YVarVar
YVarXbbVarr ��
��
Interpretation: wenn z. B. r2 = 90% ist, dann werden durch die Gerade 90% der Gesamtvarianz in den y-Werten erklärt
Varianzzerlegung:
� �Res)()( 10 VarXbbVarYVar ���
= Varianz der Residuen
Varianz der Erwartungswerte
Die Gesamtvarianz +
Folie 48
3 Arten von Regression
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
"Y auf X"Annahmen:X ist bekannt und exaktY muss den Fehler erklären
"X auf Y"Als Ergänzung zur Regression von Y auf X durchführen, wenn Fehlermodell fraglich ist�������� �������������
"Orthogonal" Verwenden, wenn Fehlermodell unklar ist
Ist die "Übliche"
Folie 49
3) Zusammenfassung lineare Regression
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• zeigt Ursache und Wirkung; x ist bekannt, y fehlerbehaftet• Regression x auf y � Regression y auf x
• geht durch den Schwerpunkt (MWx, MWy)• Steigung b1: wenn x um eine Einheit wächst,
wächst y im Mittel um b1 Einheiten• eine Extrapolation über den beobachteten
Wertebereich hinaus ist nicht zulässig
Die Regressionsgerade y=b0+b1*x
Eine Residuenanalyse sollte abschließend zeigen:• normalverteilte Residuen• kein Trend in den Residuen• konstante Varianz der Residuen
Eine Regression y auf x
Sind diese Bedingungen im Nachinein nicht erfüllt, war die Regression nicht statthaft. Gängige Lösungsversuche sind: Daten logarithmieren, nicht-lineare Funktion zugrunde legen, etc.: s. später.
Folie 50
3) Lineare Regression: Praxis
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Bsp.: Crawford MD 1971: Changes in waterhard-ness and local death rates, Lancet , 2 , 327-329.
1000
1200
1400
1600
1800
2000
Mor
talit
y
0 25 50 75 100 125 150Calcium
r= -0.66, r2= 0.43
-400-200
0200400
Res
idua
l
0 25 50 75 100 125 150Calcium
1
3
5Count
-400 -200 0 100 200 300
Daten:
Regression:
Residuen:
Sind Residuen normalverteilt?
• kein Trend in den Residuen• Varianz der Residuen
ändert sich nicht merklich
• Der Normalverteilungsannahme wird nicht widersprochen (Shapiro-Wilk W Test)
• Nimmt die Mortalität mit zunehmendem Calcium-Gehalt des Wassers ab
• Korrelation mit r= -0.66 von mittlerer Staerke
• Die Regressionsgerade erklärt 43% der Varianz
?Anmerkung: diese Maße sind nett, aber wissenschaftlich oft nicht sehr nützlich. In den meisten Fällen interessiert die Frage: "Ist die Steigung der Regressiongeraden signifikant verschieden von null (und damit abhängig von 'X')?"; s. später: statistisches Testen.
Folie 51
Was tun, wenn ...
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Nicht-lineares Modell zugrunde legen, oder Werte transformieren
Transformieren (oft hilft log), oder advanced: Varianz-modell spezifizieren
• ...ein Trend in den Residuen vorliegt? Häufiges Problem: Regression muss von 0/0 ausgehen.
Werte in Ränge umwandeln ��Rangkorrelation (beachte jedoch: die Glei-chung der Regressionsgera-den ist nicht ohne weiteres mehr interpretierbar)
• ...ein Trend in der Varianz vorliegt? Häufiges Problem: große Werte streuen stärker.
• ...die Residuen nicht normalverteilt sind, und alles bisherige nicht hilft?
Folie 52 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
der angegebene, starke Zusammenhang repräsentiert die Stichprobe nicht
� zu Rängen übergehen
Ausreißerproblematik
Folie 53 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
55
60
65
70
75
80
85
165 170 175 180 185 190Körpergröße [cm]
Kör
perg
ewic
ht [k
g]
Bedeutung:Spearmans Korrelations-koeffizient rS misst die monotone (auch nicht-lineare) Abhängigkeit für ordinal-skalierte Merkmale.
Idee:Die Reihe der xi und die Reihe der yi werden der Größe nach geordnet und der Korrelationskoeffizient wird für die Ränge der xiund yi wie zuvor berechnet
1
2
3
4
5 6,5
6,5
8
9
10
1
2
3
4,5 4,5
6,56,58
9
10
4) Rangkorrelationskoeffizient rS
Folie 54 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
4) Beispiele zur Korrelation
Folie 55 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Wdh.: Empirische & theoretische Größen
Empirische Größe Theoretische Größe
1
3
5Count
-400 -200 0 100 200 300
Häufigkeitsverteilung
empirische Varianz s2
(Standardabweichung s)
Mittelwert x
Wahrscheinlichkeitsverteilung
Varianz � 2
(Standardabweichung � ��
Erwartungswert ��
Folie 56 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Beispiel Quantile: Wachstumskurven von Kindern
Folie 57 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
5) Dichte & Verteilungsfunktion der Normalverteilung
~68 % der Werte
��
��
2��
~95 % der Werte
Wendepunkt
��0.025
0.975
0.16
0.84
0.50
��
2��
Dichte der Standard-Normalverteilung
� �� �
2
2
2
21 �
�
���
��
�x
ex
Erwartungswert ��
Standard-abweichung ��
Verteilungsfunktionder Standard-Normalverteilung
���und ���sind die Parameter der Normalverteilung.
x
x
Formel:
Anm.: eine Formel für die Verteilungsfunktion ist nicht darstellbar, weil eine geschlossene Lösung für das Integral der Dichte (s. Formel oben) nicht existiert.
Abhilfe: früher musste man die Funktionswerte der Verteilungsfunktion in Tabellen nachschlagen, heutzutage sind diese in entsprechender software abgespeichert und abrufbar.
Folie 58
6) Warum eine Standard-Normalverteilung?
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z)-4.00 0.0001 0.000032 -3.20 0.0024 0.000687 -2.40 0.0224 0.008198 -1.60 0.1109 0.054799 -0.80 0.2897 0.211855 0.00 0.3989 0.500000 0.80 0.2897 0.788145 1.60 0.1109 0.945201 2.40 0.0224 0.991802 3.20 0.0024 0.999313-3.99 0.0001 0.000033 -3.19 0.0025 0.000711 -2.39 0.0229 0.008424 -1.59 0.1127 0.055917 -0.79 0.2920 0.214764 0.01 0.3989 0.503989 0.81 0.2874 0.791030 1.61 0.1092 0.946301 2.41 0.0219 0.992024 3.21 0.0023 0.999336-3.98 0.0001 0.000034 -3.18 0.0025 0.000736 -2.38 0.0235 0.008656 -1.58 0.1145 0.057053 -0.78 0.2943 0.217695 0.02 0.3989 0.507978 0.82 0.2850 0.793892 1.62 0.1074 0.947384 2.42 0.0213 0.992240 3.22 0.0022 0.999359-3.97 0.0002 0.000036 -3.17 0.0026 0.000762 -2.37 0.0241 0.008894 -1.57 0.1163 0.058208 -0.77 0.2966 0.220650 0.03 0.3988 0.511966 0.83 0.2827 0.796731 1.63 0.1057 0.948449 2.43 0.0208 0.992451 3.23 0.0022 0.999381-3.96 0.0002 0.000037 -3.16 0.0027 0.000789 -2.36 0.0246 0.009137 -1.56 0.1182 0.059380 -0.76 0.2989 0.223627 0.04 0.3986 0.515953 0.84 0.2803 0.799546 1.64 0.1040 0.949497 2.44 0.0203 0.992656 3.24 0.0021 0.999402-3.95 0.0002 0.000039 -3.15 0.0028 0.000816 -2.35 0.0252 0.009387 -1.55 0.1200 0.060571 -0.75 0.3011 0.226627 0.05 0.3984 0.519939 0.85 0.2780 0.802337 1.65 0.1023 0.950529 2.45 0.0198 0.992857 3.25 0.0020 0.999423-3.94 0.0002 0.000041 -3.14 0.0029 0.000845 -2.34 0.0258 0.009642 -1.54 0.1219 0.061780 -0.74 0.3034 0.229650 0.06 0.3982 0.523922 0.86 0.2756 0.805105 1.66 0.1006 0.951543 2.46 0.0194 0.993053 3.26 0.0020 0.999443-3.93 0.0002 0.000042 -3.13 0.0030 0.000874 -2.33 0.0264 0.009903 -1.53 0.1238 0.063008 -0.73 0.3056 0.232695 0.07 0.3980 0.527903 0.87 0.2732 0.807850 1.67 0.0989 0.952540 2.47 0.0189 0.993244 3.27 0.0019 0.999462-3.92 0.0002 0.000044 -3.12 0.0031 0.000904 -2.32 0.0270 0.010170 -1.52 0.1257 0.064255 -0.72 0.3079 0.235762 0.08 0.3977 0.531881 0.88 0.2709 0.810570 1.68 0.0973 0.953521 2.48 0.0184 0.993431 3.28 0.0018 0.999481-3.91 0.0002 0.000046 -3.11 0.0032 0.000935 -2.31 0.0277 0.010444 -1.51 0.1276 0.065522 -0.71 0.3101 0.238852 0.09 0.3973 0.535856 0.89 0.2685 0.813267 1.69 0.0957 0.954486 2.49 0.0180 0.993613 3.29 0.0018 0.999499-3.90 0.0002 0.000048 -3.10 0.0033 0.000968 -2.30 0.0283 0.010724 -1.50 0.1295 0.066807 -0.70 0.3123 0.241964 0.10 0.3970 0.539828 0.90 0.2661 0.815940 1.70 0.0940 0.955435 2.50 0.0175 0.993790 3.30 0.0017 0.999517-3.89 0.0002 0.000050 -3.09 0.0034 0.001001 -2.29 0.0290 0.011011 -1.49 0.1315 0.068112 -0.69 0.3144 0.245097 0.11 0.3965 0.543795 0.91 0.2637 0.818589 1.71 0.0925 0.956367 2.51 0.0171 0.993963 3.31 0.0017 0.999534-3.88 0.0002 0.000052 -3.08 0.0035 0.001035 -2.28 0.0297 0.011304 -1.48 0.1334 0.069437 -0.68 0.3166 0.248252 0.12 0.3961 0.547758 0.92 0.2613 0.821214 1.72 0.0909 0.957284 2.52 0.0167 0.994132 3.32 0.0016 0.999550-3.87 0.0002 0.000054 -3.07 0.0036 0.001070 -2.27 0.0303 0.011604 -1.47 0.1354 0.070781 -0.67 0.3187 0.251429 0.13 0.3956 0.551717 0.93 0.2589 0.823814 1.73 0.0893 0.958185 2.53 0.0163 0.994297 3.33 0.0016 0.999566-3.86 0.0002 0.000057 -3.06 0.0037 0.001107 -2.26 0.0310 0.011911 -1.46 0.1374 0.072145 -0.66 0.3209 0.254627 0.14 0.3951 0.555670 0.94 0.2565 0.826391 1.74 0.0878 0.959070 2.54 0.0158 0.994457 3.34 0.0015 0.999581-3.85 0.0002 0.000059 -3.05 0.0038 0.001144 -2.25 0.0317 0.012224 -1.45 0.1394 0.073529 -0.65 0.3230 0.257846 0.15 0.3945 0.559618 0.95 0.2541 0.828944 1.75 0.0863 0.959941 2.55 0.0154 0.994614 3.35 0.0015 0.999596-3.84 0.0003 0.000062 -3.04 0.0039 0.001183 -2.24 0.0325 0.012545 -1.44 0.1415 0.074934 -0.64 0.3251 0.261086 0.16 0.3939 0.563559 0.96 0.2516 0.831472 1.76 0.0848 0.960796 2.56 0.0151 0.994766 3.36 0.0014 0.999610-3.83 0.0003 0.000064 -3.03 0.0040 0.001223 -2.23 0.0332 0.012874 -1.43 0.1435 0.076359 -0.63 0.3271 0.264347 0.17 0.3932 0.567495 0.97 0.2492 0.833977 1.77 0.0833 0.961636 2.57 0.0147 0.994915 3.37 0.0014 0.999624-3.82 0.0003 0.000067 -3.02 0.0042 0.001264 -2.22 0.0339 0.013209 -1.42 0.1456 0.077804 -0.62 0.3292 0.267629 0.18 0.3925 0.571424 0.98 0.2468 0.836457 1.78 0.0818 0.962462 2.58 0.0143 0.995060 3.38 0.0013 0.999638-3.81 0.0003 0.000069 -3.01 0.0043 0.001306 -2.21 0.0347 0.013553 -1.41 0.1476 0.079270 -0.61 0.3312 0.270931 0.19 0.3918 0.575345 0.99 0.2444 0.838913 1.79 0.0804 0.963273 2.59 0.0139 0.995201 3.39 0.0013 0.999651-3.80 0.0003 0.000072 -3.00 0.0044 0.001350 -2.20 0.0355 0.013903 -1.40 0.1497 0.080757 -0.60 0.3332 0.274253 0.20 0.3910 0.579260 1.00 0.2420 0.841345 1.80 0.0790 0.964070 2.60 0.0136 0.995339 3.40 0.0012 0.999663-3.79 0.0003 0.000075 -2.99 0.0046 0.001395 -2.19 0.0363 0.014262 -1.39 0.1518 0.082264 -0.59 0.3352 0.277595 0.21 0.3902 0.583166 1.01 0.2396 0.843752 1.81 0.0775 0.964852 2.61 0.0132 0.995473 3.41 0.0012 0.999675-3.78 0.0003 0.000078 -2.98 0.0047 0.001441 -2.18 0.0371 0.014629 -1.38 0.1539 0.083793 -0.58 0.3372 0.280957 0.22 0.3894 0.587064 1.02 0.2371 0.846136 1.82 0.0761 0.965620 2.62 0.0129 0.995604 3.42 0.0012 0.999687-3.77 0.0003 0.000082 -2.97 0.0048 0.001489 -2.17 0.0379 0.015003 -1.37 0.1561 0.085343 -0.57 0.3391 0.284339 0.23 0.3885 0.590954 1.03 0.2347 0.848495 1.83 0.0748 0.966375 2.63 0.0126 0.995731 3.43 0.0011 0.999698-3.76 0.0003 0.000085 -2.96 0.0050 0.001538 -2.16 0.0387 0.015386 -1.36 0.1582 0.086915 -0.56 0.3410 0.287740 0.24 0.3876 0.594835 1.04 0.2323 0.850830 1.84 0.0734 0.967116 2.64 0.0122 0.995855 3.44 0.0011 0.999709-3.75 0.0004 0.000088 -2.95 0.0051 0.001589 -2.15 0.0396 0.015778 -1.35 0.1604 0.088508 -0.55 0.3429 0.291160 0.25 0.3867 0.598706 1.05 0.2299 0.853141 1.85 0.0721 0.967843 2.65 0.0119 0.995975 3.45 0.0010 0.999720-3.74 0.0004 0.000092 -2.94 0.0053 0.001641 -2.14 0.0404 0.016177 -1.34 0.1626 0.090123 -0.54 0.3448 0.294599 0.26 0.3857 0.602568 1.06 0.2275 0.855428 1.86 0.0707 0.968557 2.66 0.0116 0.996093 3.46 0.0010 0.999730-3.73 0.0004 0.000096 -2.93 0.0055 0.001695 -2.13 0.0413 0.016586 -1.33 0.1647 0.091759 -0.53 0.3467 0.298056 0.27 0.3847 0.606420 1.07 0.2251 0.857690 1.87 0.0694 0.969258 2.67 0.0113 0.996207 3.47 0.0010 0.999740-3.72 0.0004 0.000100 -2.92 0.0056 0.001750 -2.12 0.0422 0.017003 -1.32 0.1669 0.093418 -0.52 0.3485 0.301532 0.28 0.3836 0.610261 1.08 0.2227 0.859929 1.88 0.0681 0.969946 2.68 0.0110 0.996319 3.48 0.0009 0.999749-3.71 0.0004 0.000104 -2.91 0.0058 0.001807 -2.11 0.0431 0.017429 -1.31 0.1691 0.095098 -0.51 0.3503 0.305026 0.29 0.3825 0.614092 1.09 0.2203 0.862143 1.89 0.0669 0.970621 2.69 0.0107 0.996427 3.49 0.0009 0.999758-3.70 0.0004 0.000108 -2.90 0.0060 0.001866 -2.10 0.0440 0.017864 -1.30 0.1714 0.096800 -0.50 0.3521 0.308538 0.30 0.3814 0.617911 1.10 0.2179 0.864334 1.90 0.0656 0.971283 2.70 0.0104 0.996533 3.50 0.0009 0.999767-3.69 0.0004 0.000112 -2.89 0.0061 0.001926 -2.09 0.0449 0.018309 -1.29 0.1736 0.098525 -0.49 0.3538 0.312067 0.31 0.3802 0.621720 1.11 0.2155 0.866500 1.91 0.0644 0.971933 2.71 0.0101 0.996636 3.51 0.0008 0.999776-3.68 0.0005 0.000117 -2.88 0.0063 0.001988 -2.08 0.0459 0.018763 -1.28 0.1758 0.100273 -0.48 0.3555 0.315614 0.32 0.3790 0.625516 1.12 0.2131 0.868643 1.92 0.0632 0.972571 2.72 0.0099 0.996736 3.52 0.0008 0.999784-3.67 0.0005 0.000121 -2.87 0.0065 0.002052 -2.07 0.0468 0.019226 -1.27 0.1781 0.102042 -0.47 0.3572 0.319178 0.33 0.3778 0.629300 1.13 0.2107 0.870762 1.93 0.0620 0.973197 2.73 0.0096 0.996833 3.53 0.0008 0.999792-3.66 0.0005 0.000126 -2.86 0.0067 0.002118 -2.06 0.0478 0.019699 -1.26 0.1804 0.103835 -0.46 0.3589 0.322758 0.34 0.3765 0.633072 1.14 0.2083 0.872857 1.94 0.0608 0.973810 2.74 0.0093 0.996928 3.54 0.0008 0.999800-3.65 0.0005 0.000131 -2.85 0.0069 0.002186 -2.05 0.0488 0.020182 -1.25 0.1826 0.105650 -0.45 0.3605 0.326355 0.35 0.3752 0.636831 1.15 0.2059 0.874928 1.95 0.0596 0.974412 2.75 0.0091 0.997020 3.55 0.0007 0.999807-3.64 0.0005 0.000136 -2.84 0.0071 0.002256 -2.04 0.0498 0.020675 -1.24 0.1849 0.107488 -0.44 0.3621 0.329969 0.36 0.3739 0.640576 1.16 0.2036 0.876976 1.96 0.0584 0.975002 2.76 0.0088 0.997110 3.56 0.0007 0.999815-3.63 0.0005 0.000142 -2.83 0.0073 0.002327 -2.03 0.0508 0.021178 -1.23 0.1872 0.109349 -0.43 0.3637 0.333598 0.37 0.3725 0.644309 1.17 0.2012 0.879000 1.97 0.0573 0.975581 2.77 0.0086 0.997197 3.57 0.0007 0.999822-3.62 0.0006 0.000147 -2.82 0.0075 0.002401 -2.02 0.0519 0.021692 -1.22 0.1895 0.111232 -0.42 0.3653 0.337243 0.38 0.3712 0.648027 1.18 0.1989 0.881000 1.98 0.0562 0.976148 2.78 0.0084 0.997282 3.58 0.0007 0.999828-3.61 0.0006 0.000153 -2.81 0.0077 0.002477 -2.01 0.0529 0.022216 -1.21 0.1919 0.113139 -0.41 0.3668 0.340903 0.39 0.3697 0.651732 1.19 0.1965 0.882977 1.99 0.0551 0.976705 2.79 0.0081 0.997365 3.59 0.0006 0.999835-3.60 0.0006 0.000159 -2.80 0.0079 0.002555 -2.00 0.0540 0.022750 -1.20 0.1942 0.115070 -0.40 0.3683 0.344578 0.40 0.3683 0.655422 1.20 0.1942 0.884930 2.00 0.0540 0.977250 2.80 0.0079 0.997445 3.60 0.0006 0.999841-3.59 0.0006 0.000165 -2.79 0.0081 0.002635 -1.99 0.0551 0.023295 -1.19 0.1965 0.117023 -0.39 0.3697 0.348268 0.41 0.3668 0.659097 1.21 0.1919 0.886861 2.01 0.0529 0.977784 2.81 0.0077 0.997523 3.61 0.0006 0.999847-3.58 0.0007 0.000172 -2.78 0.0084 0.002718 -1.98 0.0562 0.023852 -1.18 0.1989 0.119000 -0.38 0.3712 0.351973 0.42 0.3653 0.662757 1.22 0.1895 0.888768 2.02 0.0519 0.978308 2.82 0.0075 0.997599 3.62 0.0006 0.999853-3.57 0.0007 0.000178 -2.77 0.0086 0.002803 -1.97 0.0573 0.024419 -1.17 0.2012 0.121000 -0.37 0.3725 0.355691 0.43 0.3637 0.666402 1.23 0.1872 0.890651 2.03 0.0508 0.978822 2.83 0.0073 0.997673 3.63 0.0005 0.999858-3.56 0.0007 0.000185 -2.76 0.0088 0.002890 -1.96 0.0584 0.024998 -1.16 0.2036 0.123024 -0.36 0.3739 0.359424 0.44 0.3621 0.670031 1.24 0.1849 0.892512 2.04 0.0498 0.979325 2.84 0.0071 0.997744 3.64 0.0005 0.999864-3.55 0.0007 0.000193 -2.75 0.0091 0.002980 -1.95 0.0596 0.025588 -1.15 0.2059 0.125072 -0.35 0.3752 0.363169 0.45 0.3605 0.673645 1.25 0.1826 0.894350 2.05 0.0488 0.979818 2.85 0.0069 0.997814 3.65 0.0005 0.999869-3.54 0.0008 0.000200 -2.74 0.0093 0.003072 -1.94 0.0608 0.026190 -1.14 0.2083 0.127143 -0.34 0.3765 0.366928 0.46 0.3589 0.677242 1.26 0.1804 0.896165 2.06 0.0478 0.980301 2.86 0.0067 0.997882 3.66 0.0005 0.999874-3.53 0.0008 0.000208 -2.73 0.0096 0.003167 -1.93 0.0620 0.026803 -1.13 0.2107 0.129238 -0.33 0.3778 0.370700 0.47 0.3572 0.680822 1.27 0.1781 0.897958 2.07 0.0468 0.980774 2.87 0.0065 0.997948 3.67 0.0005 0.999879-3.52 0.0008 0.000216 -2.72 0.0099 0.003264 -1.92 0.0632 0.027429 -1.12 0.2131 0.131357 -0.32 0.3790 0.374484 0.48 0.3555 0.684386 1.28 0.1758 0.899727 2.08 0.0459 0.981237 2.88 0.0063 0.998012 3.68 0.0005 0.999883-3.51 0.0008 0.000224 -2.71 0.0101 0.003364 -1.91 0.0644 0.028067 -1.11 0.2155 0.133500 -0.31 0.3802 0.378280 0.49 0.3538 0.687933 1.29 0.1736 0.901475 2.09 0.0449 0.981691 2.89 0.0061 0.998074 3.69 0.0004 0.999888-3.50 0.0009 0.000233 -2.70 0.0104 0.003467 -1.90 0.0656 0.028717 -1.10 0.2179 0.135666 -0.30 0.3814 0.382089 0.50 0.3521 0.691462 1.30 0.1714 0.903200 2.10 0.0440 0.982136 2.90 0.0060 0.998134 3.70 0.0004 0.999892-3.49 0.0009 0.000242 -2.69 0.0107 0.003573 -1.89 0.0669 0.029379 -1.09 0.2203 0.137857 -0.29 0.3825 0.385908 0.51 0.3503 0.694974 1.31 0.1691 0.904902 2.11 0.0431 0.982571 2.91 0.0058 0.998193 3.71 0.0004 0.999896-3.48 0.0009 0.000251 -2.68 0.0110 0.003681 -1.88 0.0681 0.030054 -1.08 0.2227 0.140071 -0.28 0.3836 0.389739 0.52 0.3485 0.698468 1.32 0.1669 0.906582 2.12 0.0422 0.982997 2.92 0.0056 0.998250 3.72 0.0004 0.999900-3.47 0.0010 0.000260 -2.67 0.0113 0.003793 -1.87 0.0694 0.030742 -1.07 0.2251 0.142310 -0.27 0.3847 0.393580 0.53 0.3467 0.701944 1.33 0.1647 0.908241 2.13 0.0413 0.983414 2.93 0.0055 0.998305 3.73 0.0004 0.999904-3.46 0.0010 0.000270 -2.66 0.0116 0.003907 -1.86 0.0707 0.031443 -1.06 0.2275 0.144572 -0.26 0.3857 0.397432 0.54 0.3448 0.705401 1.34 0.1626 0.909877 2.14 0.0404 0.983823 2.94 0.0053 0.998359 3.74 0.0004 0.999908-3.45 0.0010 0.000280 -2.65 0.0119 0.004025 -1.85 0.0721 0.032157 -1.05 0.2299 0.146859 -0.25 0.3867 0.401294 0.55 0.3429 0.708840 1.35 0.1604 0.911492 2.15 0.0396 0.984222 2.95 0.0051 0.998411 3.75 0.0004 0.999912-3.44 0.0011 0.000291 -2.64 0.0122 0.004145 -1.84 0.0734 0.032884 -1.04 0.2323 0.149170 -0.24 0.3876 0.405165 0.56 0.3410 0.712260 1.36 0.1582 0.913085 2.16 0.0387 0.984614 2.96 0.0050 0.998462 3.76 0.0003 0.999915-3.43 0.0011 0.000302 -2.63 0.0126 0.004269 -1.83 0.0748 0.033625 -1.03 0.2347 0.151505 -0.23 0.3885 0.409046 0.57 0.3391 0.715661 1.37 0.1561 0.914657 2.17 0.0379 0.984997 2.97 0.0048 0.998511 3.77 0.0003 0.999918-3.42 0.0012 0.000313 -2.62 0.0129 0.004396 -1.82 0.0761 0.034380 -1.02 0.2371 0.153864 -0.22 0.3894 0.412936 0.58 0.3372 0.719043 1.38 0.1539 0.916207 2.18 0.0371 0.985371 2.98 0.0047 0.998559 3.78 0.0003 0.999922-3.41 0.0012 0.000325 -2.61 0.0132 0.004527 -1.81 0.0775 0.035148 -1.01 0.2396 0.156248 -0.21 0.3902 0.416834 0.59 0.3352 0.722405 1.39 0.1518 0.917736 2.19 0.0363 0.985738 2.99 0.0046 0.998605 3.79 0.0003 0.999925-3.40 0.0012 0.000337 -2.60 0.0136 0.004661 -1.80 0.0790 0.035930 -1.00 0.2420 0.158655 -0.20 0.3910 0.420740 0.60 0.3332 0.725747 1.40 0.1497 0.919243 2.20 0.0355 0.986097 3.00 0.0044 0.998650 3.80 0.0003 0.999928-3.39 0.0013 0.000349 -2.59 0.0139 0.004799 -1.79 0.0804 0.036727 -0.99 0.2444 0.161087 -0.19 0.3918 0.424655 0.61 0.3312 0.729069 1.41 0.1476 0.920730 2.21 0.0347 0.986447 3.01 0.0043 0.998694 3.81 0.0003 0.999931-3.38 0.0013 0.000362 -2.58 0.0143 0.004940 -1.78 0.0818 0.037538 -0.98 0.2468 0.163543 -0.18 0.3925 0.428576 0.62 0.3292 0.732371 1.42 0.1456 0.922196 2.22 0.0339 0.986791 3.02 0.0042 0.998736 3.82 0.0003 0.999933-3.37 0.0014 0.000376 -2.57 0.0147 0.005085 -1.77 0.0833 0.038364 -0.97 0.2492 0.166023 -0.17 0.3932 0.432505 0.63 0.3271 0.735653 1.43 0.1435 0.923641 2.23 0.0332 0.987126 3.03 0.0040 0.998777 3.83 0.0003 0.999936-3.36 0.0014 0.000390 -2.56 0.0151 0.005234 -1.76 0.0848 0.039204 -0.96 0.2516 0.168528 -0.16 0.3939 0.436441 0.64 0.3251 0.738914 1.44 0.1415 0.925066 2.24 0.0325 0.987455 3.04 0.0039 0.998817 3.84 0.0003 0.999938-3.35 0.0015 0.000404 -2.55 0.0154 0.005386 -1.75 0.0863 0.040059 -0.95 0.2541 0.171056 -0.15 0.3945 0.440382 0.65 0.3230 0.742154 1.45 0.1394 0.926471 2.25 0.0317 0.987776 3.05 0.0038 0.998856 3.85 0.0002 0.999941-3.34 0.0015 0.000419 -2.54 0.0158 0.005543 -1.74 0.0878 0.040930 -0.94 0.2565 0.173609 -0.14 0.3951 0.444330 0.66 0.3209 0.745373 1.46 0.1374 0.927855 2.26 0.0310 0.988089 3.06 0.0037 0.998893 3.86 0.0002 0.999943-3.33 0.0016 0.000434 -2.53 0.0163 0.005703 -1.73 0.0893 0.041815 -0.93 0.2589 0.176186 -0.13 0.3956 0.448283 0.67 0.3187 0.748571 1.47 0.1354 0.929219 2.27 0.0303 0.988396 3.07 0.0036 0.998930 3.87 0.0002 0.999946-3.32 0.0016 0.000450 -2.52 0.0167 0.005868 -1.72 0.0909 0.042716 -0.92 0.2613 0.178786 -0.12 0.3961 0.452242 0.68 0.3166 0.751748 1.48 0.1334 0.930563 2.28 0.0297 0.988696 3.08 0.0035 0.998965 3.88 0.0002 0.999948-3.31 0.0017 0.000466 -2.51 0.0171 0.006037 -1.71 0.0925 0.043633 -0.91 0.2637 0.181411 -0.11 0.3965 0.456205 0.69 0.3144 0.754903 1.49 0.1315 0.931888 2.29 0.0290 0.988989 3.09 0.0034 0.998999 3.89 0.0002 0.999950-3.30 0.0017 0.000483 -2.50 0.0175 0.006210 -1.70 0.0940 0.044565 -0.90 0.2661 0.184060 -0.10 0.3970 0.460172 0.70 0.3123 0.758036 1.50 0.1295 0.933193 2.30 0.0283 0.989276 3.10 0.0033 0.999032 3.90 0.0002 0.999952-3.29 0.0018 0.000501 -2.49 0.0180 0.006387 -1.69 0.0957 0.045514 -0.89 0.2685 0.186733 -0.09 0.3973 0.464144 0.71 0.3101 0.761148 1.51 0.1276 0.934478 2.31 0.0277 0.989556 3.11 0.0032 0.999065 3.91 0.0002 0.999954-3.28 0.0018 0.000519 -2.48 0.0184 0.006569 -1.68 0.0973 0.046479 -0.88 0.2709 0.189430 -0.08 0.3977 0.468119 0.72 0.3079 0.764238 1.52 0.1257 0.935745 2.32 0.0270 0.989830 3.12 0.0031 0.999096 3.92 0.0002 0.999956-3.27 0.0019 0.000538 -2.47 0.0189 0.006756 -1.67 0.0989 0.047460 -0.87 0.2732 0.192150 -0.07 0.3980 0.472097 0.73 0.3056 0.767305 1.53 0.1238 0.936992 2.33 0.0264 0.990097 3.13 0.0030 0.999126 3.93 0.0002 0.999958-3.26 0.0020 0.000557 -2.46 0.0194 0.006947 -1.66 0.1006 0.048457 -0.86 0.2756 0.194895 -0.06 0.3982 0.476078 0.74 0.3034 0.770350 1.54 0.1219 0.938220 2.34 0.0258 0.990358 3.14 0.0029 0.999155 3.94 0.0002 0.999959-3.25 0.0020 0.000577 -2.45 0.0198 0.007143 -1.65 0.1023 0.049471 -0.85 0.2780 0.197663 -0.05 0.3984 0.480061 0.75 0.3011 0.773373 1.55 0.1200 0.939429 2.35 0.0252 0.990613 3.15 0.0028 0.999184 3.95 0.0002 0.999961-3.24 0.0021 0.000598 -2.44 0.0203 0.007344 -1.64 0.1040 0.050503 -0.84 0.2803 0.200454 -0.04 0.3986 0.484047 0.76 0.2989 0.776373 1.56 0.1182 0.940620 2.36 0.0246 0.990863 3.16 0.0027 0.999211 3.96 0.0002 0.999963-3.23 0.0022 0.000619 -2.43 0.0208 0.007549 -1.63 0.1057 0.051551 -0.83 0.2827 0.203269 -0.03 0.3988 0.488034 0.77 0.2966 0.779350 1.57 0.1163 0.941792 2.37 0.0241 0.991106 3.17 0.0026 0.999238 3.97 0.0002 0.999964-3.22 0.0022 0.000641 -2.42 0.0213 0.007760 -1.62 0.1074 0.052616 -0.82 0.2850 0.206108 -0.02 0.3989 0.492022 0.78 0.2943 0.782305 1.58 0.1145 0.942947 2.38 0.0235 0.991344 3.18 0.0025 0.999264 3.98 0.0001 0.999966-3.21 0.0023 0.000664 -2.41 0.0219 0.007976 -1.61 0.1092 0.053699 -0.81 0.2874 0.208970 -0.01 0.3989 0.496011 0.79 0.2920 0.785236 1.59 0.1127 0.944083 2.39 0.0229 0.991576 3.19 0.0025 0.999289 3.99 0.0001 0.999967
Z Dichte Phi(Z)0.00 0.3989 0.5000000.01 0.3989 0.5039890.02 0.3989 0.5079780.03 0.3988 0.5119660.04 0.3986 0.5159530.05 0.3984 0.519939
1. nur eine einzige Normalverteilung berechnet und tabelliert (nämlich die Standard-Normalverteilung mit ��=0 und ��=1), und
2. die aus ihr abgelesenen Quantile dann auf die für die Daten erforderliche Normalverteilung (sagen wir zB mit �=3,23 und �= 5,3) zurückgerechnet (s. nachher: Z-Transformation).
Anm.: Die 'x-Achse' wird bei der Standard-NV mit Z-Wertenbeziffert, um anzudeuten, dass es nicht es sich nicht um ein "Daten-x" handelt, sondern um einen standardisierten Wert, der später wieder in ein x zurückgerechnet wird.
… weil A) statistische Auswertungen oft auf Quantilen beruhen, die man aus der Verteilungsfunktion ablesen muss.
Weil aberB) keine Formel für die Verteilungsfunktion existiert und Mittelwert und Standardab-
weichung in den auszuwertenden Daten beliebige Werte annehmen können, wird:
Dichte und Verteilungsfunktion der StandardnormalverteilungZ Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z)
-4.00 0.0001 0.000032 -3.20 0.0024 0.000687 -2.40 0.0224 0.008198 -1.60 0.1109 0.054799 -0.80 0.2897 0.211855 0.00 0.3989 0.500000 0.80 0.2897 0.788145 1.60 0.1109 0.945201 2.40 0.0224 0.991802 3.20 0.0024 0.999313-3.99 0.0001 0.000033 -3.19 0.0025 0.000711 -2.39 0.0229 0.008424 -1.59 0.1127 0.055917 -0.79 0.2920 0.214764 0.01 0.3989 0.503989 0.81 0.2874 0.791030 1.61 0.1092 0.946301 2.41 0.0219 0.992024 3.21 0.0023 0.999336-3.98 0.0001 0.000034 -3.18 0.0025 0.000736 -2.38 0.0235 0.008656 -1.58 0.1145 0.057053 -0.78 0.2943 0.217695 0.02 0.3989 0.507978 0.82 0.2850 0.793892 1.62 0.1074 0.947384 2.42 0.0213 0.992240 3.22 0.0022 0.999359-3.97 0.0002 0.000036 -3.17 0.0026 0.000762 -2.37 0.0241 0.008894 -1.57 0.1163 0.058208 -0.77 0.2966 0.220650 0.03 0.3988 0.511966 0.83 0.2827 0.796731 1.63 0.1057 0.948449 2.43 0.0208 0.992451 3.23 0.0022 0.999381-3.96 0.0002 0.000037 -3.16 0.0027 0.000789 -2.36 0.0246 0.009137 -1.56 0.1182 0.059380 -0.76 0.2989 0.223627 0.04 0.3986 0.515953 0.84 0.2803 0.799546 1.64 0.1040 0.949497 2.44 0.0203 0.992656 3.24 0.0021 0.999402-3.95 0.0002 0.000039 -3.15 0.0028 0.000816 -2.35 0.0252 0.009387 -1.55 0.1200 0.060571 -0.75 0.3011 0.226627 0.05 0.3984 0.519939 0.85 0.2780 0.802337 1.65 0.1023 0.950529 2.45 0.0198 0.992857 3.25 0.0020 0.999423-3.94 0.0002 0.000041 -3.14 0.0029 0.000845 -2.34 0.0258 0.009642 -1.54 0.1219 0.061780 -0.74 0.3034 0.229650 0.06 0.3982 0.523922 0.86 0.2756 0.805105 1.66 0.1006 0.951543 2.46 0.0194 0.993053 3.26 0.0020 0.999443-3.93 0.0002 0.000042 -3.13 0.0030 0.000874 -2.33 0.0264 0.009903 -1.53 0.1238 0.063008 -0.73 0.3056 0.232695 0.07 0.3980 0.527903 0.87 0.2732 0.807850 1.67 0.0989 0.952540 2.47 0.0189 0.993244 3.27 0.0019 0.999462-3.92 0.0002 0.000044 -3.12 0.0031 0.000904 -2.32 0.0270 0.010170 -1.52 0.1257 0.064255 -0.72 0.3079 0.235762 0.08 0.3977 0.531881 0.88 0.2709 0.810570 1.68 0.0973 0.953521 2.48 0.0184 0.993431 3.28 0.0018 0.999481-3.91 0.0002 0.000046 -3.11 0.0032 0.000935 -2.31 0.0277 0.010444 -1.51 0.1276 0.065522 -0.71 0.3101 0.238852 0.09 0.3973 0.535856 0.89 0.2685 0.813267 1.69 0.0957 0.954486 2.49 0.0180 0.993613 3.29 0.0018 0.999499-3.90 0.0002 0.000048 -3.10 0.0033 0.000968 -2.30 0.0283 0.010724 -1.50 0.1295 0.066807 -0.70 0.3123 0.241964 0.10 0.3970 0.539828 0.90 0.2661 0.815940 1.70 0.0940 0.955435 2.50 0.0175 0.993790 3.30 0.0017 0.999517-3.89 0.0002 0.000050 -3.09 0.0034 0.001001 -2.29 0.0290 0.011011 -1.49 0.1315 0.068112 -0.69 0.3144 0.245097 0.11 0.3965 0.543795 0.91 0.2637 0.818589 1.71 0.0925 0.956367 2.51 0.0171 0.993963 3.31 0.0017 0.999534-3.88 0.0002 0.000052 -3.08 0.0035 0.001035 -2.28 0.0297 0.011304 -1.48 0.1334 0.069437 -0.68 0.3166 0.248252 0.12 0.3961 0.547758 0.92 0.2613 0.821214 1.72 0.0909 0.957284 2.52 0.0167 0.994132 3.32 0.0016 0.999550-3.87 0.0002 0.000054 -3.07 0.0036 0.001070 -2.27 0.0303 0.011604 -1.47 0.1354 0.070781 -0.67 0.3187 0.251429 0.13 0.3956 0.551717 0.93 0.2589 0.823814 1.73 0.0893 0.958185 2.53 0.0163 0.994297 3.33 0.0016 0.999566-3.86 0.0002 0.000057 -3.06 0.0037 0.001107 -2.26 0.0310 0.011911 -1.46 0.1374 0.072145 -0.66 0.3209 0.254627 0.14 0.3951 0.555670 0.94 0.2565 0.826391 1.74 0.0878 0.959070 2.54 0.0158 0.994457 3.34 0.0015 0.999581-3.85 0.0002 0.000059 -3.05 0.0038 0.001144 -2.25 0.0317 0.012224 -1.45 0.1394 0.073529 -0.65 0.3230 0.257846 0.15 0.3945 0.559618 0.95 0.2541 0.828944 1.75 0.0863 0.959941 2.55 0.0154 0.994614 3.35 0.0015 0.999596-3.84 0.0003 0.000062 -3.04 0.0039 0.001183 -2.24 0.0325 0.012545 -1.44 0.1415 0.074934 -0.64 0.3251 0.261086 0.16 0.3939 0.563559 0.96 0.2516 0.831472 1.76 0.0848 0.960796 2.56 0.0151 0.994766 3.36 0.0014 0.999610-3.83 0.0003 0.000064 -3.03 0.0040 0.001223 -2.23 0.0332 0.012874 -1.43 0.1435 0.076359 -0.63 0.3271 0.264347 0.17 0.3932 0.567495 0.97 0.2492 0.833977 1.77 0.0833 0.961636 2.57 0.0147 0.994915 3.37 0.0014 0.999624-3.82 0.0003 0.000067 -3.02 0.0042 0.001264 -2.22 0.0339 0.013209 -1.42 0.1456 0.077804 -0.62 0.3292 0.267629 0.18 0.3925 0.571424 0.98 0.2468 0.836457 1.78 0.0818 0.962462 2.58 0.0143 0.995060 3.38 0.0013 0.999638-3.81 0.0003 0.000069 -3.01 0.0043 0.001306 -2.21 0.0347 0.013553 -1.41 0.1476 0.079270 -0.61 0.3312 0.270931 0.19 0.3918 0.575345 0.99 0.2444 0.838913 1.79 0.0804 0.963273 2.59 0.0139 0.995201 3.39 0.0013 0.999651-3.80 0.0003 0.000072 -3.00 0.0044 0.001350 -2.20 0.0355 0.013903 -1.40 0.1497 0.080757 -0.60 0.3332 0.274253 0.20 0.3910 0.579260 1.00 0.2420 0.841345 1.80 0.0790 0.964070 2.60 0.0136 0.995339 3.40 0.0012 0.999663-3.79 0.0003 0.000075 -2.99 0.0046 0.001395 -2.19 0.0363 0.014262 -1.39 0.1518 0.082264 -0.59 0.3352 0.277595 0.21 0.3902 0.583166 1.01 0.2396 0.843752 1.81 0.0775 0.964852 2.61 0.0132 0.995473 3.41 0.0012 0.999675-3.78 0.0003 0.000078 -2.98 0.0047 0.001441 -2.18 0.0371 0.014629 -1.38 0.1539 0.083793 -0.58 0.3372 0.280957 0.22 0.3894 0.587064 1.02 0.2371 0.846136 1.82 0.0761 0.965620 2.62 0.0129 0.995604 3.42 0.0012 0.999687-3.77 0.0003 0.000082 -2.97 0.0048 0.001489 -2.17 0.0379 0.015003 -1.37 0.1561 0.085343 -0.57 0.3391 0.284339 0.23 0.3885 0.590954 1.03 0.2347 0.848495 1.83 0.0748 0.966375 2.63 0.0126 0.995731 3.43 0.0011 0.999698-3.76 0.0003 0.000085 -2.96 0.0050 0.001538 -2.16 0.0387 0.015386 -1.36 0.1582 0.086915 -0.56 0.3410 0.287740 0.24 0.3876 0.594835 1.04 0.2323 0.850830 1.84 0.0734 0.967116 2.64 0.0122 0.995855 3.44 0.0011 0.999709-3.75 0.0004 0.000088 -2.95 0.0051 0.001589 -2.15 0.0396 0.015778 -1.35 0.1604 0.088508 -0.55 0.3429 0.291160 0.25 0.3867 0.598706 1.05 0.2299 0.853141 1.85 0.0721 0.967843 2.65 0.0119 0.995975 3.45 0.0010 0.999720-3.74 0.0004 0.000092 -2.94 0.0053 0.001641 -2.14 0.0404 0.016177 -1.34 0.1626 0.090123 -0.54 0.3448 0.294599 0.26 0.3857 0.602568 1.06 0.2275 0.855428 1.86 0.0707 0.968557 2.66 0.0116 0.996093 3.46 0.0010 0.999730-3.73 0.0004 0.000096 -2.93 0.0055 0.001695 -2.13 0.0413 0.016586 -1.33 0.1647 0.091759 -0.53 0.3467 0.298056 0.27 0.3847 0.606420 1.07 0.2251 0.857690 1.87 0.0694 0.969258 2.67 0.0113 0.996207 3.47 0.0010 0.999740-3.72 0.0004 0.000100 -2.92 0.0056 0.001750 -2.12 0.0422 0.017003 -1.32 0.1669 0.093418 -0.52 0.3485 0.301532 0.28 0.3836 0.610261 1.08 0.2227 0.859929 1.88 0.0681 0.969946 2.68 0.0110 0.996319 3.48 0.0009 0.999749-3.71 0.0004 0.000104 -2.91 0.0058 0.001807 -2.11 0.0431 0.017429 -1.31 0.1691 0.095098 -0.51 0.3503 0.305026 0.29 0.3825 0.614092 1.09 0.2203 0.862143 1.89 0.0669 0.970621 2.69 0.0107 0.996427 3.49 0.0009 0.999758-3.70 0.0004 0.000108 -2.90 0.0060 0.001866 -2.10 0.0440 0.017864 -1.30 0.1714 0.096800 -0.50 0.3521 0.308538 0.30 0.3814 0.617911 1.10 0.2179 0.864334 1.90 0.0656 0.971283 2.70 0.0104 0.996533 3.50 0.0009 0.999767-3.69 0.0004 0.000112 -2.89 0.0061 0.001926 -2.09 0.0449 0.018309 -1.29 0.1736 0.098525 -0.49 0.3538 0.312067 0.31 0.3802 0.621720 1.11 0.2155 0.866500 1.91 0.0644 0.971933 2.71 0.0101 0.996636 3.51 0.0008 0.999776-3.68 0.0005 0.000117 -2.88 0.0063 0.001988 -2.08 0.0459 0.018763 -1.28 0.1758 0.100273 -0.48 0.3555 0.315614 0.32 0.3790 0.625516 1.12 0.2131 0.868643 1.92 0.0632 0.972571 2.72 0.0099 0.996736 3.52 0.0008 0.999784-3.67 0.0005 0.000121 -2.87 0.0065 0.002052 -2.07 0.0468 0.019226 -1.27 0.1781 0.102042 -0.47 0.3572 0.319178 0.33 0.3778 0.629300 1.13 0.2107 0.870762 1.93 0.0620 0.973197 2.73 0.0096 0.996833 3.53 0.0008 0.999792-3.66 0.0005 0.000126 -2.86 0.0067 0.002118 -2.06 0.0478 0.019699 -1.26 0.1804 0.103835 -0.46 0.3589 0.322758 0.34 0.3765 0.633072 1.14 0.2083 0.872857 1.94 0.0608 0.973810 2.74 0.0093 0.996928 3.54 0.0008 0.999800-3.65 0.0005 0.000131 -2.85 0.0069 0.002186 -2.05 0.0488 0.020182 -1.25 0.1826 0.105650 -0.45 0.3605 0.326355 0.35 0.3752 0.636831 1.15 0.2059 0.874928 1.95 0.0596 0.974412 2.75 0.0091 0.997020 3.55 0.0007 0.999807-3.64 0.0005 0.000136 -2.84 0.0071 0.002256 -2.04 0.0498 0.020675 -1.24 0.1849 0.107488 -0.44 0.3621 0.329969 0.36 0.3739 0.640576 1.16 0.2036 0.876976 1.96 0.0584 0.975002 2.76 0.0088 0.997110 3.56 0.0007 0.999815-3.63 0.0005 0.000142 -2.83 0.0073 0.002327 -2.03 0.0508 0.021178 -1.23 0.1872 0.109349 -0.43 0.3637 0.333598 0.37 0.3725 0.644309 1.17 0.2012 0.879000 1.97 0.0573 0.975581 2.77 0.0086 0.997197 3.57 0.0007 0.999822-3.62 0.0006 0.000147 -2.82 0.0075 0.002401 -2.02 0.0519 0.021692 -1.22 0.1895 0.111232 -0.42 0.3653 0.337243 0.38 0.3712 0.648027 1.18 0.1989 0.881000 1.98 0.0562 0.976148 2.78 0.0084 0.997282 3.58 0.0007 0.999828-3.61 0.0006 0.000153 -2.81 0.0077 0.002477 -2.01 0.0529 0.022216 -1.21 0.1919 0.113139 -0.41 0.3668 0.340903 0.39 0.3697 0.651732 1.19 0.1965 0.882977 1.99 0.0551 0.976705 2.79 0.0081 0.997365 3.59 0.0006 0.999835-3.60 0.0006 0.000159 -2.80 0.0079 0.002555 -2.00 0.0540 0.022750 -1.20 0.1942 0.115070 -0.40 0.3683 0.344578 0.40 0.3683 0.655422 1.20 0.1942 0.884930 2.00 0.0540 0.977250 2.80 0.0079 0.997445 3.60 0.0006 0.999841-3.59 0.0006 0.000165 -2.79 0.0081 0.002635 -1.99 0.0551 0.023295 -1.19 0.1965 0.117023 -0.39 0.3697 0.348268 0.41 0.3668 0.659097 1.21 0.1919 0.886861 2.01 0.0529 0.977784 2.81 0.0077 0.997523 3.61 0.0006 0.999847-3.58 0.0007 0.000172 -2.78 0.0084 0.002718 -1.98 0.0562 0.023852 -1.18 0.1989 0.119000 -0.38 0.3712 0.351973 0.42 0.3653 0.662757 1.22 0.1895 0.888768 2.02 0.0519 0.978308 2.82 0.0075 0.997599 3.62 0.0006 0.999853-3.57 0.0007 0.000178 -2.77 0.0086 0.002803 -1.97 0.0573 0.024419 -1.17 0.2012 0.121000 -0.37 0.3725 0.355691 0.43 0.3637 0.666402 1.23 0.1872 0.890651 2.03 0.0508 0.978822 2.83 0.0073 0.997673 3.63 0.0005 0.999858-3.56 0.0007 0.000185 -2.76 0.0088 0.002890 -1.96 0.0584 0.024998 -1.16 0.2036 0.123024 -0.36 0.3739 0.359424 0.44 0.3621 0.670031 1.24 0.1849 0.892512 2.04 0.0498 0.979325 2.84 0.0071 0.997744 3.64 0.0005 0.999864-3.55 0.0007 0.000193 -2.75 0.0091 0.002980 -1.95 0.0596 0.025588 -1.15 0.2059 0.125072 -0.35 0.3752 0.363169 0.45 0.3605 0.673645 1.25 0.1826 0.894350 2.05 0.0488 0.979818 2.85 0.0069 0.997814 3.65 0.0005 0.999869-3.54 0.0008 0.000200 -2.74 0.0093 0.003072 -1.94 0.0608 0.026190 -1.14 0.2083 0.127143 -0.34 0.3765 0.366928 0.46 0.3589 0.677242 1.26 0.1804 0.896165 2.06 0.0478 0.980301 2.86 0.0067 0.997882 3.66 0.0005 0.999874-3.53 0.0008 0.000208 -2.73 0.0096 0.003167 -1.93 0.0620 0.026803 -1.13 0.2107 0.129238 -0.33 0.3778 0.370700 0.47 0.3572 0.680822 1.27 0.1781 0.897958 2.07 0.0468 0.980774 2.87 0.0065 0.997948 3.67 0.0005 0.999879-3.52 0.0008 0.000216 -2.72 0.0099 0.003264 -1.92 0.0632 0.027429 -1.12 0.2131 0.131357 -0.32 0.3790 0.374484 0.48 0.3555 0.684386 1.28 0.1758 0.899727 2.08 0.0459 0.981237 2.88 0.0063 0.998012 3.68 0.0005 0.999883-3.51 0.0008 0.000224 -2.71 0.0101 0.003364 -1.91 0.0644 0.028067 -1.11 0.2155 0.133500 -0.31 0.3802 0.378280 0.49 0.3538 0.687933 1.29 0.1736 0.901475 2.09 0.0449 0.981691 2.89 0.0061 0.998074 3.69 0.0004 0.999888-3.50 0.0009 0.000233 -2.70 0.0104 0.003467 -1.90 0.0656 0.028717 -1.10 0.2179 0.135666 -0.30 0.3814 0.382089 0.50 0.3521 0.691462 1.30 0.1714 0.903200 2.10 0.0440 0.982136 2.90 0.0060 0.998134 3.70 0.0004 0.999892-3.49 0.0009 0.000242 -2.69 0.0107 0.003573 -1.89 0.0669 0.029379 -1.09 0.2203 0.137857 -0.29 0.3825 0.385908 0.51 0.3503 0.694974 1.31 0.1691 0.904902 2.11 0.0431 0.982571 2.91 0.0058 0.998193 3.71 0.0004 0.999896-3.48 0.0009 0.000251 -2.68 0.0110 0.003681 -1.88 0.0681 0.030054 -1.08 0.2227 0.140071 -0.28 0.3836 0.389739 0.52 0.3485 0.698468 1.32 0.1669 0.906582 2.12 0.0422 0.982997 2.92 0.0056 0.998250 3.72 0.0004 0.999900-3.47 0.0010 0.000260 -2.67 0.0113 0.003793 -1.87 0.0694 0.030742 -1.07 0.2251 0.142310 -0.27 0.3847 0.393580 0.53 0.3467 0.701944 1.33 0.1647 0.908241 2.13 0.0413 0.983414 2.93 0.0055 0.998305 3.73 0.0004 0.999904-3.46 0.0010 0.000270 -2.66 0.0116 0.003907 -1.86 0.0707 0.031443 -1.06 0.2275 0.144572 -0.26 0.3857 0.397432 0.54 0.3448 0.705401 1.34 0.1626 0.909877 2.14 0.0404 0.983823 2.94 0.0053 0.998359 3.74 0.0004 0.999908-3.45 0.0010 0.000280 -2.65 0.0119 0.004025 -1.85 0.0721 0.032157 -1.05 0.2299 0.146859 -0.25 0.3867 0.401294 0.55 0.3429 0.708840 1.35 0.1604 0.911492 2.15 0.0396 0.984222 2.95 0.0051 0.998411 3.75 0.0004 0.999912-3.44 0.0011 0.000291 -2.64 0.0122 0.004145 -1.84 0.0734 0.032884 -1.04 0.2323 0.149170 -0.24 0.3876 0.405165 0.56 0.3410 0.712260 1.36 0.1582 0.913085 2.16 0.0387 0.984614 2.96 0.0050 0.998462 3.76 0.0003 0.999915-3.43 0.0011 0.000302 -2.63 0.0126 0.004269 -1.83 0.0748 0.033625 -1.03 0.2347 0.151505 -0.23 0.3885 0.409046 0.57 0.3391 0.715661 1.37 0.1561 0.914657 2.17 0.0379 0.984997 2.97 0.0048 0.998511 3.77 0.0003 0.999918-3.42 0.0012 0.000313 -2.62 0.0129 0.004396 -1.82 0.0761 0.034380 -1.02 0.2371 0.153864 -0.22 0.3894 0.412936 0.58 0.3372 0.719043 1.38 0.1539 0.916207 2.18 0.0371 0.985371 2.98 0.0047 0.998559 3.78 0.0003 0.999922-3.41 0.0012 0.000325 -2.61 0.0132 0.004527 -1.81 0.0775 0.035148 -1.01 0.2396 0.156248 -0.21 0.3902 0.416834 0.59 0.3352 0.722405 1.39 0.1518 0.917736 2.19 0.0363 0.985738 2.99 0.0046 0.998605 3.79 0.0003 0.999925-3.40 0.0012 0.000337 -2.60 0.0136 0.004661 -1.80 0.0790 0.035930 -1.00 0.2420 0.158655 -0.20 0.3910 0.420740 0.60 0.3332 0.725747 1.40 0.1497 0.919243 2.20 0.0355 0.986097 3.00 0.0044 0.998650 3.80 0.0003 0.999928-3.39 0.0013 0.000349 -2.59 0.0139 0.004799 -1.79 0.0804 0.036727 -0.99 0.2444 0.161087 -0.19 0.3918 0.424655 0.61 0.3312 0.729069 1.41 0.1476 0.920730 2.21 0.0347 0.986447 3.01 0.0043 0.998694 3.81 0.0003 0.999931-3.38 0.0013 0.000362 -2.58 0.0143 0.004940 -1.78 0.0818 0.037538 -0.98 0.2468 0.163543 -0.18 0.3925 0.428576 0.62 0.3292 0.732371 1.42 0.1456 0.922196 2.22 0.0339 0.986791 3.02 0.0042 0.998736 3.82 0.0003 0.999933-3.37 0.0014 0.000376 -2.57 0.0147 0.005085 -1.77 0.0833 0.038364 -0.97 0.2492 0.166023 -0.17 0.3932 0.432505 0.63 0.3271 0.735653 1.43 0.1435 0.923641 2.23 0.0332 0.987126 3.03 0.0040 0.998777 3.83 0.0003 0.999936-3.36 0.0014 0.000390 -2.56 0.0151 0.005234 -1.76 0.0848 0.039204 -0.96 0.2516 0.168528 -0.16 0.3939 0.436441 0.64 0.3251 0.738914 1.44 0.1415 0.925066 2.24 0.0325 0.987455 3.04 0.0039 0.998817 3.84 0.0003 0.999938-3.35 0.0015 0.000404 -2.55 0.0154 0.005386 -1.75 0.0863 0.040059 -0.95 0.2541 0.171056 -0.15 0.3945 0.440382 0.65 0.3230 0.742154 1.45 0.1394 0.926471 2.25 0.0317 0.987776 3.05 0.0038 0.998856 3.85 0.0002 0.999941-3.34 0.0015 0.000419 -2.54 0.0158 0.005543 -1.74 0.0878 0.040930 -0.94 0.2565 0.173609 -0.14 0.3951 0.444330 0.66 0.3209 0.745373 1.46 0.1374 0.927855 2.26 0.0310 0.988089 3.06 0.0037 0.998893 3.86 0.0002 0.999943-3.33 0.0016 0.000434 -2.53 0.0163 0.005703 -1.73 0.0893 0.041815 -0.93 0.2589 0.176186 -0.13 0.3956 0.448283 0.67 0.3187 0.748571 1.47 0.1354 0.929219 2.27 0.0303 0.988396 3.07 0.0036 0.998930 3.87 0.0002 0.999946-3.32 0.0016 0.000450 -2.52 0.0167 0.005868 -1.72 0.0909 0.042716 -0.92 0.2613 0.178786 -0.12 0.3961 0.452242 0.68 0.3166 0.751748 1.48 0.1334 0.930563 2.28 0.0297 0.988696 3.08 0.0035 0.998965 3.88 0.0002 0.999948-3.31 0.0017 0.000466 -2.51 0.0171 0.006037 -1.71 0.0925 0.043633 -0.91 0.2637 0.181411 -0.11 0.3965 0.456205 0.69 0.3144 0.754903 1.49 0.1315 0.931888 2.29 0.0290 0.988989 3.09 0.0034 0.998999 3.89 0.0002 0.999950-3.30 0.0017 0.000483 -2.50 0.0175 0.006210 -1.70 0.0940 0.044565 -0.90 0.2661 0.184060 -0.10 0.3970 0.460172 0.70 0.3123 0.758036 1.50 0.1295 0.933193 2.30 0.0283 0.989276 3.10 0.0033 0.999032 3.90 0.0002 0.999952-3.29 0.0018 0.000501 -2.49 0.0180 0.006387 -1.69 0.0957 0.045514 -0.89 0.2685 0.186733 -0.09 0.3973 0.464144 0.71 0.3101 0.761148 1.51 0.1276 0.934478 2.31 0.0277 0.989556 3.11 0.0032 0.999065 3.91 0.0002 0.999954-3.28 0.0018 0.000519 -2.48 0.0184 0.006569 -1.68 0.0973 0.046479 -0.88 0.2709 0.189430 -0.08 0.3977 0.468119 0.72 0.3079 0.764238 1.52 0.1257 0.935745 2.32 0.0270 0.989830 3.12 0.0031 0.999096 3.92 0.0002 0.999956-3.27 0.0019 0.000538 -2.47 0.0189 0.006756 -1.67 0.0989 0.047460 -0.87 0.2732 0.192150 -0.07 0.3980 0.472097 0.73 0.3056 0.767305 1.53 0.1238 0.936992 2.33 0.0264 0.990097 3.13 0.0030 0.999126 3.93 0.0002 0.999958-3.26 0.0020 0.000557 -2.46 0.0194 0.006947 -1.66 0.1006 0.048457 -0.86 0.2756 0.194895 -0.06 0.3982 0.476078 0.74 0.3034 0.770350 1.54 0.1219 0.938220 2.34 0.0258 0.990358 3.14 0.0029 0.999155 3.94 0.0002 0.999959-3.25 0.0020 0.000577 -2.45 0.0198 0.007143 -1.65 0.1023 0.049471 -0.85 0.2780 0.197663 -0.05 0.3984 0.480061 0.75 0.3011 0.773373 1.55 0.1200 0.939429 2.35 0.0252 0.990613 3.15 0.0028 0.999184 3.95 0.0002 0.999961-3.24 0.0021 0.000598 -2.44 0.0203 0.007344 -1.64 0.1040 0.050503 -0.84 0.2803 0.200454 -0.04 0.3986 0.484047 0.76 0.2989 0.776373 1.56 0.1182 0.940620 2.36 0.0246 0.990863 3.16 0.0027 0.999211 3.96 0.0002 0.999963-3.23 0.0022 0.000619 -2.43 0.0208 0.007549 -1.63 0.1057 0.051551 -0.83 0.2827 0.203269 -0.03 0.3988 0.488034 0.77 0.2966 0.779350 1.57 0.1163 0.941792 2.37 0.0241 0.991106 3.17 0.0026 0.999238 3.97 0.0002 0.999964-3.22 0.0022 0.000641 -2.42 0.0213 0.007760 -1.62 0.1074 0.052616 -0.82 0.2850 0.206108 -0.02 0.3989 0.492022 0.78 0.2943 0.782305 1.58 0.1145 0.942947 2.38 0.0235 0.991344 3.18 0.0025 0.999264 3.98 0.0001 0.999966-3.21 0.0023 0.000664 -2.41 0.0219 0.007976 -1.61 0.1092 0.053699 -0.81 0.2874 0.208970 -0.01 0.3989 0.496011 0.79 0.2920 0.785236 1.59 0.1127 0.944083 2.39 0.0229 0.991576 3.19 0.0025 0.999289 3.99 0.0001 0.999967 Folie 60 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Übung: Verwendung der tabellierten Standardnormalverteilung
Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z)-4.00 0.0001 0.000032 -3.20 0.0024 0.000687 -2.40 0.0224 0.008198 -1.60 0.1109 0.054799 -0.80 0.2897 0.211855 0.00 0.3989 0.500000 0.80 0.2897 0.788145-3.99 0.0001 0.000033 -3.19 0.0025 0.000711 -2.39 0.0229 0.008424 -1.59 0.1127 0.055917 -0.79 0.2920 0.214764 0.01 0.3989 0.503989 0.81 0.2874 0.791030-3.98 0.0001 0.000034 -3.18 0.0025 0.000736 -2.38 0.0235 0.008656 -1.58 0.1145 0.057053 -0.78 0.2943 0.217695 0.02 0.3989 0.507978 0.82 0.2850 0.793892-3.97 0.0002 0.000036 -3.17 0.0026 0.000762 -2.37 0.0241 0.008894 -1.57 0.1163 0.058208 -0.77 0.2966 0.220650 0.03 0.3988 0.511966 0.83 0.2827 0.796731-3.96 0.0002 0.000037 -3.16 0.0027 0.000789 -2.36 0.0246 0.009137 -1.56 0.1182 0.059380 -0.76 0.2989 0.223627 0.04 0.3986 0.515953 0.84 0.2803 0.799546-3.95 0.0002 0.000039 -3.15 0.0028 0.000816 -2.35 0.0252 0.009387 -1.55 0.1200 0.060571 -0.75 0.3011 0.226627 0.05 0.3984 0.519939 0.85 0.2780 0.802337-3.94 0.0002 0.000041 -3.14 0.0029 0.000845 -2.34 0.0258 0.009642 -1.54 0.1219 0.061780 -0.74 0.3034 0.229650 0.06 0.3982 0.523922 0.86 0.2756 0.805105
Z = Koordinate auf der "x"-Achse der Standard-NormalverteilungDichte an der Stelle zWert der Verteilungsfunktion � an der Stelle z
0.0
0.1
0.2
0.3
0.4
Den
sity
(Z)
-4 -3 -2 -1 0 1 2 3 4Z
Dichte:
0.00.10.20.30.40.50.60.70.80.91.0
Phi
(Z)
-4 -3 -2 -1 0 1 2 3 4Z
Verteilungs-funktion:
Bsp. 1: Wie groß ist die W'keit, dass ein Wert Z�-1.55 ist?
� P(Z� -1.55) = ��(-1.55) = 0.060571 = 6.1%
Bsp. 2: Wie groß ist die W'keit, dass ein Wert Z>-1.55 ist?
� P(Z> -1.55) = 1-��(-1.55)=100% - 6.1% = 93.9%
Bsp. 3: Unterhalb welchen Z-Wertes liegen 22% der Werte?
� Z(� =0.22) = -0.77
Folie 61 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Z-Transformation
z.B. Wert aus der Verteilung Verteilung
x=90.030.050.080.10
Pro
babi
lity
-6 -4 -2 0 2 4 6 8 10
��=5��=2
Vorgehen
x'=9-5=4
0.030.050.080.10
Pro
babi
lity
-6 -4 -2 0 2 4 6 8 10
��=0��=2
1) Ziehe (von jedem Wert) den Erwartungswert ab: x' = x -��
z=(9-5)/2=2
0.05
0.100.150.20
Pro
babi
lity
-6 -4 -2 0 2 4 6 8 10
��=0��=1
2) Dividiere x' durch die Standardabwei-chung: z = x'/��
Z-Transformation: Z= x-����
"x liegt 2 Standard-abweichungen vom Mittelwert entfernt"
"Jede Normalverteilung lässt sich in eine Standard-Normalverteilung umrechnen, und umgekehrt."
"x hat den Wert 9"
Folie 62 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
6) Bedeutung des Z-Wertes
Der Z-Wert gibt an, wieviel Standardabweichungen ein Wert vom Erwartungswert entfernt liegt
��
��
2��
Z
���
�XZ
Umrechnung zwischen Quantilen einer Normal- undder Standardnormalverteilung
Die Standardnormalverteilung hat Erwartungswert und Standardabweichung 1��
0��
bzw. umgekehrt:
�� �� ZX
Bsp.: sind Cholesterinwerte normalverteilt mit ��=140 und ��=30, dann liegt ein Cholesterinwert von 200 demnach z=2 Standardabweichungen oberhalb des Erwartungswertes von ��=140 .
Folie 63 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Von Schmackes' Wert zu Schmackes' Quantil...Herr Schmackes isst gerne und hat einen Cholesterinwert von 210. Arzt: "Herr Schmackes, Ihr Cholesterinwert liegt außerhalb der Norm!"Herr Schmackes: "Ach, was ist schon normal?!"
0.05
0.10
0.15
Rel
ativ
e H
'kei
t
50 100 150 200 250Cholesterin-Konzentration [mg/dl]
Die Verteilung der Cholesterin-Werte in der Bevölkerung sieht so
aus: = 140, s = 30xWo befindet sich Herr Schmackes mit seinem Cholesterin-Wert?
3230
140210 .xz ��
��
��
�Sein Cholesterin-Wert liegt also um 2.3 Standardabweichungen höher als der Mittelwert
aus Tabelle: P(Z ��2.3)=��(2.3) = 0.9893 entspricht 98.9%.
98.9% der Bevölkerung haben einen geringeren Cholesterin-Wert als Herr Schmackes.Sollte Herr Schmackes auf's Cholesterin achten?
��
1���
2��
Folie 64 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Von Schmackes' Quantil zu Schmackes' Wert...Herr Schmackes isst immer noch gerne, möchte aber beim Thema Cholesterin doch nicht zu den "oberen 10%" der Bevölkerung gehören. Auf welchen Cholesterin-Wert muss er mindestens reduzieren?
0.05
0.10
0.15
Rel
ativ
e H
'kei
t
50 100 150 200 250Cholesterin-Konzentration [mg/dl]
1���
2��
��In anderen Worten: Schmackes möchte seinen Cholesterin-Wert auf's 90%-Quantil absenken.
Welchem Z-Wert entspricht das?
aus Tabelle: P(0.9) liegt bei Z�����
Welchem Cholesterin-Wert entspricht das? dlmgZX /7.17814029.1*30 ����� ��
Folie 65
M E R K Z E T T E L
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Korrelation & Regression sind nette tools - ihre 'Beweis'kraft wird aber in der Regel überschätzt
• Vorsicht mit "Ausreißern": sind das Ausreißer, oder informative Individuen?
• Die Normalverteilung ist in der Statistik sehr tief verankert. Sie ist durch Erwartungswert � undStandardabweichung � definiert
• In der Regel müssen wir beim Rechnen den Umweg über die Standard-Normalverteilunggehen, und dann wieder zurückrechnen.
• 'Schiefe' Verteilung können oft durch Logarithmieren der Werte in eine Normalverteilung überführt werden.Beachte: der Mittelwert aus logarithmierten Werten ist auf rücktransformierter Ebene ein geometrischer Mittelwert.
Log
10
��
��
Übung von Hand: A) Standardnormalverteilung, Z-Wert
Gegeben sei die Standardnormalverteilung mit �=0 und �=1.
(1) Wie groß ist die W'keit für einen Wert z<=2?
(2) Wie groß ist die W'keit für einen Wert z< -2?
(3) Welches ist der z-Wert für ��(Z)=0.025
(4) Welches ist der z-Wert unterhalb dessen sich 97.5% der Werte befinden?
(6) Wieviel % der Werte sind oberhalb eines Bereiches zu erwarten, der 1.96 Standard-abweichungen höher liegt als der Erwartungswert?
(5) Wieviel Standardabweichungen muss man sich vom Erwartungswert entfernen, wenn sich unter diesem Wert 2.5% der Werte finden sollen?
(7) Wieviel % der Werte liegen innerhalb des Bereiches ��� 1.96 ��?
Übung von Hand: B) Normalverteilung - Lage und Streuung1. Konzentrationen eines Blutbestandteils X wurden an 20 Patienten gemessen und in Tab.
1 (Spalte 1) sortiert zusammengefasst. Klassieren Sie die Daten im Intervall [6;14] mit einer Klassenbreite von 1 und berechnen Sie die relativen (Spalte 2) und kumulierten (Spalte 3) Häufigkeiten.
2. Zeichnen Sie die relativen Häufigkeiten als Histogramm in Graf 1 ein.3. Wie lautet der empirische Median? Median=_____ .4. Berechnen Sie Mittelwert und Standardabweichung aus den Daten:
6.37.07.48.08.59.09.49.69.79.9
10.310.410.510.611.011.111.612.213.114.4
� �2xxi �xxi �ix
Zur Berechnung der Standardabweichung gehen sie in Tab. 1 wie folgt vor: (A) Berechnen Sie zunächst in Spalte 4 die Differenzen der beobachteten Einzelwerte zum Mittelwert (Abweichungen). (B) Quadrieren Sie dann diese Werte und tragen Sie das Ergebnis jeweils in Spalte 5 ein (Abweichungsquadrate). (C) Bilden Sie die Summe der Abweichungsquadrate, SAQ): SAQ=______.(D) Teilen Sie die SAQ durch n-1 (=Varianz): s 2 =______.(E) Ziehen Sie aus s 2 die Wurzel (=s): s =______.
Tab.
1G
raf 1
� ��
�
�
�
��
�
��
n
ii
n
ii
xxn
s
xn
x
1
2
1
11
101
0.05
0.10
0.15
0.20
0.25
Rel
. Häu
figke
it
4 5 6 7 8 9 10 11 12 13 14 15 16
5. Wir gehen jetzt davon aus, dass die im Patientenkollektiv beobachteten Werte die Verteilung in der Bevölkerung repräsen-tieren und durch eine Normalverteilung(�,�) beschrieben werden können. Da ihre Parameter jetzt bekannt sind ( ) können wir die Normalverteilung anhand ihrer Formel
berechnen. Ergänzen Sie die Dichten für x=5 und x=10 in Tab. 2 und vervollständigen Sie die Dichten für x=11...16 (grau unter-legt) aufgrund der Symmetrie-Eigenschaft der Normalverteilung.
6. Verwenden Sie die Werte aus Tab. 2, um die Normalverteilung in Graf 1 einzuzeichnen.
s,x �� ��
Tab.
2 x Dichte(x)4 0.002256 0.02707 0.06488 0.12109 0.1760
10111213141516
� �� �
2
2
2
21 �
�
���
��
�
x
ex
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 2• Korrelation• Regression• Residuenanalyse• Normalverteilung
Folie 69
Übung 2: Korrelation – Datenvisualisierung vorbereiten
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Tables>Summary>Group• Rows>Colors,Markers
– Female = rot– Male = blau– married = Kreise– #children>0 = gefüllte Kreise– single+children = gefüllte
Quadrate
Vorbereitung: Daten markieren nach sex, famStatus, #children
sexfamStatus#children
Folie 70
Übung 2: Korrelation – welche Vaiablen sind korreliert?
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• KorrelationsanalyseAnalyze > Multivariate Methods > Multivariate
• Zielvariablenage, Bpdia, Bpsys, Chol, Trig
• Hypothesen: HotSpot:Color Maps
HotSpot: Show Histogramm
age
BP
dia
BP
sys
Cho
l
Trig
-1
0
1
r-1
0
1
r
age
BP
dia
BP
sys
Cho
l
Trig
Color Map On Correlationswelche Korrelationen sehen Sie als so bedeutsam, dass weiterführende Untersuchungen relevant erscheinen?:__________________________________,weil _____________ _________________
Folie 71
Übung 2: Regression –
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Hypothese/Befund:Bpsys und Chol sind korreliertMenü: Analyze > Fit Y by X
• Spekulation:Bpsys steigt mit Chol.Die Gleichung hat die ParameterAchsenabschnitt: ______
(Einheit: ______)Steigung: ______
(Einheit: ______)
• Residuenanalyse:(nächste Folie)
Regressionsgerade
r2
Schätzwerte (mit Standardfehler und
Signifikanz)
HotSpot:Fit Line
HotSpot:Plot Residuals
undSave Residuals(dieser Befehl legt automatisch eine neue Spalte mit Residuen an...s. nächste Folie)
wie hängen korrelierte Variablen voneinander ab?
=p-Wert
Folie 72
Übung 2: Regression -
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Gibt es einen Trend in den Residuen?• Gibt es einen Trend in Varianz?• Sind die Residuen normalverteilt?
Ergebnis: Analyse statthaftInterpretation: BPsys und Chol sind linear korreliert. Aussage über Ursache/Wirkung ist jedoch nicht möglich.
Analyze >Distribution (Spalte residuals)
Residuenanalyse: erfüllt die (lineare) Regression die Voraussetzungen?
Folie 73
Übung 2: Z-Transformation - Quantil eines Werts
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Erstellen Sie eine Verteilung der Cholesterin-Werte und lassen Sie sich die zugehörige Normalverteilung ausgeben:Analyze >DistributionHotSpot >Continuous Fit >Normal
• Legen Sie eine neue Spalte Z(Chol) für eine Z-Transformation an, in der Sie die Cholesterin-Werte mit der Formel Z=(Chol-�)/� zur Standard-Normalverteilung transformieren
• Wieviele Standardabweichungen liegt das beobachtete Minimum von Chol=________ vom Mittelwert entfernt?:_________
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 31. Referenzbereich
1-seitig / 2-seitig
2. Standardfehler des Mittelwerts (Standard error of the mean)
3. Konfidenzintervalle4. t-Verteilung
-formale Notation:-häufige Notation: (z. B: in software)
SESEM
xxs �,
Folie 75
Wiederholung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/Bi t i i t bi d /bi tBi t i i t bi d /bi t
Daten
Normalverteilung
Standard-Normal-verteilung
Verteilungsfunktion
Tabellierte Werte
Folie 76
1) Referenzbereich:
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300
n=200
was ist ein "normaler" Cholesterin-Wert?
LDL-Cholesterin [mg/ml]
"normal""Außerhalb der Norm"
"Außerhalb der Norm"
• Der Referenzbereich wird aus der Verteilung des Cholesterins in der gesunden (!) Bevölkerung ermittelt
• Die zentralen 95% der Werte werden als "normal" angesehen; Werte darunter oder darüber als "Außerhalb der Norm"
Folie 77 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
//////////////////////////////////////////////
//////////////////////////////////////////////
0
0.002
0.004
0.006
0.008
0.01
0.012
0.014
40 60 80 100 120 140 160 180 200 220 240
Wah
rsch
einl
ichk
eits
dich
te
1) Bestimmung eines (2-seitigen) Referenzbereiches
2.5% 2.5%
Vorgehensweise: 1) bestimme Mittelwert und Standardabweichung im gesunden Kollektiv, 2) bestimme die von der entsprechenden Normalverteilung vorhergesagten*Quantile für die zentralen 95% (nicht beobachtete* Quantile aus den Daten)
30�s
x
s�1.96- s��1.96Folie 78
1) Zweiseitiger Referenzbereich:
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
10
20
30
Cou
nt
0.05
0.10
0.15
Prob
abilit
y
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300
30140
��
sx
= 140 -1.96·30 bis 140 +1.96·30
Mittelwert
Standard-abweichung
!szxszx ���� 975.0025.0 bis
Referenzbereich für die Daten
1.96025.0 ��z2.5%-Quantil
96.1975.0 �z97.5%-Quantil
= [81.2 bis 198.8]
n=200
was ist ein "normaler" Cholesterin-Wert?
LDL-Cholesterin [mg/ml]
Folie 79 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Einseitiger Referenzbereich:
Median 120
arithm. Mittel 140Standardabweichung 74
Anteil
0.100.200.300.40
0 100 200 300 400 500Triglycerid [mg/dl]
arithm. Mittel der log(T...) 2.104Standardabw. der log(T...) 0.186
geometr. Mittel 102.104 = 127
1.6 1.8 2.0 2.2 2.4 2.6 2.8
Anteil
log(Triglycerid)
0.100.200.30
was ist ein "normaler" Triglycerid-Wert?
Folie 80 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
95% der Triglycerid-Werte erwartet man unter 257 mg/dl:
64510.95 .z �
10 2.104 + 1.645 · 0.186 = 10 2.410 = 257
1) Einseitiger Referenzbereich: was ist ein "normaler" Triglycerid-Wert?
arithm. Mittel der log(T...) 2.104Standardabw. der log(T...) 0.186
geometr. Mittel 102.104 = 127
1.6 1.8 2.0 2.2 2.4 2.6 2.8
Anteil
log(Triglycerid)
0.100.200.30
Folie 81
Zusammenfassung Referenzbereich
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Referenzbereiche werden in der Regel aus einer Stichprobe der gesunden (!)Bevölkerung ermittelt
• wird nichts anderes angegeben, beschreibt der– 2-seitige Referenzbereich die zentralen 95% der Werte– 1-seitige Referenzbereich die unteren (oberen) 95% der
Werte
• Vorsicht: – Werden an einem Patienten 20 diagnostische Tests
durchgeführt, so erwarten wir, dass einer dieser Tests fälschlicherweise ein Ergebnis "Außerhalb der 95% Norm"ergibt.
Folie 82 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
2) Standardfehler des Mittelwerts
Wenn ich aus einer großen Grundgesamtheit
verschiedene Stichproben ziehe
und jeweils deren Mittelwert bestimme
- wie groß ist dann die Streuung dieser Mittelwerte
im Vergleich zur Streuung in der Grundgesamtheit
zum Beispiel80 Mio. Deutsche
Einwohner der Ortschaften A, B, C, ...
Mittlere Schuhgröße in der jeweiligen Ortschaft
Wie groß ist die Streuung der Mittelwerte ?
Wie groß ist die Streuung der Einzelwerte ?
Mittelwerte aus verschiedenen Stichproben und ihre Verteilung
Folie 83 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
2) Standardfehler des Mittelwerts
Rice Virtual Lab in Statistics>Simulations/Demonstrations
>Sampling Distribution Simulation >Begin
http
://on
lines
tatb
ook.
com
/rvls
.htm
l
��,
sx,
x��,
Mittelwerte aus verschiedenen Stichproben und ihre Verteilung
Folie 84
2) Verteilung von Mittelwerten
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Zentraler Grenzwertsatz: Mittelwerte sind (näherungsweise) normalverteilt.
• Mittelwerte haben denselben Erwartungswert wie die Grundgesamtheit: �� �x
• Die Standardabweichung der Mittelwerte ist kleiner als die der Grundgesamtheit:
– SD der Grundgesamtheit:– SE der Mittelwerte:
nSE �
��
"Standard Error of the Mean""Standard Deviation"
Folie 85 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
2) Der Standardfehler des Mittelwerts*
ist ein Maß für die Unsicherheit des Stichproben-Mittelwertes
Mit seiner Hilfe kann man den Vertrauensbereich (Konfidenzintervall) für einen Mittelwert abschätzen
nsSE �
* engl.: Standard Error of the Mean, SEM
Standardabweichungin der Stichprobe
Stichprobenumfang
Folie 86
2) Bereichsschätzung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
95%-der x
xf39
9
����
�
SE
n
x�x
xf
95%-der x
(Mittelwert aus 9 Werten)
Verteilung der Beobachtungen
Verteilung des Mittelwerts
Folie 87
3) Definition: Konfidenzintervall
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Ein
Konfidenzintervall für den Erwartungswert �wird aus der Stichprobe derart berechnet,
dass es mit einer W'keit (1-�)*100% den Erwartungswert � überdeckt
Irrtumswahrscheinlichkeit
(zum Konfidenzgrad 1-�)
Folie 88
3) Konfidenzintervall:
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
10
20
30
Cou
nt
0.05
0.10
0.15
Pro
babi
ity
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300
12.2200
3030140
�
��
��
nsSE
sx
= 140 -1.96·2.12 bis 140 +1.96·2.12
•Mittelwert•Standard-abweichung
•Standard-fehler
SEzxSEzx ���� � 212 // bis ��
Konfidenzbereich für den Mittelwert
025.02/ ��Irrtumswahrscheinlichkeit "links"1.96025.0 ��z2.5%-Quantil
96.1975.0 �z97.5%-Quantil975.02/1 ���Irrtumswahrscheinlichkeit "rechts":
= [135.8 bis 144.2]
n=200
wie genau konnte der mittlere Cholesterin-Wert durch die Studie mit n=200 ermittelt werden?
Folie 89 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Beispiel: Wird die Menschheit größer?
Konfidenzintervalle für � :
74.1105.5
��SE
176 ±1.96*1.74
Jahrgang 1970 Jahrgang 2000
Der "wahre" Mittelwert liegt mit 95% Sicherheit im
Intervall[172.6 , 179.4 cm]
80.1107.5
��SE
177 ±1.96*1.80
Der "wahre" Mittelwert liegt mit 95% Sicherheit im
Intervall[173.5 , 180.5 cm]
Gro
esse
[cm
]
160162
164166168
170172174
176178180
182184186
188190
19702000Jahrgang
cmx 176�cms 5.5�
cmx 177�cms 7.5�
Folie 90 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
3) Konfidenzintervall & Stichprobengröße
Gro
esse
[cm
]
160
162
164
166
168
170
172
174
176
178
180
182
184
186
188
190
1970 2000
Jahrgang
Gro
esse
[cm
]
160
162
164
166
168
170
172
174
176
178
180
182
184
186
188
190
1970 2000
Jahrgang
KleineStichprobe
GroßeStichprobe
Das Konfidenzintervall hängt von der Größe der unter-suchten Stichprobe ab.
Bei kleinen Stichproben besteht zusätzliche Unsicherheit� verwende t-Verteilung
Folie 91 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
4) Ist die Stichprobe klein: � t -Verteilung
0
0.1
0.2
0.3
0.4
-5 -4 -3 -2 -1 0 1 2 3 4 5
Normalverteilung (0,1)n=4 FGn=2 FGn=1 FG
t-Verteilung
Harms, S. 279Tab. III
Freiheitsgrade: ist der Stichprobenumfang
z. B. N=10, dann nimmt man eine t-Verteilung
mit n=9 FG
� �2
12
1
2
21 �
�
�
� �
��
��
��"
��
�� �
"�
n
n nx
nn
n
xf�
In die Formel der t-Verteilung geht nicht mehr die Standardabweichung ein, sondern nur der Stichpro-benumfang N in Form der Freiheitsgrade n=N-1:
x
� � #�$
���"0
1 dtetn tnwobei " die Gamma-Funktion ist:
Folie 92 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
4) Konfidenzintervall bei kleinen Stichproben
!SEtx n �� � �,1
Mittelwertder Stichprobe
Streuungdes Mittelwerts
Quantil dert-Verteilung mit
n-1 Freiheitsgraden
Beispiel: Stichprobengröße n=10-> Freiheitsgrade FG=9aus Tabelle für t-Verteilung: bei � =0.05, zweiseitig -> t9,,0.05=2.26
(anstelle von 1.96 bei der NV)
Folie 93
Konfidenzintervall nach Transformation
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0.2381.55184
���
sxn
x � log(iPTH)
0.05
0.15
1.0 1.2 1.4 1.6 1.8 2.0 2.2
Gesucht: 95%-Konfidenzintervall für den Erwartungswert des intakten Parathormons (iPTH) in institutionalisierten Patienten
95%-Konfidenzintervall für geom. Mittel:
!1.591.52 10bis10
asymmetrisch
geom. Mittel: 101.55=35.9
iPTH [pg/ml]
0.10
0.30
0 20 40 60 80100 140 180
6.41�x
!38.9bis.133�
1.973183,0.95 �t
!1.59bis1.52184
0.2381.9731.550.95,183
�
�����nstx
Folie 94 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Konfidenzintervall für Gruppenvergleich
][ ,221 21 Dnn SEtxx ��� �� �
Konfidenzintervall für die Mittelwertsdifferenz �����������:�21 �� �
Mittelwerteder
Stichproben
Streuung derMittelwerts-
differenz
Quantil dert-Verteilung mit
n1+ n2-2Freiheitsgraden
Folie 95
4) Zusammenfassung Konfidenzintervall
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Die Berechnung des Konfidenzintervalls beruht auf dem Standardfehler des Mittelwerts, welcher vom Stichprobenumfang abhängt.
• in der Regel wird ein Konfidenzniveau von 95% angesetzt (bzw. eine Irrtumswahrscheinlichkeit von 5%, Jedoch Vorsicht: Fallschirme & Co!)
• die Quantile (z. B. 0.025 und 0.975) entnehmen wir der t-Verteilung
nsSE �
Folie 96
So nicht!
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
" Das mittlere Einkommenbeträgt 98856.7961 und liegt mit 95%iger Sicherheit im Bereich 88829 bis 108883 ".
• Erst prüfen,ob Daten normalverteilt sind (JMP: Shapiro-Wilk Test: p > 0.05)
• Wenn nein:Daten logarithmieren
• Wenn das nicht hilft:andere Transformationen verfügbar? (z. B. Anteile: logOdds, ArcSinWurzel)
• Wenn nein:�Ränge bilden bzw. nicht-
parametrische Verfahren verwenden (s. später)
�Daten mit Quantilen beschreiben (Box&Whiskers Plot)
�mit anderen Verteilungen als der Normalverteilung arbeiten (Binomialverteilung, Poissonverteilung ... s. später)
Sondern so:
Folie 97
M E R K Z E T T E L
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Referenzbereiche werden in der Regel an Gesunden bestimmt. Wir verwenden sie aber z.B., um Kranke zu identifizieren.(Karl Popper hätte gegen diese Logik wohl manche Einwände...)
• Die Begriffe einseitig und zweiseitig werden oft auftauchen: sie beziehen sich auf das links und rechts in einer Verteilung von Werten.
• Den Standardfehler des Mittelwerts müssen Sie ab jetzt aus dem ff und für immer draufhaben. Die Berechnung von Konfidenzintervallen beruht meist auf dem SE.
• Konfidenzintervalle sind ein höchst universelles und praktisches Maß, wenn man wissen will, wie sehr man einem Schätzwertes 'trauen' kann.
• Woher kommt die 1.96?
nsSE �
!SEx �� 96.1
95% KI unter Normalvertei-
lungsannahme:
Übung von Hand: Standardfehler / Konfidenzintervall
Gro
esse
[cm
]
165
170
175
180
185
190
Norddeutsche Süddeutsche
Die mittlere Körpergröße von jeweils 10 Nord- undSüddeutschen unterscheidet sich um 2.8 cm (s. Grafik). Es soll untersucht werden, ob dieser Unterschied statistisch signifikant ist. Die Daten hierzu sind:Norddeutsche
cm.,cm.x 878180 �� � cm.,cm.x 669177 �� �Süddeutsche
A) Berechnen Sie den Standardfehler des Mittelwerts für beide Gruppen
�Nord,x� �Süd,x�
B) Ermitteln Sie die Konfidenzintervalle anhand der Normalverteilung bei einer Irrtums-wahrscheinlichkeit von � =0.05 und zeichnen Sie sie zusammen mit den jeweiligen Mittelwerten als Rauten in den Grafen ein.1. Schritt: wie lautet der z-Wert für %�(z)=�/2? ____________2. Schritt: für beide Gruppen untere und obere Grenze berechnen anhand von
Unterscheiden sich die Mittelwerte signifikant? ____________
x/zx �� 2�
C) Ermitteln Sie die Konfidenzintervalle anhand der t-Verteilung bei einer Irrtums-wahrscheinlichkeit von � =0.05.1. Schritt: wie lautet der t-Wert für gegebenes � und n=10? _____________2. Schritt: für beide Gruppen untere und obere Grenze berechnen anhand von x,ftx ���
Nord:Süd:
Nord:Süd:
D) Welches der beiden Konfidenzintervalle repräsentiert die Wahrheit besser und wieso?
� für zweiseitige Fragestellungenf �=0.1 �=0.05 �=0.011 6.31 12.71 63.662 2.92 4.30 9.923 2.35 3.18 5.844 2.13 2.78 4.605 2.02 2.57 4.036 1.94 2.45 3.717 1.89 2.36 3.508 1.86 2.31 3.369 1.83 2.26 3.25
10 1.81 2.23 3.1711 1.80 2.20 3.1112 1.78 2.18 3.0513 1.77 2.16 3.0114 1.76 2.14 2.9815 1.75 2.13 2.9516 1.75 2.12 2.9217 1.74 2.11 2.9018 1.73 2.10 2.8819 1.73 2.09 2.8620 1.72 2.09 2.8521 1.72 2.08 2.8322 1.72 2.07 2.8223 1.71 2.07 2.8124 1.71 2.06 2.8025 1.71 2.06 2.7926 1.71 2.06 2.7827 1.70 2.05 2.7728 1.70 2.05 2.7629 1.70 2.05 2.7630 1.70 2.04 2.7540 1.68 2.02 2.7060 1.67 2.00 2.66120 1.66 1.98 2.62inf 2.58 1.96 1.65
�=0.05 �=0.025 �=0.005� für einseitige Fragestellungen
Student t-Verteilung
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 3• Referenzbereich• Konfidenzintervall
Folie 100
2-seitiger Referenzbereich: Cholesterin
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Wie lauten die Parameter der NV der Cholesterinwerte?: ��= _____________, ��= _____________
• Welches sind die Z-Werte für die zentralen 95% der StandardNV (Tabelle)?: Z0.025= ____________, Z0.975= ____________
• Wie lautet die untere Grenze des Referenzbereiches (1 Dezimalstelle genau)?:Chollower = � + Z0.025�� = ______________ Wie lautet die obere Grenze des Referenzbereiches (1 Dezimalstelle genau)?:Cholupper = � + Z0.975�� = ______________
• Wie lautet der Referenzbereich?: [ ____________ bis ____________ ]• Warum unterscheidet sich der Referenzbereich von den zentralen 95% der
Beobachtungen? - entsprechend 2.5% (Wert =_____________ ) und 97.5% (Wert =_____________ )
Bestimmen Sie den 2-seitigen Referenzbereich für Cholesterin durch folgende Vorgehensweise:
Folie 101
1-seitiger Referenzbereich: Triglyzeride
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Wie lauten die Parameter der NV der log-Triglyzeridwerte?: ��= _____________, ��= _____________
• Z-Wert für die unteren 95% der StandardNV?: Z0.95= __________• Wie lautet die Grenze des (transformierten) Referenzbereiches (3 Dezimalstellen
genau)?: log10(Trigupper) = � + Z0.95�� = _____________ • Wie lauten die delogarithmierten Werte?:
��= _____________ (geom. Mittelwert), Trigupper = _____________• Wie lautet der (delogarithmierte) Referenzbereich?: [__________ bis __________ ]• Wie lautet das 95%-Quantil der Beobachtungen?: _____________• Warum unterscheidet sich der Referenzbereich
vom 95%-Quantil der Beobachtungen?
Bestimmen Sie den 1-seitigen Referenzbereich für Triglyzeride durch folgende Vorgehensweise:
Tipp: unter Tables >Summary :95% eingeben bei "For quantile statistics",dann Trig auf button Statistics >Quantile
Folie 102
Konfidenzbereich für mittleren Cholesterin-Wert
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Taschenrechner: Berechnen Sie anhand des Mittelwerts und der Standardabweichung den Standardfehler des Mittelwerts, und nachfolgend das 95% Konfidenzintervall (CI) für den mittleren Cholesterin-Wert.
• Stimmen diese Werte mit den Angaben im output-Fenster Distributions überein?
• Zeichnen Sie das CI [ ________ bis ________ ] in die Verteilung oben ein (einfach von Hand).
___________��nsSE
________
________
21
2
/
/
�
����
���
� SEzx
SEzx
upper
lower
�
�
�
�
Woher nehmen Sie die Z-Werte?
Für welches ��?
Folie 103
Konfidenzbereich für mittleren Triglyzerid-Wert
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Taschenrechner: Berechnen Sie anhand des Mittelwerts und der Standardabweichung den Standardfehler des Mittelwerts, und nachfolgend das 95% Konfidenzintervall (CI) für den logarithmierten, mittleren Triglyzerid-Wert.
• Wie lauten die delogarithmierten Werte für
___________��nsSE
________
________
21
2
/
/
�
����
���
� SEzx
SEzx
upper
lower
�
�
�
�
!______________%95
_________
bisCIgeom ��
Folie 104
Gruppenvergleich
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
HotSpot:Uniform Scaling
Vergleichen Sie den diastolischen Blutdruck nach Geschlecht, und anhand der Konfidenzintervalle für die Mittelwerte: DistributionY: BPdia, By: sexVorgriff: Unterscheiden sich die beiden Ge-schlechter signifikant? HotSpot:
Uniform Scaling
Alternativ und vorgreifend:Analyze >Fit Y by X, mit X: sex und Y: BPdiaIm HotSpot dann:Display Options >Points Jittered und >Mean Diamonds(Verwenden Sie den Hilfe-button für Erklärungen zu Diamonds)
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 41) Statistische Tests -
Prinzipien:Nullhypothese, Alternativhypothesep-WertSignifikanz
2) Fehler 1. und 2. Art:� und �
3) 1-Stichprobent-Test
4) 2-Stichprobent-Test
5) gepoolte Varianz
JMP: Fit Y by X
Beachte download für
Übung: Lehrdatensatz-Therapie.jmp
von ILIASFolie 106
Wiederholung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Grundgesamtheit
Stichprobe (n)
Verteilung des Mittelwerts (...der Mittelwerte von Stichproben)
nsSE �
Standardfehler des Mittelwerts Konfidenzintervall
!SEzx �� �
Folie 107 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Warnungen
• Ein statistischer Test ist eine Entscheidungshilfe ER KANN NICHTS BEWEISEN
• Statistische Signifikanz bedeutet nicht inhaltliche Relevanz
Folie 108 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Prinzip eines statistischen Tests{-1.6, 0.7, 0.9, 2.7, 4.4} ... n = 5 Mittelwert x�= 1.42Standardabw. s = 2.26SE = 2.26/sqrt(5) = 1.01
Verteilung des Mittelwerts unter der Nullhypothese: normalverteilt mit 0��
Verteilung des Mittelwerts: normalverteilt mit x��
Irrtumswahrscheinlichkeit �=5%: erst wenn der p-Wert kleiner als 5% wird, bezeichnen wir es als "unwahrscheinlich", dass unter der Nullhypothese der beobachtete Wert von 1.42 auftritt.
p >������nicht signifikant
p-Wert = 0.08: "die Wahrscheinlichkeit, unter derNullhypothese einen Wert von 1.42 oder nochextremer (also �1.42) zu beobachten beträgt 8%".
Normalverteilung der Daten:
ND(1.4,2.26)
0 1 2 3 4 5 6-1-2-3-4-5-6
0.40.30.2
0.1
Dic
hte
0 1 2 3 4 5 6-1-2-3-4-5-6
0.40.30.2
0.1
Dic
hteNormalverteilung
des Mittelwerts: ND(1.4,1.01)
0 1 2 3 4 5 6-1-2-3-4-5-6
0.40.30.2
0.1
Dic
hte
Alternativhypothese: "Es gibt einen Effekt - der mittlere Wert ist ungleich 0 (hier: 1.42)"
Nullhypothese: "Es gibt keinen Effekt - der mittlere Wert ist gleich 0"
und ��=SE (bei kleinen Stichproben ist die Normalverteilungsannahme nicht mehr gut erfüllt ... später t-Verteilung nehmen )
und ��=SE (... s. o.: später t-Verteilung)
z. B. Frage: "unterscheidet sich ein Mittelwert signifikant von 0?"
Folie 109
... in JMP ...
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Der beobachtete Mittelwert von 1.42 liegt 1.405
Standardfehler (SE) von 0 entfernt. Dies entspricht einem p-Wert von 0.08
(einseitig) bzw. 0.16 (zweiseitig).
Folie 110 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Definition: p-Wert
Wahrscheinlichkeit
des beobachteten Werts der Prüfgröße
oder noch unwahrscheinlicherer Werte,
wenn die Nullhypothese zutrifft
Folie 111
1) ... ein Cholesterin-SenkerPilotstudie mit n = 5 Tierenmittl. Chol.-Absenkung x�= 1.42Standardabw. s = 2.26SE = 2.26/sqrt(5) = 1.01
Verteilung des Mittelwerts unter der Nullhypothese: normalverteilt mit 0��
Verteilung des Mittelwerts: normalverteilt mit x��
Irrtums-wahrschein-lichkeit �=5%
p >�����nicht signifikant, d. h. die in der Pilotstudie erhaltene Absenkung von 1.42 könnte auch rein zufällig mit einer W'keit von 8% aufgetreten sein.
p-Wert = 0.08: "die Wahrscheinlichkeit, bei einemnicht wirkenden Medikament eine Absenkung vonmindestens 1.42 zu beobachten beträgt 8%".
Verteilung der Absenkungen: ND(1.4,2.26)
0 1 2 3 4 5 6-1-2-3-4-5-6
0.40.30.2
0.1
Dic
hte
0 1 2 3 4 5 6-1-2-3-4-5-6
0.40.30.2
0.1
Dic
hteNormalverteilung
des Mittelwerts: ND(1.4,1.01)
0 1 2 3 4 5 6-1-2-3-4-5-6
0.40.30.2
0.1
Dic
hte
Alternativhypothese: "Das Medikament wirkt – es senkt den Cholesterin-Wert"
Nullhypothese: "Das Medikament wirkt nicht bedeutend – es senkt den Cholesterin-Wert nicht signifikant"
und ��=SE (bei kleinen Stichproben ist die Normalverteilungsannahme nicht mehr gut erfüllt ... später t-Verteilung nehmen )
und ��=SE (... s. o.: später t-Verteilung)
"unterscheidet sich die mittlere Cho-lesterin-Absenkung signifikant von 0 ?"
Folie 112 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Signifikanz, Nicht-Signifikanz & n
0.20
0.40
0.60
0.80
-6 -4 -2 0 2 4 6 8 10 12 14
Nicht-Signifikanz Signifikanz
0.100.200.300.400.500.60
-6 -4 -2 0 2 4 6 8 10 12 14
n=5 n=20
0
0.1
0.2
0.3
0.4
-6 -4 -2 0 2 4 6 8 10 12 140
0.1
0.2
0.3
0.4
-6 -4 -2 0 2 4 6 8 10 12 14
p > � = 5% p < � = 5%
Verteilung des
Mittelwerts
Verteilung des
Mittelwerts
Folie 113 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
z.B.
z.B.
1) Statistische Tests
. . . dienen der Entscheidung
zwischen der Nullhypothese ,„es gibt keinen Unterschied“,
und der Alternativhypothese ,„es gibt einen“.
Dabei macht man manchmal Fehler . . .
0H
1H
0�� �
0�� �
Folie 114 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
2) Fehler 1. und 2. Art: � und ��
Ent
sche
idun
g
Situation in der GrundgesamtheitH0 falsch
(z. B. "es gibt einen Unterschied")
H0 richtig(z. B. "es gibt keinen
Unterschied")
Wir ver-werfen H0
„signifikant“
Richtige Entscheidung
�
Fehler 1. Art
Wir verwer-fen H0 nicht
„nicht signifikant“
Fehler 2. Art���
Richtige Entscheidung
Güte (Power): 1-�� Irrtumswahrscheinlichkeit: ��
Irrtumswahrscheinlichkeit: �� 1-��
0
0
0
0
Folie 115 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
2) Zusammenhang zwischen ��-�und ��-�Fehler
H0trifft zu
H1trifft zu
� �
kritischer Wert der Teststatistik
0
0.01
0.02
0.03
0.04
0.05
0 20 40 60 80 100
Verteilung des Mittelwerts unter der Alternativ-hypothese
Verteilung des Mittelwerts
unter der Null-hypothese
nicht signifikant signifikant
��
W'keit, einen Unterschied zu entdecken, nimmt zu (1-�), aber auch die W'keit, eine falsche Entscheidung zu treffen (�)
Folie 116
2) Die Wahrscheinlichkeiten für die Fehler 1. und 2. Art hängen ab von:
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Stichprobenumfang• Varianz• verwendetem Test• wahrem Unterschied, z. B. • der jeweils anderen
Fehlerwahrscheinlichkeit
n2�
0�� �
Folie 117
3) Wie führt man einen Test durch?
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Hypothesen H0 und H1 formulieren• Signifikanzniveau � wählen• geeigneten Test finden• Prüfgröße berechnen• Überschreitungswahrscheinlichkeit (p-Wert)
oder kritischen Wert berechnen• Entscheidung formulieren
Folie 118
3) Statistische Tests: 1-Stichproben t-Test
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Skalentyp1 Gruppe, Vergleich mit Referenzwert
2-Gruppen-Vergleich
nominal �2-Test �2-Testdichotom Binomial-Test
(Vorzeichentest)Fishers exakter Test
ordinal t-Test für Ränge Mann-Whitneymetrisch 1-Stichproben t-Test 2-Stichproben t-Test
Folie 119
Korrelation / Regression Gruppenvergleiche: t-Test & Co
Logistische Überlebenszeit- Regression Analyse
�2-Test & Fishers exakter Test
X: Ursache
Y: W
irkun
g
10152025
vor-her
nach-her
BM
I
Kon
zent
ratio
n Y
1.60
1.701.80
1.902.00
A 0 BABBlutgruppe
Vorher/nachher-Ver-gleiche (ladder plot):
Diagramme und Auswertungen unter Kombination zweier Skalen:
Streudiagramm
Phä
noty
p
0.000.25
0.50
0.751.00
A1 A2 BC.Genotyp
y1
y2
y3y4y5Mosaikplot
Boxplots
Y: S
tetig
Y: N
omin
al
0.000.250.500.751.00
0 10 20 30Monate W
'kei
t (Ü
berle
ben)
W'k
eit (
Kra
nk)
00.250.500.75
1
50 60 70 80Konzentration
Ja
Nein
Kaplan-Meier-
Verfahren
X: Stetig X: Nominal
Vorausschau
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
JMP: Fit Y by X
Folie 120
3) 1-Stichproben t-Test: Beispiel Anorexie
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Differenzen „nachher“ - „vorher“
2) Mittelwert und SE der Differenzen
3) t-Test zur Nullhypothese „die mittlere Differenz ist Null“:
4) Prüfgröße
t = Mittelwertsdifferenz durch deren Standardfehler
DSEx 0t ��
� 1.480.0
03.3�
��10
15
20
25
vorher nachher
BMI
"Wie viele Standardfehler liegt
die 3.3 von der Nullhypothese weg?"
"Mit welcher W'keit tritt dies auf?"
H0: ��= �0 = 0
80.03.3 �� DSEx
Folie 121 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
p-Wert
-6 -4 -2 0 2 4 6 8 10 12 t
Unsere beobachtete mittlere Differenz ist t = 4.1 Standardfehler vom Nullhypothesen-Wert entfernt
Wie groß ist die Fläche unter der Kurve rechts von t=4.1 ?
0.0003Das heißt, es passiert nur in 0,03% der Fälle, dass eine mittlere Differenz so groß ist, wenn die Nullhypothese stimmt.
2-seitiger Test: wir sind noch konservativer, und hinterfragen sogar, ob der Kuraufenthalt bei Anorexiepatientinnen nicht auch eine Gewichtsabnahme herbeiführen könnte. Dann müssen wir beide Möglichkeiten addieren, dass eine Beobachtung 4.1 Standardfehler vom wahren Wert entfernt ist.p = 0.0003 + 0.0003 = 0.0006
Folie 122
3) 1-Stichproben t-Test: Beispiel Anorexie
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Differenzen „nachher“ - „vorher“
2) Mittelwert und SE der Differenzen
3) t-Test zur Nullhypothese „die mittlere Differenz ist Null“ : (a) Teststatistik (t-Wert) ausrechnen (b) Überschreitungswahrscheinlichkeit (p-Wert) ausrechnen (c) mit vorgegebenem Signifikanzniveau � vergleichen (d) Ergebnis formulieren
t = 4.1
p = 0.0006
p =0.0006 < 0.05 = �
„Der beobachtete Unterschied von 3.3 unterscheidet sich signifikant von dem hypothetischen Wert 0. Die Nullhypo-these wird abgelehnt“
10
15
20
25
vorher nachher
BMI
80.03.3 �� DSEx
Folie 123
3) 1-Stichproben t-Test: Gebrauchsanweisung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
& wähle Nullhypothese und Alternativhypothese
& Formuliere das Ergebnis: falls p < ��'�es gibt einen signifikanten Unterschied
& wähle Signifikanzniveau ��= 5%
H0: d = 0 H1: d � 0
& Voraussetzungen für t-Test erfüllt? (Stichprobe groß oder Grundgesamtheit normalverteilt)
& berechne die Prüfgröße (t-Wert) und die Überschreitungswahrscheinlichkeit (p-Wert)
Folie 124
4) Statistische Tests: 2-Stichproben t-Test
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Skalentyp1 Gruppe, Vergleich mit Referenzwert
2-Gruppen-Vergleich
nominal �2-Test �2-Testdichotom Binomial-Test
(Vorzeichentest)Fishers exakter Test
ordinal t-Test für Ränge Mann-Whitneymetrisch 1-Stichproben t-Test 2-Stichproben t-Test
Folie 125 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Frage: Unterscheidet sich der „mittlere“ Triglyzerid-Gehalt von Gesunden und Kranken?
gesund:
krank:
Triglyzeride [mg/dl]
4) 2-Stichproben t-Test: Beispiel Blutfettgehalt
0.1
0.3
0.5
0 200 400 600 800 1000
0.10.20.30.4
0 200 400 600 8001000
Triglyzeride [mg/dl]
Folie 126 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Frage: Unterscheidet sich der „mittlere“ Triglyzerid-Gehalt von Gesunden und Kranken?
Beispiel: Blutfettgehalt, Logarithmus-Transformation
1.0 1.5 2.0 2.5 3.0
0.10.20.30.4
1.0 1.5 2.0 2.5 3.0
0.10.20.30.4
log10 (Triglyzeride)
log10 (Triglyzeride)
gesund:
krank:
Folie 127
4) 2-Stichproben t-Test: Prinzip
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Frage: sind die Erwartungswerte zweier Gruppen der Grundgesamtheit gleich?H0: �A= �B H1: �A� �B
• Berechne den p-Wert gemäß der t-Verteilung mit n1+n2-2 Freiheitsgraden
• Wähle Signifikanzniveau � je nach Stichprobenumfängen n1 und n2
AB
BA
SExxt )( �
�• berechne Testgröße (t-Wert)
Folie 128
4) 2-Stichproben t-Test: Auswertung Blutfettgehalt
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1.5
2.0
2.5
3.0log(Triclyceride)
gesund erkrankt Gruppe
log(Triclyceride)
Level Number Mean SEMgesund 51 2.10407 0.02915erkrankt 320 2.19949 0.01164
EstimateSE
Lower 95%Upper 95%
-0.095420.03139
-0.15713-0.03370
-3.040 369 0.0025Difference t-Test DF Prob > |t|
Assuming equal variances
t-Test
Folie 129
Wie sag ich's?
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1. Die Triglyzerid-Werte von nG=51 Gesunden und nK=320 Erkrankten wurden durch einen 2-Stichproben t-Test verglichen. Zur Erfüllung der Normalverteilungs-Annahme wurde der Test mit log10-transformierten Werten durchgeführt.
2. Die geom. Mittel der Triglyzerid-Konzentrationen betragen bei Gesunden �G=127.1, und bei Erkrankten �K=158.3 mg/dl.
3. Unter der Nullhypothese, dass sich die geom. Mittelwerte beider Gruppen nicht unterscheiden, ist der 1.25-fach höhere Wert bei den Erkrankten nur mit einer W'keit von p=0.0025 zu erwarten (t=3.04 mit Differenz log10(�K)-log10(�G)=0.095 und SE=0.03).
4. Basierend auf einer Irrtumswahrscheinlichkeit von �=0.05 (oder 0.01) ist dieser Unterschied signifikant; die Nullhypothese wird daher abgelehnt.
Sondern ungefähr so:
So nicht: "p<0.05; signifikant, die Alternativhypothese wird angenommen".
Folie 130 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
(1) Differenz der Logarithmen = 0.0954
(2) delogarithmieren: 100.0954 = 1.25
(3) Interpretation: das geometrische Mittel der Kranken (158.3) ist 1.25 mal so groß wie das geometrische Mittel der Gesunden (127.1)
4) Blutfett-Beispiel
Interpretation der Differenz der Logarithmen
Folie 131 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Mittlere Differenz
2) Standardabw. der Differenzen:
3) Standardfehler der Differenzen
4) t-Wert
5) p-Wert für DF=9
6) Entscheidung
1-Stichproben t-Test 2-Stichproben t-Test
Cho
lest
erin
150
175
200
225
250
275
300
A vorherB nachher
Cho
lest
erin
150
175
200
225
250
275
300
A vorherB nachher
Es werden patienten-spezifische Differenzengegen "0" verglichen.
H0: "die mittlere Differenz ist gleich Null"
Es werden die Mittelwerte beider Kollektive verglichen.
H0: "Mittelwert vorher ist gleich
Mittelwert nachher"
1) Mittelwerte „vorher“, „nachher“
2) gepoolte Varianz ( ):
3) gepoolter Standardfehler
4) t-Wert
5) p-Wert für DF=18
6) Entscheidung
„Die beobachteten Mittelwerte unterscheiden sich nicht signifikantvoneinander. Die Nullhypothese kann nicht abgelehnt werden“
237.6 ; 210.7
85.10202 �ABs3.14�ABSE
88.13.14
7.2106.237�
��
��
AB
AB
SEt ��
p=0.076
p> 0.05=�
-26.9
p=0.047
p< 0.05=�
„Der beobachtete Unterschied von 26.93 unterscheidet sich signifikant von dem hypothetischen Wert 0. Die Nullhypothese wird abgelehnt“
302711
09260 ..
.SE
tD
D ��
��
��
037.sD �711.SED �
s. nächste Folie
Folie 132 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
5) Die gemeinsame Varianz von 2 unabhängigen Stichproben
140
160
180
200
220
240
260
280
A B
n 10 50
Mean 227.4 218.9
Variance 630.1 690.5
Std Dev 25.1 26.3
SE 7.9 3.7
Problem: nA << nB
1.681499
5.690491.6309
222
��
����
��
�BA
BBAAAB DFDF
sDFsDFs
Der gemeinsame Standardfehler wird aus der gepoolten Varianz berechnet:
Gepoolte Varianz:
0.950
1.68110
1.681
2222
���
����B
AB
A
ABBAab n
snsSESESE
DF = Zahl der Freiheitsgrade
= n-1
Folie 133
M E R K Z E T T E L
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• 1) Ein statistischer Test ist eine Entscheidungshilfe, er kann nichts beweisen, und 2) Statistische Signifikanz bedeutet nicht inhaltliche Relevanz.
• Jeder statistische Test muss einen Fehler 1. Art akzeptieren: Die Irrtumsw'keit � gibt vor, mit welcher W'keit man einen Effekt als vorhanden ("signifikant") behauptet, obwohl er in Wirklichkeit nicht existiert (H0 ist wahr).
• Jeder statistische Test muss einen Fehler 2. Art akzeptieren: Die W'keit � gibt an, mit welcher W'keit man einen Effekt als nicht vorhanden ("nicht signifikant") behauptet, obwohl er in Wirklichkeit existiert (H1 ist wahr).
• (1-�) ist dann die Power: W'keit, dass man einen Effekt findet, wenn er in Wirklichkeit existiert (H1 ist wahr).
• p-Wert: Wahrscheinlichkeit des beobachteten Werts oder noch extremerer Werte, wenn man die Nullhypothese zugrunde legt.
��p
Übung von Hand: 1-Stichproben t-TestIn einer klinischen Vorstudie wurde an 15 Patienten die cholesterinsenkende Wirkung eines neuen Medikamentes untersucht (s. Grafik). Im Mittel konnte das Medikament den Cholesterinwert um 17.7 Einheiten senken. Die Standardabweichung der patientenspezifischen Differenzen (nachher-vorher) betrug 42.07. Es soll untersucht werden, ob die cholesterinsenkende Wirkung des Medikaments bei einer Irrtumswahrscheinlichkeit von 5% signifikant ist.
Nullhypothese:Alternativhypothese:Irtumswahrscheinlichkeit:Beobachteter Wert:Standardabweichung:Standardfehler:Prüfgröße:Stichprobenumfang:Freiheitsgrade:p-Wert:
Cho
lest
erin
125
150
175
200
225
250
275
A vorher B nachher
Berechnen Sie zum Vergleich das Konfidenzintervall
Antwort: Unter einer Irrtumswahrscheinlichkeit von ________ ist die beobachtete, mittlere Differenz von 17.7 statistisch _________________________ (signifikant / nicht signifikant?). Die Nullhypothese wird daher _________________________ (verworfen / nicht verworfen?). Die Wirksamkeit des Medikamentes ist damit __________________.
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 4• Null- und
Alternativhypothese
• 1-Stichproben t-TestFragestellung: ist der mittlere Effekt gleich einem vorgegebenen Wert (z. B. = 0?)
• 2-Stichproben t-TestFragestellung: ist der mittlere Effekt in 2 Gruppen gleich groß?
Folie 136
Übung 4: Null- und Alternativhypothese
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Verwenden Sie den erweiterten "LehrdatensatzTherapie.jmp"
• geben Sie die Verteilung der Differenzen (post-pre) des diastolischen Blutdrucks der Patienten getrennt nach Therapiegruppe ("Treatment") aus: (Analyze >Distribution, Y:"BPdia post-pre", By "Treatment"). …Normalverteilungsannahme jeweils erfüllt?
• Wie lautet die mittlere Differenz und ihr Konfidenzintervall für jede Gruppe?control : ________ [ _______ bis ______ ]verum : ________ [ _______ bis ______ ]
• Testen Sie in beiden Gruppen die mittlere Differenz gegen die Nullhypothese "die mittlere Differenz beträgt 0": HotSpot >Test Mean
�Geben Sie im folgenden Dialogfenster keinen Wert für die "wahre" Standard-abweichung ein (ergibt t-Test), und
�wiederholen Sie dies unter der Annahme dass die wahre Standard-abweichung 5 mm Hg ist (ergibt Z-Test)
signifikant von 0
verschieden?
HotSpot >Test Mean
HotSpot >Test Mean
Auswertung s. nächste Folie
Folie 137
Übung 4: 1-Stichproben t-Test, Z-Test
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
t-Test Z-Testcontrol verum control verum
Hypoth. Value*Actual Estimate*DFStd DevSigma givenTest StatisticProb > |t| *Prob > t *Prob < t *
• Füllen Sie die Tabelle anhand der Auswertungsfenster der vorherigen Folie aus.
• Zeichnen Sie für den t-Test die mit Pfeil gekenn-zeichneten Werte in die Grafen ein.
• Was ist signifikant?
-2 -1 0 1 2
t-Test: control
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
t-Test: verum
A
B
CDE
Vertei-lung des Mittel-werts unter H0
Folie 138
Ü 4: 2-Stichproben t-Test
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Werten Sie die gleichen Daten mit dem 2-Stichproben t-Test aus: Menü Analyze > Fit Y by X mit Y: "BPdia post-pre",X: "Treatment".
• Wie lauten die 1- und 2-seitigen p-Werte?zweiseitig: ___________linksseitig: ___________rechtsseitig: ___________
• Warum erzielt dieser t-Test andere p-Werte als zuvor?1) ___________________ ___________________ ___________________ 2) ___________________ ___________________
HotSpot> t Test,> Means and Std Dev
> Display Options > MeansDiamonds
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 51) Nichtparametrische
Verfahren2) Rangbildung3) Rangtest nach
Mann & Whitney4) Rangtest nach
Wilcoxon5) Kruskal-Wallis Test Beachte
download für Übung:
Y1234.jmpvon ILIAS
JMP: Fit Y by X
Alternativen zu t-Test und anderen parametrischen Verfahren:
Folie 140
Korrelation / Regression Gruppenvergleiche: t-Test & Co
Logistische Überlebenszeit- Regression Analyse
�2-Test & Fishers exakter Test
X: Ursache
Y: W
irkun
g
10152025
vor-her
nach-her
BM
I
Kon
zent
ratio
n Y
1.60
1.701.80
1.902.00
A 0 BABBlutgruppe
Vorher/nachher-Ver-gleiche (ladder plot):
Diagramme und Auswertungen unter Kombination zweier Skalen:
Streudiagramm
Phä
noty
p
0.000.25
0.50
0.751.00
A1 A2 BC.Genotyp
y1
y2
y3y4y5Mosaikplot
Boxplots
Y: S
tetig
Y: N
omin
al
0.000.250.500.751.00
0 10 20 30Monate W
'kei
t (Ü
berle
ben)
W'k
eit (
Kra
nk)
00.250.500.75
1
50 60 70 80Konzentration
Ja
Nein
Kaplan-Meier-
Verfahren
X: Stetig X: Nominal
Vorausschau
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
JMP: Fit Y by X
Folie 141
Vorbemerkung: häufig auftretende Komplikationen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Daten der vereinigten Stichprobe sind nicht normalverteilt
• Daten pro Gruppe sind zwar normalverteilt und erlauben die Berechnung von Konfidenz-intervallen, diese erlauben aber keine eindeutige Beurteilung(z.B. wegen unbalanciertem Studiendesign. Häufiger Fall: viele Kontrollen verfügbar, aber nur wenig Patienten)
• Eine geeignete Transformation ist nicht auffindbarHäufiger Fall: log-Transformation ist problematisch wegen Null-Werten
Patienten & Kontrollen
Patienten
Kontrollen
Kontrollen Patienten
Kontrollen Patienten
Folie 142
1) Von parametrischen zu nicht-parametrischen Verfahren über Rangbildung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Der t-Test und die Varianzanalyse werden als parametrische Verfahren bezeichnet, weil sie auf einer (parametrisierten) Verteilungsannahme beruhen.
• Annahmen: 1) Stichproben kommen aus einer normalverteilten Grundgesamtheit, und 2) haben die gleiche (keine ungleiche) Varianz.
• Gibt es keine geeignete Transformation, durch die man normalverteilte Daten und Varianzen-Gleichheit herstellen kann, kann man zu Rängen übergehen
• Statistische Tests, mit denen Rangdaten analysiert werden können, werden als nicht-parametrische Verfahren bezeichnet. Sie sind "verteilungsfrei", weil sie an keine Verteilungs-annahme gebunden sind.
Parametrische Verfahren
(t-Test, ANOVA, F-Test, ...)
Nicht-parametrische Verfahren
• Keine Normalverteilung
• Ungleiche Varianzen
• t-Test für Ränge• Rangtest nach Mann &
Whitney• Rangtest nach Wilcoxon• Kruskal-Wallis Test• etc.
Folie 143
2) Rangbildung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0123456789
1011
Ran
g Y
98
5
3.5
21
10
76
3.5
Control Patient45
50
55
60
65
Y
6261
54
5049
46
63
5857
50
Control Patient
Meßwerte Rangwerte
1.Alles in einenTopf
2.Sortieren: Nummern
nach Größe="Ränge"
3.Wieder trennen
und erneut auftragen
Ergebnis: Die Form der Verteilung der Werte ändert sich in der Regel nur geringfügig und
verfälscht die inhaltliche Aussage kaum.
Folie 144
Entscheidungsverlauf bei Komplikationen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Geeignete Transformation
auffindbar?
Nicht-parametrisches
Verfahren
2-Stichproben t-Test durchführen
auf transformier-ter Ebene weiter wie oben
Nicht-parametrischen Test verwenden
Ergebnisse zurücktrans-
formieren
ja
nein
nein
nein
ja
ja
?
??
x� �xLog
1,2,3,...
Daten dergemeinsamen Stichprobe
normalverteilt?
Datenpro Gruppe
normalverteilt?
Fragestellung ist mit Konfidenzintervallen
beantwortbar
Folie 145
3) Rangtest nach Mann-Whitney (Prüfgröße T )
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Placebo (Kontrolle) Medikament (Therapie)tägliche Urinproduktion
[ml/Tag] Rang* tägliche Urinproduktion [ml/Tag] Rang*
1000 1 1400 61380 5 1600 71200 3 1180 2
1220 4T=9
* 1=kleinster Wert, 7=größter Wert
Vorgehen: 1) bilde die Ränge über die vereinigte Stichprobe*, und2) bilde die Rangsumme der kleineren Stichprobe
3) berechne, mit welcher W'keit eine Rangsumme von 9, oder noch extremer, auftritt (analog Fisher's exakter Test)
Nullhypothese: wenn das Medikament nicht wirkt, sollten die Rangsummen etwa ähnlich
sein (relativ zum Stichprobenumfang).
���Ist der Wert von T=9 extrem genug, dass man die Nullhypothese ablehnen kann?"
*Gleiche Werte erhalten denselben Rang = mittlerer Rang der Werte (wie bei Rangkorrelation)
(Das Pendant zum 2-Stichproben t-Test )
Folie 146
3) Rangtest nach Mann-Whitney: exakter Weg
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Rangsumme T der kleineren Gruppe
3) berechne, mit welcher W'keit eine Rangsumme von T=9, oder noch extremer, auftritt:
Liste aller möglichen Rangkombinationen für 3 Werte (Placebo-Gruppe) von 7:
Ergebnis: bei 3 von 7 Werten gibt 35 verschiedene Möglichkeiten von Rangkombinationen:
Ergebnis: 7/35 = 1/5 Rangkombina-tionen sind extremer oder gleich T=9�� p=0.20 (einseitig)
p=0.40 (zweiseitig)
4) Wie groß ist die W'keit, dass eine Rangsumme extremer als 9 auftritt?
Folie 147
3) Rangtest nach Mann-Whitney: approximativ
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Für größere Stichproben eignet sich die vorige Methode nicht mehr. Wenn die kleinere Stichprobe jedoch mehr als 8 Beobachtungen enthält, ist die Normalverteilungsapproximation relativ robust, mit
Erwartungswert
Standardfehler
und Teststatistik
� �2
1��� BSS
Tnnn�
� �12
1��� BSBS
TnnnnSE
T
TT SE
Tz ���
� � 122
1433�
���T�
� � 812
1434*3�
���TSE
375.08129
���
�Tz
bzw. mit Stetigkeits-Korrektur*
T
T
T SE
Tz 2
1���
� 3125.08
21129
���
�Tz
��p=0.38 (zweiseitig)
Im vorigen Beispiel
* Ränge sind diskret – Normalverteilung ist stetig. nS: Stichprobenumfang der kleineren Gruppe, nB: Stichprobenumfang der größeren GruppeFolie 148
3) Rangtest nach Mann-Whitney (Prüfgröße U )
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Der Rangtest nach Mann-Whitney gibt es auch mit Prüfgröße U, die mit T wie folgt zusammenhängt:
Im vorigen Beispiel
� �2
1��� SS nnTU
Für die kritischen Werte für U ist man dann auf Tabellen wie folgt angewiesen:
n B
n S 1 2 3 4 5 6 7 8 9 10 11 121 - - - - - - - - - - - -2 - - - - - - 0 0 0 0 13 - - 0 1 1 2 2 3 3 44 0 1 2 3 4 4 5 6 75 2 3 5 6 7 8 9 116 5 6 8 10 11 13 147 8 10 12 14 16 188 13 15 17 19 229 17 20 23 26
10 23 26 2911 30 33
� �
� �
32
1339
21
�
���
��� SS nnTU
Ergebnis:
• Der Stichprobenumfang ist für die U-Statistik zu klein (H0 kann mit nS=3 und nB=4 generell nicht verworfen werden)
• p=0.2 (1-seitig) und p=0.4 (2-seitig) ist jedoch ver-lässlich (s. vorletzte Folie)Tab.: Kritische Werte für U, �=0.05 (1-seitig) oder �=0.025 (2-seitig), und nB>nS
"-" bedeutet, dass H0 in jedem Fall
angenommen werden muss.
Folie 149
Die Nicht-parametrischen Pendantsvon statistischen Tests
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Parametrisch Nicht-parametrisch
t-Test für unabhängigeStichproben (2-Stichproben t-Test)
Rangtest nach Mann & Whitney
t-Test für abhängige Stichproben (z. B. vorher-nachher Vergleich)
Rangtest nach Wilcoxon
ANOVA Kruskal-Wallis Test
ANOVA mit Messwiedholung Friedmann-Test (hier keine Folien dazu – s. Literatur)
Folie 150
4) Rangtest nach Wilcoxon: Prüfgröße W
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1. Differenzen bilden: nachher - vorher2. Ränge bilden: Beträge der Differenzen in Ränge umwandeln3. Vorzeichen zuweisen: Den Rängen das Vorzeichen der
ursprünglichen Differenz geben4. Teststatistik: W = Summe�über alle Ränge
tägliche Urinproduktion [ml/Tag]Rang der Differenz
Rang der Differenz mit VorzeichenProband vor
Einnahmenach
Einnahme Differenz
1 1600 1490 -110 5 -52 1850 1300 -550 6 -63 1300 1400 +100 4 +44 1500 1410 -90 3 -35 1400 1350 -50 2 -26 1010 1000 -10 1 -1
W=-13
Vorgehen:
Der Rangtest nach Wilcoxon eignet sich zur Analyse von verbundenen Stichproben, wenn Annahmen zur Normalverteilung und Varianzengleichheit nicht erfüllt sind.
Beispiel:
Nullhypothese: wenn das Medikament nicht wirkt,
sollte die Rangsumme der Differenzen etwa W=0
betragen.
Ergebnisse: • Die tägliche Urinproduk-tion wurde bei 5 von 6 Probanden geringer
• Wie wahrscheinlich ist es, einen Wert von W=-13oder noch extremer zu beobachten?
9001000110012001300140015001600170018001900
Urin
e
a_pre b_post
Differenzen=0 werden ignoriert; der Stichprobenumfang wird dann
entsprechend reduziert.
(Das Pendant zum 1-Stichproben t-Test )
Folie 151
4) Rangtest nach Wilcoxon: exakt
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Wie wahrscheinlich ist es, einen Wert von W=-13 oder noch extremer zu beobachten?
usw. ............ 64 mögliche Rangkombinationen
Summe W der Ränge mit Vorzeichen-13 13
Ergebnis: 7/64 Rangkombinationen sind extremer oder gleich W=-13
�� p=0.11 (einseitig)
9001000110012001300140015001600170018001900
Urin
e
a_pre b_post
p=0.22 (zweiseitig)
Folie 152
4) Rangtest nach Wilcoxon: Tabelle
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Bemerkung: Wir haben W hier als Summe aller Ränge definiert. Man kann auch die Summen der positiven oder negativen Ränge bilden, was mathematisch äquivalent ist. Allerdings muss man dann entsprechend andere Tabellen benutzen, z. B.:
Was ist der kritische W-Wert für n=6?
Für eine signifikante Absenkung der Urinmenge hätte es einen W-Wert von ca. 20 gebraucht.
Kritische W-Werte für ��=0.05, zweiseitig
Folie 153
4) Rangtest nach Wilcoxon: approximativ
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Für größere Stichproben eignet sich die vorige Methode nicht mehr. Die Normalverteilungs-approximation ist dann jedoch relativ robust, mit
Erwartungswert
Standardfehler
und Teststatistik
bzw. mit Stetigkeits-Korrektur*
0�W�
� �� �6
121 ���
nnnSEW
W
WW SE
Wz ���
WW SE
Wz
2/1��
��p=0.194 (zweiseitig)* Ränge sind diskret – Normalverteilung ist stetig
� �� � 5.9916
112166��
���WSE
36.15.9
13��
��Wz
3.15.9
2/113�
��Wz
Folie 154
Die Nicht-parametrischen Pendantsvon statistischen Tests
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Parametrisch Nicht-parametrisch
t-Test für unabhängigeStichproben (2-Stichproben t-Test)
Rangtest nach Mann & Whitney
t-Test für abhängige Stichproben (z. B. vorher-nachher Vergleich)
Rangtest nach Wilcoxon
ANOVA Kruskal-Wallis Test
ANOVA mit Messwiedholung Friedmann-Test (hier keine Folien dazu – s. Literatur)
Demo: Rangbildung macht Werte "nicht sehr kaputt"
0
5
10
15
20
25
30
35
Ran
g
a_Men b_Fw/o c_FwithGruppe
a_Men b_Fw/o c_Fwith
2
4
6
8
10
12
14
16
Hal
bwer
tsze
it K
offe
in
a_Men b_Fw/o c_Fwith a_Men b_Fw/o c_Fwith
Serumhalbwerts-zeit von Koffein nach Einzeldosis
Werte
Ränge
(Beispiel eines Kruskal-Wallis-Tests als Pendant zur Varianzanalyse für mehrere Gruppen)
Folie 156
5) Kruskal-Wallis-Test
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Vorgehen: 1) bilde die Ränge über die vereinigte Stichprobe*, und2) bilde die Rangsumme für jede Gruppe
*Gleiche Werte erhalten denselben Rang = mittlerer Rang der Werte (wie bei Rangkorrelation)
H0: Wenn es keinen Gruppeneffekt gibt, sollten die großen und kleinen Ränge in den einzelnen Gruppen etwa gleichmäßig verteilt sein (Der mittlere Rang jeder Gruppe sollte also etwa dem Durchschnitt aller Ränge entsprechen).
Beispiel mit 3 Gruppen:
Gruppe 1 2 3 gesamt
Probanden n1 n2 n3 N
Rangsumme R1 R2 R3 R
mittlerer Rang 1R 2R 3R R2
1...21 ��
����
NN
NRi
ii n
RR �
� � � � � �233
222
211 RRnRRnRRnD ������
und
(entspricht SAQbetween )
Prüfgröße H nach Kruskal-Wallis (normiert D auf den Stichprobenumfang):
� �112
��
�NN
DH ist näherungsweise �2-verteilt mit FG=Gruppen-1
Folie 157
5) Kruskal-Wallis-Test: Beispiel Serumhalbwertszeit
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Serumhalbwertszeit von Koffein nach Einzeldosis
162
1312
1
��
�
��
NR
� �� �� �
8.10001667.249
1622.149
1623.1113
2
2
2
���
��
��D
� �
� �11.12
131318.100012
112
��
��
��
�NN
DH
�2-Verteilung (df=2)
�p=0.0024Folie 158
5) Kruskal-Wallis-Test: Beispiel Serumhalbwertszeit
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
162
1312
1
��
�
��
NR
� �� �� �
8.10001667.249
1622.149
1623.1113
2
2
2
���
��
��D
� �
� �11.12
131318.100012
112
��
��
��
�NN
DH
�2-Verteilung (df=2)
�p=0.0024
Folie 159
M E R K Z E T T E L
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Die Umwandlung der Daten in Ränge ist immer als Strategie zu erwägen, wenn Voraussetzungen für statistische Tests fehlen.
• Typische Umstände, die zu nicht-parametrischen Verfahrenführen, sind: Daten sind nicht normalverteilt, eine geeignete Transformation ist nicht verfügbar, ungleiche Varianz zwischen Gruppen, Ausreißerproblematik.
• Der Informationsverlust durch Rangbildung ist meist nicht substanziell; nicht-parametrische Tests erreichen oft >80% der Power des parametrischen Tests.
• Die infolge von Rangbildung etwas verringerte Power ist weitaus weniger folgenschwer, als "falsche" Ergebnisse infolge von fehlenden Voraussetzungen für einen (parametrischen) Test.
• Das Gegenteil kann der Fall sein: der nicht-parametrische Test ergibt "Signifikanz", während ein t-Test jämmerlich versagt (s. Folie "Übung 5: Gruppenunterschied für Y4").
1,2,3...
p-WertFolie 160
t-Test für Ränge
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Skalentyp1 Gruppe, Vergleich mit Referenzwert
2-Gruppen-Vergleich
nominal �2-Test �2-Testdichotom Binomial-Test
(Vorzeichentest)Fishers exakter Test
ordinal t-Test für Ränge Mann-Whitneymetrisch 1-Stichproben t-Test 2-Stichproben t-Test
Der t-Test kann auch auf ordinale Daten angewandt werden, wenn die Ränge hinreichend "quantitativ" sind
(viele Ränge, gute Unterscheidbarkeit, ... durch Normalverteilung beschreibbar). Die Testprozedur unterscheidet sich dann nicht von der des t-Tests.
... weiter mit Mann-Whitney
Hinweis der Vollständigkeit halber: ...ist nicht immer hilfreich aber prinzipiell machbar.
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 5• als Vorübung zur
Hausarbeit:
eine statistische Analyse unter üblichen Komplikationen...
• von ILIAS: Datensatz "Y1234.jmp"
Folie 162
Übung 5: Datensatz & Aufgabenstellung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Verwenden Sie als Entschei-dungshilfe für die statistischbeste Vorgehensweise die ein-leitend gezeigteFolie "Entschei-dungsverlaufbei Komplika-tionen"
Control 99 99 45 42Control 66 66 13 30Control 124 124 117 32Control 104 104 54 25Control 128 128 136 30Control 75 75 18 42Control 110 110 68 38Control 79 79 21 24Control 94 94 37 26Control 121 121 104 33Control 145 145 261 26Control 69 69 14 27Control 103 103 52 28Control 120 120 100 33Control 123 123 112 30Control 100 100 46 28Control 121 121 104 31Control 62 62 11 31Control 106 106 58 32Control 88 88 29 31Patient 138 200 2154 0Patient 105 105 56 0Patient 129 129 141 10Patient 129 129 141 15Patient 99 99 45 60
Group Y1 Y2 Y3 Y4Verwenden Sie den rechts gezeigten Daten-satz der Datei Y1234.jmp (oder kopieren Siedie Daten von rechts direkt in JMP), unduntersuchen Sie für alle 4 Zielvariablen (Y1... Y4, sagen wir z. B. Serumparameter), obsich die Werte zwischen Kontroll- undPatientengruppe signifikant unterscheiden.
• Prüfen Sie mit dem Shapiro-Wilk Test jeweils zuerst,ob die Annahme normalverteilter Daten abzulehnen ist.
• Die hier erforderlichen Tests finden Sie unter Analyze > Fit Y by X > "Group" auf X und "Y1 ... Y4" auf Y:
• Sollte die Durchführung eines nicht-parametrischen Test erfor-derlich werden, finden Sie diesen im HotSpot unter Nonpara-metric > Wilcoxon Test
Folie 163
Übung 5: Gruppenunterschied für Y1
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
60 70 80 90 110 130 150
Normal(105.48,22.8822)
Shapiro-Wilk W Test
0.959767W
0.4099Prob<W
60708090
100110120130140150
Y1
Control PatientGroup
Patient-ControlAssuming unequal variancesDifferenceStd Err DifUpper CL DifLower CL DifConfidence
18.1509.174
39.228-2.928
0.95
t RatioDFProb > |t|Prob > tProb < t
1.9783288.175170.08250.0412*0.9588
-30 -20 -10 0 10 20 30
t Test
Oneway Analysis of Y1 By Group
• Shapiro-Wilk: Der Normalvertei-lungsannahme der Daten wird... nicht widersprochen: ��2-Stichproben t-Test kann durchgeführt werden
• 2-Stichproben t-Test :�einseitig: p=0.0412 ������������
�zweiseitig: p=0.0825 ����� ������
• 95% Konfidenzintervalle (KI):�KIPatient überlappt mit MeanControl����� �������������
�KIControl überlappt nicht mit MeanPatient�������������
Delikat. t-Test ist nur in 1-seitiger Betrachtung sign., was sicheres Vorwissen voraussetzt. KI sind nicht eindeutig, wegen unbalancierter Stichprobenumfänge. Zu vermuten: Lägen nur 5 Kontrollen vor, würde vermutlich alles nicht-signifikant.
Gesamtbeurteilung:
Folie 164
Übung 5: Gruppenunterschied für Y2
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Warum unterscheiden sich die hier gezeigten Konfidenzintervalle von denen im numerischen output rechts? (Stichworte: wo wird
der Standardfehler aus gepoolter und wo aus gruppenspezifischer Standardabweichung berechnet?)
• Shapiro-Wilk: Der Normalverteilungsan-nahme der Daten wird nur in der vereinigten Stichprobe widersprochen, nicht jedoch für die einzelne Gruppe. ���-Test nicht möglich, aber Konfidenzintervalle
• 95% Konfidenzintervalle (KI):
�KIPatient überlappt nicht mit MeanControl�������������
�KIControl überlappt nicht mit MeanPatient�������������
Gesamtbeurteilung: trotz unbalancierter Stichprobenumfänge ergeben beide Konfidenzintervalle eine eindeutige Interpretation: jeweils keine Überlappung mit dem anderen Mittelwert ����������������� �������������������� � ����� ����!���
60 80 100 140 180 220
60 80 100 140 180 220
Patientenp=0.12
Kontrollenp=0.55
50 100 150 200
Patienten & Kontrollen
p=0.04
50
100
150
200
Y2
Control PatientGroup
MeanStd DevStd Err MeanUpper 95% MeanLower 95% MeanN
101.8523.0520585.1545968
112.638791.061305
20
Moments
MeanStd DevStd Err MeanUpper 95% MeanLower 95% MeanN
132.440.18457417.971088182.2957482.504261
5
Moments
Warum unterscheiden sich die hier gezeigten Konfidenzintervalle von denen im numerischen output rechts? (Stichworte: wo wird
der Standardfehler aus gepoolter und wo aus gruppenspezifischer Standardabweichung berechnet?)
Folie 165
Übung 5: Gruppenunterschied für Y3
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1.0 1.5 2.0 2.5 3.0 3.5
1.0 1.5 2.0 2.5 3.0 3.5
1.0 1.5 2.0 2.5 3.0 3.5
• Shapiro-Wilk: Der Normalverteilungsan-nahme der Daten wird sowohl in der... vereinigten Stichprobe widersprochen, als auch für die einzelne Gruppe. ���-Test und Konfidenzintervalle nicht möglich.
Gesamtbeurteilung:wie zuvor: trotz unbalancierter Stichprobenumfänge ergeben beide Konfidenzintervalle keine Überlappung mit dem anderen Mittelwert ����������������� ���einen signifikant höheren Mittelwert.
0 50 100 150 200 250 300
0 500 1000 1500 2000
Patienten & Kontrollen
p<0.0001
0 500 1000 1500 2000
Patientenp=0.0005
Kontrollenp=0.002
• Log-Transformation erwirkt zwar keine... Normalverteilung der vereinigten Stichprobe, jedoch bei den Gruppen.��"����#��$���������%��� �
Patienten & Kontrollen
p=0.038Patientenp=0.12
Kontrollenp=0.55
1.0
1.5
2.0
2.5
3.0
3.5
log1
0(Y3
)
Control PatientGroup
Rücktransformation der Werte: Der geometrische Mittelwert der Kontroll-gruppe ist mit 10^1.6986=50 signifikant niedriger als derjenige der Patientengruppe mit 10^2.2066=161
p=
p=
p=
p=
p=
p=
Folie 166
Übung 5: Gruppenunterschied für Y4
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Shapiro-Wilk: Der Normalverteilungsannahme der Daten wird sowohl in dervereinigten Stichprobe widersprochen, als auch für die einzelne Gruppe. Log-Transformation ist nich möglich, weil in der Patientengruppe zweimal "0" auftritt.
-100
10203040506070
Y4
Control PatientGroup
Patient-ControlAssuming unequal variancesDifferenceStd Err DifUpper CL DifLower CL DifConfidence
-13.95011.19116.881
-44.7810.95
t RatioDFProb > |t|Prob > tProb < t
-1.246514.080614
0.27930.86030.1397
-40 -20 0 10 20 30 40
t TestMachen Sie hier absichtlich einen (nicht statthaften) t-Test, und vergleichen Sie das Ergebnis:
ControlPatient
Level205
Count290.00035.000
Score Sum14.50007.0000
Score Mean2.010
-2.010
(Mean-Mean0)/Std0
35S
-2.00955Z
0.0445*Prob>|Z|
2-Sample Test,Normal Approximation
4.1763ChiSquare
1DF
0.0410*Prob>ChiSq
1-way Test, ChiSquareApproximation
Wilcoxon / Kruskal-Wallis Tests (Rank Sums)
-100
10203040506070
Y4
Control PatientGroup
• Nicht-parametrischen Testverwenden:
Mann-Whitney.wird in JMP verallgemeinernd Kruskal-Wallis Test genannt, der für mehr als 2 Gruppen
verwendet werden kann.
• Ergebnis: Die Patientengruppe hat einen signifikant niedrigeren, mittleren Rang: p=0.04
(HotSpot des Outout-Fensters "Fit Y by X":Nonparametric > Wilcoxon Test)
Folie 167
AddOn:
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Woher kommen in JMP die Konfidenzintervalle im Means&Diamonds-Plot, und warum unterscheiden sie sich vom gruppenspezifischen KI?
Antwort: die Konfidenzintervalle werden im output unter der Rubrik"Means and Standard Deviations" auf Basis der gruppenspezi-fischen Standardabweichung berechnet, im Means&Diamonds-Plotdagegen auf Basis der gepoolten Standardabweichung; auf letzteresbezieht sich auch der Hinweis "Std Error uses a pooled estimate oferror variance". Die zwischen beiden Gruppen unterschiedliche Breiteder Konfidenzintervalle resultiert nicht aus der gepoolten Standard-abweichung (denn es wird ja eine gemeinsame angenommen undberechnet), sondern lediglich aus den unterschiedlichen Stichproben-umfängen, die in den jeweiligen Standardfehler dann eingehen (z. B.Patienten: kleine Stichprobe�größerer Standardfehler�breiteres KI).Was ist die gepoolte Standardabweichung?: sie errechnet sich ausder gepoolten Varianz, s. nächste Folie. Es handelt sich lediglich umdas gewichtete Mittel beider (gruppenspezifischen) Varianzen. JedeGruppe trägt also anteilig zur Gesamtvarianz bei. Diegruppenspezifische Standardabweichung wird im output unter "Meansand Standard Deviations" ausgegeben. Die dort aufgeführten KIwerden wie üblich berechnet: mean ±1.96 SE (bzw. mitBerücksichtigung der t-Verteilung).Inhaltlich: Ob eine Auswertung auf Basis einer gemeinsamen(gepoolten) oder einer gruppenspezifischen Standardabweichunggemacht werden sollte hängt von der Umgebung der Fragestellungab: sollen Elefanten mit Mäusen verglichen werden ist einegruppenspezifische Varianz sicherlich besser gerechtfertigt, als beimtypischen Vergleich Kontrolle/Verum (wo man sich darum bemüht, dieGruppen möglichst vergleichbar zu machen). Zwischen solchenExtremen gibt es keine genaue Grenze. Unterschiede zwischenbeiden Ansätzen sind in der Regel ohnehin nur bei unbalanciertenStudiendesigns zu erwarten, und nicht bei balancierten.
aus gepoolter Varianz
aus gruppenspezifischer Varianz
Folie 168 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Die gemeinsame Varianz von 2 Stichproben
gruppenspezifisch gepoolt
Gruppe C P C P
n 20 5 20 5
Mean m 101.9 132.4 101.9 132.4
Std Dev s 23.05 40.18 26.83
SE=s /sqrt(n) 5.15 17.97 5.999 11.998
95% KI (m ±1.96 SE) [91 - 112] [82 bis 182] [89 bis 144] [107 bis 157]
83.26
7.719194
18.40405.2319 22
222
�
��
����
��
�
CP
PC
PPCCCP
s
DFDFsDFsDFs
Die Gepoolte Varianzist lediglich ein nach n gewichteter Mittelwert beider Varianzen:
Anmerkung:Soll eine Beurteilung auch aufBasis eines gepoolten Standard-fehlers erfolgen, so wird dieser ausder gepoolten Varianz berechnet:
B
AB
A
ABBAab n
snsSESESE
2222 ����
DF = Zahl der Freiheitsgrade = n-1
"gepoolte"
aus gepoolter Varianz
aus gruppenspezifischer Varianz
Problem: nC > nP
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 61. Das Rechnen mit Häufigkeiten
Konfidenzintervall für Anteile
2. Unabhängige & abhängige W'keiten
() � 2-Test4. Fisher's exakter Test
JMP: Fit Y by X
Tests auf unabhängige Häufigkeiten:
Folie 170
Korrelation / Regression Gruppenvergleiche: t-Test & Co
Logistische Überlebenszeit- Regression Analyse
�2-Test & Fishers exakter Test
X: Ursache
Y: W
irkun
g
10152025
vor-her
nach-her
BM
I
Kon
zent
ratio
n Y
1.60
1.701.80
1.902.00
A 0 BABBlutgruppe
Vorher/nachher-Ver-gleiche (ladder plot):
Diagramme und Auswertungen unter Kombination zweier Skalen:
Streudiagramm
Phä
noty
p
0.000.25
0.50
0.751.00
A1 A2 BC.Genotyp
y1
y2
y3y4y5Mosaikplot
Boxplots
Y: S
tetig
Y: N
omin
al
0.000.250.500.751.00
0 10 20 30Monate W
'kei
t (Ü
berle
ben)
W'k
eit (
Kra
nk)
00.250.500.75
1
50 60 70 80Konzentration
Ja
Nein
Kaplan-Meier-
Verfahren
X: Stetig X: Nominal
Vorausschau
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
JMP: Fit Y by X
Folie 171 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
4-Felder Tafel – H0 - UnabhängigkeitBringt die Desinfektion was für's Überleben?
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohneDesinfektion
ja
nein
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohneDesinfektion
ja
nein
17
7
38
18
Ja, schon. - oder könnte der mittlere Anteil von "mit" auch im KI von "ohne" liegen?
Es war einmal vor über 200 Jahren:
Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.
844.0738
38�
��p
95% KI für "ohne": p=17/(17+18)=0.486
� �
� �
!65.032.035
486.01486.096.1486.0
1025.095.0
bis
NppzpCI
�
����
����
Standardfehler des Mittelwerts p: SE(p)
z0.025=1.96 ist das 2.5% Quantil der StandardNV
Anteil Überlebender "mit" Desinfektion:
Ergebnis: p=84.4% liegt nicht im KI von "ohne": signifikant besser. Aber Problem: der Stichprobenumfang ist nicht groß, die NV-Approximation funktioniert hier nur, weil p=0.486 nahe 0.5 liegt-> NV approximiert symmetrische Binomialverteilung recht gut.
Folie 172
Approximatives Konfidenzintervall für Anteile
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
N: Stichprobenumfangk: absoluter Anteilp: AnteilN
kp �
95% Konfidenzintervall:(z0.025=1.96 ist das 2.5%_Quantil der Standardnormalverteilung)
� �N
ppzpCI ����
1025.095.0
N 10 100 1000k 5 50 500p 0.5 0.5 0.5z(0.025) 1.96 1.96 1.96SE(p) 0.1581 0.0500 0.0158lower CL 0.1901 0.4020 0.4690upper CL 0.8099 0.5980 0.5310
Beispiel
Beachte: diese Normalverteilungs-
approximation sollte nur verwen-det werden, wenn
k �����und n-k ����.
Standardfehler des Mittelwerts p: SE(p)
Folie 173
Exakte 95% Konfidenzgrenzen für Anteile
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Selber bauen in JMP:
Spalte lower 95% CI (beta):
Spalte upper 95% CI (beta):
geschätztes p
95%
Kon
fiden
zint
erva
ll fü
r ges
chät
ztes
p
N
N
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
2
3
4
5
6
78910
1214161820
3040501002005001000
2
3
4
5
6
789
10
1214161820
304050
100200500
1000
Folie 174
Unabhängige Ereignisse Abhängige Ereignisse
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
JA NEINAppendizitis
JAN
EIN
Losl
asss
chm
erz
� �45.0
45
�*
�LAP
n
� � 05.0,5 �*� LAPn
� �35.0
35
�*
�
LAPn
� � 15.015�*
�
LAPn
� � 6.0�AP � � 4.0�AP
� � 5.0�LP
� � 5.0�LP
JA NEINAppendizitis
JAN
EIN
Bril
lent
räge
r
� �� � � �20.0
20
���
*
�
BPAP
BAP
n
� �� � � �30.0
30
���
*
�
BPAP
BAP
n
� � 6.0�AP � � 4.0�AP
� � 5.0�BP
� � 5.0�BP
� �� � � �30.0
30
���
*�
BPAPBAP
n� �
� � � �20.0
20
���
*
�
BPAP
BAPn
Die Häufigkeit des gemeinsamen Auftretens ergibt sich einfach durch Multiplikation der Randhäufigkeiten(Multiplikationssatz der W'keitsrechnung)
Die Häufigkeit des gemeinsamen Auftretens ergibt sich nicht mehr durch einfache Multiplikation:ob ein Loslassschmerz auftritt, hängt davon ab, ob eine Appendizitis vorliegt oder nicht.
Wenn wir testen wollen, ob eine beobachtete Abhängigkeit signifikant ist, erklären wir den unab-hängigen Fall als H0, und quantifzieren, wie sehr die beobachtete Abhängigkeit davon abweicht.
Folie 175
Tests auf Häufigkeitsunterschiede
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Skalentyp1 GruppeVgl. m. Standardwert
2-Gruppen-Vergleich
nominal �2-Test �2-Test
dichotom Binomial-Test(Vorzeichentest)
Fishers exakter Test, Odds-Ratio-Test
ordinal t-Test für Ränge U-Test
metrisch 1-Stichproben-t-Test 2-Stichproben-t-Test
Folie 176
4-Felder Tafel – H0 - Unabhängigkeit
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohneDesinfektion
ja
nein
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohneDesinfektion
ja
nein
17
7
38
18
Bringt die Desinfektion was für's Überleben?
Für Nullhypothese: Wie würde die 4-Felder Tafel aussehen, wenn die Desinfektion keinen Effekt hätte?
oder so?So, oder so,
H0: Der Anteil der Überlebenden ist unabhängig von Desinfektion.
Für Test: Wie können wir die Abweichungen von dieser Unabhängigkeit testen?
Ja, schon. - Oder könnte das auch rein zufällig so auftreten?
Es war einmal vor über 200 Jahren:
Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.
Folie 177
�2-Test: OP-Desinfektion-Überleben
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Ant. erwartet ohne mitüberlebt 0.30 0.39 0.69
tot 0.14 0.18 0.310.44 0.56 1
beobachtet ohne mitüberlebt 17 38 55
tot 18 7 2535 45 80
Anteile ohne mitüberlebt 0.21 0.48 0.69
tot 0.23 0.09 0.310.44 0.56 1
Beim �2-Test werden alle Abwei-chungen der beobachteten Anzahl(B) von den unter H0 erwarteten(E) summiert = Prüfgröße =��2
��
�E
)EB( 22�
Abs. erwartet ohne mitüberlebt 24.1 30.9
tot 10.9 14.180
Chi^2 ohne mitüberlebt 2.07 1.61
tot 4.56 3.5511.79
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohneDesinfektion
ja
nein
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohneDesinfektion
ja
nein
17
7
38
18
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohne
ja
nein
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohne
ja
neinH024
14
31
11
multiplizieren
B Beo
bach
tet
E Erw
arte
t
Folie 178
�2-Verteilung(en) & Freiheitsgrade
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0
0.2
0.4
0.6
0.8
1
0 5 10 15 20 25Chi^2
P
1248
FGWelche �2–Verteilung man nehmen muss, bestimmt
die Zahl der Freiheits-grade, die sich aus den Zeilen und Spalten der
Kontingenztabelle ergibt:
1Chi^2
Der �2–Wert von 11.79 entspricht bei 1 FG einem p-Wert nahe 0 (p=0.0006).
Daher wird die Nullhypothese (Merkmale sind unabhängig) verworfen.
Wir gehen davon aus, dass Listers Desinfektionseffekt nicht zufällig ist.
FG=(Zeilen-1)(Spalten-1)
=��2
Chi^2 mit ohneüberlebt 2.07 1.61
tot 4.56 3.5511.79
Folie 179
Rolle des Stichprobenumfangs
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Der �2-Wert muss nicht durch eineschrittweise Berechnung ausgeführt wer-den, wie in der letzten Folie aus didak-tischen Gründen gezeigt. Er kann auchüber folgende Formel berechnet werden:
� �� �� �� �� �dbcadcba
bcadN����
��
22�
12
8
10
10
120
80
100
100
N=40 N=400
�2=0.404p=0.525
�2=4.04p=0.044
nicht signifikant signifikant
Ergebnis:Bei gleichbleiben-den Anteilen ent-scheidet der Stich-probenumfang über Signifikanz und Nicht-Signifikanz
Folie 180
Chi2-Test: Gebrauchsanweisung:
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Nullhypothese: beide Merkmale unabhängig• Trage die Beobachtungskombinationen
in einer Tabelle ein (zB: 4-Felder-Tafel)• Bestimme die Freiheitsgrade f• Berechne die Prüfgröße �2
• Vergleiche p-Wert mit Signifikanzniveau �• p-Wert < Signifikanzniveau �
+ Nullhypothese ablehnen + AbhängigkeitAnmerkung: Der Erwartungswert der �2-Verteilung ist gleich der Zahl der Freiheitsgrade f;die Varianz ist gleich 2 f. Der errechnete �2-Wert lässt sich also grob einschätzen.
Folie 181
Erweiterungen des Chi2-Tests
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
2�
... können nicht für einseitige Fragestellungen verwendet werden
Anpassungstest:Liegt eine bestimmte theoretische Verteilung vor?
Homogenitätstest:Sind die beobachteten (empirischen) Verteilungen gleich?
Ist
Ist
=
Gruppe 1 Gruppe 2
=
Beobachtet Binomialverteilt
?
?
Folie 182
Statistische Tests
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Skalentyp1 GruppeVgl. m. Standardwert
2-Gruppen-Vergleich
nominal �2-Test �2-Test
dichotom Binomial-Test(Vorzeichentest)
Fishers exakter Test, Odds-Ratio-Test
ordinal t-Test für Ränge U-Test
metrisch 1-Stichproben-t-Test 2-Stichproben-t-Test
Folie 183
Exakter Test nach Fisher: Prinzip (1-seitiger Test)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Der Exakte Fisher-Test ist ein Test auf Unabhängigkeit in der Kontingenztafel, welcher –im Ggs. zum �2-Quadrat-Test- auch mit wenig Beobachtungen funktioniert. Nullhypothese: Zeilen und Spalten sind unabhängig voneinander besetzt.
Testprinzip: unter allen Kontingenztafeln mit den gleichen Randsummen (wie den beobachteten) wird der Anteil (die W'keit) derjenigen Kontingenztafeln bestimmt, die eine noch extremere Ausprägung als die beobachtete haben.
Beispiel: seltene Erkrankung (j/n) und Raucherstatus (R/NR).
Frage: wie wahrscheinlich ist es, ein 4:1-Verhältnis bei Rauchern und ein 1:4-Verhältnis bei Nichtrauchern zu finden?
R / NR
krank j/n
4 1 5
1 4 5
5 5 10
R / NR
krank j/n
5 0 5
0 5 5
5 5 10
R / NR
krank j/n
4 1 5
1 4 5
5 5 10
R / NR
krank j/n
3 2 5
2 3 5
5 5 10
R / NR
krank j/n
2 3 5
3 2 5
5 5 10
R / NR
krank j/n
1 4 5
4 1 5
5 5 10
R / NR
krank j/n
0 5 5
5 0 5
5 5 10
(1890-1962)
Entscheidung: die Summe der Wahrscheinlichkeiten für das Auftreten dieser beobach-teten und der noch extremeren Ausprägungen der 4-Felder-Tafel ergibt den p-Wert.
Folie 184
Exakter Test nach Fisher: Berechnung (1-seitiger Test)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Die Wahrscheinlichkeit für eine spezielle Kombination in der Kontin-genztafel leitet sich aus der Hypergeometrischen Verteilung ab:
NR / R
krank j/n
a b a+b
c d c+d
a+c b+d n
� � � � � � � �!!!!!
!!!!dcban
dbcadcbaP �����
Testprinzip: unter allen Kontingenztafeln mit den gleichen Randsummen (wie den beobachteten) wird der Anteil (die W'keit) derjenigen Kontingenztafeln bestimmt, die eine noch extremere Ausprägung als die beobachtete haben.
0.0040 0.0992 0.3968 0.3968 0.0992 0.0040P=
R / NR
krank j/n
5 0 5
0 5 5
5 5 10
R / NR
krank j/n
4 1 5
1 4 5
5 5 10
R / NR
krank j/n
3 2 5
2 3 5
5 5 10
R / NR
krank j/n
2 3 5
3 2 5
5 5 10
R / NR
krank j/n
1 4 5
4 1 5
5 5 10
R / NR
krank j/n
5 0 5
0 5 5
5 5 10
P=10.32%, dass 4:1:1:4 (oder eine noch extremere Konstellation) auftritt
Folie 185
Exakter Test nach Fisher: 1-seitig / 2-seitigProblem bisher: wir haben stillschweigend angenommen, dass Rauchen die Wahrscheinlichkeit der Erkrankung erhöht. Wenn wir aber kein Vorwissen hierzu haben, könnte es auch genau umgekehrt sein (Bsp.: Rauchen als Parkinson-Prophylaxe? Dann müssen wir auch die "rechts-seitigen" Extreme berücksichtigen.)
0.0040 0.0992 0.3968 0.3968 0.0992 0.0040P=
R / NR
krank j/n
5 0 5
0 5 5
5 5 10
R / NR
krank j/n
4 1 5
1 4 5
5 5 10
R / NR
krank j/n
3 2 5
2 3 5
5 5 10
R / NR
krank j/n
2 3 5
3 2 5
5 5 10
R / NR
krank j/n
1 4 5
4 1 5
5 5 10
R / NR
krank j/n
5 0 5
0 5 5
5 5 10
P=10.32%, dass 4:1:1:4 (oder eine einseitig noch extremere Konstellation) auftritt
2-seitiger Test:
P=20.64%, dass 4:1:1:4, oder eine zweiseitig noch extremere Konstellation) auftritt
Die 4-Felder-Tafel und zugehörige W'keiten müssen nicht symmetrisch
sein (wurde hier nur aus didaktischen Gründen gewählt)
Beachte: selbst in wissenschaftlichen Publikationen ist oft nicht ersichtlich, ob 1-
oder 2-seitig getestet wurde. Die Er-gebnisse sind dann nicht interpretierbar!
Folie 186
Jetzt mit Fisher's exaktem Test
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Bringt die Desinfektion was für's Überleben?
Für Nullhypothese: Wie groß ist die W'keit, dass diese oder eine noch extremere 4-Felder Tafel auftritt? (unter der Annahme, dass die Randhäufigkeiten gleich bleiben)
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohneDesinfektion
ja
nein
Übe
rlebe
n
0.00
0.25
0.50
0.75
1.00
mitohneDesinfektion
ja
nein
17
7
38
18
Ja, schon. - Oder könnte das auch rein zufällig so auftreten?
ohne/mit
überl./tot
17 38 55
18 7 25
35 45 80
ohne/mit
überl./tot
16 39 55
19 6 25
35 45 80
ohne/mit
überl./tot
15 40 55
20 5 25
35 45 80
ohne/mit
überl./tot
14 41 55
21 4 25
35 45 80
ohne/mit
überl./tot13 42 55
22 3 25
35 45 80
ohne/mit
überl./tot
12 43 55
23 2 25
35 45 80
ohne/mit
überl./tot
11 44 55
24 1 25
35 45 80
ohne/mit
überl./tot
10 45 55
25 0 25
35 45 80
Also 7 noch extremere. Wie wahrscheinlich treten die auf? .....� � � � � � � �
!!!!!!!!!
dcbandbcadcbap ����
�
p 5.67E-04 9.10E-05 1.09E-05 9.51E-07 5.76E-08 2.27E-09 5.17E-11 5.05E-13
� �� 0007.0p , dass diese oder eine noch extremere 4-Felder Tafel auftritt, d. h. wir verwerfen H0 und bezeichnen den Desinfektionseffekt als signifikant da p<��
Folie 187
�2 & Fisher mit JMP
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/ Folie 188
Interpretation von Fisher's exaktem
Test
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
JMP output aus vorhergehender Folie:
Left: p=0.9999Prob(Überleben=n)is greater for Desinfektion=j than n
2-Tail: p=0.0013Prob(Überleben=n)is different across Desinfektion
Beobachtet:
mit
ja
neinohne
Right: p=0.0007Prob(Überleben=n)is greater for Desinfektion=n than j
z. B.:
mit
ja
neinohne
z. B.:
mit
ja
nein
ohne
Extremer als so:
extremer als so:oder
Folie 189
Vergleich: besser �2 oder Fisher?
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
�2-Test Fisher's exakter Test
p-Wert (im Beispiel) 0.0006 0.0007Präzision approximativ exaktStichprobengröße nur anwendbar
wenn alle Erwartungswerte >5 sind
geht immer (kann bei großem N den PC aber ziemlich lange beschäftigen)
1-/2-seitig ist immer 2-seitig kann 1- oder 2-seitig interpretiert werden
Erweiterbar (m x n)Gesamt
++
+
++++ +
++Folie 190
M E R K Z E T T E L
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Wollen wir mit bedingten Ereignissen rechnen, können wir nicht mehr einfach den Multiplikationssatz verwenden.
• Mit dem �2-Test oder Fishers exaktem Test könnnen wir untersuchen, ob zwei Ereignisse voneinander abhängig sind.
• Der �2-Test funktioniert nach dem Prinzip: wie stark weichen die beobachteten von den erwarteten Häufigkeiten ab? Ist die Abweichung stark, können wir nicht von Unabhängigkeit (=H0) ausgehen.
• Fishers exakter Test funktioniert nach dem Prinzip: mit welcher W'keit sind die beobachteten oder noch extremere Häufigkeitsunterschiede zu erwarten?Ist diese W'keit (=p-Wert) klein, können wir nicht von Unabhängigkeit (=H0)ausgehen.
• Wenn möglich, sollte Fisher's exakter Test immer dem �2-Test vorgezogen werden
H1H1HH
H0HH0HHHH
�2������������������������������������������������������������222222222222222222222222222222222222222222222222222222222222222222222�����
Übung von Hand: �2-Test
0.00001
0.00010.00005
0.00002
0.0010.0005
0.0002
0.010.005
0.002
0.10.05
0.02
0.2
0.4
p-W
ert
0 2 4 6 8 10 12 14 16 18 20chi 2̂
Die mögliche Abhängigkeit von Hypertonie zu Ernährungsweise soll anhand eines �2-Tests untersucht werden
1. Schritt: Berechnung der beobachteten Anteile ja nein
janein
Vegetarier
Hyp
erto
nie
2. Schritt: Berechnung der er-warteten Anteile (H0: die Häu-figkeit von Hypertonie hängt nicht von der Ernährung ab)
ja neinja
nein
Vegetarier
Hyp
erto
nie
3. Schritt: Berechnung der erwarteten, absoluten Häufgkeiten unter H0
ja neinja
nein
Vegetarier
Hyp
erto
nie
4. Schritt: Berechnung der Differenzen zwischen Beobachtung und Erwartung
ja neinja
nein
Vegetarier
Hyp
erto
nie
5. Schritt: Berechnung des �2-Wertes:
� �
�
�� � E
EB 22�
ja neinja a=25 b=25 50
nein c=35 d=15 5060 40 100
Vegetarier
Hyp
erto
nieBeobachtete, absolute
Häufigkeiten:5. Schritt: Umrechnung des �2-Wertes in einen p-Wert
6. Schritt: Interpretation des p-Wertes und Beurteilung des Ergebnisses
p-Werte der �2-Verteilung für 4-Felder-Tafeln (df=1)
Der �2-Wert von ____ entspricht einem p-Wert von _____. Die Wahrscheinlichkeit, dass eine 4-Felder-Tafel mit derar-tigen, oder noch extremeren Abweichungen auftritt beträgt demzufolge ______. Bei einer Irrtumswahrschelinlichkeit von �=______ wird die Nullhypothese _______________ (verworfen / nicht verworfen). Mit _____%iger Sicherheit kann davon ausgegangen werden, dass das Auftreten von Hypertonie von der Ernährungsweise ___________ (abhängt / nicht abhängt)
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 6• 4-Felder Tafeln• Chi2-Test• Fishers exakter Test
Folie 193
Übung 6: �2-Test (1): 4-Felder Tafel
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Verwenden Sie das JMP-Menü Tables>Summary, um aus dem Datensatz"Lehrdatensatz-Therapie.jmp" eine 4-FelderTafel zu erstellen, welche die Häufigkeitvon Depression (Spalte depression) inAbhängigkeit des Geschlechts (Spaltesex) darstellt. Tragen Sie dieHäufigkeiten in die Tabelle unten ein.
Geschlecht
Female Male ��
Depression
no
yes
�
???
Folie 194
Übung 6: �2-Test (2): von Hand, in Excel
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
beobachtet F Mno 226 227 453yes 17 21 38
243 248 491
Anteile F Mno 0.4603 0.4623 0.9226yes 0.0346 0.0428 0.0774
0.4949 0.5051 1.0000
Ant. erwartet F Mno 0.4566 0.4660 0.9226yes 0.0383 0.0391 0.0774
0.4949 0.5051 1.0000
Abs. erwartet F Mno 224.2 228.8yes 18.8 19.2
491
Chi^2 F Mno 0.0146 0.0143yes 0.1735 0.1700
0.37
• Führen Sie einen �2-Test "manuell" in Exceldurch, in dem Sie so vorgehen, wie in der Folie"Chi2-Test: Beispiel Pigmentierung" gezeigt. D. h.berechnen Sie die �2-Abweichungen in folgendenSchritten, und tragen Sie Ergebnisse rechts ein:
1. beobachtete, absolute Anteile2. beobachtete, relative Anteile3. erwartete, relative Anteile4. erwartete, absolute Anteile,) �2-Abweichungen (Beob.-Erw.)2/Erw.
• Tragen Sie die Summe�2-Abweichungen (��2)unten rechts ein.
• Welcher p-Wert ergibtsich aus ��2, wenn Sieihn grafisch aus derfolgenden Grafik einer �2-Verteilung mit DF =1Freiheitsgraden ablesen:
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2 2.5
Chi^2
P
��2=
1.
2.
3.
4.
5.
Folie 195
Übung 6, JMP : �2-Test & Fisher's exakter Test
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Überprüfen Sie Ihre manuelle Auswertungaus Excel mit JMP, indem Sie im MenüAnalyze >Fit Y by X die Variabledepression in Abhängigkeit von sexuntersuchen.
• p-Wert des �2-Tests?• p-Wert von Fisher's exaktem Test
(zweiseitig)?
• Treten Depressionen unabhängig vomGeschlecht auf?: __________, weil_________________________________.
p=_________
p=_________
• Wiederholen Sie eine ähnlicheAuswertung, indem Sie die Variabledepression in Abhängigkeit desFamilienstatus' (famStatus) untersuchen:Treten Depressionen unabhängig vomFamilienstatus auf?
• Was formulieren Sie als Ergebnis?
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 7 Ergänzung zu Kontingenztafeln:
1) Inter-Rater-Agreement KWas uns bisher noch fehlt:
2) Überlebenszeit- oderSurvival-Analyse, Kaplan-Meier-Verfahren
3) Logistische RegressionMultiples Testen:
4) Bonferroni Korrektur5) Meta-Analysen
Anwendungen & Vermischtes
Folie 197
1) Übereinstimmung: Cohen's - (Kappa)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Zwei Zellbiologen sollen den Effekt einer Substanz auf Zellen beurteilen, indem sie die gleichen 100 Zellen einer Kultur als morphologisch intakt (+) oder degeneriert (-) bewerten.
+ -+ 30 10 40
- 20 40 60
50 50 100
Rat
er B
Rater A
Beobachtet wurde von den beiden Beurteilern:
2) Ist diese Methode dahingehend geeignet, dass diese Art der Beurteilung zu einem übereinstimmen-den Ergebnis kommt? Anders gefragt: wie stark stim-men die beiden Beurteiler in ihrem Ergebnis überein?
Beispiel einer Fragestellung:
Methode: wie schon beim �2-Test müssen wir (um Abweichungen vom Zufall feststellen zu können) zunächst definieren, was man zufällig erwarten würde
+ -+ 0.2 0.2 0.4
- 0.3 0.3 0.6
0.5 0.5 1
Rat
er B
Rater A
Erwarten würde man anhand der Randhäufigkeiten
+ -+ 20 20 40
- 30 30 60
50 50 100
Übereinstimmungen Nicht-Übereinstimmungen
+ -+ 30 10 40
- 20 40 60
50 50 100
(EN: "Inter-rater agreement")
Folie 198
1) Übereinstimmung: Cohen's - (Kappa)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Rat
er B
Rater A
Beobachtet wurde von den beiden Beurteilern:
Rat
er B
Rater A
Erwarten würde man anhand der Randhäufigkeiten
+ -+ 0.3 0.1 0.4
- 0.2 0.4 0.6
0.5 0.5 1
+ -+ 0.2 0.2 0.4
- 0.3 0.3 0.6
0.5 0.5 1
exp
exp
1 pppobs
�
��.
4.05.015.07.0
���
�.
Definition von Cohen's -�
Beobachteter Anteil von Übereinstimmungen
Erwarteter Anteil von Übereinstimmungen
Je näher K bei 1 liegt, desto besser stimmen die beiden Rater überein.
(EN: "Inter-rater agreement")
Folie 199
1) Übereinstimmung: Cohen's - (Kappa)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
&�'�()*�����+����,
0,4 ��&�'�()-�����+%�#�����,
0,6 ��&�'�().�����+��/�������,
0,8 ��&��������������+�%�����������,
Beurteilung von Cohen's -�: -=0.40
-=0.76
Erweiterungen von Cohen's K :- kann in der gleichen Weise auf beliebige Kontingenztafeln angewandt werden- Für mehr als 2 Beurteiler: Fleiss' Kappa.
(EN: "Inter-rater agreement")
Probleme von Cohen's K:��-� kann negative Werte annehmen, ist dann aber nicht interpretierbar- kann bei "schiefen" Randhäufigkeiten inkonsistente Ergebnisse liefern:
Abhilfe: intraclass correlation coefficient (ist aber komplizierter...)
40
60
70 3040
60
30 70
Die Übereinstimmungs"rate" ist mit 60% in beiden Fällen gleich
Folie 200
Diagramme und Auswertungen unter Kombination zweier Skalen:
Korrelation / Regression Gruppenvergleiche: t-Test & Co
Logistische Überlebenszeit- Regression Analyse
�2-Test & Fishers exakter Test
X: Ursache
Y: W
irkun
g
10152025
vor-her
nach-her
BM
I
Kon
zent
ratio
n Y
1.60
1.701.80
1.902.00
A 0 BABBlutgruppe
Vorher/nachher-Ver-gleiche (ladder plot):
Streudiagramm
Phä
noty
p
0.000.25
0.50
0.751.00
A1 A2 BC.Genotyp
y1
y2
y3y4y5Mosaikplot
Boxplots
Y: S
tetig
0.000.250.500.751.00
0 10 20 30Monate W
'kei
t (Ü
berle
ben)
W'k
eit (
Kra
nk)
00.250.500.75
1
50 60 70 80Konzentration
Ja
Nein
Kaplan-Meier-
Verfahren
X: Stetig X: Nominal
2) Was uns bisher noch fehlte...
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
JMP: Fit Y by X
Folie 201
Verteilung�Verteilungsfunktion�Survival
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Urliste:
Pat. daysJK 8.83AB 9.54ZN 10.17MK 10.21AL 10.71KL 11.17LW 11.33KS 11.38VH 11.50RS 11.67FT 11.96JW 12.17SN 12.25EN 12.33ER 12.33UC 12.50TE 13.04LB 13.25HT 13.79NA 13.96UN 14.04PJ 14.08NN 14.13BE 14.92LK 14.92PA 15.33BE 15.83DE 17.79RH 20.75AU 28.00
2
4
6
Cou
nt
0.05
0.10
0.15
0.20
Pro
babi
lity
0 5 10 15 20 25 30
0.00.20.40.60.8
Cum
Pro
b
0 5 10 15 20 25 30
1.0
0.00.20.40.60.8
1-C
um P
rob
0 5 10 15 20 25 30days
1.0
Verteilung
Verteilungsfunktion(=kumulierte Verteilung)
Survival(=1-Verteilungsfunktion)
"90% der Mütter bleiben höchstens (�) 17.7 Tage
in der Klinik"
"10% der Mütter bleiben mehr als (>) 17.7 Tage
in der Klinik"
Folie 202
Verteilung�Verteilungsfunktion�Survival
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
F(x)
Urliste:
Pat. daysJK 8.83AB 9.54ZN 10.17MK 10.21AL 10.71KL 11.17LW 11.33KS 11.38VH 11.50RS 11.67FT 11.96JW 12.17SN 12.25EN 12.33ER 12.33UC 12.50TE 13.04LB 13.25HT 13.79NA 13.96UN 14.04PJ 14.08NN 14.13BE 14.92LK 14.92PA 15.33BE 15.83DE 17.79RH 20.75AU 28.00
0.00.20.40.60.8
1-C
um P
rob
0 5 10 15 20 25 30days
1.0Survival(=1-Verteilungsfunktion)
Beachte:
Wurden nicht alle Merkmalsträgerbis zum Eintreten des Ereignisses beobachtet,
dann muss dies im „Nenner“ berücksichtigt werden
� Kaplan-Meier-Verfahren (siehe VL Epidemiologie)
Folie 203
2) Überlebenszeit- oder Verweildaueranalyse
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Monat 0 Monat 1 Monat 2
Studienbeginn
Rekrutierungsende
Studienende
Tier54321
Eintritt in die Studie
Zielereignis
0.00
0.2
0.4
0.6
0.8
1.0
P(S
urvi
ve)
10 20 30 40 50Survival [Tage]
0 10 20 30 40 50
Tier54321
0 10 20 30 40 50 60
Beobachtungsdauer [Tage]
Kohortenstudie
Auswertung
Folie 204
2) Survival: Kaplan-Meier-Verfahren
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0.0
0.2
0.4
0.6
0.8
1.0
0 100 200 300 400
Zensierung
Ereignis
Sur
viva
l S(x
)
berücksichtigt auch "zensierte" Beobachtungen:- Patienten, die an anderen Ursachen versterben- Patienten, die nur eine Zeit lang beobachtet wurden
und solche Patienten, die bis zum Beobachtungsende überleben.
22
2
2
Har
ms,
S. 2
17 T
ab 7
.9 T
hera
pie
Folie 205
3) Logistische Regression: Challenger-Unglück
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
28. Jan. 1986
On January 28, 1986 the space shuttleChallenger had a catastrophic failure due toburnthrough of an O-ring seal at a joint in oneof the solid-fuel rocket boosters. This was the25th shuttle flight. Of the 24 previous shuttleflights, 7 had incidents of damage to joints,16 had no incidents of damage, and 1 wasunknown. (The data comes from recoveredsolid rocket boosters— the one that wasunknown was not recovered.)
Tabelle: Shuttle Flüge vor 1986: Temperatur und Dichtungsschäden
Stehen Dichtungsschäden
und Außentemperatur in Zusammenhang?
Flight Temp (°F)
Joint damage
Y/NSTS-1 66 NOSTS-2 70 YESSTS-3 69 NOSTS-4 80STS-5 68 NOSTS-6 67 NOSTS-7 72 NOSTS-8 73 NOSTS-9 70 NOSTS 41-B 57 YESSTS 41-C 63 YESSTS 41-D 70 YESSTS 41-G 78 NOSTS 51-A 67 NOSTS 51-C 53 YESSTS 51-D 67 NOSTS 51-B 75 NOSTS 51-G 70 NOSTS 51-F 81 NOSTS 51-I 76 NOSTS 51-J 79 NOSTS 61-A 75 YESSTS 61-B 76 NOSTS 61-C 58 YES
Folie 206
3) Logistische Regression: Challenger-Unglück
Flight Temp (°F)
Joint damage
Y/NSTS-1 66 NOSTS-2 70 YESSTS-3 69 NOSTS-4 80STS-5 68 NOSTS-6 67 NOSTS-7 72 NOSTS-8 73 NOSTS-9 70 NOSTS 41-B 57 YESSTS 41-C 63 YESSTS 41-D 70 YESSTS 41-G 78 NOSTS 51-A 67 NOSTS 51-C 53 YESSTS 51-D 67 NOSTS 51-B 75 NOSTS 51-G 70 NOSTS 51-F 81 NOSTS 51-I 76 NOSTS 51-J 79 NOSTS 61-A 75 YESSTS 61-B 76 NOSTS 61-C 58 YES
Hängt die W'keit eines Dichtungsschadens von der Temperatur ab?
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
Join
t dam
age
1/0
45 50 55 60 65 70 75 80 85Temp (°F)
Join
t dam
age
Y/N
0.00
0.25
0.50
0.75
1.00
50-65 65-70 70-75 75-80 80-Temp class
YES
NO
X: stetig, Y: stetig
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
Join
t dam
age
1/0
50-65 65-70 70-75 75-80 80-Temp class
X: nominal, Y: stetig
X: nominal, Y: nominal
Join
t dam
age
Y/N
0.00
0.25
0.50
0.75
1.00
50 55 60 65 70 75 80 85
Temp (°F)
YES
NO
X: stetig, Y: W'keit
Wie bei einer linearen
Regression
soll die dicho-tome Variable
(Beschädigung Ja/Nein)
als W'keit (stetig)
und abhängig von der Tem-peratur
(stetig)
beschrieben werden
NO
Folie 207
3) Logistische Regression: Logit-Transformation
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Interval (51,55) (56,60) (61,65) (66,70) (71,75) (76,80) (81,85)Temp 53 58 63 68 73 78 83p 0.99 0.99 0.99 0.2 0.25 0.01 0.01Logit 4.595 4.595 4.595 -1.386 -1.099 -4.595 -4.595
Challenger-Daten gruppiert in Schritten von 5°F:Anteil Beschädigungen
�
� �
��
�p
p1
ln
Tempp
p 37.04.251
ln ���
� �
�� Temp
Temp
eeP 37.04.25
37.04.25
1 �
�
��
1) Wir können die Logit-transformierten Daten durch eine lineare Regression anpassen:
2) Durch Rücktransformation erhalten wir dann die logistische Kurve:
Folie 208
3) Logistische Regression: JMP-output
Datenpunkte werden in Y-Richtung zufällig verzittert
(die X-Koordinate ist korrekt)
logistische Kurve: "W'keit, mit der eine Beschädigung bei dieser Temperatur zu erwarten ist"
Test auf Nullhypothese "W'keit einer Beschädigung hängt nicht von der
Temperatur ab"
* die "Estimates" weichen von der vorigen Folie ab, weil das Modell dort an die gruppierten Daten angepasst wurde
*
Tempp
p 232.004.151
ln ���
� �
��
*
Achsenabschnitt signifikantSteigung signifikant
"Parameter Estimates" für
Folie 209
4) Multiples Testen: Bonferroni-Korrektur
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Für eine Fragestellung sollen an ein- und demsel-ben Datensatz etwa 10 Tests durchgeführt werden
• Jeder dieser Tests liefert ein Ergebnis mit einer Irrtumswahrscheinlichkeit von 5%
• Wenn wir uns 10 mal mit einer W'keit von 5% irren, dann irren wir insgesamt mit einer W'keit von 50% (entweder beim ersten, oder beim zweiten, oder beim dritten ... = 5+5+5+5+5+5+5+5+5+5=50%)
10 Tests
� =5% pro Test
� =50% für 10 Tests
� =0.5% pro Test
� =5%für 10 Tests
Anders gesagt: Wenn Sie mit einer W'keit von 5% pro Versuch
ihren Finger treffen, dann sollten Sie nicht 20 mal hacken.
• Wenn wir uns insgesamt mit einer W'keit von 5% irren wollten, dann müssten wir die Irrtumsw'keit für jeden einzelnen Test um das 10-fache erniedrigen. Dies nennt
man Bonferroni-Korrektur
( )Folie 210
5) Meta Analysen am Beispiel OR
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Oft werden kleine Studien durchgeführt, ausgewertet und veröffentlicht
• Es ist naheliegend, die Ergebnisse so zusammenzufassen, als hätte man eine große Studie durchgeführt
Wichtig: Die Studien müssen vergleichbar sein!• gleiche Ein- und Ausschlusskriterien?• RCT* doppelt verblindet und randomisiert?• gleiche Behandlung in RCT?• gleiche Beobachtung in RCT bzw. Kohorten?
Grundidee von Meta-Analysen:
* Randomized Clinical Trial
Folie 211
5) Forest Plot
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Anh VNM 89• Anh VNM 92-95• Birku ETH 96-97• Danis WAF 93-94• Hien VNM 89-90• Hien VNM 91-98• Karbwang THI 91• Karbwang THI 92-94• Murphy KEN 92-94• Djuawo NIG (98)• Olumese NIG 94-96• Phuong VNM 92-95• Seaton PNG 92-95• Taylor MAL 92-94• Win MYA 89-91• van Hensbroek GAM 92-94
0.001 0.01 .1.2 .5 1 2 5 10Odds Ratio
Stud
ien:
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 7• Logistische Regression
Folie 213
Übung 8: Logistische Regression
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Tabelle: Shuttle Flüge vor 1986: Temperatur und Dichtungsschäden
• Kopieren Sie die Daten ausder Tabelle links in eine leereJMP-Tabelle.
• Reproduzieren Sie die Aus-wertung aus den vorher-gehenden Folien, indem Sieim Menü Analyze >Fit Yby X die Variable "Damage"(dichotom: Y) in Abhängig-keit der Variable Temp (stetig:X) untersuchen.
• p=_____? (im Ausgabe-fenster, unter der Rubrik"Parameter estimates")
• Wählen Sie im HotSpot desAusgabefensters die Option"Save ProbabilityFormula", um Spalten imTabellenblatt erstellt zu be-kommen, durch welche dieFunktion der LogistischenKurve berechnet wird (eskommen ziemlich viele Spalten -schauen Sie nach Spalte"Prob[YES] und deren Formel).
Flight Temp (°F)
Damage Y/N
STS-1 66 NOSTS-2 70 YESSTS-3 69 NOSTS-4 80STS-5 68 NOSTS-6 67 NOSTS-7 72 NOSTS-8 73 NOSTS-9 70 NOSTS 41-B 57 YESSTS 41-C 63 YESSTS 41-D 70 YESSTS 41-G 78 NOSTS 51-A 67 NOSTS 51-C 53 YESSTS 51-D 67 NOSTS 51-B 75 NOSTS 51-G 70 NOSTS 51-F 81 NOSTS 51-I 76 NOSTS 51-J 79 NOSTS 61-A 75 YESSTS 61-B 76 NOSTS 61-C 58 YES
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 81) Wahrscheinlichkeits-
rechnungBeispiel: Lotto, Münzwurf ��0����$�#�����1���2� ��
2) Additions-,Multiplikationssatz
3) Binomialkoeffizient
4) Binomialverteilung5) Binomialtest6) Poissonverteilung
Verteilungen:
Folie 215
Grobe Abschätzungen im Dreisatz
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Probabilistische Sicherheitsanalyse: Nach der Deutschen Risikostudie der Gesellschaft für Anlagen- und Reaktorsicherheit (GRS) von 1989 ist für einen deutschen Druckwasserreaktor der zweiten Generation (z. B. Block B Biblis) alle 33.000 Betriebsjahre mit einem schweren Unfall zu rechnen. Optimisten sagen: alle 1.000.000 Jahre.
Zur Zeit sind weltweit 210 Kernkraftwerke mit 439 Reaktorblöcken am Netz.
In welchem Abstand in Jahren haben wir demnach einen schweren Unfall zu erwarten?
Ist ein derart vereinfachter Dreisatz gerechtfertigt?
Empirischer Ansatz: Seit 1955: Harrisburg, Tschernobyl, Fukushima (=mind. 3) Sagen wir 3 pro 55 Jahre = ca. alle 18 Jahre
Ist dieser Schätzwert eher über- oder unterschätzt?Folie 216
Wiederholung &
Programm
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Binomialverteilung
Poisson-Verteilung
Folie 217
1) Häufigkeiten vs. Wahrscheinlichkeiten
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
)(lim)( EfEP n�$�n
n = Gesamtzahl aller Beobachtungen
Hn(E) = absolute Häufigkeit des Ereignisses „E“
fn(E) = relative Häufigkeit des Ereignisses „E“
P(E) = Wahrscheinlichkeiten des Ereignisses „E“
nEHEf nn
)()( �
Folie 218
1) Empirische & theoretische Größen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Empirische Größe Theoretische Größe
1
3
5Count
-400 -200 0 100 200 300
Häufigkeitsverteilung
empirische Varianz s2
(Standardabweichung s)
Mittelwert x
Wahrscheinlichkeitsverteilung
Varianz � 2
(Standardabweichung � ��
Erwartungswert ��
Folie 219
1) Nehmen wir mal 'ne Münze...
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
... die fällt entweder mit Kopf oder mit Zahl
Wenn wir sie oft genug werfen ...
00.20.40.60.81.0 Relative Häufigkeit ( )
...dann nähert sich die relative Häufigkeit des Ereignisses "Kopf", der Wahrscheinlichkeit für dieses Ereignis an:
Relative Häufigkeit ( ) � � � � � Wahrscheinlichkeit ( )Folie 220
1) Das Gesetz der großen Zahlen: Münzwurf
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 10 100 1000 10000n
Anzahl der Würfe (Stichprobengröße n)
Rel
ativ
e H
äufig
keit
(Kop
f fäl
lt) KopfKopf
Zahl Zahlusw
.
Rel
ativ
e H
äufig
keit
(Kop
f fäl
lt)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 10 100 1000 10000n
KopfZahl
Kopf
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 10 100 1000 10000n
Anzahl der Würfe (Stichprobengröße n)
Rel
ativ
e H
äufig
keit
(Kop
f fäl
lt)
KopfZahlusw
.
ZahlZahlZahl
Zahl
95% aller Wurfsequenzen sind in Ihrem Verlauf zwischen den beiden blauen Linien zu erwarten.
Diesen Abschnitt würde man als signifikante Abweichung von der (95%-) Erwartung bezeichnen.
Erster Simulationsverlauf Zweiter Simulationsverlauf
Dritter Simulationsverlauf
Anzahl der Würfe (Stichprobengröße n)
Klassischer Wahrscheinlichkeitsbegriff:
Anzahl günstiger Fälle
Anzahl möglicher FälleP=
Folie 221
2) Additionssatz der Wahrscheinlichkeitsrechnung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Die Wahrscheinlichkeit, dass beim Werfen einer Münze "Kopf" fällt, ist: P( ) = 0.5
Ebenso für "Zahl" : P( ) = 0.5
Additionssatz der W'keitsrechnung
1 mal werfen:Die Wahrscheinlichkeit, dass Kopf oder Zahl fällt ist:
P( oder ) = P( )+P( ) = 0.5+0.5 = 1
Merke: Bei "Oder"-Verknüpfungen werden W'keiten addiertFolie 222
2) Multiplikationssatz der Wahrscheinlichkeitsrechnung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
2 mal werfen:Die Wahrscheinlichkeit, dass 1x Kopf und 1x Zahl fällt ist:
P( und )= P( ) •P( ) = 0.5•0.5 = 0.25
Multiplikationssatz der W'keitsrechnung
Merke: Bei "Und"-Verknüpfungen werden W'keiten multipliziert
Aber Vorsicht...
Folie 223
2) Multiplikationssatz der Wahrscheinlichkeitsrechnung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
... dieses Ereignis kann auf 2 verschiedene Arten zustande kommen
P( )•P( ) = 0.25
P( )•P( ) = 0.25Oder so: erst , dann :
Nämlich so: erst , dann :
P(K und Z)=P(K)•P(Z) + P(Z)•P(K)
= 0.25 + 0.25 = 0.5Additionssatz der W'keitsrechnung
Folie 224
Additionssatz Multiplikationssatz
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
der Wahrscheinlichkeitsrechnung
� Vereinigung zweier Ereignisse � Durchschnitt zweier Ereignisse
allgemeiner Fall:P(A oder B) = P(A) + P(B) – P(A und B)Bsp: A=blonde Haare, B=braune Augen
disjunkter Fall:P(A oder B) = P(A) + P(B)Bsp: A=blonde Haare, B=braune Haare
allgemeiner Fall:P(A und B) = P(A) • P(B | A)Bsp: A=Haarfarbe, B=Augenfarbe
unabhängige Ereignisse: P(A und B) = P(A) • P(B)Bsp: A=Haarfarbe, B=Brille (ja/nein)
blond braun
Bril
lene
in
ja
P(B)P(A und B)P(A)
P(A) P(B)
Folie 225
Beispiel: Münze
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Wie groß ist die W'keit, dass bei 3 x Werfen 1x Kopf fällt?
0.5• 0.5• 0.5 = 0.1251. Möglichkeit: & &oder
2. Möglichkeit: & &oder
3. Möglichkeit: & &
0.5• 0.5• 0.5 = 0.125
0.5• 0.5• 0.5 = 0.125
P(K) = 0.375
P( ) = P( ) = 0.5
Folie 226
Beispiel: "verzerrte" Münze
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Wie groß ist die W'keit, dass bei 3 x Werfen 1x Kopf fällt?
0.4• 0.6• 0.6 = 0.1441. Möglichkeit: & &oder
2. Möglichkeit: & &oder
3. Möglichkeit: & &
0.6• 0.4• 0.6 = 0.144
0.6• 0.6• 0.4 = 0.144
P(K) = 0.432Die W'keit für "Kopf" ist geringer als zuvor,
deshalb wird es wahrscheinlicher, dass Kopf nur 1 mal fällt
P( )=0.4, P( ) = 0.6
Folie 227
3) Viele Wege führen nach Rom
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Auf wie viele verschiedene Artenkann man bei 4x Werfen,
"2x Kopf und 2x Zahl" erhalten?
1. Weg
2. Weg
3. Weg
4. Weg
5. Weg
6. Weg
Auf wie viele verschiedene Artenkann man bei 40x Werfen,
"20x Kopf und 20x Zahl" erhalten?• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •
• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •
137 846 528 820 WegeFolie 228
3) Der schnellste Weg: Der Binomialkoeffizient
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
�
� �
�kn" n
über k "
gibt die Anzahl der möglichen Wege an, aus n Würfen k Treffer zu erhalten(ohne Berücksichtigung der Reihenfolge)
� �!kn!k!n
kn
��
�
� �
�n...!n ����� 321wobei
" n-Fakultät "
��
� �
�6
101•2•3•4•5•6 • 1•2•3•41•2•3•4•5•6•7•8•9•10 7•8•9•10
1•2•3•4=
504024
= = 210 Wege
Folie 229
3) Der Binomialkoeffizient im Lotto
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
W'keit, dass die 1. Kugel ein Kreuzchen trifft : 6 / 49" 2. " : 5 / 48" 3. " : 4 / 47" 4. " : 3 / 46" 5. " : 2 / 45" 6. " : 1 / 44
Wahr'keit für 6 Richtige = 816983131
441
452
463
474
485
496
�&&&&&
� �
81698313654321
49484746454443321654321
4944433216496
49649
������
������
�����������������
�
��
�
� �
��
�
� �
�
.........
!!!
knBerechnung über den
Binomialkoeffizienten:
Es braucht "im Schnitt" 13 983 816 Lottoscheine,
um 1 mal 6 Richtige zu haben.
410 12
23 27
46
Folie 230
4) Binomialverteilung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Angenommen, ein Experiment habe nur zwei verschiedene Ergebnisse,
geheilt/nicht geheilt - lebend/tot - männlich/weiblich
dann gibt die Binomialverteilung die Wahrscheinlichkeit dafür an, dass in
insgesamt n unabhängigen Versuchen kmal ein bestimmtes Ergebnis eintritt.
Demo: http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-bin.html
Folie 231
4) Wahrscheinlichkeitsrechnung einfach: Der Münzwurf
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Schauen wir uns das Beispiel 4 x werfen genauer an:mögliche Kombinationen sind:
es fällt 2 x Kopf und 2 x Zahl
... und fertig ist unsere Wahrscheinlichkeitsverteilung, von n=4 Würfen k mal Kopf zu erhalten
k=0 k=1 k=2 k=3 k=4
es fällt immer Zahl
es fällt immer Kopf
es fällt 3 x Kopf und 1 x Zahl
es fällt 1 x Kopf und 3 x Zahl
0.0625
0.250.375
0.25
0.06250
1/16
2/16
3/16
4/16
5/16
6/16
Folie 232
4) Wahrscheinlichkeitsrechnung einfach: Der Münzwurf
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
es fällt 2 x Kopf und 2 x Zahl
es fällt immer Zahl
es fällt immer Kopf
es fällt 3 x Kopf und 1 x Zahl
es fällt 1 x Kopf und 3 x Zahl
Schauen wir uns das Beispiel 4 x werfen genauer an:...und sagen =p und =q
W'keit, dass Kopf fällt
W'keit, dass Zahl fällt
Folie 233
4) Wahrscheinlichkeitsrechnung einfach: Der Münzwurf
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
p pq qp pq qp pq q
p pq qp pq qp p q qes fällt 2 x Kopf
und 2 x Zahl(k=2)
q q q qes fällt immer
Zahl(k=0)
p p p pes fällt immer
Kopf(k=4)
q pp pqp p p
qp p pqppp
es fällt 3 x Kopf und 1 x Zahl
(k=3)
q q qpq q qpq q qpq q q pes fällt 1 x Kopf
und 3 x Zahl(k=1)
Schauen wir uns das Beispiel 4 x werfen genauer an:...und sagen =p und =q
AnzahlWege
104
��
� �
�4
14
��
� �
�6
24
��
� �
�4
34
��
� �
�1
44
��
� �
�
q4 p1 q3 p2 q2 p3 q1 p4
q4 4pq3 6p2q2 4p3q p4W'keiten
W'keit, dass Kopf fällt
W'keit, dass Zahl fällt
Folie 234
4) Die Binomialverteilung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
es fällt 2 x Kopf und 2 x Zahl
(k=2)
es fällt immer Zahl(k=0)
es fällt immer Kopf(k=4)
es fällt 3 x Kopf und 1 x Zahl
(k=3)
es fällt 1 x Kopf und 3 x Zahl
(k=1)
AnzahlWege
104
��
� �
�4
14
��
� �
�6
24
��
� �
�4
34
��
� �
�1
44
��
� �
�
q4 p1 q3 p2 q2 p3 q1 p4
q4 4pq3 6p2q2 4p3q p4W'keiten
und genau das macht auf ganz einfache Weise
Formel:
W'keit, dass das betrachtete
Ereignis eintritt (z.B. "Kopf fällt")
Wie viele Wege führen zum betrachteten
Ereignis
"Kopf" tritt k mal ein "Zahl" tritt in den anderen Fällen ein (n-k)
W'keit, dass das komplementäre Ereignis eintritt (z.B. "Zahl fällt")
� � knk ppkn
kP ���
� �
�� 1)(
Folie 235
4) Formen der Binomialverteilung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
knk ppkn
kKP ���
� �
��� )1()(
)1(2 ppn �����
pn ���
p=0.2 (n=10)
p=0.5 (n=10)
(Symmetrie)
p=0.8 (n=10)
Erwartungswert:
Varianz:
Formel:0.10
0.20
0.30
0 1 2 3 4 5 6 7 8 9 10
0.05
0.15
0 1 2 3 4 5 6 7 8 9 10
0.10
0.20
0.30
0 1 2 3 4 5 6 7 8 9 10
Folie 236
4) Übungsaufgabe
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Wie groß ist die Wahrscheinlichkeit, dass bei n=5 Behandelten alle geheilt werden?
� �
33080
208055
5
1
5
05
..
..)P(K
-ppkn
k)P(K n-kk
/�
���
� �
���
���
� �
���
Die Wahrscheinlichkeit, dass eine bestimmte Behandlung erfolgreich ist, sei p=0.8.
Wie groß ist die Wahrscheinlichkeit, dass bei n=5 Behandelten keiner geheilt wird?
� �
00032020
208005
0
1
5
50
..
..)P(K
-ppkn
k)P(K n-kk
/�
���
� �
���
���
� �
���
p5 (1-p)5
Folie 237
4) Übungsaufgabe
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0.0
0.1
0.2
0.3
0.4
0.5
0 1 2 3 4 5
Wie groß ist die W'keit, dass von 5 Behandelten mindestens einer geheilt wird:
Die Wahrscheinlichkeit, dass von insgesamt n=5 Behandelten k geheilt werden, sieht gemäß der Binomialverteilung mit p=0.8 so aus:
k= Anzahl Geheilter unter 5 Behandelten
W
ahrs
chei
nlic
hkei
t
� � 0003201010 .)K(PKP �����0
� � � � � � � � � � 999680543210 ......PPPPP)K(P �������0
einfacher geht das so:
k P(k)
0 0.00032
1 0.00640
2 0.05120
3 0.20480
4 0.40960
5 0.32768
++++
Folie 238
Tests auf Häufigkeitsunterschiede
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Skalentyp1 GruppeVgl. m. Standardwert
2-Gruppen-Vergleich
nominal �2-Test �2-Test
dichotom Binomial-Test(Vorzeichentest)
Fishers exakter Test, Odds-Ratio-Test
ordinal t-Test für Ränge U-Test
metrisch 1-Stichproben-t-Test 2-Stichproben-t-Test
Folie 239
5) Binomialtest: Bsp. Anästhesie
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Neue Anästhesiemethode– bei k=10 von n=10 Patienten ohne Komplikation
– Geschätzte Erfolgswahrscheinlichkeit p = 100%
• Bisherige Erfolgswahrscheinlichkeit p = 93%– Ist die neue Anästhesiemethode besser oder war es Zufall?
• Wie wahrscheinlich ist es unter der bisherigen Erfolgs-wahrscheinlichkeit von p = 0.93, dass bei 10 Patienten von insgesamt 10 keine Komplikationen auftreten?
0.93k = 0.9310 = 0.484Folie 240
5) Binomialtest: Bsp. Anästhesie
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Neue Studie mit n=50 Patienten– Komplikationen bei k=2 von n=50 Patienten – Geschätzte Erfolgswahrscheinlichkeit = 96 %
• Bisherige Erfolgswahrscheinlichkeit = 93 %– Ist die neue Anästhesiemethode besser oder war es Zufall?
• Wie wahrscheinlich ist es unter der bisherigen Erfolgs-wahrscheinlichkeit von p = 0.93, dass bei mindestens 48 Patienten von 50 keine Komplikationen auftreten?
?50494848 ��������1 ...)()()()( kPkPkPkP
Folie 241
5) Binomialtest mit n=50, p=0.93
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0.05
0.10
0.15
0.20
30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
31.1%� �
k
Testprinzip Binomialtest: Wie wahrscheinlich ist es unter der bisherigen Erfolgswahrschein-lichkeit von p = 0.93, dass bei mindestens 48 Patienten von 50 keine Komplikationen auftreten?
Folie 242
Anwendung und Probleme
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Ergebnis: mit der bisherigen Methode (p=93%) erwartet man in 31.1% der Studien mit n=50 ein Ergebnis, das mindestensgenau so gut ist, wie das der neuen Methode. Gemessen am üblichen 5%-Kriterium ist das nicht signifikant besser.
0.05
0.10
0.15
0.20
303132333435363738394041424344454647484950
31.1%� �
kSchlussfolgerungen
1) ist p ohnehin schon nahe bei 0 oder 1, dann wird es sehr schwierig, Signifikanz zu erreichen (im obigen Fall könnte nur k =50 ein ��<5% erwirken ��������3� ���((4�5����!� ��� ����� ����.)
2) kleine Stichprobenumfänge vergrößern dieses Problem zusätzlich3) Signifikanz vs. Relevanz: solange die neue Methode keine anderen,
gravierenden Nachteile mit sich bringt, sollte sie angewandt werden, daa) jegliche Vermeidung von Komplikation anzustreben ist, undb) die Anwendung den Stichprobenumfang erhöht, und später eine
Statistik mit besserer Güte (Power 1-�) durchgeführt werden kann.
Folie 243
5) Faustregel
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Für undist die Binomialverteilung hinreichend symmetrisch,
und man kann näherungsweise mit der
Normalverteilung rechnen.
50� np 51 0�� np)(
Demo
für die Approximation der Binomialverteilung durch die Normalverteilung
Folie 244
Zusammenfassung Binomialverteilung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• die Binomialverteilung gibt die Wahrscheinlichkeit dafür an, dass in insgesamt n unabhängigen Versuchen k mal ein bestimmtes Ergebnis eintritt.
• für p < 0.5 ist sie linkssteil (rechtsschief)für p = 0.5 ist sie symmetrischfür p > 0.5 ist sie rechtssteil (linksschief)
• Der Binomialtest beantwortet die Frage: Wie wahrscheinlich ist es unter einer vorgegebenen Erfolgswahrscheinlichkeit (Nullhypothese), dass mindestens/höchstens die beobachtete Anzahl "Treffer" eingetreten ist?
Folie 245
6) Die Poissonverteilung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Die Poissonverteilung verwendet man, wenn ein Mittelwert gegeben istund die Frage lautet: Wie groß ist die W'keit, k zu finden
� � 22 ��� e!k
kKPk
Beispiel Erythrocyten im Mikroskop zur Auszählung:
Annahmen: Die Zellen verteilen sich • zufällig (die Aufenthaltsw'keit an einer beliebi-
gen Stelle im Gitter ist für alle Zellen gleich) und
• unabhängig (Zellen klumpen nicht oder stoßen sich nicht gegenseitig ab)
Auf einem Gitter mit 100 Quadraten verteilen sich 80 Zellen �im Mittel: 2 = 0.8 Zellen/Quadrat
Bei bekanntem Mittlelwert 2 ergibt sich die W'keit,in einem beliebigen Quadrat k Zellen zu finden zu:
Folie 246
6) Die Poissonverteilung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0.00
0.10
0.20
0.30
0.40
0.50
0 2 4 6 8
k P(K=k)0 0.44931 0.35952 0.14383 0.03834 0.00775 0.00126 0.00027 1.87E-058 1.87E-06 ....
Die Poissonverteilung besitzt einen unendlichen Träger (x-Achse ist unendlich lang) � Im Gegensatz zur
Binomialverteilung (mit endlichem Träger n)!
Beispiel Erythrocyten im Mikroskop zur Auszählung:
� � 22 ��� e!k
kKPk
Folie 247
Vergleich Poisson- und Binomialverteilung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
k Poisson (0.8) Binomial (80,0.01)0 0.4493 0.44751 0.3595 0.36162 0.1438 0.14433 0.0383 0.03794 0.0077 0.00745 0.0012 0.00116 0.0002 0.00017 1.87E-05 1.53E-058 1.87E-06 1.41E-06
Poissonverteilung Bei 80 Zellen in 100 Quadraten
erwarten wir 0.8 Zellen
pro Quadrat
Erwartungs-wert:�2=0.8
Binomialverteilung
Erwartungswert: np=0.8
� p = 0.8/n = 0.01
In einem Quadrat können maximal 80 Zellen auftreten
n=80.
0.000.100.200.300.400.50
0 1 2 3 4 5 6 7 8
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 8• Binomialverteilung,
Binomialtest• optional: Münzwurf
(Gesetz der großen Zahlen)
Folie 249
Übung 8: Binomialtest (1)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Fügen Sie im Datensatz "Lehrdatensatz-Therapie.jmp" eine neue Spalte "Treatment success" mit Datentyp "Character" an, mit der Sie den Anteil derjenigen Patienten bestimmen (s.u.), deren diastolischer Blutdruck gesenkt wurde (BPdia post-pre<0).
• Bestimmen Sie den Anteil der erfolgreichen Behandlungen durch Analyze >Fit Y by X, mit X: "Treatment", Y: "Treatment success". Ergebnis (absolut,%): control: ______ von ______=_______%verum: ______ von ______=_______%.
Formel
Formeleditor>Conditional
>If
Formeleditor >Comparison >Is Missing und dann >Conditional >Not
Fragestellung: Im "LehrdatensatzTherapie.jmp" soll die Gruppe der mit dem neuen Blutdruck-senker behandelten Patienten auf den Anteil der erfolgreich Behandelten hin untersucht werden. Der bisher standardmäßig eingesetzte Blutdrucksenker erzielt bei 80% der Be-handelten eine Blutdrucksenkung. Basierend auf diesem Standard soll untersucht wer-den, ob der in der vorliegenden Studie gefundene Anteil eine wesentliche Steigerung im Anteil der erfolgreich Behandelten darstellt, oder auch rein zufällig sein könnte.
Folie 250
Übung 8: Binomialtest (2)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Erstellen Sie eine eigene Datentabelle "BinomialTest.jmp" (File >New >Data Table)mit 4 Spalten (Namen s. screen-shot rechts) und 43 Zeilen an. Geben Sie die Formel für die Binomialverteilung ein (s. Sprechblasen), mit p=0.8 (H0: der Anteil der mit dem Standard erfolgreich Behandelten beträgt 80%)
• Die Befehle finden Sie in den Functionsdes Formeleditors:
�Spalte "k": Row() ist die Zeilennummer unter >Row >Row
�Spalte "H0_P(K=k|n,p)": die Einzelw'keiten der Binomialverteilung, gegeben n, k.Binomial Probability (p,n,k). finden Sie unter Functions >Discrete Probabilities > Binomial Probability.
�Spalte "H0 kumulativ": Zeilen des Datensat-zes können indiziert werden unter >Row>Subscript. Was bewirkt diese Formel?
• Wie hoch ist demnach die W'keit, dass das Medikament unter H0 (p=0.8) bei 37 (oder mehr) von 42 Patienten einen Behandlungserfolg zeigt.p=_______________
• Erbringt das neue Medikament eine signifikante Verbesserung?: _______
• Relevante Verbesserung?: _______
Folie 251
Übung 8, optional: Münzwurf, Binomialverteilung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Simulieren Sie Ihren eigenen Datensatz "Münzwurf": File >New >Data Table (Reproduzieren der Folie 4, Einheit 5: "Das Gesetz der großen Zahlen":)
• legen Sie 4 Spalten (Namen s. screen-shot rechts) und 10000 Zeilen an.
• Geben sie in jede Spalte die Formel ein, wie in den Sprechblasen rechts angegeben. Die Befehle finden Sie in den Functions des Formeleditors:
�Spalte "Wurf Nr": Row() ist die Zeilennummer unter Functions >Row >Row
�Spalte "Kopf oder Zahl (0,1)": Random Binomial (n,p) zieht eine Zufallszahl aus der Binomialverteilung. Wir verwenden n=1 und p=0.5: "0" ("Kopf") und "1" ("Zahl") sind mit p=0.5 mit gleicher W'keit zu erwarten.
�Spalte "Zahl kumulativ": Zeilen des Daten-satzes können indiziert werden unter Functions >Row >Subscript. Was bewirkt diese Formel?
�Spalte "Zahl relativ": Relative Häufigkeit für "1" ("Zahl") abhängig von "Wurf Nr".
• Visualisieren Sie den Münzwurf mit dem Graphbuilder (Graph >Graphbuilder) mit X: "Wurf Nr", Y: "Zahl relativ", mit log x-Achse
• Sampeln Sie Verläufe: Button Apply in For-meleditor zu Spalte "Kopf oder Zahl (0,1)"
Übung von Hand: Binomialverteilung
(C1) Gegeben sei eine Binomialverteilung mit p=0.2 und n=4. Berechnen Sie die Einzelw'keiten für k=0...n.
(A) Auf wieviel verschiedenen Wegen kann man beim 10-maligen Werfen einer Münze 4 mal "Kopf" erhalten (wenn die Reihenfolge nicht berücksichtigt wird)?
1. dass es sich bei 4 Kindern einer Familie um 1 Buben und 3 Mädchen handelt?Formel: Ergebnis:
2. dass unter den 4 Geschwistern mindestens eines ein Mädchen ist?Formel: Ergebnis:
(B) die Wahrscheinlichkeit einer Knabengeburt sei p=0.52, und die einer Mädchengeburt sei q=0.48. Wie groß ist dann die Wahrscheinlichkeit,
(C) Eine Glühbirnenfertigung läuft mit einem konstanten Ausschußanteil von 10%. Zur Qualitätsprüfung werden 5 Glühbirnen entnommen. Wie groß ist die W'keit, mindestens eine defekte Glühbirne unter den 5 entnommenen zu entdecken?
(C2) Zeichnen Sie die Verteilung aus (C1)
(C3) Zeichnen Sie die zu (C2) gehörige Verteilungsfunktion
P(K=k|n,p)
00.10.20.30.40.5
0 1 2 3 4k =
P(K
=k|n
,p)
P(K=k|n,p)
00.20.40.60.8
1
0 1 2 3 4k =
P(K
>=
k|n
,p)
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 9
1) Anwendung Diagnostik2) Sensitivität & Spezifität3) Positiver Vorhersagewert4) Negativer Vorhersagewert
Anwendung Epidemiologie5) Anteile & Chancen6) Relatives Risiko (RR)
mit Konfidenzintervall 7) Odds Ratio (OR)
mit Konfidenzintervall
Anwendungen von 4-Felder-Tafeln, allg.: Kontingenztafeln.
Folie 254
Korrelation / Regression Gruppenvergleiche: t-Test & Co
Logistische Überlebenszeit- Regression Analyse
�2-Test & Fishers exakter Test
X: Ursache
Y: W
irkun
g
10152025
vor-her
nach-her
BM
I
Kon
zent
ratio
n Y
1.60
1.701.80
1.902.00
A 0 BABBlutgruppe
Vorher/nachher-Ver-gleiche (ladder plot):
Diagramme und Auswertungen unter Kombination zweier Skalen:
Streudiagramm
Phä
noty
p
0.000.25
0.50
0.751.00
A1 A2 BC.Genotyp
y1
y2
y3y4y5Mosaikplot
Boxplots
Y: S
tetig
Y: N
omin
al
0.000.250.500.751.00
0 10 20 30Monate W
'kei
t (Ü
berle
ben)
W'k
eit (
Kra
nk)
00.250.500.75
1
50 60 70 80Konzentration
Ja
Nein
Kaplan-Meier-
Verfahren
X: Stetig X: Nominal
Vorausschau
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
JMP: Fit Y by X
Folie 255
Programm
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Unabhängige & Abhängige Ereignisse
grammmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm
Folie 256
1) Diagnostische Frage
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Zur Diagnose von HIV stehe Ihnen ein Test zur Verfügung, der eine Infektion mit einer W'keit von 99.9% entdeckt.
• Mit welcher W'keit ist ein Betroffener tatsächlich infiziert, wenn der Test positiv ausgefallen ist?
• Notwendige Randinformationen hierzu: Die Prävalenz von HIV beträgt in DE etwa 0.1%(1:1000), die Spezifität des Test beträgt 99%.
pro 1 000 000 Infizierte Nicht-
Infizierte
Test +
Test -
Summe
W'keit (infiziert | Test positiv) = Positive-TestInfizierte
��
�9909999
999
Ist das ein guter Test?
Folie 257
1) Diagnostik in der 4-Felder-Tafel
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Tatsächliche SituationTe
ster
gebn
is
Krank Gesund
PositivRichtige
EntscheidungA
Falschpositiv
B
positiverVorhersagewert
A / (A+B)
NegativFalsch-negativ
C
RichtigeEntscheidung
D
negativerVorhersagewert
D / (D+C)
SensitivitätA / (A+C)
SpezifitätD / (D+B)
Folie 258
1) Diagnostik - Kenngrößen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
P(krank) = Prävalenz (a priori Wahrscheinlichkeit)= Schätzwert aus Prävalenz, Inzidenz, Anamnese, etc.
P (Test = pos | krank) = Sensitivität= W'keit, einen Kranken als krank zu erkennen.
P (Test = neg | gesund) = Spezifität= W'keit, einen Gesunden als gesund zu erkennen.
P (krank | Test = pos) = positiver Vorhersagewert= W'keit, krank zu sein, wenn der Test positiv ist.
P (gesund | Test = neg) = negativer Vorhersagewert= W'keit, gesund zu sein, wenn der Test negativ ist.
Folie 259
2) Gute & schlechte diagnostische Tests
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
hoch niedrig
hoch
niedrig
Sensitivität
Spe
zifit
ät
Krank Gesund
Krank Gesund
Fals
ch-
Pos
itiv
Fals
ch-
Neg
aitiv
Fals
ch-
Pos
itiv
Fals
ch-
Neg
aitiv
Test-positiv
Test-negativ
Test-positiv
Test-negativ
Test-positiv
Test-negativ
Test-positiv
Test-negativ
-
Guter TestGesunde werden verlässlich bestätigt,
unter Kranken aber viele Falsch-negative.���������6���3�����- oder Ausschlusstest verwenden
Kranke werden mit hoher Verlässlichkeit erkannt, gleichzeitig aber viele Falsch-positive.�������7��8�������)�!���������/��������9����
vorhanden, unter Inkaufnahme Falsch-positiver.
Ungeeigneter Test
Folie 260
3) Der positiv-prädiktive Wert PPV hängt von der Prävalenz ab
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
PPV
150
350Test
positiv
Testnegativ
400
100
500
Ges
unde
500
Kra
nke
Prävalenz
50%(500 von 1000)
30%(300 von 1000)
5%(50 von 1000)
90
210560
140
700
Ges
unde
300
Kra
nkeTest
positiv
Testnegativ
760
19035
15950
Ges
unde
50 K
rank
eTestpositiv
Testnegativ
Testsituation 1000 Personen
P (krank |Test = pos)=
Sensitivität: 70%Spezifität: 80%
Sensitivität: 70%Spezifität: 80%
Sensitivität: 70%Spezifität: 80%
= 78%
= 60%
= 16%Trivial, aber irritierend: Je weniger Kranke es gibt, desto geringer ist die W'keit, dass ein Test-Positiver
als krank erkannt wird. Im Extrem: Ist die Prävalenz Null, dann ist diese W'keit (der PPV) auch Null.
=350/(350+100)
=210/(210+140)
=35/(35+190)
Folie 261
4) Der negativ-prädiktive Wert NPV hängt von der Prävalenz ab
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
NPV
150
350Test
positiv
Testnegativ
400
100
500
Ges
unde
500
Kra
nke
Prävalenz
50%(500 von 1000)
30%(300 von 1000)
5%(50 von 1000)
90
210560
140
700
Ges
unde
300
Kra
nkeTest
positiv
Testnegativ
760
19035
15950
Ges
unde
50 K
rank
eTestpositiv
Testnegativ
Testsituation 1000 Personen
P (gesund |Test =neg)=
Sensitivität: 70%Spezifität: 80%
Sensitivität: 70%Spezifität: 80%
Sensitivität: 70%Spezifität: 80%
= 73%
= 88%
= 98%Trivial, aber irritierend: Je weniger Kranke es gibt, desto höher ist die W'keit, dass ein Test-Negativer
als gesund erkannt wird. Im Extrem: Ist die Prävalenz Null, dann ist diese W'keit (der NPV) 100%.
=400/(400+150)
=560/(560+90)
=760/(760+15)
Folie 262
AddOn Excel-Rechner: Zusammenhang PPV-NPV
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Sensitivität 0.99Spezifität 0.9
Prävalenz positiver Vorhersagewert
negativer Vorhersagewert
0.00 0.00 1.000.05 0.34 1.000.10 0.52 1.000.15 0.64 1.000.20 0.71 1.000.25 0.77 1.000.30 0.81 1.000.35 0.84 0.990.40 0.87 0.990.45 0.89 0.990.50 0.91 0.990.55 0.92 0.990.60 0.94 0.980.65 0.95 0.980.70 0.96 0.970.75 0.97 0.970.80 0.98 0.960.85 0.98 0.940.90 0.99 0.910.95 0.99 0.831.00 1.00 0.00
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Prävalenz
positiverVorhersagewertnegativerVorhersagewert
Folie 263
5) Bayes-Formeln
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Positiver Vorhersagewert P(krank | Test=pos)
Negativer Vorhersagewert P(gesund | Test=neg)
Spez)-(1Prävalenz)-(1SensPrävalenzSensPrävalenz
����
�
Sens)-(1 PrävalenzSpezPrävalenz)-(1SpezPrävalenz)-(1
����
�
"richtig-Positive" "falsch-Positive"
"richtig-Negative" "falsch-Negative"
Folie 264
5) ELISA-Test auf HIV-Infektion
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
infiziert nicht infiziert
Test +
Test -
Summe
0.999 x 0.002 0.01 x 0.998
0.99 x 0.9980.001 x 0.002
0.002 0.998
Prävalenz= 0,2 %
Sensitivität= 99,9 %Spezifität= 99,0 %
P (infiziert |Test = +)
%16.70.010.9980.9990.002
0.9990.002
����
��
positiver Vorhersagewert
99.999%0.0010.0020.990.998
0.990.998
����
��
negativer Vorhersagewert
P (nicht infiziert |Test = -)
Folie 265
M E R K Z E T T E L
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Bestätigungstest: Man möchte bei den Untersuchten wenig falsch-positive Ergebnisse haben, also muss die Spezifität hoch sein (z. B. nach Überweisung)
Fazit 3: Bei hoher Prävalenz
Screeningtest: Man möchte bei den Untersuchten wenig falsch-negative Ergebnisse haben, also muss die Sensitivität hoch sein (z. B. Röntgen-Reihenuntersuchung)
Fazit 2: Bei niedriger Prävalenz
Ohne Kenntnis der Erkrankungsprävalenzkann man aus einem positiven bzw. negativen Testergebnis nicht die Wahrscheinlichkeit für Krankheit bzw. Gesundheit des Patienten bestimmen.
Fazit 1
Folie 266
5) Epidemiologie: Anteile, Chancen & Risiken
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Desinfektion
Übe
rlebe
n
Anteile: )( caa �)( dbb �
Chancen, Quoten: a/c, b/d
Odds Ratio (Chancenquotient)
db
caOR �
Relatives Risiko
dbb
caaRR
���
ohne mitja a=17 b=38 a+b=55
nein c=18 d=7 c+d=25
a+c=35 b+d=45 n=80 Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.
Folie 267
6) Relatives Risiko
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Risiko
Desinfektion
Übe
rlebe
n ohne mitja a=17 b=38 a+b=55
nein c=18 d=7 c+d=25
a+c=35 b+d=45 n=80
dbb
caa
RR
�
��
Ohne Desinfektion beträgt der Anteil der Überlebenden
17/35=48.6%
Mit Desinfektion beträgt der Anteil der Überlebenden
38/45=84.4%
Insgesamt ist der Anteil Überlebender unter Nicht-Desinfektion
0.58 mal höher als unter Desinfektion
Folie 268
6) RR: das Interessierende ins Feld a
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Desinfektion
Übe
rlebe
n ohne mitja a=17 b= 38 a+b=55
nein c=18 d=7 c+d=25
a+c=35 b+d=45 n=80
dbb
caa
RR
�
��Ohne Desinfektion beträgt der Anteil der Überlebenden
17/35=48.6%
Mit Desinfektion beträgt der Anteil der Überlebenden
38/45=84.4%
Der Anteil Über-lebender ist unter Desinfektion 1.74 mal höher als unter Nicht-Desinfektion
Desinfektion
Übe
rlebe
n mit ohneja a=38 b=17 a+b=55
nein c=7 d=18 c+d=25
a+c=45 b+d=35 n=80
Ist das RR=1.74 vertrauenswürdig, oder könnten sich
die Effekte auch im Bereich des RR=1
bewegen
Folie 269
6) Konfidenzintervalle für Relative Risiken
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• ln(RR) ist für großes n näherungsweise normalverteilt mit Standardfehler
• Konfidenzintervall für ln(RR):
• delogarithmieren: Konfidenzintervall für RR
dbbcaaSE R �
���
��1111
R)ln(
R)ln(2/1R)ln( RSEzR �� ��
die Interessierenden (Überlebende),
über die ich eine Aussage
machen möchte
die Gruppe, über die ich die Aussagemache (Mit
Desinfektion)
die Interessier-enden in der Vergleichs-
gruppe (Überlebende)
die Gruppe, mit der ich vergleiche
(Ohne Desinfektion)
[elinke Grenze bis erechte Grenze]Folie 270
6) Konfidenzintervalle für Relative Risiken
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
ln
Konfidenz-intervall
für ln(RR)berechnen
exp[0.19 bis 0.92][1.2 bis 2.5]
RR ln(RR)
Folie 271
6) Konfidenzintervalle für Relative Risiken
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
74.1���
�db
bca
aRR
554.0R)ln( �R
]92.0bis19.0[185.01.96554.0)RRln( )RRln(2/1 ������ � SEz �
]5.22.1[]bis[ 92.019.0 bisee �
Desinfektion
Übe
rlebe
n mit ohneja a=38 b=17 a+b=55
nein c=7 d=18 c+d=25
a+c=45 b+d=35 n=80
Konfidenzintervall für
asymmetrisch zu RR=1.74
Standardfehler:
Quantil:
Der Anteil Überlebender ist durch die Desinfektion um einen Faktor gewachsen, der mit 95%iger Sicherheit zwischen 1.2 und 2.5 liegt.
185.0351
171
451
381
R)ln( �����RSE
1.9696.1
0.975
025.0
���
zz
Folie 272
6) RR in Statistik software
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Desinfektion
Übe
rlebe
n mit ohneja a=38 b=17 a+b=55
nein c=7 d=18 c+d=25
a+c=45 b+d=35 n=80
Unter Desinfektion ist der Anteil Überlebender 1.7 mal höher als unter Nicht-Desinfektion
Wenn nicht desinfiziert wird beträgt der Anteil Überlebender das 0.575-fache(verglichen mit Desinfektion )
Der Anteil Nicht-Überlebender ist 3.3 mal höher, wenn nicht desinfiziert wird
Der Anteil Nicht-Überlebender unter Desinfektion beträgt das 0.3-fache verglichen mit Nicht-
Desinfektion
Folie 273
7) Odds Ratio
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Anteile: )( caa �)( dbb �
Chancen, Quoten: a/c, b/d
Odds Ratio (Chancenquotient)
db
caOR �
Relatives Risiko
dbb
caaRR
���
Desinfektion Ü
berle
ben ohne mit
ja a=17 b=38 a+b=55
nein c=18 d=7 c+d=25
a+c=35 b+d=45 n=80 Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.
Folie 274
7) Odds Ratio (OR, Chancenquotient)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
75.518/177/38
//OR ���dbca
Ohne Desinfektion überleben 17/18=0.94 mal soviele die OP
Mit Desinfektion überleben 38/7=5.4 mal soviele die OP
Unter Desinfektion gibt es 5.7 mal so viel Überlebende (verglichen mit
Nicht-Desinfektion)
hancenquotieieeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeiii ntnnnnnnntnnnnnnntnnnnnnnnnnnnntnnttttntttnntttttt)
Desinfektion
Übe
rlebe
n mit ohneja a=38 b=17 a+b=55
nein c=7 d=18 c+d=25
a+c=45 b+d=35 n=80
ohne mit
nein 18 7
ja 17 38
Folie 275
7) Konfidenzintervalle für Odds ratios
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• OR ist positiv, ln(OR) ist für großes n näherungsweise normalverteilt mitStandardfehler
• Das Konfidenzintervall für ln(OR) erhält man durch delogarithmieren:
dcbaSE 1111
ln(OR) ����
� �
345
678 ��
�
��
��
�
�
�
ln(OR)2/1
ln(OR)2/1
ln(OR)2/1
ORbisOR
ln(OR)
SEzSEz
SEz
ee
eORCI
�
�
�
Folie 276
7) Konfidenzintervalle für Odds Ratios
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
ln
Konfidenz-intervall
für ln(OR)berechnen
exp[0.705 bis 2.79][2.0 bis 16.3]
OR ln (OR)
Folie 277
7) Konfidenzintervalle für Odds Ratios
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
57.518/177/38
//OR ���dbca
53250181
71
171
381
ln .SE (OR) �� ���
1.749ln(OR) �1.96
96.1
0.975
025.0
���
zz
]2.79bis0.705[0.53251.961.749ln(OR) ln(OR)2/1 ������ � SEz �
]3.61bis0.2[]bis[ 2.790.705 �ee
Konfidenzintervall für
asymme-trisch zuOR=5.75
Standardfehler:
Quantile:
Die Überlebenschance ist durch Desinfektion um einen Faktor gewachsen, der mit 95%iger Sicherheit zwischen 2 und 16.3 liegt.
Desinfektion
Übe
rlebe
n mit ohneja a=38 b=17 a+b=55
nein c=7 d=18 c+d=25
a+c=45 b+d=35 n=80
Folie 278
7) OR in Statistik software
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Desinfektion
Übe
rlebe
n mit ohneja a=38 b=17 a+b=55
nein c=7 d=18 c+d=25
a+c=45 b+d=35 n=80
Folie 279
M E R K Z E T T E L
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Das Relative Risiko beschreibt Anteilsunterschiede zwischen zwei Gruppen
• Das Odds Ratio beschreibt Chancen-unterschiede zwischen zwei Gruppen
• Allgemeines "Nenner-Problem": Division bei kleinem Nenner übertreibt Effekte
• Abhilfe: Konfidenzintervalle für OR und RR (kritische Grenze ist die 1).
dbca
OR �
dbb
caa
RR�
��
dcbaSE 1111
ln(OR) ����
dbbcaaSE R �
���
��1111
R)ln(
Übung von Hand: Odds Ratio & Relatives RisikoIn einer klinischen Vorstudie wurde an 100 Probanden der Blutdruck gemessen und zur Ernährungsweise in Beziehung gesetzt:
ja neinja a=25 b=25 50
nein c=35 d=15 5060 40 100
Vegetarier
Hyp
erto
nie
A1: Veranschaulichen Sie das Studienergebnis durch einen Mosaikplot
A2: Wie hoch ist der Anteil von Hypertonikern bei ...?Vegetariern : _______%Fleischessern : _______%
C1: Wie hoch das relative Risiko für Hypertonie bei Fleischessern, bezogen auf die Vegetarier?
C2: Wie lautet das Konfidenzintervall für das RR?1. Schritt: Berechnung des Standardfehlers für ln RR:
2. Schritt: Berechnung des Konfidenzinter-valls für ln RR:
3. Schritt: Rücktransformation des Konfidenzintervalls:
A3: Wie ist das Verhältnis von Fleischessern : Vegetariern bei ...?Hypertonikern : __________Gesunden :___________
In der Studie wurde also festgestellt, dass es bei ________________ (Gesunden / Hyper-tonikern?) 2.3 mal mehr Fleischesser als Vegetarier gibt.B2: Wie lautet das Konfidenzintervall für das OR?
2. Schritt: Berechnung des Konfidenzinter-valls für ln OR:
1. Schritt: Berechnung des Standardfehlers für ln OR:
3. Schritt: Rücktransformation des Konfidenzintervalls:
B1: Wie hoch ist das Odds Ratio (OR) für Fleischesser, unter Hypertonie zu leiden?
4. Schritt: Beurteilung: das OR ist mit 95%iger Sicherheit ________________ (verschieden/nicht verschieden) vom Wert 1. Es ist daher festzustellen, dass es unter Hypertonikern vermehrt _____________ (Fleischesser/ Vegetarier) gibt.
4. Schritt: Beurteilung: das RR liegt mit 95%iger Sicherheit im Bereich von ___ bis ___. Das Hypertonie-Risiko unterscheidet sich demzufolge zwischen Fleischessern und Vegetariern: ____ (ja/nein?).
In der Studie wurde also festgestellt, dass ____________ (Vegetarier / Fleischesser?) ein _____-fach höheres Risiko für Hypertonie besitzen.
Fleischesser
Blut
hoch
druc
k
0.00
0.25
0.50
0.75
1.00
Ja NeinVegetarier
Ja
Nein
� �
�
����dcba
ORlnSE 1111
� � � ��
��� ORlnSE.ORlnORlnCI 961
� � !�� 66.101.0 ebiseORCI
� � � ����� caa
dbbRR
� �
��
���
��dbbcaa
RRlnSE 1111
� � � ��
��� RRlnSE.RRlnRRlnCI 961
� � !��RRCI
� � � ��� cd
abOR
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 9• OR/RR mit
Konfidenzintervallen
Folie 282
OR/RR mit Konfidenzintervallen: von Hand
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Odds Ratio Relative Risk
Untersuchen Sie im Lehrdatensatz anhand des RR und des OR und deren Konfidenz-intervallen, ob sich bei Verheirateten ein höheres Risiko für Depressionen aufzeigt.
Einflussvariable: famStatusZielvariable: depression
4-Felder-Tafel depr
essi
on
famStatus
7.2126/5288/31OR ��
married single
yes 31 5 36
no 288 126 414
319 131 450
"unter den Verhei-rateten findet man 2.7 mal mehr Depressive als bei Singles"
9 :9 :1.7;03.1%95
96.1;026.04936.096.19933.0
4936.0126
12881
51
311
9933.0)7.2ln()ln(
ln(OR)
CI
SE
OR
���
�����
��
� �� � 55.2
126552883131
���
�RR
� �
9 :9 :40.6;01.1%95
015.0;86.147.096.1936.0
47.01311
51
3191
311
936.0ln
R)ln(
CI
SE
RR
R
���
�����
�
"Das Risiko einer De-pression ist unter Ver-heirateten 2.55 mal höher als bei Singles"
Beachte: das RR darf eigentlich nur aus Kohortenstudien ermittelt werden (s. Folie "Wieso darf man aus einer Fall-Kontroll-Studie kein Relatives Risiko berechnen?").
Folie 283
OR/RR mit Konfidenzintervallen: JMP
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Untersuchen Sie im Lehrdatensatz anhand des RR und des OR und deren Konfidenz-intervallen, ob sich bei Verheirateten ein höheres Risiko für Depressionen aufzeigt.
P(no|married)/P(no|single)P(no|single)/P(no|married)P(yes|married)/P(yes|single)P(yes|single)/P(yes|married)
Description0.9386481.0653632.5460820.39276
RelativeRisk
0.8932291.0138131.0122180.156145
Lower 95%0.9863751.1195346.4042850.98793
Upper 95%
Relative Risk
0.368664Odds Ratio
0.140105Lower 95%
0.970076Upper 95%
Odds Ratio
depr
essi
on
0.00
0.25
0.50
0.75
1.00
married singlefamStatus
no
yes
fam
Sta
tus
marriedsingle
288 31126 5
319131
414 36 450
depressionCount no yes
Contingency Table Vorsicht: wie ist die Kontin-genztafel angeordnet?
Welche Kombination interessiert uns eigentlich?
Was wird hier durch was geteilt?
ExponiertNicht
exponiertKrank (Fälle) 31 5 36Nicht krank (Kontrollen) 288 126 414
319 131 450
SE ln(*R) lower CL upper CLRR 2.5461 0.4706 1.01 6.40OR 2.7125 0.4936 1.03 7.14
OR & RR doch lieber von Hand rechnen? Meine Einstellung: also ich habe mir (ein für alle mal) eine Excel-Tabelle gemacht – und bei der weiß ich, was ich durch was dividiert habe:
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 10• Spezielle Schätzverfahren• Varianzanalyse 1• F-Test
Folie 285
Wiederholung &
Programm
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Vergleich von 2 Gruppeng
Vergleich von mehreren Gruppen:Folie 286
Varianzanalyse (ANOVA)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
engl.: ANalysis Of VAriance
Einflussfaktoren
Patient
Merkmal und seine Ausprägungen
diastolischerBlutdruck[mm Hg]
60.0,60.1.60.2,...
Bisher konnten wir lediglich den Einfluss des einzelnen Faktors untersuchen
Geschlecht
nominal(F/M)
Anzahl Kinder
ordinal, diskret (0,1,2,3)
Alter
stetig oder diskret
Folie 287
Varianzanalyse (ANOVA): erste Schritte
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
engl.: ANalysis Of VAriance
Patient
Merkmal und seine Ausprägungen
diastolischerBlutdruck[mm Hg]
60.0,60.1.60.2,...
Anzahl Kinder
ordinal, diskret (0,1,2,3)
Einflussfaktoren
Mit dem t-Test konnten wir bisher lediglich 2 Gruppen miteinander vergleichen
Geschlecht
nominal(F/M) Mit einer
ANOVA können wir mehrere Gruppen miteinander vergleichen
Folie 288
Grundannahme der Varianzanalyse
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Herzminutenvolumen [Liter/Min]
4,0 5,0 5,54,5 6,0
Früchte-EsserSpaghetti-EsserSteak-EsserKontrollen
Die Beobachtungen der Stichprobe entstammen einer (1!) normalverteilten Grundgesamtheit
H0
Folie 289
… die Beobachtungen nach Farbe gruppiert:
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Früchte
Spaghetti
Steak
Kontrolle
Sind die beobachteten Unterschiede auf die unterschiedlichen Diäten zurückzuführen oder einfach auf zufällige Streuung?
Folie 290
'Unzufällige' Mittelwertsverschiebung erhöht die Varianz
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Früchte
Spaghetti
Steak
Kontrolle
Die Stichproben sind jetzt "verschiedener", weil die Streuung zwischen den Mittelwerten größer ist,
als man aufgrund der Streuung der Werte Innerhalb jeder Stichprobe erwarten würde
Folie 291
Mittelwertsverschiebung außerhalb des Erwarteten
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Früchte
Spaghetti
Steak
Kontrolle
Wenn sich der Mittelwert einer Stichprobe deutlich von den anderen unterscheidet,ist die Streuung der Mittelwerte größer,
als man es aufgrund der Streuung der Werte innerhalb der Gruppen erwarten würde.
Folie 292
Varianz innerhalb der Gruppen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
4
22222 dcbawithin
sssss ����
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ / Inst. Med. Biometrie, www.
2as
2bs
2cs
2ds
Varianz der Gruppe a
Varianz der Gruppe b
Varianz der Gruppe c
Varianz der Gruppe d
Folie 293
Varianz zwischen den Gruppen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Früchte
Spaghetti
Steak
Kontrolle
Früchte
Spaghetti
Steak
Kontrolle� � � � � � � �
1
222222
��������
��G
dcbaSxSbetween n
xxxxxxxxnsns
Standard-fehler:
Sx n
ss � 22xSbetween sns �
Varianz zwischen
den Gruppen
Stichproben-umfang pro Gruppe (hier: 7)
Varianz der Stichproben-Mittelwerte
Anzahl Gruppen
(hier: 4)
Folie 294
Nullhypothese & Alternativhypothese
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
= F-Wert
Wenn es keinen Lage-unterschied zwischen den Gruppen gibt, dann ist die
1
.
2
2
22
�
�
within
between
withinbetween
ssbzw
ss
H0 H1
Varianz innerhalb
der Gruppen
Varianz zwischen
denGruppen
=
Wenn es einen Lage-unterschied zwischen den Gruppen gibt, dann ist die
1
.
2
2
22
0
0
within
between
withinbetween
ssbzw
ss
Varianz innerhalb
der Gruppen
Varianz zwischen
denGruppen
>
1
Folie 295
Verteilung(en) des F-Werts
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Wenn F einen großen Wert annimmt, ist die Streuung zwischen denStichprobenmittelwerten größer als aufgrund der Streuung innerhalb derStichproben erwartet. Dann wird die Hypothese, dass alle Stichprobenaus derselben Grundgesamtheit stammen, abgelehnt.
�� 2
2
within
between
ssF
Varianz der Grundgesamtheit,geschätzt aus den Stichprobenmittelwerten
Varianz der Grundgesamtheit,geschätzt als Durchschnitt der Stichprobenvarianzen
• Abhilfe: Jede Kombination aus Gruppenzahl und Stichprobengröße hat ihre eigene F-Verteilung, die über verbleibende Freiheitsgrade FG definiert wird:
Wann ist ein F-Wert ein "großer" F-Wert?
Ähnlich wie schon beim �2-Test
between: FGZähler = nG -1within: FGNenner = nG*(nS-1)
F-Verteilung mit 3/24 FG
• Problem: Je mehr Gruppen (nG), oder je höher der Stichprobenumfang (nS) pro Gruppe, desto mehr Variabilität erwarten wir in den F-Werten, die man aus den verschiedenen Kombinationen erhalten würde.
• Beispiel von vorher: 4 Gruppen mit je 7 Personen:between: FGZähler = 4 -1 = 3within: FGNenner = 4*(7-1) = 24
Folie 296
F-Verteilung(en)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
00.10.20.30.40.50.60.70.80.9
1
0.1 1 10F
p(F,
FG-Z
ähle
r,FG
-Nen
ner) F(1,5)
F(1,10)F(1,100)F(2,5)F(2,10)F(2,100)F(5,5)F(5,10)F(5,100)F(10,5)F(10,10)F(10,100)
2 Gruppen3 Gruppen6 Gruppen11 Gruppen
Freiheits-grade Zähler
Freiheits-grade
Nenner
Für F<1 (z.B. 0.2) gibt es keine Interpretation außerhalb des Zufalls. In diesen Fällenwird H0 beibehalten, aber auch überprüft, ob sich nicht ein unzufälliger (systematischer)Fehler in die Erhebung eingeschlichen hat (z.B. unzufällige Stichprobenziehung).
Folie 297
Auswertung (kein Gruppenunterschied)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
in JMP in Excel
=VARIANZ(B2:B5)*7
=SUMME(C2:C5)/4
=B7/C8
Folie 298
Vom F-Wert zum p-Wert
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0
0.2
0.4
0.6
0.8
1
0.01 0.1 1 10F
p(F,
3,24
)
Schritt 1: Freiheitsgrade ermitteln:4 Gruppen (nG=4), je nS=7 ergibt FGZähler=nG-1=3, FGNenner=nG(nS-1)=4*6=24
Schritt 2: p-Wert für F=0.47 in F(3,24)-Verteilung ermitteln
��F(3,24)
Folie 299
Auswertung (mit Gruppenunterschied)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
in JMP in Excel
=VARIANZ(B2:B5)*7
=SUMME(C2:C5)/4
=B7/C8
Folie 300
Vom F-Wert zum p-Wert
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0
0.2
0.4
0.6
0.8
1
0.01 0.1 1 10F
p(F,
3,24
)
Schritt 1: Freiheitsgrade ermitteln:4 Gruppen (nG=4), je nS=7 ergibt FGZähler=nG-1=3, FGNenner=nG(nS-1)=4*6=24
Schritt 2: p-Wert für F=14.3 in F(3,24)-Verteilung ermitteln
��F(3,24)
Folie 301
ANOVA: allgemeine Vorgehensweise
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• between-Varianz (s2between) und
within-Varianz (s2within) ermitteln
• F-Wert als Quotient : F= s2between/ s2
within• Freiheitsgrade ermitteln:
between: FGZähler = nG -1within: FGNenner = nG *(nS -1)
• F-Verteilung(FGZähler ,FGNenner) suchen• p-Wert ablesen• Ergebnis formulieren
(H0 ablehnen/nicht ablehnen)
Folie 302
Bsp.: Lehrdatensatz: Unterschiede - und doch normalverteilt?
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
70
80
90
100
110
120
0.05 0.15Probability
70
80
90
100
110
120
BP
dia
0 1 2 3#children
S hapi r o- W i lk W T es t
0.995898W
0.3944P ro b < W
G o o d n e s s -o f-F i t Te
#childrenErrorC. Total
Source3
392395
DF388.463
21215.42321603.886
Sum ofSquares
129.48854.121
Mean Square2.3926F Ratio
0.0681Prob > F
Analysis of Variance
Die ANOVA wird nicht signifikant H0 kann nicht verworfen werden
Folie 303
Bsp.: Lehrdatensatz: Unterschiede - noch "normalverteilter"?
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
70
80
90
100
110
120
0.05 0.15Probability
S hap i r o- W i lk W T es t
0.996 763W
0.616 1P ro b < W
G o o d n e s s -o f-F i t T
70
80
90
100
110
120
BP
dia2
0 1 2 3#children
#childrenErrorC. Total
Source3
392395
DF3042.908
21215.42324258.331
Sum ofSquares
1014.3054.12
Mean Square18.7414
F Ratio<.0001*Prob > F
Analysis of Variance
Die ANOVA wird signifikant H0 wird verworfen......obwohl die Normalvertei-lungsannahme weiterhin gilt
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 10• ANOVA "von Hand"
rechnen in Excel
Folie 306
ANOVA "von Hand" in Exceldownload: "E09 ANOVA Spaghetti.xls" von ILIAS
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
ANOVA in Excel:Daten: Kontrolle Spaghetti Steak Früchte
4.6 4.6 4.3 4.3 Stichprobenumfänge4.7 5 4.4 4.4 Anzahl Gruppen: 44.7 5.2 4.9 4.5 Beob. pro Gruppe: 74.9 5.2 4.9 4.95.1 5.5 5.1 4.95.3 5.5 5.3 5 Teststatistik5.4 5.6 5.6 5.6 gesamt: DF SAQ MS F-Wert p-Wert
Mittelwert 4.9571 5.2286 4.9286 4.8000 4.9786 gesamt 27 4.5071SAQbetween 0.0005 0.0625 0.0025 0.0319 between 3 0.6814 0.2271
gewichtet: 0.0032 0.4375 0.0175 0.2232 0.6814 within 24 3.8257 0.1594 1.4249 0.2600
SAQ within: Kontrolle Spaghetti Steak Früchte SAQ gesamt: Kontrolle Spaghetti Steak Früchte0.1276 0.3951 0.3951 0.2500 0.1433 0.1433 0.4605 0.46050.0661 0.0522 0.2794 0.1600 0.0776 0.0005 0.3347 0.33470.0661 0.0008 0.0008 0.0900 0.0776 0.0490 0.0062 0.22900.0033 0.0008 0.0008 0.0100 0.0062 0.0490 0.0062 0.00620.0204 0.0737 0.0294 0.0100 0.0147 0.2719 0.0147 0.00620.1176 0.0737 0.1380 0.0400 0.1033 0.2719 0.1033 0.00050.1961 0.1380 0.4508 0.6400 gesamt 0.1776 0.3862 0.3862 0.3862 gesamt
SAQwithin 0.5971 0.7343 1.2943 1.2000 3.8257 SAQgesamt 4.5071
4.25
4.5
4.75
5
5.25
5.5
5.75
Her
zMin
uten
Vol
umen
a_Fr
ücht
e
b_S
pagh
etti
c_S
teak
d_K
ontro
lle
groupErrorC. Total
Source3
2427
DF0.68142863.82571434.5071429
Sum ofSquares
0.2271430.159405
Mean Square1.4249F Ratio
0.2600Prob > F
Analysis of Variancein JMP:
2
�
� �
� � MWMWGesamtGruppe
Gruppe
between
nSAQ�
�SAQgewichtetbetween
2
. �
� �
� � MWGruppe
Beob
SAQdieser
Gruppe
�SAQwithin
2
. ��
�� � MW
Gesamt
Beob
�SAQgesamt
=SAQ / DF =MSbetween / MSwithin
=FVERT (F-Wert; FGbetween;FGwithin)
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Einheit 11• Spezielle Schätzverfahren:
Varianzanalyse 2• Prinzip kleinste Quadrate• Ein- / zweifaktoriell• Wechselwirkungen
zwischen Einflussvariablen (Interaktionseffekte)
• Messwiederholungen
Folie 308
Wiederholung & Programm
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Varianz zwischen den Gruppen
Varianz innerhalb der GruppenF=• ANOVA mit
Messwiederholung• Herleitung über Summe der
Abweichungsquadrate(SAQ)
Folie 309
Grundannahme der Varianzanalyse
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Wenn die Beobachtungen der Stichprobe einer (1!) normalverteilten Grundgesamtheit entstammen,
dann ist zu erwarten, dass die Varianz zwischen den Gruppenmittel-werten ungefähr derjenigen entspricht, die die Werte innerhalb der Gruppe haben.
Wenn die Varianz zwischen den Gruppenmittelwerten verschieden ist von derjenigen, die die Werte innerhalb der Gruppe haben,
dann ist zu erwarten, dass mindestens eine der Stichproben aus einer anderen Grundgesamtheitentstammt.
Umkehrschluss:
Folie 310
Grundannahme der Varianzanalyse
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Merke: Eine ANOVA ist nur statthaft, wenn die Voraussetzungen erfüllt sind:
Diese sind:
1) normalverteilte Daten2) keine ungleichen Varianzen
zwischen den Gruppen
Folie 311
Datenbeispiel (einfaktorielle ANOVA)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
TherapiegruppeKontrolle Spaghetti Steak Früchte
4.6 4.6 4.3 4.34.7 5.0 4.4 4.44.7 5.2 4.9 4.54.9 5.2 4.9 4.95.1 5.5 5.1 4.95.3 5.5 5.3 5.05.4 5.6 5.6 5.6
Mittelwert Therapien (Spalten) 4.96 5.23 4.93 4.80
SAQ für Therapien (Spalten) 0.597 0.734 1.294 1.200
Gesamtmittel = 4.98, � aller SAQ = 4.507
4.25
4.5
4.75
5
5.25
5.5
5.75
Her
zmin
uten
volu
men
a_Kontrol le b_Spaghetti c_Steak d_FrüchteTherapie
"Summe der Abweichungsquadrate"
Faktor = Therapie
Folie 312
ANOVA: Formalitäten
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
� �� �i
i xx 211
1x 2x 3x 4x� �� �
ii xx 2
22 � �� �i
i xx 233 � �� �
ii xx 2
44
x � ��� �t i
ti xx 2
Eine wichtige Beziehung:Die Varianz ist
� �
1
1
2
2
��
�
���
nSAQ
n
xxs j
j
Therapiegruppet=1 t=2 t=3 t=4
i=1 x11 x21 x31 x41
i=2 x12 x22 x32 x42
i=3 x13 x23 x33 x43
i=4 x14 x24 x34 x44
i=5 x15 x25 x35 x45
i=6 x16 x26 x36 x46
i=7 x17 x27 x37 x47
Mittelwert Therapien (Spalten)
SAQ für Therapien (Spalten)
Gesamtmittel = , � aller SAQ = "Summe der Abweichungsquadrate"
Folie 313
Varianz zwischen den Gruppen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Die Varianz zwischenden Gruppen ist:
Therapiegruppet=1 t=2 t=3 t=4
i=1 x11 x21 x31 x41
i=2 x12 x22 x32 x42
i=3 x13 x23 x33 x43
i=4 x14 x24 x34 x44
i=5 x15 x25 x35 x45
i=6 x16 x26 x36 x46
i=7 x17 x27 x37 x47
Mittelwert Therapien (Spalten)
SAQ für Therapien (Spalten)
Gesamtmittel = , � aller SAQ =
� �� �i
i xx 211
1x 2x 3x 4x� �� �
ii xx 2
22 � �� �i
i xx 233 � �� �
ii xx 2
44
x � ��� �t i
ti xx 2
� �
1
1
2
2
��
�
���
t
between
t
tt
nSAQ
n
xxs
Summe der Abweichungsquadrate
zwischen den Gruppenmittelwerten
Folie 314
Varianz innerhalb der Gruppen
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Therapiegruppet=1 t=2 t=3 t=4
i=1 x11 x21 x31 x41
i=2 x12 x22 x32 x42
i=3 x13 x23 x33 x43
i=4 x14 x24 x34 x44
i=5 x15 x25 x35 x45
i=6 x16 x26 x36 x46
i=7 x17 x27 x37 x47
Mittelwert Therapien (Spalten)
SAQ für Therapien (Spalten)
Gesamtmittel = , � aller SAQ =
� �� �i
i xx 211
1x 2x 3x 4x� �� �
ii xx 2
22 � �� �i
i xx 233 � �� �
ii xx 2
44
x � ��� �t i
ti xx 2
Die mittlere Varianz innerhalb der Gruppen ist:
� �
� �11
1
1 2
2
��
�
��
��
i
within
t
i
t itti
t
nSAQ
n
n
xxns
41( )++ ++ ++
oder so: Die mittlere Varianz innerhalb der Gruppen ist:
� �� � � � � � � �
� � � � � � � �
�
� �
��
����
�
�
�
�
�
��������
�
�
�
�
�
��
�
��
�
��
�
��
����
����
��������
����
11
141
111141
41
4321
244
233
222
211
4
244
3
233
2
222
1
211
24
23
22
21
it
i
ii
ii
ii
ii
t
ii
t
ii
t
ii
t
ii
tttt
nSAQSAQSAQSAQ
n
n
xxxxxxxx
n
xx
n
xx
n
xx
n
xx
ssss
Folie 315
Freiheitsgrade FGbetween und FGwithin
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Die mittlere Varianz innerhalb der Gruppen ist:
� �12
��
it
within
nnSAQs
Die Varianz zwischenden Gruppen ist:
12
��
t
between
nSAQs
Im Zähler des F-Werts: Im Nenner des F-Werts:
FGbetween FGwithin
nt=Anzahl Therapiegruppen, ni=Anzahl Probanden je Gruppe
Terminologie: die Varianzen werden bei ANOVAs in der Regel als "mittlere Quadratsummen" (MQ, mean squares, oder MS) bezeichnet
(die in Statistik-Programmen dann auch aufgeführt werden):
withinwithin
within MQFGSAQ
�betweenbetween
between MQFGSAQ
�
im Bsp.:FGbetween =3
im Bsp.:FGwithin =24
Folie 316
Varianzzerlegung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
= + + +
TherapiegruppeKontrolle Spaghetti Steak Früchte
4.6 4.6 4.3 4.34.7 5.0 4.4 4.44.7 5.2 4.9 4.54.9 5.2 4.9 4.95.1 5.5 5.1 4.95.3 5.5 5.3 5.05.4 5.6 5.6 5.6
Mittelwert Therapien (Spalten) 4.96 5.23 4.93 4.80
SAQ für Therapien (Spalten) 0.597 0.734 1.294 1.200
Gesamtmittel = 4.98, � aller SAQ = 4.507
Wichtige Beziehung: SAQbetween und SAQwithin
ergeben zusammen die Summe der SAQ der
einzelnen Beobachtungen:
SAQtotal=SAQbetween+SAQwithin
� �
� � � � � � � � !� � � � ! !
0.681=0.0319+0.0025+0.0625+0.00057
...98.423.598.496.47 22
24
23
22
21
2
��������
��������
�� �xxxxxxxxn
xxnSAQ
i
ttibetween
SAQwithin
= 3.826
= 0.681 + 3.826 Folie 317
...Randbemerkung zur letzten Folie
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
� �� ��t
tibetween xxnSAQ 2aus vorheriger Folie:
Warum steht hier der Stichprobenumfang pro Gruppe?
Erinnerung:
Antwort: 1. Wir haben die Varianz berechnet, indem wir die Standardabweichung der Stichprobenmittelwerte als Schätzer für den Standardfehler des Mittelwerts (des Mittelwerts der Mittelwerte)
genommen haben.
2. Die Summe der Abweichungsquadrate beträgt das 7-fache, wenn jeder dieser Mittelwerte aus 7 Probanden gebildet wurde.
Folie 318
Zusammenfassung: Kenngrößen der ANOVA
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
159.024826.3
227.03681.0
���
���
within
withinwithin
between
betweenbetween
FGSAQMQ
FGSAQMQ
2724324)17(4
314
������
���
total
within
between
FGFG
FG
425.1159.0227.0
�
�
�within
between
MQMQF
4.507=
3.826=
0.681=
total
within
between
SAQSAQ
SAQ
0
0.2
0.4
0.6
0.8
1
0.01 0.1 1 10F
p(F,
3,24
)
F-Verteilung mit 3 und 24 FG:
Folie 319
Praxis: Lehrdatensatz
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
#children (diskret)
Blutdruck (stetig)
#children (nominal)
Blutdruck(stetig)
Regression ANOVA
Gibt es einen Zusammenhang zwischen dia-stolischem Blutdruck und Zahl der Kinder?
Antwort: • ????• Regression nicht besonders geeignet,
da Kinderzahl diskret & evtl. nicht-linearer Zusammenhang vorliegt
Antwort:• Gruppenunterschied nicht signifikant:
Eine künstliche Änderung des Datentyps (hier diskret � nominal) kann sinnvoll sein.
80
90
100
110
120
BP
dia
0 1 2 3#children
80
90
100
110
120
BP
dia
0 0.5 1 1.5 2 2.5 3#children
Folie 320
Praxis: Lehrdatensatz
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Gibt es einen Zusammenhang zwischen dia-stolischem Blutdruck und Zahl der Kinder?
Sind Daten normalverteilt?
Überprüfung der Voraussetzungen (sollte man eher am Anfang machen):
Ungleiche Varianzen zw. Gruppen?
O'Brien[.5]Brown-ForsytheLeveneBartlett
Test0.74110.16570.17340.5467
F Ratio3333
DFNum392392392
.
DFDen0.52810.91950.91440.6503
Prob > F
55555555555444444444333333333
[Der F-Test wird hier derart durchgeführt, dass diebeobachteten Varianzen pro Gruppe (im Zähler) inBezug zur theoretischen Varianz unter H0 (imNenner) gesetzt werden. Wie sonst: ein großer F-Wert weist dann auf eine starke Abweichungzwischen beobachteter Varianz und "H0-Varianz"und zeigt eine signifikante Abweichung von H0 an.]
Ergebnis: Analyse war statthaft,da einer normalverteilten Grund-gesamtheit & ungleichen Vari-anzen nicht widersprochen wird.
Shapiro-Wilk W Test
0.995898W
0.3944Prob<W
Note: Ho = The data is from the Normal distribution.Small p-values reject Ho.
Goodness-of-Fit Test
80 90 100 110 120
Normal(94.947,7.3955)
diastolischer Blutdruck (BPdia)
Folie 321
Praxis: Lehrdatensatz
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
0
100000
200000
300000
400000
500000
inco
me
0 0.5 1 1.5 2 2.5 3
#children
00.5
11.5
2
2.53
#chi
ldre
n
0 200000 400000
income
#children (diskret)
income (stetig)
#children (nominal)
income (stetig)
Regression ANOVA
Gibt es einen Zusammenhang zwischen Einkommen und Zahl der Kinder?
Antwort: • Zusammenhang schwach, Steigung
signifikant (p=0.01).• Regression nicht besonders geeignet, da
Kinderzahl diskret & evtl. nicht-linearer Zusammenhang vorliegt
• Die Residuen sind hier ganz sicher nicht mehr normalverteilt und ohne Trend.
Antwort:
0
100000
200000
300000
400000
500000
inco
me
0 1 2 3#children
• Gruppenunterschied signifikant (p=0.003).• ABER: ist das Einkommen überhaupt
normalverteilt? –Nein!
SO? – KEINE ANOVA!
�Transformieren, Ränge bilden, etc.
Folie 322
Die großen Geschwister der ANOVA
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
• Einfaktorielle ANOVA ("oneway ANOVA")
•Zweifaktorielle ANOVA ("2-way ANOVA")•ANCOVA ("Analysis of CoVariance", "Kovarianzanalyse"): ein Faktor ist stetig
• ANOVA mit Meßwiederholung ("... with repeated measures", "...with random effect")
• ANOVA mit genesteten Faktoren ("... with nested effects")
• MANOVA (Multivariate ANOVA)
"Einflussgröße""Einflussvariable"
"unabhängige Variable"
"Zielgröße""Zielvariable"
"abhängige Variable"
X Y
A
Y
B
Wechselwirkung
("Interaktion")
YX1X1X1X4
X1 X2 X3 AY
B
A EBCD
FGH
X Y
Folie 323
Ein- und zweifaktorielle ANOVA
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Lehrdatensatz: "Hat die Be-handlung einen Einfluss auf den diastolischen Blutdruck?"
Einfaktorielle ANOVA Zweifaktorielle ANOVA
Variation zwischen den
Gruppen (verum/control)
Variation innerhalb
der Gruppen(verum/control)
Gesamtvariation
Variation zwischen den
Gruppen
Variation innerhalb der
Gruppen
Gesamtvariation
Variation durch
Behandlung
Variation durch
Depression
Variation durch Interaktion von
Behandlung & Depression
Lehrdatensatz: "Haben Behandlung (Faktor 1)und Depression (Faktor 2) Einfluss auf den diastolischen Blutdruck?
Insbesondere erlaubt der Wechselwirkungsterm dieUntersuchung der Frage: wirken sich Faktor 1 und Faktor 2 ingleicher oder entgegengesetzter Weise auf die Zielgröße aus?
Folie 324
Zweifaktorielle ANOVA: SAQs (Gruppen)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Zweifaktorielle ANOVA
SAQbetween Groups SAQwithin Groups
SAQgesamt
SAQBehandlung SAQDepression SAQBehandlung*Depression
Die Gesamtvariation ist gleich der Summe der Quadratsummen aller vier Bestandteile: SAQgesamt =SAQwithin Groups+SAQFaktor 1+SAQFaktor 2+SAQFaktor 1*Faktor 2
SAQbetween
Lehrdatensatz: "Haben Behandlung (Faktor 1)und Depression (Faktor 2) Einfluss auf den diastolischen Blutdruck?
Folie 325
Zweifaktorielle ANOVA: SAQs – (Berechnung)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
10
0
5
-10
-15
-5
Treatment: control control verum verumDepression: nein ja nein ja
Dia
stol
isch
er B
lutd
ruck
nach
her -
vorh
er
Diastolischer Blutdruck
nachher - vorher
Treatment (Faktor 1)
verum control Zeilenmittel
Depression (Faktor 2)
ja-6, -1, -1
Mittelwert: -2.67 (n=3)-6, -3, -2, 2
Mittelwert: -2.25 (n=4) -2.43 (n=7)
nein
-14, -13, -13, -12, -11, -10, -9, -9, -9, -8, -8, -8, -7, -7, -6, -6, -6, -6, -5, -5, -5, -5, -5, -4, -4, -3, -2, -2, -2, -2, -2, -1, -1, -1, 0, 1, 1, 2, 3
Mittelwert: -5.23 (n=39)
-13, -12, -11, -11, -8, -8, -7, -6, -6, -6, -5, -5, -5, -5, -4, -4, -3, -3, -2, -2, -2, -2, -1, -1, -1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 4, 5, 7, 11
Mittelwert: -1.78 (n=46)
-3.365 (n=85)
Spaltenmittel -5.05, (n=42) -1.82, (n=50) -3.3 (n=92)
� �� �
� �� �
21.2*1
2222
2111
2
2
FFbetwFF
FaktorFF
FaktorFF
betweengesamtwithin
GGbetween
gesamt
SAQSAQSAQSAQxxnSAQ
xxnSAQ
SAQSAQSAQxxnSAQ
xxSAQ
���
��
��
��
��
��
��
��
Folie 326
Zweifaktorielle ANOVA: SAQs – (Auswertung)
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Diastolischer Blutdruck
nachher - vorher
Treatment (Faktor 1)
verum control Zeilenmittel
Depression (Faktor 2)
ja-6, -1, -1
Mittelwert: -2.67 (n=3)-6, -3, -2, 2
Mittelwert: -2.25 (n=4) -2.43 (n=7)
nein
-14, -13, -13, -12, -11, -10, -9, -9, -9, -8, -8, -8, -7, -7, -6, -6, -6, -6, -5, -5, -5, -5, -5, -4, -4, -3, -2, -2, -2, -2, -2, -1, -1, -1, 0, 1, 1, 2, 3
Mittelwert: -5.23 (n=39)
-13, -12, -11, -11, -8, -8, -7, -6, -6, -6, -5, -5, -5, -5, -4, -4, -3, -3, -2, -2, -2, -2, -1, -1, -1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 4, 5, 7, 11
Mittelwert: -1.78 (n=46)
-3.365 (n=85)
Spaltenmittel -5.05, (n=42) -1.82, (n=50) -3.3 (n=92)
� � � �� � � �
� � � �� � � �
4.135.7237.8256.95.73.3365.3853.343.27
237.83.382.1503.305.542
1894.2256.9-2151.1256.93.378.146...3.367.23
2151.13.311...3.36
22
22
22
22
�����������
�������
����������
�������� �� �
� �� �
21.2*1
2222
2111
2
2
FFbetwFF
FaktorFF
FaktorFF
betweengesamtwithin
GGbetween
gesamt
SAQSAQSAQSAQxxnSAQ
xxnSAQ
SAQSAQSAQxxnSAQ
xxSAQ
���
��
��
��
��
��
��
��
Folie 327
Zweifaktorielle ANOVA: Freiheitsgrade, F-Wert, p-Wert
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
SAQbetween Groups=256.9DFbetw=nGruppen-1=3
SAQwithin Groups=1894.2DFwithin=ngesamt-nGruppen=88
SAQgesamt=2151.1DFgesamt=ngesamt-1=91
SAQBehandlung=237.8DFF1=nF1-1=1
SAQDepression=5.7DFF2=nF2-1=1
SAQBehandlung*Depression=13.45DFF1*F2=(nF1-1)(nF2-1)=1
Spalte SAQ: s. rechtsSpalte DF: s. rechtsSpalte MS = SAQ/DFSpalte F = MSbetween/MSwithinSpalte Prob<F = FVert(F, DFbetween, DFwithin)
=bet
wee
n
Excel-Tabelle: SAQ DF MS F Prob<Fgesamt 2151.1 91between 256.9 3 85.64within 1894.2 88 21.52 3.98 0.0104F1 (Behandlung) 237.8 1 237.79 11.05 0.0013F2 (Depression) 5.7 1 5.67 0.26 0.6091F1*F2 13.45 1 13.45 0.62 0.4313
(Degrees of freedom, DF)
Folie 328
Zweifaktorielle ANOVA: Vergleich mit software
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Excel-Tabelle: SAQ DF MS F Prob<Fgesamt 2151.1 91between 256.9 3 85.64within 1894.2 88 21.52 3.98 0.0104F1 (Behandlung) 237.8 1 237.79 11.05 0.0013F2 (Depression) 5.7 1 5.67 0.26 0.6091F1*F2 13.45 1 13.45 0.62 0.4313=b
etw
een
DFSquaresofSumSquareMean �
Problem: Statistik-Programmeverwenden zuweilen automatisch(ohne Sie hierüber zu informieren)Adjustierungen, um die Auswertung unter problematischen Nebenbedingungen* zu optimieren. *Hier: kleiner Stichprobenumfang für Depression="ja"
betweenwithin
gesamtwithin
between
Error
Model
MSMSMSMSF
�
�
Folie 329
Interaktionseffekte
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
depressiv
nichtdepressiv
control verumBehandlung
Y
Haupteffekte vorhan-den, sowohl für "Depression"(Yd<Ynd)als auch für "Behandlung"(Yc<Yv)
Ein Behandlungserfolg liegt vor – egal ob Depressionen vorliegen oder nicht
KeineInteraktion
depressiv
control verumBehandlung
Y
Umkehrende("disordinale")Interaktion
depressiv
control verumBehandlung
Y
Gegenläufige("hybride")
Interaktion
depressiv
control verumBehandlung
Y
Schwache("ordinale")
Interaktion
nicht depressiv
nichtdepressiv
nichtdepressiv
Haupteffekt für "Depression" ist vorhanden (Yd<Ynd); für Behandlung vielleicht.
Der Behandlungserfolg ist schwächer, wenn Depressionen vorliegen
Haupteffekt für "Depression" ist vorhanden (Yd<Ynd); Interaktion hebt Haupteffekte auf.
Die Behandlung nützt nur "Depressiven", "Gesunden" schadet sie sogar
Keine Haupteffekte vorhanden, sondern nur Interaktion.
Die Behandlung nützt nur "Depressiven", "Gesunden" schadet sie sogar
schl
echt
er -
bess
er
Folie 330
ANOVA mit Meßwiederholung
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
TherapiegruppeKontrolle Spaghetti Steak Früchte
4.6, 4.7, 4.6 4.6, 4.6, 4.7 4.3, 4.5, 4.5 4.3, 4.4, 4.1
4.7, 4.8, 4.8 5.0, 4.9, 5.2 4.4, 4.4, 4.4 4.4, 4.5, 4.1
4.7, 4.8, 4.9 5.2, 5.4, 5.1 4.9, 4.9, 4.8 4.5, 4.7, 4.5
4.9, 4.7, 5.1 5.2, 5.2, 5.1 4.9, 4.9, 5.1 4.9, 4.9, 4.5
5.1, 4.9, 5.2 5.5, 5.5, 5.4 5.1, 5.1, 5.0 4.9, 4.9, 4.8
5.3, 5.2, 5.6 5.5, 5.2, 5.5 5.3, 5.5, 5.6 5.0, 5.0, 5.4
5.4, 5.6, 5.4 5.6, 5.5, 5.6 5.6, 5.9, 5.7 5.6, 5.6, 5.2
Mittelwert Therapien (Spalten)
SAQ für Therapien (Spalten)
Streuung zwischen den Therapien
SAQbetweeen Therapie
Rest-Streuung("error")
SAQResidual
GesamtstreuungSAQgesamt
Streuung innerhalb der ProbandenSAQwithin Individuals
Streuung zwischen den Probanden
SAQbetween Individuals
FGgesamt=ntnm-1
FGwithin Ind=nm-1 FGbetween Ind=nm(nt-1)
FGbetween Ther=nt-1 FGResidual=(nm-1)(nt-1)
nt: Anzahl der Therapiegruppen (hier: 4), nm: Anzahl der Messwiederholungen (hier: 3)
Bei einer ANOVA mit Messwiederholung werden die SAQ in SAQ innerhalb und zwischen Personen zerlegt. Letzere wird in die SAQ zwischen den Messungen und einen Rest (Residuum oder Fehlervarianz) zerlegt:
Der F-Wert wird dann aus dem Verhältnis der Varianz der Messungen und der Fehlervarianz gebildet, mit FGbetween Ind=nm-1und Fehlervarianz FGResidual=(nm-1)(nt-1)
Biostatistik
Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/
Übung 11• Einfaktorielle ANOVA in
JMP• Zweifaktorielle ANOVA in
JMP• Ergebnisvergleich
Folie 332
Einfaktorielle ANOVA: Behandlung�6��#����
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/Ergebnis: Treatment senkt BPdia
Lehrdatensatz: "Senkt die Behandlung den diastolischen Blutdruck? Rahmenbedingungen der Daten: in der Therapiestudie sollte die Wirksamkeit des Medikaments als Blutdrucksenker ermittelt werden. Unter den Versuchspersonen waren eher zufällig einige Patienten mit Depressionen. Dem Studienleiter fiel auf, dass diese u. U. anders auf das Medikament ansprechen. Fragen: Wirkt Medikament? Spielt Depression eine Rolle?
• Verwenden Sie das JMP-Menü Analyze>Fit Model, um im "LehrdatensatzTherapie.jmp" eine einfaktorielle Varianzanalyse durchzuführen(alternativ: t-Test unter Analyze>Fit Y by X)
• Wählen Sie die Differenz des diastolischen Blutdrucks (BPdia post-pre) als Zielvariable, und Treatment als Einflussvariable
RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)
0.106060.0963434.614736-3.29787
94
Summary of Fit
ModelErrorC. Total
Source1
9293
DF232.4471
1959.21252191.6596
Sum ofSquares
232.44721.296
Mean Square10.9152
F Ratio
0.0014*Prob > F
Analysis of Variance
InterceptTreatment[control]
Term-3.4661171.5815018
Estimate0.478690.47869
Std Error-7.243.30
t Ratio<.0001*0.0014*
Prob>|t|
Parameter Estimates
TreatmentSource
1Nparm
1DF
232.44712
Sum ofSquares
10.9152F Ratio
0.0014*Prob > F
Effect Tests
-15
-10
-5
0
5
10
BPd
ia p
ost-p
re
control verumTreatment
Folie 333
Zweifaktorielle ANOVA: Blutdruck
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
Zweifaktorielle ANOVA im Lehrdatensatz: "Haben Behandlung (Faktor 1) undDepression (Faktor 2) Einfluss auf die Veränderung des diastolischen Blutdrucks?
• Verwenden Sie das JMP-Menü Analyze>Fit Model,um im Datensatz "Lehrdatensatz.jmp" eine zweifaktorielle Varianzanalyse durchzuführen
• Wählen Sie die Differenz des diastolischen Blutdurcks (BPdia post-pre) als Zielvariable, und depressionund Treatment als Einflussvariablen
• Erstellen Sie den Wechselwirkungsterm aus beiden Einflussvariablen, indem Sie diese kreuzen (button "Cross")
BehandlungDepression
Folie 334
Zweifaktorielle ANOVA: Blutdruck
Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/
1) Welche Schlussfolgerungen ergeben sich aus der Analyse?
2) Welche Schlussfolgerungen erge-ben sich aus der Wechselwirkung?
BehandlungDepression
RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)
0.1194330.0894144.639462-3.29348
92
Summary of Fit
ModelErrorC. Total
Source3
8891
DF256.9103
1894.16582151.0761
Sum ofSquares
85.636821.5246
Mean Square3.9786F Ratio
0.0104*Prob > F
Analysis of Variance
Interceptdepression[no]Treatment[control]depression[no]*Treatment[control]
Term-2.982511-0.5241780.96620680.7578735
Estimate0.9211360.9211360.9211360.921136
Std Error-3.24-0.571.050.82
t Ratio0.0017*0.57080.29710.4129
Prob>|t|
Parameter Estimates
depressionTreatmentdepression*Treatment
Source111
Nparm111
DF6.970198
23.68252714.570729
Sum ofSquares
0.32381.10030.6769
F Ratio0.57080.29710.4129
Prob > F
Effect Tests
Ergebnis: Treatment senkt BPdia nicht(vgl. mit Ergebnis der 1-faktoriellen Analyse zuvor)
HotSpot > LS
Means Plot
Ergebnis: eine Verbesserung des Blutdrucks tritt nur bei Nicht-Depressiven auf (bei depressiv=yes ändert sich die Gruppe verum kaum).Problem insgesamt: unbalanciertes Studiendesign (ndepressiv ist sehr klein)��8� ����������������der Studie sind kaum möglich – es ist unklar, ob der Einfluss des Faktors Depression nur eine Verzerrung darstellt, oder ernstgenommen werden muss.