Ein- Datum Thema Übung Grundbegriffe, Skalentyp ... · Biostatistik Vorlesung + Übung Institut für Medizinische Biometrie Westbahnhofstr. 55,72070 Tuebingen PD Dr. Hans-Peter Dürr

BiostatistikVorlesung + Übung

Institut für Medizinische Biometriehttp://www.uni-tuebingen.de/biometry/Westbahnhofstr. 55,72070 Tuebingen

PD Dr. Hans-Peter Dü[email protected] / 29 78259

Ort: Lehr- und Lerngebäude, Elfriede-Aulhorn-Str. 10, 72076 Tübingen, Raum 202/203Lehrmaterialien unter https://ovidius.uni-tuebingen.de/ilias3

Folie 2 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/

Inhaltsübersicht Biostatistik WS 2012/13Ein-heit

Datum Thema Übung

1 16./17./18. 10. 2012

Beschreibende Statistik, Grundbegriffe, Skalentyp & Diagramme. Lage- & Streuungsmaße. Histogramm, Verteilungsfunktion.

Einführung, deskriptive Statistik, Grafiken

2 23./24./25. 10. 2012

Korrelation, Regression, Residuen.Normalverteilung, Standard-Normalverteilung, Z-Transformation

Korrelation, Regression, Z-Transformation

Woche 30.10./31.10/1.11. 2012: keine Vorlesung (Allerheiligen)

3 6./7./8. 11. 2012

Referenzbereich, Log-Transformation von Daten, Konfidenzbereich,Verteilung von Mittelwerten, Standardfehler des Mittelwerts, t-Verteilung.

Referenzbereich,Konfidenzbereich

Woche 13./14./15. 11. 2012: keine Vorlesung

4 20./21./22.11. 2012

Statistische Tests, Prinzip, p-Wert, Signifikanz, Fehler 1. und 2. Art (� und�), t-Test (1- und 2-Stichproben t-Test), gepoolte Varianz

1-Stichproben t-Test2-Stichproben t-Test

5 27./28./29. 11. 2012

Nicht-parametrische Tests: RangbildungMann-Whitney, Wilcoxon, Kruskal-Wallis.

Mann-Whitney-Test Wilcoxon-Test

6 04./05./06. 12. 2012

Das Rechnen mit Häufigkeiten: Konfidenzintervall für Anteile,Unabhängige & abhängige W'keiten, � 2-Test, Fisher's exakter Test

�2-TestFisher's exakter Test

7 11./12./13. 12. 2012

Ergänzungen zu Kontingenztafeln, Multiples Testen (Bonferroni-Korrektur).Überlebenszeitanalyse, Logistische Regression.

Logistische Regression

8 18./19./20. 12. 2012

Wahrscheinlichkeitsrechnung, Additionssatz, MultiplikationssatzDiskrete Verteilungen, Binomialverteilung, Poissonverteilung.

Binomialtest

9 8./9./10. 01. 2013

Anwendungen in Diagnostik und Epidemiologie: Sensitivität/Spezifität,Positiver/Negativer Vorhersagewert, Relatives Risiko, Odds Ratio, mit KI.

OR/RR mit Kon-fidenzintervall

10 15./16./17. 01. 2013

Varianzanalyse, F-TestBesprechung der Hausarbeit

Einfaktorielle ANOVA in Excel

Hausarbeit, Bearbeitungs

zeitraum voraussichtl. 07.-21.12.12

Folie 3

Lehrbücher

Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/

Biostatistik, Stanton Glantz, Mcgraw-Hill Professional, 1998.Engl. Ausgabe: Primer of Biostatistics, Stanton A. Glantz, Verlag McGraw-Hill, 500 Seiten, 6. Auflage, 2005, 20-40 €

Medizinische StatistikVolker Harms2012 (8. Auflage)544 Seitenca. 30€

Practical Statistics for Medical Research, Douglas G. Altman, Chapman & Hall, 1990, 624 Seiten, Englisch, 50-100€

Biostatistik

Institut für Medizinische Biometriewww.uni-tuebingen.de/biometry/

Einheit 11. Grundbegriffe2. Skalentyp & Diagramme,

insbesondere: Histogramm3. Lagemaße4. Verteilungsfunktion &

Überlebenskurve5. Streuungsmaße


Stichprobe

deskriptiveStatistik

induktiveStatistik

1) Grundgesamtheit und Stichprobe

Grundgesamtheit


Grundbegriffe

Begriff Beispiel

Beobachtungseinheiten:Merkmalsträger, an denen die Ausprägungen eines Merkmals beobachtet werden

Patient Gewebe-probe

Merkmale:Eigenschaften, die untersucht werden

Behandlungs-erfolg

Gewicht

Merkmalsausprägungen:Werte, die ein Merkmal annehmen kann

ja, nein 0.564 g

Folie 7

2) Merkmalsskalen


Qualitativ (nominal): Ausprägung hat keinezahlenmäßige Ordnung

Augenfarbe

Quantitativ: Ausprägung hat zahlenmäßige Ordnung

• ordinal: kann geordnet werden

• diskret: natürliche Zahlen

• stetig: reelle Zahlen

Befindlichkeitsskala

Anzahl Geschwister

Druck

0,1,2,3, …

Folie 8

2) Merkmalsskalen: Diagramme


Skala Diagramm

Boxplot

dichotom keines (Anzahl u. Anteil angeben)

nominal Kuchen oder Mosaikordinal Mosaik geordnet

diskret Balkendiagramm

Histogrammstetig Verteilungsfunktion


A44%

038%

B12%

AB6%


Kuchendiagramm

oder

Bsp. Blutgruppe Bsp. Schulnoten

geordneter Mosaikplot(oder einfach Tabelle)

Mosaikplot

37%18% 12%

3%30%

1 2 3 4 5

44% 38% 12% 6%

A 0 B AB

AnteilAnzahlEinheit(Genauigkeit)

75% Rh+ von99Studenten(ein %punkt)

Bsp. Rhesusfaktor

Diskrete Daten

010203040506070

0 1 2 3 4 5 6 7 8

Anzahl Geschwister

Abso

lute

Häu

figke

it

00.10.20.30.40.5

Rel

ativ

e H

äufig

keit

Modalwert

Absolute H'keitRelative H'keit s. nachher

Ordinale DatenDichotome Daten Nominale Daten



Absolute Häufigkeit= Anzahl Fälle pro Klasse

Relative Häufigkeit

=

Dichte

=

absolute HäufigkeitStichprobenumfang

relative HäufigkeitKlassenbreite

"Die Fläche jedes Balkens zeigt,

wie oft eine Klasse

beobachtet wurde"

2

4

6

8

10

12

abso

lute

Häu

figke

it

0.05

0.10

0.15

0.20

rela

tive

Häu

figke

it (=

abs.

H'k

eit /

N)

0.01

0.02

0.03

0.04

Dic

hte

(=re

l.H'k

eit /

Kla

ssen

brei

te)

155 160 165 170 175 180 185 190195

Körpergröße [cm]

stetige Daten: Histogramm

Folie 11

3) Lagemaße


• Modalwert häufigster beobachteter Wert

• Quantile Median unteres und oberes QuartilPerzentile

nx...xxx n��

� 21• arithmetischer

Mittelwert

nng x...xxx �� 21

• geometrischer Mittelwert

� �ni ix1

" Summe über alle xi "

�ni ix1

" Produkt über alle xi "


3) Lagemaße: Bestimmung des Medians

"Ordne die Werte nach ihrer Größe und nehme den Mittleren davon"

115 cm128 cm

145 cm161 cm

183 cm

115 cm128 cm 145 cm

161 cm183 cm

115 cm128 cm

161 cm161 cm183 cm

"...ist die Stichprobe geradzahlig, dann nehme den Mittelwert der beiden mittleren Werte"

3 6 7 18

6.5


3) Lagemaße: Quantile

Beispiel: Körpergröße [cm] von 20 StudentenRohdaten

10% Quantil (10. Perzentil)

"...ist die Stichprobe geradzahlig, dann nehme den Mittelwert der beiden mittleren Werte"

3 6 7 18

6.5

ID Wert1 1802 1683 1844 1935 1756 1607 1808 1809 15710 17111 17612 18413 18014 17815 17616 15817 17018 19019 18520 186

Sortiert

ID Wert9 15716 1586 1602 16817 17010 1715 17511 17615 17614 1781 1807 1808 18013 1803 18412 18419 18520 18618 1904 193

25% Quantil (1. Quartil)

50% Quantil (Median)

75% Quantil (3. Quartil)

90% Quantil (90. Perzentil)95% Quantil (95. Perzentil)

10% der Werte

25% der Werte

50% der Werte

75% der Werte

90% der Werte

95% der Werte

Median:


3) Alternative zu Histogramm: Box & Whiskers Plot

10

15

20

25

30

Dau

er (T

)

unteres Quartil

oberes Quartil

MedianBox

Whiskerhier: 90%(10%)-Quantil,aber auch andere Definitionen möglich

Außenpunkt


arithmetischer Mittelwert der Logarithmen

3) Lagemaße: Geometrischer Mittelwert

Merke: " wird der arithmetische Mittelwert aus logarithmierten Werten berechnet, dann entspricht dies der Berechnung eines geometrischen Mittelwertes "

��

��

�

��

nxxx

nng

n

xxxx

)log(...)log()log(

21

21

10

...


AddOn: ein paar Rechenregeln für den Geom. Mittelwert

��

�� n

nxxx1

21 )...(log

RechenregelLogarithmierte Werte (Transformation)

A r i t h m e t i s c h e r M i t t e l w e r t

)log()log()log(

21

21

xxxx

��

)log()log( kxxk �

nn xx �1

Der geometrische Mittelwert ergibt sich dann durch das Delogarithmieren (Rücktransformation)

log10xgx �

� �)log(...)log()log(121log nxxx

nx ��

)...log(121 nxxx

n��

� �nnxxx �� ...log 21


3) Bsp. für Berechnung eines geometrischen Mittelwertes

Einkommen von 5 Leuten: 1000, 1500, 1500, 2000 und 5000 €.

Version 1: Berechnung über Wurzel aus Produkt

� � €.

xg

186410252

50002000150015001000

5116

5

��

��

€

x

.....

g

18641010

10

2735733323233

5log(5000log(2000)log(1500)log(1500)log(1000)

��

�

��

��

��

��

Version 2: Berechnung über arithmetischen Mittelwert der Logarithmen


3) Lagemaße: VergleichEinkommen von 5 Leuten: 1000, 1500, 1500, 2000 und 5000 €.

Was verdienen diese 5 Leute „im Mittel“ denn so?

GeometrischerMittelwert

� � €18641025.2

50002000150015001000

5116

5

��

��gx

Median €1500�

ArithmetischerMittelwert €2200

511000

550002000150021000

��

�x

0

5

10

15

0 5000 10000 15000 20000 25000Netto-Monatseinkommen

Häu

figke

it

Durch welchen Mittel-wert würden Sie die Einkommensverteilung beschreiben?

Arithm. Mittelwert: 1700€Geom. Mittelwert: 1340€Median: 1300€


0.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 100.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 10

4) Vom Histogramm zur Verteilungsfunktion

0.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10

Die empirische Verteilungsfunktion F(x) gibt an, welcher Anteil der Beobachtungen

kleiner oder gleich dem Wert x ist (��)

F(x)

f(x)


4) Verteilung�Verteilungsfunktion�SurvivalUrliste:

Pat. daysJK 8.83AB 9.54ZN 10.17MK 10.21AL 10.71KL 11.17LW 11.33KS 11.38VH 11.50RS 11.67FT 11.96JW 12.17SN 12.25EN 12.33ER 12.33UC 12.50TE 13.04LB 13.25HT 13.79NA 13.96UN 14.04PJ 14.08NN 14.13BE 14.92LK 14.92PA 15.33BE 15.83DE 17.79RH 20.75AU 28.00

2

4

6

Cou

nt

0.05

0.10

0.15

0.20

Pro

babi

lity

0 5 10 15 20 25 30

0.00.20.40.60.8

Cum

Pro

b

0 5 10 15 20 25 30

1.0

0.00.20.40.60.8

1-C

um P

rob

0 5 10 15 20 25 30days

1.0

Verteilung

Verteilungsfunktion(=kumulierte Verteilung)

Survival(=1-Verteilungsfunktion)

"90% der Mütter bleiben höchstens (�) 17.7 Tage

in der Klinik"

"10% der Mütter bleiben mehr als (>) 17.7 Tage

in der Klinik"


4) Verteilung�Verteilungsfunktion�SurvivalUrliste:


0.00.20.40.60.8

Cum

Pro

b

0 5 10 15 20 25 30

1.090%

75%

50%25%

10%

oberes Perzentil

oberes Quartil

Median

unteres Quartil

10%-Perzentil

und ihre Quantile

17.7

Tag

e

14.9

Tag

e

12.5

Tag

e11

.3 T

age

10.1

Tag

e

Folie 22

5) Streuungsmaße


• SpannweiteDifferenz zwischen kleinstem und größtemWert (= Variationsbreite, Range)

• QuartilsabstandDifferenz (oberes minus unteres Quartil)

• (empirische) VarianzStandardabweichung s= Wurzel aus Varianz

• Variationskoeffizient100% ( Standardabweichung / Mittelwert )

1

)( 2

12

�

� ��

n

xxs

n

ii


5) Streuungsmaße: StandardabweichungEinkommen von 5 Leuten: 1000 €, 2 x 1500 €, und 2 x 2000 €.

� � � � � � � � � �

� � � � � � � � � �

3.41817500015

20002000150015001000

1

1

)(

22222

2

5

2

4

2

3

2

2

2

1

2

1

��

��

�

��

�

�

��

��

xxxxx

nxxxxxxxxxx

n

xxs

n

ii

Einkommen Mittelwert Differenz Differenz 2̂ SAQ /(n-1) Wurzel1000 -600 3600001500 -100 100001500 1600 -100 10000 700000 175000 418.32000 400 1600002000 400 160000

Summe der Abweichungs-

Quadrate


5) Streuungsmaße: Variationskoeffizient

0.05

0.10

0.15

0.20

0.25

Pro

babi

lity

0 500 1500 2500 3500 4500 5500 6500

Gewicht [kg]

Standard-abweichung 1000 kg 200 kgs

Arithmetischer Mittelwert 5000 kg 1000 kgx

0.10

0.20

0.30

0.40

0.50

Pro

babi

lity

0 500 1500 2500 3500 4500 5500 6500

Gewicht [kg]

xsVariations-

koeffizient 20% 20%

Bei welchem Tier streut das Gewicht stärker, beim Elefant oder bei der Kuh ?

Relativ zum Mittelwert

gesehen, streut das Gewicht bei beiden Tieren

gleich


5) Lage- und Streuungsmaße

Welche Berechnung bei welchem Skalenniveau?

stetigNominal-

skalaOrdinal-

skalaIntervall-

skalaVerhältnis-

skalaDiagnose Visus ° Celsius Kelvin

Häufigkeit + + + +Modalwert + + + +Summenhäufigkeit + + +Quartilsabstand + + +Median + + +arithmetischer Mittelwert + +Standardabweichung + +Variationskoeffizient +


Tem

pera

ture

[°C

]

-5-4-3-2-10123456

A B

Warum darf man bei Intervallskala keinen Variationskoeffizienten berechnen?

streut B 10 x stärker als A?

B streut fast gleich stark wie A!

+s

-s

x%200

21

��

VKCsCx

%20002

1.0

��

��

VKCs

Cx

A B

%730.02274

��

VKKs

Kx

%732.02

1.273

��

VKKs

Kx

A B

Antwort: Liegt der Mittelwert nahe des (nicht natürlichen) Nullpunktes, dann entsteht ein Fehler durch die Division mit dem Mittelwert.

p[

]

222222222222

Tem

pera

ture

[K]

Folie 27

Verteilungen: Form und Beschreibung


(rechts-)schief

Median(geometrisches Mittel)Interquartilsspanne(oder Extrema)

symmetrischarithmetisches Mittel(= Median)Standardabweichung

bimodal ModalwerteHistogramm

Folie 28

Noch zu Mittelwerten: Das Simpson-Paradoxon


Bonzendorf Habenixweiler

Mittelwert Vorher

Nachher

€ € €

Herr Hatwas zieht von Bonzendorf nach Habenixweiler. Damit werden beide Dörfer im Mittel reicher!

€ € €

€€€ €€€€

€€ €€€

€€ €€€€ €€ €€€

€

Beispiel: Patientenserum mit mittlerem Titer wird 'umgruppiert': von der Gruppe mit hohem Titer zur Gruppe mit niedrigem Titer

Folie 29

Simpson-Paradoxon: Beispiel in der Medizin


Das Ergebnis der Gesamtmenge widerspricht dem Ergebnis der Teilmengen!

Das neue Medikament ist besser, sowohl im Früh- als

auch im Spätstadium

Das neue Medikament ist schlechter, wenn beide Stadien

gemeinsam betrachtet werden


5) Rechenregeln für Erwartungswert und Varianz

bXEabaXE �� )()(

)Var()Var( 2 XabaX ��

Der Erwartungswert skaliert linear mit Faktor a

die Varianz jedoch quadratisch,

XbaX a ��

und die Standardabweichung wieder linear:

Werte in Liter

Werte in ml

2.732 27322.669 26694.345 43452.237 22377.794 77949.443 9443

Mittelwert 4.870 4870

empirische Varianz 9.219 9218512

Standard-abweichung 2.772 2772

Bei

spie

l

Zu offset b:Monsterschuheerhöhen nur den Mittelwert, nicht die Streuung.

Messwert = X Neuer Wert = baX �

Folie 31

M E R K Z E T T E L


• Beachte 'Natur' der Daten: nominal, ordinal, oder stetig?

• Quantile und Median sind immer gut, um eine Verteilung zu beschreiben (und überhaupt: DATEN ZEIGEN, z. B. als Verteilung)

• Der arithmetische Mittelwert sollte nur verwendet werden, wenn die Daten symmetrisch verteilt sind.

• Wenn die Verteilung der Daten 'schief' ist:Geometrischen Mittelwert, Quantile, Median, etc. verwenden

• Vorsicht beim Gruppieren: Simpson

• Begriffe: Streuung, Standardabweichung, Variationskoeffizient �

Biostatistik


Einführung: JMP• Software JMP: Einführung• Installation, Sprache• Tabellen, Zeilen, Spalten• Menüs, Tools• Distribution, Fit Y by X• Preferences• Visualisierung• Scripte, Journals• Formeln

Folie 33

Einführung in software JMP


• Campus-Lizenz TÜ unterhttp://www.zdv.uni-tuebingen.de/dienstleistungen/software/beschaffung/jmp.html

• Webcasts (empfehlenswert) unterhttp://www.jmp.com/germany/webcasts/erste_schritte_mit_jmp/

• Sprache auf Englisch einstellen: Voreinstellungen• Tabelle erstellen, öffnen (Lehrdatensatz.jmp)• Zeilen- / Spaltenstruktur, Datentypen (Cols), Status (Rows)• Erste Analyse: Distribution über mehrere Spalten

• Preferences: Horizontal layout• Interaktive Markierung von Grafiken & Reihen• Tools: ?, Hand, Marker, Lasso...• Optionen (Bsp. fit normal distribution)• Subset (Doppleklick auf Balken)• Menüleiste Marker, Farben

• Arbeiten mit Tabellen: • Group, Summary• Tabulate

• Fit Y by X und Datentypen• JMP-Scripte, -Reports, -Journals• Visualisierung (Graph builder)• Formeleditor

Biostatistik


Übung 1• Deskriptive Statistik• Diagramme (Kuchen, Mosaikplot,

Streudiagramm, Box & Whiskers Plot)• Histogramm• Quantile• Log-Transformation• Geometrischer Mittelwert• Verteilungsfunktion• Survival• Streuungsmaße

Folie 35

Übung 1: Lagemaße, Triglyzeride (Lehrdatensatz.jmp)


• Erstellen Sie eine Verteilung der Variable Trig

• Arithm. Mittelwert: _________• Median: _________• Lassen Sie sich die

dazugehörige Normalverteilung anzeigen

• – Passt diese? ______________,weil _________________________________________________

• Speichern Sie Ihre Analyse in ein "Journal": >Edit>Journal (nehmen Sie auch die folgenden Analysen mit in das Journal)

HotSpot: Continuous Fit

>Normal

Zuvor: bitte sichern Sie den Lehrdatensatz mit Namen "Lehrdatensatz-Uebung1.jmp" und arbeiten Sie mit diesem heute.

Das Zeichen">"verweist auf

Menüs und die darunter

verzweigenden Menüeinträge

Folie 36

Übung 1: log-Transformation, geom. MW


• Erstellen Sie eine Verteilung der Variable log10(Trig)

• Arithm. Mittelwert: _________• Median: _________• Lassen Sie sich die

dazugehörige Normalverteilung anzeigen

• – Passt diese? ______________,weil _________________________________________________

• Transformieren Sie Mittelwert und Median zurück (Taschenrechner):

Geom. Mittelwert = ___________Median = ___________(warum ist der Median identisch mit demjenigen zuvor?)

HotSpot: >Continuous Fit

>Normal

Folie 37

Übung 1: Verteilungsfunktion


• Erstellen Sie eine Verteilung der Variable stamina[minutes]

• Lassen Sie sich die dazugehörige Verteilungsfunktion (CDF Plot) anzeigen

• Welches sind die Quartile für die Ausdauer in Minuten? Erstes Quartil: _______ ( ______%)Zweites Quartil: _______ ( ______%) Drittes Quartil: _______ ( ______%)

• Gibt es Situationen, in denen eine Verteilungsfunktion absteigende Kurvenabschnitte zeigt? ______________, weil ______________________________

• Warum gibt diese Verteilung bzw. die CDF die tatsächlichen Werte nicht korrekt wieder, wenn Ihnen die Information gegeben wird, dass es sich bei stamina[minutes] um zensierte Werte handle? ____________________________________________________________

HotSpot:CDF Plot

Übung von Hand: Histogramm,Verteilungsfunktion, LagemaßeVervollständigen Sie die Spalten der Datenabelle (A) über die Körpergrößen von 16 Schülern (Berechnen Sie die Häufigkeiten ausnahmsweise auf 4 Dezimalstellen genau) und zeichnen Sie die Verteilungsfunktion (B) ein. Wie groß ist das 30% Quantil (C) und wie lautet seine Einheit? Erstellen aus den Daten einen Box-Plot (D), bei dem die "whiskers" das 10% und das 90% Quantil veranschaulichen. Berechnen Sie die Werte in (E).

(A) Körpergrößen von 16 Schülern

ArithmetischerMittelwertGeometrischerMittelwertMedian

Grö

ße

[cm

]A

bsol

ute

Häu

figke

it

Rel

ativ

e H

äufig

keit

Kum

ulie

rte

Häu

figke

it

162 1

168 1

169 1

172 3

173 1

174 1

176 1

179 1

180 1

182 2

185 1

190 1

198 1

160 162 164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196 198 200Körpergröße

(D) Box-Plot

(E)

1

2

3

Abs.

H'k

eit

160 162 164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196 198 200

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

Kum

ulat

ive

Häu

figke

it

160 162 164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196 198 200

Körpergröße [cm]

(C) 30% Quantil:__________

(B) Verteilungsfunktion

Biostatistik


Einheit 21. Streudiagramm2. Korrelation

Pearson's Korrelationskoeffizient r

3. Lineare RegressionBestimmtheitsmaß r2

4. KorrelationRangkorrelationskoeffizient rS

5. NormalverteilungDichte & Verteilungsfunktion

6. Standard- NormalverteilungQuantile & Z-Wert

Folie 40

Wiederholung & Fahrplan


Stetige DatenKorrelation

RegressionResiduen

Normalverteilung

Folie 41

Korrelation / Regression Gruppenvergleiche: t-Test & Co

Logistische Überlebenszeit- Regression Analyse

�2-Test & Fishers exakter Test

X: Ursache

Y: W

irkun

g

10152025

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.701.80

1.902.00

A 0 BABBlutgruppe

Vorher/nachher-Ver-gleiche (ladder plot):

Diagramme und Auswertungen unter Kombination zweier Skalen:

Streudiagramm

Phä

noty

p0.000.25

0.50

0.751.00

A1 A2 BC.Genotyp

y1

y2

y3y4y5Mosaikplot

Boxplots

Y: S

tetig

Y: N

omin

al

0.000.250.500.751.00

0 10 20 30Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

00.250.500.75

1

50 60 70 80Konzentration

Ja

Nein

Kaplan-Meier-

Verfahren

X: Stetig X: Nominal

1) Vorausschau


JMP: Fit Y by X


1) Korrelation - Regression

• KorrelationsanalyseUntersuchung des (linearen) Zusammen-hangs zweier (oder mehrerer) Merkmale, die an den selben Merkmalsträgern beobachtet wurden. Pearsons Korrelationskoeffizient gibt die Stärke des Zusammenhangs an.

• Lineare RegressionSchätzung eines y-Wertes durch die Angabe eines x-Wertes (Modellannahme: y hängt linear von x ab).


Interpretation:

r = +1 X und Y sind vollständig positiv korreliert

r = –1 X und Y sind vollständig negativ korreliert

r = 0 X und Y sind nicht korreliert

Bedeutung:r misst die Stärke des linearen Zusammenhangs zweier stetiger Zufallsvariablen

��

��

��

22 )()(

))((

yyxx

yyxxr

ii

ii

Berechnung:

55

60

65

70

75

80

85

165 170 175 180 185 190Körpergröße [cm]

Kör

perg

ewic

ht [k

g]

2) Pearsons Korrelationskoeffizient r

Beobachtung (xi, yi)


r = + 1,000 r = - 1,000

r = 0,650r = - 0,938

2) Beispiele zur Korrelation


MischpopulationenX und Y sind innerhalb ihrer Gruppe

unabhängig, aber die Gruppen unterscheiden sich

30000

40000

50000

60000

70000

Eink

omm

en

30 35 40 45Schuhgröße

r=-0.9

r=0.4

r=0.5

% E

iwei

ß in

Tr

ocke

nsub

stan

z

Scheinkorrelationbzw. gemeinsame

UrsacheX und Y sind unabhängig,

werden aber jeweils von einer dritten Variable Z modifiziert

1.31.41.51.61.71.81.9

Geb

urte

nrat

e (p

ro F

rau)

500 1000 1500 2000Anzahl Störche

formale KorrelationKorrelation ist trivial, da

rein rechnerisch bedingt. Bsp.: X und Y addieren sich

auf nahezu 100%

Korrelation beschreibt nicht

Kausalität, sondern "nur" Assoziation

0

20

40

60

80

100

0 20 40 60 80 100

% Fett in Trockensubstanz

Bsp.: Zusammen-setzung von Gewebe


Körpergröße [cm]

Kör

perg

ewic

ht [k

g]

Residuum

Erwartungswert

Achsen-abschnitt Steigung Residuum

abhängige Größe unabhängige Größe

Regressionsgerade

Regressionsgleichung

Res10 �� XbbY

b1 und b0 werden so geschätzt, dass ��Res 2minimal wird

Beobachtung (xi,yi)

Bestimmtheitsmaß� �� YVar

Varr Res12 ��

3) Lineare Regression

55

60

65

70

75

80

85

165 170 175 180 185 190

Folie 47

3) Bestimmtheitsmaß r2


]1;0[2 �r� �

)(Res1

)()( 102

YVarVar

YVarXbbVarr ��

��

Interpretation: wenn z. B. r2 = 90% ist, dann werden durch die Gerade 90% der Gesamtvarianz in den y-Werten erklärt

Varianzzerlegung:

� �Res)()( 10 VarXbbVarYVar ��

= Varianz der Residuen

Varianz der Erwartungswerte

Die Gesamtvarianz +

Folie 48

3 Arten von Regression


"Y auf X"Annahmen:X ist bekannt und exaktY muss den Fehler erklären

"X auf Y"Als Ergänzung zur Regression von Y auf X durchführen, wenn Fehlermodell fraglich ist��

"Orthogonal" Verwenden, wenn Fehlermodell unklar ist

Ist die "Übliche"

Folie 49

3) Zusammenfassung lineare Regression


• zeigt Ursache und Wirkung; x ist bekannt, y fehlerbehaftet• Regression x auf y � Regression y auf x

• geht durch den Schwerpunkt (MWx, MWy)• Steigung b1: wenn x um eine Einheit wächst,

wächst y im Mittel um b1 Einheiten• eine Extrapolation über den beobachteten

Wertebereich hinaus ist nicht zulässig

Die Regressionsgerade y=b0+b1*x

Eine Residuenanalyse sollte abschließend zeigen:• normalverteilte Residuen• kein Trend in den Residuen• konstante Varianz der Residuen

Eine Regression y auf x

Sind diese Bedingungen im Nachinein nicht erfüllt, war die Regression nicht statthaft. Gängige Lösungsversuche sind: Daten logarithmieren, nicht-lineare Funktion zugrunde legen, etc.: s. später.

Folie 50

3) Lineare Regression: Praxis


Bsp.: Crawford MD 1971: Changes in waterhard-ness and local death rates, Lancet , 2 , 327-329.

1000

1200

1400

1600

1800

2000

Mor

talit

y

0 25 50 75 100 125 150Calcium

r= -0.66, r2= 0.43

-400-200

0200400

Res

idua

l

0 25 50 75 100 125 150Calcium

1

3

5Count

-400 -200 0 100 200 300

Daten:

Regression:

Residuen:

Sind Residuen normalverteilt?

• kein Trend in den Residuen• Varianz der Residuen

ändert sich nicht merklich

• Der Normalverteilungsannahme wird nicht widersprochen (Shapiro-Wilk W Test)

• Nimmt die Mortalität mit zunehmendem Calcium-Gehalt des Wassers ab

• Korrelation mit r= -0.66 von mittlerer Staerke

• Die Regressionsgerade erklärt 43% der Varianz

?Anmerkung: diese Maße sind nett, aber wissenschaftlich oft nicht sehr nützlich. In den meisten Fällen interessiert die Frage: "Ist die Steigung der Regressiongeraden signifikant verschieden von null (und damit abhängig von 'X')?"; s. später: statistisches Testen.

Folie 51

Was tun, wenn ...


Nicht-lineares Modell zugrunde legen, oder Werte transformieren

Transformieren (oft hilft log), oder advanced: Varianz-modell spezifizieren

• ...ein Trend in den Residuen vorliegt? Häufiges Problem: Regression muss von 0/0 ausgehen.

Werte in Ränge umwandeln ��Rangkorrelation (beachte jedoch: die Glei-chung der Regressionsgera-den ist nicht ohne weiteres mehr interpretierbar)

• ...ein Trend in der Varianz vorliegt? Häufiges Problem: große Werte streuen stärker.

• ...die Residuen nicht normalverteilt sind, und alles bisherige nicht hilft?


der angegebene, starke Zusammenhang repräsentiert die Stichprobe nicht

� zu Rängen übergehen

Ausreißerproblematik


55

60

65

70

75

80

85

165 170 175 180 185 190Körpergröße [cm]

Kör

perg

ewic

ht [k

g]

Bedeutung:Spearmans Korrelations-koeffizient rS misst die monotone (auch nicht-lineare) Abhängigkeit für ordinal-skalierte Merkmale.

Idee:Die Reihe der xi und die Reihe der yi werden der Größe nach geordnet und der Korrelationskoeffizient wird für die Ränge der xiund yi wie zuvor berechnet

1

2

3

4

5 6,5

6,5

8

9

10

1

2

3

4,5 4,5

6,56,58

9

10

4) Rangkorrelationskoeffizient rS


4) Beispiele zur Korrelation


Wdh.: Empirische & theoretische Größen

Empirische Größe Theoretische Größe

1

3

5Count

-400 -200 0 100 200 300

Häufigkeitsverteilung

empirische Varianz s2

(Standardabweichung s)

Mittelwert x

Wahrscheinlichkeitsverteilung

Varianz � 2

(Standardabweichung � ��

Erwartungswert ��


Beispiel Quantile: Wachstumskurven von Kindern


5) Dichte & Verteilungsfunktion der Normalverteilung

~68 % der Werte

��

��

2��

~95 % der Werte

Wendepunkt

��0.025

0.975

0.16

0.84

0.50

��

2��

Dichte der Standard-Normalverteilung

� ��

2

2

2

21 �

�

��

��

�x

ex


Standard-abweichung ��

Verteilungsfunktionder Standard-Normalverteilung

��und ��sind die Parameter der Normalverteilung.

x

x

Formel:

Anm.: eine Formel für die Verteilungsfunktion ist nicht darstellbar, weil eine geschlossene Lösung für das Integral der Dichte (s. Formel oben) nicht existiert.

Abhilfe: früher musste man die Funktionswerte der Verteilungsfunktion in Tabellen nachschlagen, heutzutage sind diese in entsprechender software abgespeichert und abrufbar.

Folie 58

6) Warum eine Standard-Normalverteilung?


Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z)-4.00 0.0001 0.000032 -3.20 0.0024 0.000687 -2.40 0.0224 0.008198 -1.60 0.1109 0.054799 -0.80 0.2897 0.211855 0.00 0.3989 0.500000 0.80 0.2897 0.788145 1.60 0.1109 0.945201 2.40 0.0224 0.991802 3.20 0.0024 0.999313-3.99 0.0001 0.000033 -3.19 0.0025 0.000711 -2.39 0.0229 0.008424 -1.59 0.1127 0.055917 -0.79 0.2920 0.214764 0.01 0.3989 0.503989 0.81 0.2874 0.791030 1.61 0.1092 0.946301 2.41 0.0219 0.992024 3.21 0.0023 0.999336-3.98 0.0001 0.000034 -3.18 0.0025 0.000736 -2.38 0.0235 0.008656 -1.58 0.1145 0.057053 -0.78 0.2943 0.217695 0.02 0.3989 0.507978 0.82 0.2850 0.793892 1.62 0.1074 0.947384 2.42 0.0213 0.992240 3.22 0.0022 0.999359-3.97 0.0002 0.000036 -3.17 0.0026 0.000762 -2.37 0.0241 0.008894 -1.57 0.1163 0.058208 -0.77 0.2966 0.220650 0.03 0.3988 0.511966 0.83 0.2827 0.796731 1.63 0.1057 0.948449 2.43 0.0208 0.992451 3.23 0.0022 0.999381-3.96 0.0002 0.000037 -3.16 0.0027 0.000789 -2.36 0.0246 0.009137 -1.56 0.1182 0.059380 -0.76 0.2989 0.223627 0.04 0.3986 0.515953 0.84 0.2803 0.799546 1.64 0.1040 0.949497 2.44 0.0203 0.992656 3.24 0.0021 0.999402-3.95 0.0002 0.000039 -3.15 0.0028 0.000816 -2.35 0.0252 0.009387 -1.55 0.1200 0.060571 -0.75 0.3011 0.226627 0.05 0.3984 0.519939 0.85 0.2780 0.802337 1.65 0.1023 0.950529 2.45 0.0198 0.992857 3.25 0.0020 0.999423-3.94 0.0002 0.000041 -3.14 0.0029 0.000845 -2.34 0.0258 0.009642 -1.54 0.1219 0.061780 -0.74 0.3034 0.229650 0.06 0.3982 0.523922 0.86 0.2756 0.805105 1.66 0.1006 0.951543 2.46 0.0194 0.993053 3.26 0.0020 0.999443-3.93 0.0002 0.000042 -3.13 0.0030 0.000874 -2.33 0.0264 0.009903 -1.53 0.1238 0.063008 -0.73 0.3056 0.232695 0.07 0.3980 0.527903 0.87 0.2732 0.807850 1.67 0.0989 0.952540 2.47 0.0189 0.993244 3.27 0.0019 0.999462-3.92 0.0002 0.000044 -3.12 0.0031 0.000904 -2.32 0.0270 0.010170 -1.52 0.1257 0.064255 -0.72 0.3079 0.235762 0.08 0.3977 0.531881 0.88 0.2709 0.810570 1.68 0.0973 0.953521 2.48 0.0184 0.993431 3.28 0.0018 0.999481-3.91 0.0002 0.000046 -3.11 0.0032 0.000935 -2.31 0.0277 0.010444 -1.51 0.1276 0.065522 -0.71 0.3101 0.238852 0.09 0.3973 0.535856 0.89 0.2685 0.813267 1.69 0.0957 0.954486 2.49 0.0180 0.993613 3.29 0.0018 0.999499-3.90 0.0002 0.000048 -3.10 0.0033 0.000968 -2.30 0.0283 0.010724 -1.50 0.1295 0.066807 -0.70 0.3123 0.241964 0.10 0.3970 0.539828 0.90 0.2661 0.815940 1.70 0.0940 0.955435 2.50 0.0175 0.993790 3.30 0.0017 0.999517-3.89 0.0002 0.000050 -3.09 0.0034 0.001001 -2.29 0.0290 0.011011 -1.49 0.1315 0.068112 -0.69 0.3144 0.245097 0.11 0.3965 0.543795 0.91 0.2637 0.818589 1.71 0.0925 0.956367 2.51 0.0171 0.993963 3.31 0.0017 0.999534-3.88 0.0002 0.000052 -3.08 0.0035 0.001035 -2.28 0.0297 0.011304 -1.48 0.1334 0.069437 -0.68 0.3166 0.248252 0.12 0.3961 0.547758 0.92 0.2613 0.821214 1.72 0.0909 0.957284 2.52 0.0167 0.994132 3.32 0.0016 0.999550-3.87 0.0002 0.000054 -3.07 0.0036 0.001070 -2.27 0.0303 0.011604 -1.47 0.1354 0.070781 -0.67 0.3187 0.251429 0.13 0.3956 0.551717 0.93 0.2589 0.823814 1.73 0.0893 0.958185 2.53 0.0163 0.994297 3.33 0.0016 0.999566-3.86 0.0002 0.000057 -3.06 0.0037 0.001107 -2.26 0.0310 0.011911 -1.46 0.1374 0.072145 -0.66 0.3209 0.254627 0.14 0.3951 0.555670 0.94 0.2565 0.826391 1.74 0.0878 0.959070 2.54 0.0158 0.994457 3.34 0.0015 0.999581-3.85 0.0002 0.000059 -3.05 0.0038 0.001144 -2.25 0.0317 0.012224 -1.45 0.1394 0.073529 -0.65 0.3230 0.257846 0.15 0.3945 0.559618 0.95 0.2541 0.828944 1.75 0.0863 0.959941 2.55 0.0154 0.994614 3.35 0.0015 0.999596-3.84 0.0003 0.000062 -3.04 0.0039 0.001183 -2.24 0.0325 0.012545 -1.44 0.1415 0.074934 -0.64 0.3251 0.261086 0.16 0.3939 0.563559 0.96 0.2516 0.831472 1.76 0.0848 0.960796 2.56 0.0151 0.994766 3.36 0.0014 0.999610-3.83 0.0003 0.000064 -3.03 0.0040 0.001223 -2.23 0.0332 0.012874 -1.43 0.1435 0.076359 -0.63 0.3271 0.264347 0.17 0.3932 0.567495 0.97 0.2492 0.833977 1.77 0.0833 0.961636 2.57 0.0147 0.994915 3.37 0.0014 0.999624-3.82 0.0003 0.000067 -3.02 0.0042 0.001264 -2.22 0.0339 0.013209 -1.42 0.1456 0.077804 -0.62 0.3292 0.267629 0.18 0.3925 0.571424 0.98 0.2468 0.836457 1.78 0.0818 0.962462 2.58 0.0143 0.995060 3.38 0.0013 0.999638-3.81 0.0003 0.000069 -3.01 0.0043 0.001306 -2.21 0.0347 0.013553 -1.41 0.1476 0.079270 -0.61 0.3312 0.270931 0.19 0.3918 0.575345 0.99 0.2444 0.838913 1.79 0.0804 0.963273 2.59 0.0139 0.995201 3.39 0.0013 0.999651-3.80 0.0003 0.000072 -3.00 0.0044 0.001350 -2.20 0.0355 0.013903 -1.40 0.1497 0.080757 -0.60 0.3332 0.274253 0.20 0.3910 0.579260 1.00 0.2420 0.841345 1.80 0.0790 0.964070 2.60 0.0136 0.995339 3.40 0.0012 0.999663-3.79 0.0003 0.000075 -2.99 0.0046 0.001395 -2.19 0.0363 0.014262 -1.39 0.1518 0.082264 -0.59 0.3352 0.277595 0.21 0.3902 0.583166 1.01 0.2396 0.843752 1.81 0.0775 0.964852 2.61 0.0132 0.995473 3.41 0.0012 0.999675-3.78 0.0003 0.000078 -2.98 0.0047 0.001441 -2.18 0.0371 0.014629 -1.38 0.1539 0.083793 -0.58 0.3372 0.280957 0.22 0.3894 0.587064 1.02 0.2371 0.846136 1.82 0.0761 0.965620 2.62 0.0129 0.995604 3.42 0.0012 0.999687-3.77 0.0003 0.000082 -2.97 0.0048 0.001489 -2.17 0.0379 0.015003 -1.37 0.1561 0.085343 -0.57 0.3391 0.284339 0.23 0.3885 0.590954 1.03 0.2347 0.848495 1.83 0.0748 0.966375 2.63 0.0126 0.995731 3.43 0.0011 0.999698-3.76 0.0003 0.000085 -2.96 0.0050 0.001538 -2.16 0.0387 0.015386 -1.36 0.1582 0.086915 -0.56 0.3410 0.287740 0.24 0.3876 0.594835 1.04 0.2323 0.850830 1.84 0.0734 0.967116 2.64 0.0122 0.995855 3.44 0.0011 0.999709-3.75 0.0004 0.000088 -2.95 0.0051 0.001589 -2.15 0.0396 0.015778 -1.35 0.1604 0.088508 -0.55 0.3429 0.291160 0.25 0.3867 0.598706 1.05 0.2299 0.853141 1.85 0.0721 0.967843 2.65 0.0119 0.995975 3.45 0.0010 0.999720-3.74 0.0004 0.000092 -2.94 0.0053 0.001641 -2.14 0.0404 0.016177 -1.34 0.1626 0.090123 -0.54 0.3448 0.294599 0.26 0.3857 0.602568 1.06 0.2275 0.855428 1.86 0.0707 0.968557 2.66 0.0116 0.996093 3.46 0.0010 0.999730-3.73 0.0004 0.000096 -2.93 0.0055 0.001695 -2.13 0.0413 0.016586 -1.33 0.1647 0.091759 -0.53 0.3467 0.298056 0.27 0.3847 0.606420 1.07 0.2251 0.857690 1.87 0.0694 0.969258 2.67 0.0113 0.996207 3.47 0.0010 0.999740-3.72 0.0004 0.000100 -2.92 0.0056 0.001750 -2.12 0.0422 0.017003 -1.32 0.1669 0.093418 -0.52 0.3485 0.301532 0.28 0.3836 0.610261 1.08 0.2227 0.859929 1.88 0.0681 0.969946 2.68 0.0110 0.996319 3.48 0.0009 0.999749-3.71 0.0004 0.000104 -2.91 0.0058 0.001807 -2.11 0.0431 0.017429 -1.31 0.1691 0.095098 -0.51 0.3503 0.305026 0.29 0.3825 0.614092 1.09 0.2203 0.862143 1.89 0.0669 0.970621 2.69 0.0107 0.996427 3.49 0.0009 0.999758-3.70 0.0004 0.000108 -2.90 0.0060 0.001866 -2.10 0.0440 0.017864 -1.30 0.1714 0.096800 -0.50 0.3521 0.308538 0.30 0.3814 0.617911 1.10 0.2179 0.864334 1.90 0.0656 0.971283 2.70 0.0104 0.996533 3.50 0.0009 0.999767-3.69 0.0004 0.000112 -2.89 0.0061 0.001926 -2.09 0.0449 0.018309 -1.29 0.1736 0.098525 -0.49 0.3538 0.312067 0.31 0.3802 0.621720 1.11 0.2155 0.866500 1.91 0.0644 0.971933 2.71 0.0101 0.996636 3.51 0.0008 0.999776-3.68 0.0005 0.000117 -2.88 0.0063 0.001988 -2.08 0.0459 0.018763 -1.28 0.1758 0.100273 -0.48 0.3555 0.315614 0.32 0.3790 0.625516 1.12 0.2131 0.868643 1.92 0.0632 0.972571 2.72 0.0099 0.996736 3.52 0.0008 0.999784-3.67 0.0005 0.000121 -2.87 0.0065 0.002052 -2.07 0.0468 0.019226 -1.27 0.1781 0.102042 -0.47 0.3572 0.319178 0.33 0.3778 0.629300 1.13 0.2107 0.870762 1.93 0.0620 0.973197 2.73 0.0096 0.996833 3.53 0.0008 0.999792-3.66 0.0005 0.000126 -2.86 0.0067 0.002118 -2.06 0.0478 0.019699 -1.26 0.1804 0.103835 -0.46 0.3589 0.322758 0.34 0.3765 0.633072 1.14 0.2083 0.872857 1.94 0.0608 0.973810 2.74 0.0093 0.996928 3.54 0.0008 0.999800-3.65 0.0005 0.000131 -2.85 0.0069 0.002186 -2.05 0.0488 0.020182 -1.25 0.1826 0.105650 -0.45 0.3605 0.326355 0.35 0.3752 0.636831 1.15 0.2059 0.874928 1.95 0.0596 0.974412 2.75 0.0091 0.997020 3.55 0.0007 0.999807-3.64 0.0005 0.000136 -2.84 0.0071 0.002256 -2.04 0.0498 0.020675 -1.24 0.1849 0.107488 -0.44 0.3621 0.329969 0.36 0.3739 0.640576 1.16 0.2036 0.876976 1.96 0.0584 0.975002 2.76 0.0088 0.997110 3.56 0.0007 0.999815-3.63 0.0005 0.000142 -2.83 0.0073 0.002327 -2.03 0.0508 0.021178 -1.23 0.1872 0.109349 -0.43 0.3637 0.333598 0.37 0.3725 0.644309 1.17 0.2012 0.879000 1.97 0.0573 0.975581 2.77 0.0086 0.997197 3.57 0.0007 0.999822-3.62 0.0006 0.000147 -2.82 0.0075 0.002401 -2.02 0.0519 0.021692 -1.22 0.1895 0.111232 -0.42 0.3653 0.337243 0.38 0.3712 0.648027 1.18 0.1989 0.881000 1.98 0.0562 0.976148 2.78 0.0084 0.997282 3.58 0.0007 0.999828-3.61 0.0006 0.000153 -2.81 0.0077 0.002477 -2.01 0.0529 0.022216 -1.21 0.1919 0.113139 -0.41 0.3668 0.340903 0.39 0.3697 0.651732 1.19 0.1965 0.882977 1.99 0.0551 0.976705 2.79 0.0081 0.997365 3.59 0.0006 0.999835-3.60 0.0006 0.000159 -2.80 0.0079 0.002555 -2.00 0.0540 0.022750 -1.20 0.1942 0.115070 -0.40 0.3683 0.344578 0.40 0.3683 0.655422 1.20 0.1942 0.884930 2.00 0.0540 0.977250 2.80 0.0079 0.997445 3.60 0.0006 0.999841-3.59 0.0006 0.000165 -2.79 0.0081 0.002635 -1.99 0.0551 0.023295 -1.19 0.1965 0.117023 -0.39 0.3697 0.348268 0.41 0.3668 0.659097 1.21 0.1919 0.886861 2.01 0.0529 0.977784 2.81 0.0077 0.997523 3.61 0.0006 0.999847-3.58 0.0007 0.000172 -2.78 0.0084 0.002718 -1.98 0.0562 0.023852 -1.18 0.1989 0.119000 -0.38 0.3712 0.351973 0.42 0.3653 0.662757 1.22 0.1895 0.888768 2.02 0.0519 0.978308 2.82 0.0075 0.997599 3.62 0.0006 0.999853-3.57 0.0007 0.000178 -2.77 0.0086 0.002803 -1.97 0.0573 0.024419 -1.17 0.2012 0.121000 -0.37 0.3725 0.355691 0.43 0.3637 0.666402 1.23 0.1872 0.890651 2.03 0.0508 0.978822 2.83 0.0073 0.997673 3.63 0.0005 0.999858-3.56 0.0007 0.000185 -2.76 0.0088 0.002890 -1.96 0.0584 0.024998 -1.16 0.2036 0.123024 -0.36 0.3739 0.359424 0.44 0.3621 0.670031 1.24 0.1849 0.892512 2.04 0.0498 0.979325 2.84 0.0071 0.997744 3.64 0.0005 0.999864-3.55 0.0007 0.000193 -2.75 0.0091 0.002980 -1.95 0.0596 0.025588 -1.15 0.2059 0.125072 -0.35 0.3752 0.363169 0.45 0.3605 0.673645 1.25 0.1826 0.894350 2.05 0.0488 0.979818 2.85 0.0069 0.997814 3.65 0.0005 0.999869-3.54 0.0008 0.000200 -2.74 0.0093 0.003072 -1.94 0.0608 0.026190 -1.14 0.2083 0.127143 -0.34 0.3765 0.366928 0.46 0.3589 0.677242 1.26 0.1804 0.896165 2.06 0.0478 0.980301 2.86 0.0067 0.997882 3.66 0.0005 0.999874-3.53 0.0008 0.000208 -2.73 0.0096 0.003167 -1.93 0.0620 0.026803 -1.13 0.2107 0.129238 -0.33 0.3778 0.370700 0.47 0.3572 0.680822 1.27 0.1781 0.897958 2.07 0.0468 0.980774 2.87 0.0065 0.997948 3.67 0.0005 0.999879-3.52 0.0008 0.000216 -2.72 0.0099 0.003264 -1.92 0.0632 0.027429 -1.12 0.2131 0.131357 -0.32 0.3790 0.374484 0.48 0.3555 0.684386 1.28 0.1758 0.899727 2.08 0.0459 0.981237 2.88 0.0063 0.998012 3.68 0.0005 0.999883-3.51 0.0008 0.000224 -2.71 0.0101 0.003364 -1.91 0.0644 0.028067 -1.11 0.2155 0.133500 -0.31 0.3802 0.378280 0.49 0.3538 0.687933 1.29 0.1736 0.901475 2.09 0.0449 0.981691 2.89 0.0061 0.998074 3.69 0.0004 0.999888-3.50 0.0009 0.000233 -2.70 0.0104 0.003467 -1.90 0.0656 0.028717 -1.10 0.2179 0.135666 -0.30 0.3814 0.382089 0.50 0.3521 0.691462 1.30 0.1714 0.903200 2.10 0.0440 0.982136 2.90 0.0060 0.998134 3.70 0.0004 0.999892-3.49 0.0009 0.000242 -2.69 0.0107 0.003573 -1.89 0.0669 0.029379 -1.09 0.2203 0.137857 -0.29 0.3825 0.385908 0.51 0.3503 0.694974 1.31 0.1691 0.904902 2.11 0.0431 0.982571 2.91 0.0058 0.998193 3.71 0.0004 0.999896-3.48 0.0009 0.000251 -2.68 0.0110 0.003681 -1.88 0.0681 0.030054 -1.08 0.2227 0.140071 -0.28 0.3836 0.389739 0.52 0.3485 0.698468 1.32 0.1669 0.906582 2.12 0.0422 0.982997 2.92 0.0056 0.998250 3.72 0.0004 0.999900-3.47 0.0010 0.000260 -2.67 0.0113 0.003793 -1.87 0.0694 0.030742 -1.07 0.2251 0.142310 -0.27 0.3847 0.393580 0.53 0.3467 0.701944 1.33 0.1647 0.908241 2.13 0.0413 0.983414 2.93 0.0055 0.998305 3.73 0.0004 0.999904-3.46 0.0010 0.000270 -2.66 0.0116 0.003907 -1.86 0.0707 0.031443 -1.06 0.2275 0.144572 -0.26 0.3857 0.397432 0.54 0.3448 0.705401 1.34 0.1626 0.909877 2.14 0.0404 0.983823 2.94 0.0053 0.998359 3.74 0.0004 0.999908-3.45 0.0010 0.000280 -2.65 0.0119 0.004025 -1.85 0.0721 0.032157 -1.05 0.2299 0.146859 -0.25 0.3867 0.401294 0.55 0.3429 0.708840 1.35 0.1604 0.911492 2.15 0.0396 0.984222 2.95 0.0051 0.998411 3.75 0.0004 0.999912-3.44 0.0011 0.000291 -2.64 0.0122 0.004145 -1.84 0.0734 0.032884 -1.04 0.2323 0.149170 -0.24 0.3876 0.405165 0.56 0.3410 0.712260 1.36 0.1582 0.913085 2.16 0.0387 0.984614 2.96 0.0050 0.998462 3.76 0.0003 0.999915-3.43 0.0011 0.000302 -2.63 0.0126 0.004269 -1.83 0.0748 0.033625 -1.03 0.2347 0.151505 -0.23 0.3885 0.409046 0.57 0.3391 0.715661 1.37 0.1561 0.914657 2.17 0.0379 0.984997 2.97 0.0048 0.998511 3.77 0.0003 0.999918-3.42 0.0012 0.000313 -2.62 0.0129 0.004396 -1.82 0.0761 0.034380 -1.02 0.2371 0.153864 -0.22 0.3894 0.412936 0.58 0.3372 0.719043 1.38 0.1539 0.916207 2.18 0.0371 0.985371 2.98 0.0047 0.998559 3.78 0.0003 0.999922-3.41 0.0012 0.000325 -2.61 0.0132 0.004527 -1.81 0.0775 0.035148 -1.01 0.2396 0.156248 -0.21 0.3902 0.416834 0.59 0.3352 0.722405 1.39 0.1518 0.917736 2.19 0.0363 0.985738 2.99 0.0046 0.998605 3.79 0.0003 0.999925-3.40 0.0012 0.000337 -2.60 0.0136 0.004661 -1.80 0.0790 0.035930 -1.00 0.2420 0.158655 -0.20 0.3910 0.420740 0.60 0.3332 0.725747 1.40 0.1497 0.919243 2.20 0.0355 0.986097 3.00 0.0044 0.998650 3.80 0.0003 0.999928-3.39 0.0013 0.000349 -2.59 0.0139 0.004799 -1.79 0.0804 0.036727 -0.99 0.2444 0.161087 -0.19 0.3918 0.424655 0.61 0.3312 0.729069 1.41 0.1476 0.920730 2.21 0.0347 0.986447 3.01 0.0043 0.998694 3.81 0.0003 0.999931-3.38 0.0013 0.000362 -2.58 0.0143 0.004940 -1.78 0.0818 0.037538 -0.98 0.2468 0.163543 -0.18 0.3925 0.428576 0.62 0.3292 0.732371 1.42 0.1456 0.922196 2.22 0.0339 0.986791 3.02 0.0042 0.998736 3.82 0.0003 0.999933-3.37 0.0014 0.000376 -2.57 0.0147 0.005085 -1.77 0.0833 0.038364 -0.97 0.2492 0.166023 -0.17 0.3932 0.432505 0.63 0.3271 0.735653 1.43 0.1435 0.923641 2.23 0.0332 0.987126 3.03 0.0040 0.998777 3.83 0.0003 0.999936-3.36 0.0014 0.000390 -2.56 0.0151 0.005234 -1.76 0.0848 0.039204 -0.96 0.2516 0.168528 -0.16 0.3939 0.436441 0.64 0.3251 0.738914 1.44 0.1415 0.925066 2.24 0.0325 0.987455 3.04 0.0039 0.998817 3.84 0.0003 0.999938-3.35 0.0015 0.000404 -2.55 0.0154 0.005386 -1.75 0.0863 0.040059 -0.95 0.2541 0.171056 -0.15 0.3945 0.440382 0.65 0.3230 0.742154 1.45 0.1394 0.926471 2.25 0.0317 0.987776 3.05 0.0038 0.998856 3.85 0.0002 0.999941-3.34 0.0015 0.000419 -2.54 0.0158 0.005543 -1.74 0.0878 0.040930 -0.94 0.2565 0.173609 -0.14 0.3951 0.444330 0.66 0.3209 0.745373 1.46 0.1374 0.927855 2.26 0.0310 0.988089 3.06 0.0037 0.998893 3.86 0.0002 0.999943-3.33 0.0016 0.000434 -2.53 0.0163 0.005703 -1.73 0.0893 0.041815 -0.93 0.2589 0.176186 -0.13 0.3956 0.448283 0.67 0.3187 0.748571 1.47 0.1354 0.929219 2.27 0.0303 0.988396 3.07 0.0036 0.998930 3.87 0.0002 0.999946-3.32 0.0016 0.000450 -2.52 0.0167 0.005868 -1.72 0.0909 0.042716 -0.92 0.2613 0.178786 -0.12 0.3961 0.452242 0.68 0.3166 0.751748 1.48 0.1334 0.930563 2.28 0.0297 0.988696 3.08 0.0035 0.998965 3.88 0.0002 0.999948-3.31 0.0017 0.000466 -2.51 0.0171 0.006037 -1.71 0.0925 0.043633 -0.91 0.2637 0.181411 -0.11 0.3965 0.456205 0.69 0.3144 0.754903 1.49 0.1315 0.931888 2.29 0.0290 0.988989 3.09 0.0034 0.998999 3.89 0.0002 0.999950-3.30 0.0017 0.000483 -2.50 0.0175 0.006210 -1.70 0.0940 0.044565 -0.90 0.2661 0.184060 -0.10 0.3970 0.460172 0.70 0.3123 0.758036 1.50 0.1295 0.933193 2.30 0.0283 0.989276 3.10 0.0033 0.999032 3.90 0.0002 0.999952-3.29 0.0018 0.000501 -2.49 0.0180 0.006387 -1.69 0.0957 0.045514 -0.89 0.2685 0.186733 -0.09 0.3973 0.464144 0.71 0.3101 0.761148 1.51 0.1276 0.934478 2.31 0.0277 0.989556 3.11 0.0032 0.999065 3.91 0.0002 0.999954-3.28 0.0018 0.000519 -2.48 0.0184 0.006569 -1.68 0.0973 0.046479 -0.88 0.2709 0.189430 -0.08 0.3977 0.468119 0.72 0.3079 0.764238 1.52 0.1257 0.935745 2.32 0.0270 0.989830 3.12 0.0031 0.999096 3.92 0.0002 0.999956-3.27 0.0019 0.000538 -2.47 0.0189 0.006756 -1.67 0.0989 0.047460 -0.87 0.2732 0.192150 -0.07 0.3980 0.472097 0.73 0.3056 0.767305 1.53 0.1238 0.936992 2.33 0.0264 0.990097 3.13 0.0030 0.999126 3.93 0.0002 0.999958-3.26 0.0020 0.000557 -2.46 0.0194 0.006947 -1.66 0.1006 0.048457 -0.86 0.2756 0.194895 -0.06 0.3982 0.476078 0.74 0.3034 0.770350 1.54 0.1219 0.938220 2.34 0.0258 0.990358 3.14 0.0029 0.999155 3.94 0.0002 0.999959-3.25 0.0020 0.000577 -2.45 0.0198 0.007143 -1.65 0.1023 0.049471 -0.85 0.2780 0.197663 -0.05 0.3984 0.480061 0.75 0.3011 0.773373 1.55 0.1200 0.939429 2.35 0.0252 0.990613 3.15 0.0028 0.999184 3.95 0.0002 0.999961-3.24 0.0021 0.000598 -2.44 0.0203 0.007344 -1.64 0.1040 0.050503 -0.84 0.2803 0.200454 -0.04 0.3986 0.484047 0.76 0.2989 0.776373 1.56 0.1182 0.940620 2.36 0.0246 0.990863 3.16 0.0027 0.999211 3.96 0.0002 0.999963-3.23 0.0022 0.000619 -2.43 0.0208 0.007549 -1.63 0.1057 0.051551 -0.83 0.2827 0.203269 -0.03 0.3988 0.488034 0.77 0.2966 0.779350 1.57 0.1163 0.941792 2.37 0.0241 0.991106 3.17 0.0026 0.999238 3.97 0.0002 0.999964-3.22 0.0022 0.000641 -2.42 0.0213 0.007760 -1.62 0.1074 0.052616 -0.82 0.2850 0.206108 -0.02 0.3989 0.492022 0.78 0.2943 0.782305 1.58 0.1145 0.942947 2.38 0.0235 0.991344 3.18 0.0025 0.999264 3.98 0.0001 0.999966-3.21 0.0023 0.000664 -2.41 0.0219 0.007976 -1.61 0.1092 0.053699 -0.81 0.2874 0.208970 -0.01 0.3989 0.496011 0.79 0.2920 0.785236 1.59 0.1127 0.944083 2.39 0.0229 0.991576 3.19 0.0025 0.999289 3.99 0.0001 0.999967

Z Dichte Phi(Z)0.00 0.3989 0.5000000.01 0.3989 0.5039890.02 0.3989 0.5079780.03 0.3988 0.5119660.04 0.3986 0.5159530.05 0.3984 0.519939

1. nur eine einzige Normalverteilung berechnet und tabelliert (nämlich die Standard-Normalverteilung mit ��=0 und ��=1), und

2. die aus ihr abgelesenen Quantile dann auf die für die Daten erforderliche Normalverteilung (sagen wir zB mit �=3,23 und �= 5,3) zurückgerechnet (s. nachher: Z-Transformation).

Anm.: Die 'x-Achse' wird bei der Standard-NV mit Z-Wertenbeziffert, um anzudeuten, dass es nicht es sich nicht um ein "Daten-x" handelt, sondern um einen standardisierten Wert, der später wieder in ein x zurückgerechnet wird.

… weil A) statistische Auswertungen oft auf Quantilen beruhen, die man aus der Verteilungsfunktion ablesen muss.

Weil aberB) keine Formel für die Verteilungsfunktion existiert und Mittelwert und Standardab-

weichung in den auszuwertenden Daten beliebige Werte annehmen können, wird:

Dichte und Verteilungsfunktion der StandardnormalverteilungZ Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z)

-4.00 0.0001 0.000032 -3.20 0.0024 0.000687 -2.40 0.0224 0.008198 -1.60 0.1109 0.054799 -0.80 0.2897 0.211855 0.00 0.3989 0.500000 0.80 0.2897 0.788145 1.60 0.1109 0.945201 2.40 0.0224 0.991802 3.20 0.0024 0.999313-3.99 0.0001 0.000033 -3.19 0.0025 0.000711 -2.39 0.0229 0.008424 -1.59 0.1127 0.055917 -0.79 0.2920 0.214764 0.01 0.3989 0.503989 0.81 0.2874 0.791030 1.61 0.1092 0.946301 2.41 0.0219 0.992024 3.21 0.0023 0.999336-3.98 0.0001 0.000034 -3.18 0.0025 0.000736 -2.38 0.0235 0.008656 -1.58 0.1145 0.057053 -0.78 0.2943 0.217695 0.02 0.3989 0.507978 0.82 0.2850 0.793892 1.62 0.1074 0.947384 2.42 0.0213 0.992240 3.22 0.0022 0.999359-3.97 0.0002 0.000036 -3.17 0.0026 0.000762 -2.37 0.0241 0.008894 -1.57 0.1163 0.058208 -0.77 0.2966 0.220650 0.03 0.3988 0.511966 0.83 0.2827 0.796731 1.63 0.1057 0.948449 2.43 0.0208 0.992451 3.23 0.0022 0.999381-3.96 0.0002 0.000037 -3.16 0.0027 0.000789 -2.36 0.0246 0.009137 -1.56 0.1182 0.059380 -0.76 0.2989 0.223627 0.04 0.3986 0.515953 0.84 0.2803 0.799546 1.64 0.1040 0.949497 2.44 0.0203 0.992656 3.24 0.0021 0.999402-3.95 0.0002 0.000039 -3.15 0.0028 0.000816 -2.35 0.0252 0.009387 -1.55 0.1200 0.060571 -0.75 0.3011 0.226627 0.05 0.3984 0.519939 0.85 0.2780 0.802337 1.65 0.1023 0.950529 2.45 0.0198 0.992857 3.25 0.0020 0.999423-3.94 0.0002 0.000041 -3.14 0.0029 0.000845 -2.34 0.0258 0.009642 -1.54 0.1219 0.061780 -0.74 0.3034 0.229650 0.06 0.3982 0.523922 0.86 0.2756 0.805105 1.66 0.1006 0.951543 2.46 0.0194 0.993053 3.26 0.0020 0.999443-3.93 0.0002 0.000042 -3.13 0.0030 0.000874 -2.33 0.0264 0.009903 -1.53 0.1238 0.063008 -0.73 0.3056 0.232695 0.07 0.3980 0.527903 0.87 0.2732 0.807850 1.67 0.0989 0.952540 2.47 0.0189 0.993244 3.27 0.0019 0.999462-3.92 0.0002 0.000044 -3.12 0.0031 0.000904 -2.32 0.0270 0.010170 -1.52 0.1257 0.064255 -0.72 0.3079 0.235762 0.08 0.3977 0.531881 0.88 0.2709 0.810570 1.68 0.0973 0.953521 2.48 0.0184 0.993431 3.28 0.0018 0.999481-3.91 0.0002 0.000046 -3.11 0.0032 0.000935 -2.31 0.0277 0.010444 -1.51 0.1276 0.065522 -0.71 0.3101 0.238852 0.09 0.3973 0.535856 0.89 0.2685 0.813267 1.69 0.0957 0.954486 2.49 0.0180 0.993613 3.29 0.0018 0.999499-3.90 0.0002 0.000048 -3.10 0.0033 0.000968 -2.30 0.0283 0.010724 -1.50 0.1295 0.066807 -0.70 0.3123 0.241964 0.10 0.3970 0.539828 0.90 0.2661 0.815940 1.70 0.0940 0.955435 2.50 0.0175 0.993790 3.30 0.0017 0.999517-3.89 0.0002 0.000050 -3.09 0.0034 0.001001 -2.29 0.0290 0.011011 -1.49 0.1315 0.068112 -0.69 0.3144 0.245097 0.11 0.3965 0.543795 0.91 0.2637 0.818589 1.71 0.0925 0.956367 2.51 0.0171 0.993963 3.31 0.0017 0.999534-3.88 0.0002 0.000052 -3.08 0.0035 0.001035 -2.28 0.0297 0.011304 -1.48 0.1334 0.069437 -0.68 0.3166 0.248252 0.12 0.3961 0.547758 0.92 0.2613 0.821214 1.72 0.0909 0.957284 2.52 0.0167 0.994132 3.32 0.0016 0.999550-3.87 0.0002 0.000054 -3.07 0.0036 0.001070 -2.27 0.0303 0.011604 -1.47 0.1354 0.070781 -0.67 0.3187 0.251429 0.13 0.3956 0.551717 0.93 0.2589 0.823814 1.73 0.0893 0.958185 2.53 0.0163 0.994297 3.33 0.0016 0.999566-3.86 0.0002 0.000057 -3.06 0.0037 0.001107 -2.26 0.0310 0.011911 -1.46 0.1374 0.072145 -0.66 0.3209 0.254627 0.14 0.3951 0.555670 0.94 0.2565 0.826391 1.74 0.0878 0.959070 2.54 0.0158 0.994457 3.34 0.0015 0.999581-3.85 0.0002 0.000059 -3.05 0.0038 0.001144 -2.25 0.0317 0.012224 -1.45 0.1394 0.073529 -0.65 0.3230 0.257846 0.15 0.3945 0.559618 0.95 0.2541 0.828944 1.75 0.0863 0.959941 2.55 0.0154 0.994614 3.35 0.0015 0.999596-3.84 0.0003 0.000062 -3.04 0.0039 0.001183 -2.24 0.0325 0.012545 -1.44 0.1415 0.074934 -0.64 0.3251 0.261086 0.16 0.3939 0.563559 0.96 0.2516 0.831472 1.76 0.0848 0.960796 2.56 0.0151 0.994766 3.36 0.0014 0.999610-3.83 0.0003 0.000064 -3.03 0.0040 0.001223 -2.23 0.0332 0.012874 -1.43 0.1435 0.076359 -0.63 0.3271 0.264347 0.17 0.3932 0.567495 0.97 0.2492 0.833977 1.77 0.0833 0.961636 2.57 0.0147 0.994915 3.37 0.0014 0.999624-3.82 0.0003 0.000067 -3.02 0.0042 0.001264 -2.22 0.0339 0.013209 -1.42 0.1456 0.077804 -0.62 0.3292 0.267629 0.18 0.3925 0.571424 0.98 0.2468 0.836457 1.78 0.0818 0.962462 2.58 0.0143 0.995060 3.38 0.0013 0.999638-3.81 0.0003 0.000069 -3.01 0.0043 0.001306 -2.21 0.0347 0.013553 -1.41 0.1476 0.079270 -0.61 0.3312 0.270931 0.19 0.3918 0.575345 0.99 0.2444 0.838913 1.79 0.0804 0.963273 2.59 0.0139 0.995201 3.39 0.0013 0.999651-3.80 0.0003 0.000072 -3.00 0.0044 0.001350 -2.20 0.0355 0.013903 -1.40 0.1497 0.080757 -0.60 0.3332 0.274253 0.20 0.3910 0.579260 1.00 0.2420 0.841345 1.80 0.0790 0.964070 2.60 0.0136 0.995339 3.40 0.0012 0.999663-3.79 0.0003 0.000075 -2.99 0.0046 0.001395 -2.19 0.0363 0.014262 -1.39 0.1518 0.082264 -0.59 0.3352 0.277595 0.21 0.3902 0.583166 1.01 0.2396 0.843752 1.81 0.0775 0.964852 2.61 0.0132 0.995473 3.41 0.0012 0.999675-3.78 0.0003 0.000078 -2.98 0.0047 0.001441 -2.18 0.0371 0.014629 -1.38 0.1539 0.083793 -0.58 0.3372 0.280957 0.22 0.3894 0.587064 1.02 0.2371 0.846136 1.82 0.0761 0.965620 2.62 0.0129 0.995604 3.42 0.0012 0.999687-3.77 0.0003 0.000082 -2.97 0.0048 0.001489 -2.17 0.0379 0.015003 -1.37 0.1561 0.085343 -0.57 0.3391 0.284339 0.23 0.3885 0.590954 1.03 0.2347 0.848495 1.83 0.0748 0.966375 2.63 0.0126 0.995731 3.43 0.0011 0.999698-3.76 0.0003 0.000085 -2.96 0.0050 0.001538 -2.16 0.0387 0.015386 -1.36 0.1582 0.086915 -0.56 0.3410 0.287740 0.24 0.3876 0.594835 1.04 0.2323 0.850830 1.84 0.0734 0.967116 2.64 0.0122 0.995855 3.44 0.0011 0.999709-3.75 0.0004 0.000088 -2.95 0.0051 0.001589 -2.15 0.0396 0.015778 -1.35 0.1604 0.088508 -0.55 0.3429 0.291160 0.25 0.3867 0.598706 1.05 0.2299 0.853141 1.85 0.0721 0.967843 2.65 0.0119 0.995975 3.45 0.0010 0.999720-3.74 0.0004 0.000092 -2.94 0.0053 0.001641 -2.14 0.0404 0.016177 -1.34 0.1626 0.090123 -0.54 0.3448 0.294599 0.26 0.3857 0.602568 1.06 0.2275 0.855428 1.86 0.0707 0.968557 2.66 0.0116 0.996093 3.46 0.0010 0.999730-3.73 0.0004 0.000096 -2.93 0.0055 0.001695 -2.13 0.0413 0.016586 -1.33 0.1647 0.091759 -0.53 0.3467 0.298056 0.27 0.3847 0.606420 1.07 0.2251 0.857690 1.87 0.0694 0.969258 2.67 0.0113 0.996207 3.47 0.0010 0.999740-3.72 0.0004 0.000100 -2.92 0.0056 0.001750 -2.12 0.0422 0.017003 -1.32 0.1669 0.093418 -0.52 0.3485 0.301532 0.28 0.3836 0.610261 1.08 0.2227 0.859929 1.88 0.0681 0.969946 2.68 0.0110 0.996319 3.48 0.0009 0.999749-3.71 0.0004 0.000104 -2.91 0.0058 0.001807 -2.11 0.0431 0.017429 -1.31 0.1691 0.095098 -0.51 0.3503 0.305026 0.29 0.3825 0.614092 1.09 0.2203 0.862143 1.89 0.0669 0.970621 2.69 0.0107 0.996427 3.49 0.0009 0.999758-3.70 0.0004 0.000108 -2.90 0.0060 0.001866 -2.10 0.0440 0.017864 -1.30 0.1714 0.096800 -0.50 0.3521 0.308538 0.30 0.3814 0.617911 1.10 0.2179 0.864334 1.90 0.0656 0.971283 2.70 0.0104 0.996533 3.50 0.0009 0.999767-3.69 0.0004 0.000112 -2.89 0.0061 0.001926 -2.09 0.0449 0.018309 -1.29 0.1736 0.098525 -0.49 0.3538 0.312067 0.31 0.3802 0.621720 1.11 0.2155 0.866500 1.91 0.0644 0.971933 2.71 0.0101 0.996636 3.51 0.0008 0.999776-3.68 0.0005 0.000117 -2.88 0.0063 0.001988 -2.08 0.0459 0.018763 -1.28 0.1758 0.100273 -0.48 0.3555 0.315614 0.32 0.3790 0.625516 1.12 0.2131 0.868643 1.92 0.0632 0.972571 2.72 0.0099 0.996736 3.52 0.0008 0.999784-3.67 0.0005 0.000121 -2.87 0.0065 0.002052 -2.07 0.0468 0.019226 -1.27 0.1781 0.102042 -0.47 0.3572 0.319178 0.33 0.3778 0.629300 1.13 0.2107 0.870762 1.93 0.0620 0.973197 2.73 0.0096 0.996833 3.53 0.0008 0.999792-3.66 0.0005 0.000126 -2.86 0.0067 0.002118 -2.06 0.0478 0.019699 -1.26 0.1804 0.103835 -0.46 0.3589 0.322758 0.34 0.3765 0.633072 1.14 0.2083 0.872857 1.94 0.0608 0.973810 2.74 0.0093 0.996928 3.54 0.0008 0.999800-3.65 0.0005 0.000131 -2.85 0.0069 0.002186 -2.05 0.0488 0.020182 -1.25 0.1826 0.105650 -0.45 0.3605 0.326355 0.35 0.3752 0.636831 1.15 0.2059 0.874928 1.95 0.0596 0.974412 2.75 0.0091 0.997020 3.55 0.0007 0.999807-3.64 0.0005 0.000136 -2.84 0.0071 0.002256 -2.04 0.0498 0.020675 -1.24 0.1849 0.107488 -0.44 0.3621 0.329969 0.36 0.3739 0.640576 1.16 0.2036 0.876976 1.96 0.0584 0.975002 2.76 0.0088 0.997110 3.56 0.0007 0.999815-3.63 0.0005 0.000142 -2.83 0.0073 0.002327 -2.03 0.0508 0.021178 -1.23 0.1872 0.109349 -0.43 0.3637 0.333598 0.37 0.3725 0.644309 1.17 0.2012 0.879000 1.97 0.0573 0.975581 2.77 0.0086 0.997197 3.57 0.0007 0.999822-3.62 0.0006 0.000147 -2.82 0.0075 0.002401 -2.02 0.0519 0.021692 -1.22 0.1895 0.111232 -0.42 0.3653 0.337243 0.38 0.3712 0.648027 1.18 0.1989 0.881000 1.98 0.0562 0.976148 2.78 0.0084 0.997282 3.58 0.0007 0.999828-3.61 0.0006 0.000153 -2.81 0.0077 0.002477 -2.01 0.0529 0.022216 -1.21 0.1919 0.113139 -0.41 0.3668 0.340903 0.39 0.3697 0.651732 1.19 0.1965 0.882977 1.99 0.0551 0.976705 2.79 0.0081 0.997365 3.59 0.0006 0.999835-3.60 0.0006 0.000159 -2.80 0.0079 0.002555 -2.00 0.0540 0.022750 -1.20 0.1942 0.115070 -0.40 0.3683 0.344578 0.40 0.3683 0.655422 1.20 0.1942 0.884930 2.00 0.0540 0.977250 2.80 0.0079 0.997445 3.60 0.0006 0.999841-3.59 0.0006 0.000165 -2.79 0.0081 0.002635 -1.99 0.0551 0.023295 -1.19 0.1965 0.117023 -0.39 0.3697 0.348268 0.41 0.3668 0.659097 1.21 0.1919 0.886861 2.01 0.0529 0.977784 2.81 0.0077 0.997523 3.61 0.0006 0.999847-3.58 0.0007 0.000172 -2.78 0.0084 0.002718 -1.98 0.0562 0.023852 -1.18 0.1989 0.119000 -0.38 0.3712 0.351973 0.42 0.3653 0.662757 1.22 0.1895 0.888768 2.02 0.0519 0.978308 2.82 0.0075 0.997599 3.62 0.0006 0.999853-3.57 0.0007 0.000178 -2.77 0.0086 0.002803 -1.97 0.0573 0.024419 -1.17 0.2012 0.121000 -0.37 0.3725 0.355691 0.43 0.3637 0.666402 1.23 0.1872 0.890651 2.03 0.0508 0.978822 2.83 0.0073 0.997673 3.63 0.0005 0.999858-3.56 0.0007 0.000185 -2.76 0.0088 0.002890 -1.96 0.0584 0.024998 -1.16 0.2036 0.123024 -0.36 0.3739 0.359424 0.44 0.3621 0.670031 1.24 0.1849 0.892512 2.04 0.0498 0.979325 2.84 0.0071 0.997744 3.64 0.0005 0.999864-3.55 0.0007 0.000193 -2.75 0.0091 0.002980 -1.95 0.0596 0.025588 -1.15 0.2059 0.125072 -0.35 0.3752 0.363169 0.45 0.3605 0.673645 1.25 0.1826 0.894350 2.05 0.0488 0.979818 2.85 0.0069 0.997814 3.65 0.0005 0.999869-3.54 0.0008 0.000200 -2.74 0.0093 0.003072 -1.94 0.0608 0.026190 -1.14 0.2083 0.127143 -0.34 0.3765 0.366928 0.46 0.3589 0.677242 1.26 0.1804 0.896165 2.06 0.0478 0.980301 2.86 0.0067 0.997882 3.66 0.0005 0.999874-3.53 0.0008 0.000208 -2.73 0.0096 0.003167 -1.93 0.0620 0.026803 -1.13 0.2107 0.129238 -0.33 0.3778 0.370700 0.47 0.3572 0.680822 1.27 0.1781 0.897958 2.07 0.0468 0.980774 2.87 0.0065 0.997948 3.67 0.0005 0.999879-3.52 0.0008 0.000216 -2.72 0.0099 0.003264 -1.92 0.0632 0.027429 -1.12 0.2131 0.131357 -0.32 0.3790 0.374484 0.48 0.3555 0.684386 1.28 0.1758 0.899727 2.08 0.0459 0.981237 2.88 0.0063 0.998012 3.68 0.0005 0.999883-3.51 0.0008 0.000224 -2.71 0.0101 0.003364 -1.91 0.0644 0.028067 -1.11 0.2155 0.133500 -0.31 0.3802 0.378280 0.49 0.3538 0.687933 1.29 0.1736 0.901475 2.09 0.0449 0.981691 2.89 0.0061 0.998074 3.69 0.0004 0.999888-3.50 0.0009 0.000233 -2.70 0.0104 0.003467 -1.90 0.0656 0.028717 -1.10 0.2179 0.135666 -0.30 0.3814 0.382089 0.50 0.3521 0.691462 1.30 0.1714 0.903200 2.10 0.0440 0.982136 2.90 0.0060 0.998134 3.70 0.0004 0.999892-3.49 0.0009 0.000242 -2.69 0.0107 0.003573 -1.89 0.0669 0.029379 -1.09 0.2203 0.137857 -0.29 0.3825 0.385908 0.51 0.3503 0.694974 1.31 0.1691 0.904902 2.11 0.0431 0.982571 2.91 0.0058 0.998193 3.71 0.0004 0.999896-3.48 0.0009 0.000251 -2.68 0.0110 0.003681 -1.88 0.0681 0.030054 -1.08 0.2227 0.140071 -0.28 0.3836 0.389739 0.52 0.3485 0.698468 1.32 0.1669 0.906582 2.12 0.0422 0.982997 2.92 0.0056 0.998250 3.72 0.0004 0.999900-3.47 0.0010 0.000260 -2.67 0.0113 0.003793 -1.87 0.0694 0.030742 -1.07 0.2251 0.142310 -0.27 0.3847 0.393580 0.53 0.3467 0.701944 1.33 0.1647 0.908241 2.13 0.0413 0.983414 2.93 0.0055 0.998305 3.73 0.0004 0.999904-3.46 0.0010 0.000270 -2.66 0.0116 0.003907 -1.86 0.0707 0.031443 -1.06 0.2275 0.144572 -0.26 0.3857 0.397432 0.54 0.3448 0.705401 1.34 0.1626 0.909877 2.14 0.0404 0.983823 2.94 0.0053 0.998359 3.74 0.0004 0.999908-3.45 0.0010 0.000280 -2.65 0.0119 0.004025 -1.85 0.0721 0.032157 -1.05 0.2299 0.146859 -0.25 0.3867 0.401294 0.55 0.3429 0.708840 1.35 0.1604 0.911492 2.15 0.0396 0.984222 2.95 0.0051 0.998411 3.75 0.0004 0.999912-3.44 0.0011 0.000291 -2.64 0.0122 0.004145 -1.84 0.0734 0.032884 -1.04 0.2323 0.149170 -0.24 0.3876 0.405165 0.56 0.3410 0.712260 1.36 0.1582 0.913085 2.16 0.0387 0.984614 2.96 0.0050 0.998462 3.76 0.0003 0.999915-3.43 0.0011 0.000302 -2.63 0.0126 0.004269 -1.83 0.0748 0.033625 -1.03 0.2347 0.151505 -0.23 0.3885 0.409046 0.57 0.3391 0.715661 1.37 0.1561 0.914657 2.17 0.0379 0.984997 2.97 0.0048 0.998511 3.77 0.0003 0.999918-3.42 0.0012 0.000313 -2.62 0.0129 0.004396 -1.82 0.0761 0.034380 -1.02 0.2371 0.153864 -0.22 0.3894 0.412936 0.58 0.3372 0.719043 1.38 0.1539 0.916207 2.18 0.0371 0.985371 2.98 0.0047 0.998559 3.78 0.0003 0.999922-3.41 0.0012 0.000325 -2.61 0.0132 0.004527 -1.81 0.0775 0.035148 -1.01 0.2396 0.156248 -0.21 0.3902 0.416834 0.59 0.3352 0.722405 1.39 0.1518 0.917736 2.19 0.0363 0.985738 2.99 0.0046 0.998605 3.79 0.0003 0.999925-3.40 0.0012 0.000337 -2.60 0.0136 0.004661 -1.80 0.0790 0.035930 -1.00 0.2420 0.158655 -0.20 0.3910 0.420740 0.60 0.3332 0.725747 1.40 0.1497 0.919243 2.20 0.0355 0.986097 3.00 0.0044 0.998650 3.80 0.0003 0.999928-3.39 0.0013 0.000349 -2.59 0.0139 0.004799 -1.79 0.0804 0.036727 -0.99 0.2444 0.161087 -0.19 0.3918 0.424655 0.61 0.3312 0.729069 1.41 0.1476 0.920730 2.21 0.0347 0.986447 3.01 0.0043 0.998694 3.81 0.0003 0.999931-3.38 0.0013 0.000362 -2.58 0.0143 0.004940 -1.78 0.0818 0.037538 -0.98 0.2468 0.163543 -0.18 0.3925 0.428576 0.62 0.3292 0.732371 1.42 0.1456 0.922196 2.22 0.0339 0.986791 3.02 0.0042 0.998736 3.82 0.0003 0.999933-3.37 0.0014 0.000376 -2.57 0.0147 0.005085 -1.77 0.0833 0.038364 -0.97 0.2492 0.166023 -0.17 0.3932 0.432505 0.63 0.3271 0.735653 1.43 0.1435 0.923641 2.23 0.0332 0.987126 3.03 0.0040 0.998777 3.83 0.0003 0.999936-3.36 0.0014 0.000390 -2.56 0.0151 0.005234 -1.76 0.0848 0.039204 -0.96 0.2516 0.168528 -0.16 0.3939 0.436441 0.64 0.3251 0.738914 1.44 0.1415 0.925066 2.24 0.0325 0.987455 3.04 0.0039 0.998817 3.84 0.0003 0.999938-3.35 0.0015 0.000404 -2.55 0.0154 0.005386 -1.75 0.0863 0.040059 -0.95 0.2541 0.171056 -0.15 0.3945 0.440382 0.65 0.3230 0.742154 1.45 0.1394 0.926471 2.25 0.0317 0.987776 3.05 0.0038 0.998856 3.85 0.0002 0.999941-3.34 0.0015 0.000419 -2.54 0.0158 0.005543 -1.74 0.0878 0.040930 -0.94 0.2565 0.173609 -0.14 0.3951 0.444330 0.66 0.3209 0.745373 1.46 0.1374 0.927855 2.26 0.0310 0.988089 3.06 0.0037 0.998893 3.86 0.0002 0.999943-3.33 0.0016 0.000434 -2.53 0.0163 0.005703 -1.73 0.0893 0.041815 -0.93 0.2589 0.176186 -0.13 0.3956 0.448283 0.67 0.3187 0.748571 1.47 0.1354 0.929219 2.27 0.0303 0.988396 3.07 0.0036 0.998930 3.87 0.0002 0.999946-3.32 0.0016 0.000450 -2.52 0.0167 0.005868 -1.72 0.0909 0.042716 -0.92 0.2613 0.178786 -0.12 0.3961 0.452242 0.68 0.3166 0.751748 1.48 0.1334 0.930563 2.28 0.0297 0.988696 3.08 0.0035 0.998965 3.88 0.0002 0.999948-3.31 0.0017 0.000466 -2.51 0.0171 0.006037 -1.71 0.0925 0.043633 -0.91 0.2637 0.181411 -0.11 0.3965 0.456205 0.69 0.3144 0.754903 1.49 0.1315 0.931888 2.29 0.0290 0.988989 3.09 0.0034 0.998999 3.89 0.0002 0.999950-3.30 0.0017 0.000483 -2.50 0.0175 0.006210 -1.70 0.0940 0.044565 -0.90 0.2661 0.184060 -0.10 0.3970 0.460172 0.70 0.3123 0.758036 1.50 0.1295 0.933193 2.30 0.0283 0.989276 3.10 0.0033 0.999032 3.90 0.0002 0.999952-3.29 0.0018 0.000501 -2.49 0.0180 0.006387 -1.69 0.0957 0.045514 -0.89 0.2685 0.186733 -0.09 0.3973 0.464144 0.71 0.3101 0.761148 1.51 0.1276 0.934478 2.31 0.0277 0.989556 3.11 0.0032 0.999065 3.91 0.0002 0.999954-3.28 0.0018 0.000519 -2.48 0.0184 0.006569 -1.68 0.0973 0.046479 -0.88 0.2709 0.189430 -0.08 0.3977 0.468119 0.72 0.3079 0.764238 1.52 0.1257 0.935745 2.32 0.0270 0.989830 3.12 0.0031 0.999096 3.92 0.0002 0.999956-3.27 0.0019 0.000538 -2.47 0.0189 0.006756 -1.67 0.0989 0.047460 -0.87 0.2732 0.192150 -0.07 0.3980 0.472097 0.73 0.3056 0.767305 1.53 0.1238 0.936992 2.33 0.0264 0.990097 3.13 0.0030 0.999126 3.93 0.0002 0.999958-3.26 0.0020 0.000557 -2.46 0.0194 0.006947 -1.66 0.1006 0.048457 -0.86 0.2756 0.194895 -0.06 0.3982 0.476078 0.74 0.3034 0.770350 1.54 0.1219 0.938220 2.34 0.0258 0.990358 3.14 0.0029 0.999155 3.94 0.0002 0.999959-3.25 0.0020 0.000577 -2.45 0.0198 0.007143 -1.65 0.1023 0.049471 -0.85 0.2780 0.197663 -0.05 0.3984 0.480061 0.75 0.3011 0.773373 1.55 0.1200 0.939429 2.35 0.0252 0.990613 3.15 0.0028 0.999184 3.95 0.0002 0.999961-3.24 0.0021 0.000598 -2.44 0.0203 0.007344 -1.64 0.1040 0.050503 -0.84 0.2803 0.200454 -0.04 0.3986 0.484047 0.76 0.2989 0.776373 1.56 0.1182 0.940620 2.36 0.0246 0.990863 3.16 0.0027 0.999211 3.96 0.0002 0.999963-3.23 0.0022 0.000619 -2.43 0.0208 0.007549 -1.63 0.1057 0.051551 -0.83 0.2827 0.203269 -0.03 0.3988 0.488034 0.77 0.2966 0.779350 1.57 0.1163 0.941792 2.37 0.0241 0.991106 3.17 0.0026 0.999238 3.97 0.0002 0.999964-3.22 0.0022 0.000641 -2.42 0.0213 0.007760 -1.62 0.1074 0.052616 -0.82 0.2850 0.206108 -0.02 0.3989 0.492022 0.78 0.2943 0.782305 1.58 0.1145 0.942947 2.38 0.0235 0.991344 3.18 0.0025 0.999264 3.98 0.0001 0.999966-3.21 0.0023 0.000664 -2.41 0.0219 0.007976 -1.61 0.1092 0.053699 -0.81 0.2874 0.208970 -0.01 0.3989 0.496011 0.79 0.2920 0.785236 1.59 0.1127 0.944083 2.39 0.0229 0.991576 3.19 0.0025 0.999289 3.99 0.0001 0.999967 Folie 60 Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/

Übung: Verwendung der tabellierten Standardnormalverteilung

Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z) Z Dichte Phi(Z)-4.00 0.0001 0.000032 -3.20 0.0024 0.000687 -2.40 0.0224 0.008198 -1.60 0.1109 0.054799 -0.80 0.2897 0.211855 0.00 0.3989 0.500000 0.80 0.2897 0.788145-3.99 0.0001 0.000033 -3.19 0.0025 0.000711 -2.39 0.0229 0.008424 -1.59 0.1127 0.055917 -0.79 0.2920 0.214764 0.01 0.3989 0.503989 0.81 0.2874 0.791030-3.98 0.0001 0.000034 -3.18 0.0025 0.000736 -2.38 0.0235 0.008656 -1.58 0.1145 0.057053 -0.78 0.2943 0.217695 0.02 0.3989 0.507978 0.82 0.2850 0.793892-3.97 0.0002 0.000036 -3.17 0.0026 0.000762 -2.37 0.0241 0.008894 -1.57 0.1163 0.058208 -0.77 0.2966 0.220650 0.03 0.3988 0.511966 0.83 0.2827 0.796731-3.96 0.0002 0.000037 -3.16 0.0027 0.000789 -2.36 0.0246 0.009137 -1.56 0.1182 0.059380 -0.76 0.2989 0.223627 0.04 0.3986 0.515953 0.84 0.2803 0.799546-3.95 0.0002 0.000039 -3.15 0.0028 0.000816 -2.35 0.0252 0.009387 -1.55 0.1200 0.060571 -0.75 0.3011 0.226627 0.05 0.3984 0.519939 0.85 0.2780 0.802337-3.94 0.0002 0.000041 -3.14 0.0029 0.000845 -2.34 0.0258 0.009642 -1.54 0.1219 0.061780 -0.74 0.3034 0.229650 0.06 0.3982 0.523922 0.86 0.2756 0.805105

Z = Koordinate auf der "x"-Achse der Standard-NormalverteilungDichte an der Stelle zWert der Verteilungsfunktion � an der Stelle z

0.0

0.1

0.2

0.3

0.4

Den

sity

(Z)

-4 -3 -2 -1 0 1 2 3 4Z

Dichte:

0.00.10.20.30.40.50.60.70.80.91.0

Phi

(Z)

-4 -3 -2 -1 0 1 2 3 4Z

Verteilungs-funktion:

Bsp. 1: Wie groß ist die W'keit, dass ein Wert Z�-1.55 ist?

� P(Z� -1.55) = ��(-1.55) = 0.060571 = 6.1%

Bsp. 2: Wie groß ist die W'keit, dass ein Wert Z>-1.55 ist?

� P(Z> -1.55) = 1-��(-1.55)=100% - 6.1% = 93.9%

Bsp. 3: Unterhalb welchen Z-Wertes liegen 22% der Werte?

� Z(� =0.22) = -0.77


Z-Transformation

z.B. Wert aus der Verteilung Verteilung

x=90.030.050.080.10

Pro

babi

lity

-6 -4 -2 0 2 4 6 8 10

��=5��=2

Vorgehen

x'=9-5=4

0.030.050.080.10

Pro

babi

lity

-6 -4 -2 0 2 4 6 8 10

��=0��=2

1) Ziehe (von jedem Wert) den Erwartungswert ab: x' = x -��

z=(9-5)/2=2

0.05

0.100.150.20

Pro

babi

lity

-6 -4 -2 0 2 4 6 8 10

��=0��=1

2) Dividiere x' durch die Standardabwei-chung: z = x'/��

Z-Transformation: Z= x-��

"x liegt 2 Standard-abweichungen vom Mittelwert entfernt"

"Jede Normalverteilung lässt sich in eine Standard-Normalverteilung umrechnen, und umgekehrt."

"x hat den Wert 9"


6) Bedeutung des Z-Wertes

Der Z-Wert gibt an, wieviel Standardabweichungen ein Wert vom Erwartungswert entfernt liegt

��

��

2��

Z

��

�XZ

Umrechnung zwischen Quantilen einer Normal- undder Standardnormalverteilung

Die Standardnormalverteilung hat Erwartungswert und Standardabweichung 1��

0��

bzw. umgekehrt:

�� ZX

Bsp.: sind Cholesterinwerte normalverteilt mit ��=140 und ��=30, dann liegt ein Cholesterinwert von 200 demnach z=2 Standardabweichungen oberhalb des Erwartungswertes von ��=140 .


Von Schmackes' Wert zu Schmackes' Quantil...Herr Schmackes isst gerne und hat einen Cholesterinwert von 210. Arzt: "Herr Schmackes, Ihr Cholesterinwert liegt außerhalb der Norm!"Herr Schmackes: "Ach, was ist schon normal?!"

0.05

0.10

0.15

Rel

ativ

e H

'kei

t

50 100 150 200 250Cholesterin-Konzentration [mg/dl]

Die Verteilung der Cholesterin-Werte in der Bevölkerung sieht so

aus: = 140, s = 30xWo befindet sich Herr Schmackes mit seinem Cholesterin-Wert?

3230

140210 .xz ��

��

��

�Sein Cholesterin-Wert liegt also um 2.3 Standardabweichungen höher als der Mittelwert

aus Tabelle: P(Z ��2.3)=��(2.3) = 0.9893 entspricht 98.9%.

98.9% der Bevölkerung haben einen geringeren Cholesterin-Wert als Herr Schmackes.Sollte Herr Schmackes auf's Cholesterin achten?

��

1��

2��


Von Schmackes' Quantil zu Schmackes' Wert...Herr Schmackes isst immer noch gerne, möchte aber beim Thema Cholesterin doch nicht zu den "oberen 10%" der Bevölkerung gehören. Auf welchen Cholesterin-Wert muss er mindestens reduzieren?

0.05

0.10

0.15

Rel

ativ

e H

'kei

t

50 100 150 200 250Cholesterin-Konzentration [mg/dl]

1��

2��

��In anderen Worten: Schmackes möchte seinen Cholesterin-Wert auf's 90%-Quantil absenken.

Welchem Z-Wert entspricht das?

aus Tabelle: P(0.9) liegt bei Z��

Welchem Cholesterin-Wert entspricht das? dlmgZX /7.17814029.1*30 ��

Folie 65

M E R K Z E T T E L


• Korrelation & Regression sind nette tools - ihre 'Beweis'kraft wird aber in der Regel überschätzt

• Vorsicht mit "Ausreißern": sind das Ausreißer, oder informative Individuen?

• Die Normalverteilung ist in der Statistik sehr tief verankert. Sie ist durch Erwartungswert � undStandardabweichung � definiert

• In der Regel müssen wir beim Rechnen den Umweg über die Standard-Normalverteilunggehen, und dann wieder zurückrechnen.

• 'Schiefe' Verteilung können oft durch Logarithmieren der Werte in eine Normalverteilung überführt werden.Beachte: der Mittelwert aus logarithmierten Werten ist auf rücktransformierter Ebene ein geometrischer Mittelwert.

Log

10

��

��

Übung von Hand: A) Standardnormalverteilung, Z-Wert

Gegeben sei die Standardnormalverteilung mit �=0 und �=1.

(1) Wie groß ist die W'keit für einen Wert z<=2?

(2) Wie groß ist die W'keit für einen Wert z< -2?

(3) Welches ist der z-Wert für ��(Z)=0.025

(4) Welches ist der z-Wert unterhalb dessen sich 97.5% der Werte befinden?

(6) Wieviel % der Werte sind oberhalb eines Bereiches zu erwarten, der 1.96 Standard-abweichungen höher liegt als der Erwartungswert?

(5) Wieviel Standardabweichungen muss man sich vom Erwartungswert entfernen, wenn sich unter diesem Wert 2.5% der Werte finden sollen?

(7) Wieviel % der Werte liegen innerhalb des Bereiches �� 1.96 ��?

Übung von Hand: B) Normalverteilung - Lage und Streuung1. Konzentrationen eines Blutbestandteils X wurden an 20 Patienten gemessen und in Tab.

1 (Spalte 1) sortiert zusammengefasst. Klassieren Sie die Daten im Intervall [6;14] mit einer Klassenbreite von 1 und berechnen Sie die relativen (Spalte 2) und kumulierten (Spalte 3) Häufigkeiten.

2. Zeichnen Sie die relativen Häufigkeiten als Histogramm in Graf 1 ein.3. Wie lautet der empirische Median? Median=_____ .4. Berechnen Sie Mittelwert und Standardabweichung aus den Daten:

6.37.07.48.08.59.09.49.69.79.9

10.310.410.510.611.011.111.612.213.114.4

� �2xxi �xxi �ix

Zur Berechnung der Standardabweichung gehen sie in Tab. 1 wie folgt vor: (A) Berechnen Sie zunächst in Spalte 4 die Differenzen der beobachteten Einzelwerte zum Mittelwert (Abweichungen). (B) Quadrieren Sie dann diese Werte und tragen Sie das Ergebnis jeweils in Spalte 5 ein (Abweichungsquadrate). (C) Bilden Sie die Summe der Abweichungsquadrate, SAQ): SAQ=______.(D) Teilen Sie die SAQ durch n-1 (=Varianz): s 2 =______.(E) Ziehen Sie aus s 2 die Wurzel (=s): s =______.

Tab.

1G

raf 1

� ��

�

�

�

��

�

��

n

ii

n

ii

xxn

s

xn

x

1

2

1

11

101

0.05

0.10

0.15

0.20

0.25

Rel

. Häu

figke

it

4 5 6 7 8 9 10 11 12 13 14 15 16

5. Wir gehen jetzt davon aus, dass die im Patientenkollektiv beobachteten Werte die Verteilung in der Bevölkerung repräsen-tieren und durch eine Normalverteilung(�,�) beschrieben werden können. Da ihre Parameter jetzt bekannt sind ( ) können wir die Normalverteilung anhand ihrer Formel

berechnen. Ergänzen Sie die Dichten für x=5 und x=10 in Tab. 2 und vervollständigen Sie die Dichten für x=11...16 (grau unter-legt) aufgrund der Symmetrie-Eigenschaft der Normalverteilung.

6. Verwenden Sie die Werte aus Tab. 2, um die Normalverteilung in Graf 1 einzuzeichnen.

s,x ��

Tab.

2 x Dichte(x)4 0.002256 0.02707 0.06488 0.12109 0.1760

10111213141516

� ��

2

2

2

21 �

�

��

��

�

x

ex

Biostatistik


Übung 2• Korrelation• Regression• Residuenanalyse• Normalverteilung

Folie 69

Übung 2: Korrelation – Datenvisualisierung vorbereiten


• Tables>Summary>Group• Rows>Colors,Markers

– Female = rot– Male = blau– married = Kreise– #children>0 = gefüllte Kreise– single+children = gefüllte

Quadrate

Vorbereitung: Daten markieren nach sex, famStatus, #children

sexfamStatus#children

Folie 70

Übung 2: Korrelation – welche Vaiablen sind korreliert?


• KorrelationsanalyseAnalyze > Multivariate Methods > Multivariate

• Zielvariablenage, Bpdia, Bpsys, Chol, Trig

• Hypothesen: HotSpot:Color Maps

HotSpot: Show Histogramm

age

BP

dia

BP

sys

Cho

l

Trig

-1

0

1

r-1

0

1

r

age

BP

dia

BP

sys

Cho

l

Trig

Color Map On Correlationswelche Korrelationen sehen Sie als so bedeutsam, dass weiterführende Untersuchungen relevant erscheinen?:__________________________________,weil _____________ _________________

Folie 71

Übung 2: Regression –


• Hypothese/Befund:Bpsys und Chol sind korreliertMenü: Analyze > Fit Y by X

• Spekulation:Bpsys steigt mit Chol.Die Gleichung hat die ParameterAchsenabschnitt: ______

(Einheit: ______)Steigung: ______

(Einheit: ______)

• Residuenanalyse:(nächste Folie)

Regressionsgerade

r2

Schätzwerte (mit Standardfehler und

Signifikanz)

HotSpot:Fit Line

HotSpot:Plot Residuals

undSave Residuals(dieser Befehl legt automatisch eine neue Spalte mit Residuen an...s. nächste Folie)

wie hängen korrelierte Variablen voneinander ab?

=p-Wert

Folie 72

Übung 2: Regression -


• Gibt es einen Trend in den Residuen?• Gibt es einen Trend in Varianz?• Sind die Residuen normalverteilt?

Ergebnis: Analyse statthaftInterpretation: BPsys und Chol sind linear korreliert. Aussage über Ursache/Wirkung ist jedoch nicht möglich.

Analyze >Distribution (Spalte residuals)

Residuenanalyse: erfüllt die (lineare) Regression die Voraussetzungen?

Folie 73

Übung 2: Z-Transformation - Quantil eines Werts


• Erstellen Sie eine Verteilung der Cholesterin-Werte und lassen Sie sich die zugehörige Normalverteilung ausgeben:Analyze >DistributionHotSpot >Continuous Fit >Normal

• Legen Sie eine neue Spalte Z(Chol) für eine Z-Transformation an, in der Sie die Cholesterin-Werte mit der Formel Z=(Chol-�)/� zur Standard-Normalverteilung transformieren

• Wieviele Standardabweichungen liegt das beobachtete Minimum von Chol=________ vom Mittelwert entfernt?:_________

Biostatistik


Einheit 31. Referenzbereich

1-seitig / 2-seitig

2. Standardfehler des Mittelwerts (Standard error of the mean)

3. Konfidenzintervalle4. t-Verteilung

-formale Notation:-häufige Notation: (z. B: in software)

SESEM

xxs �,

Folie 75

Wiederholung

Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/Bi t i i t bi d /bi tBi t i i t bi d /bi t

Daten

Normalverteilung

Standard-Normal-verteilung

Verteilungsfunktion

Tabellierte Werte

Folie 76

1) Referenzbereich:


0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300

n=200

was ist ein "normaler" Cholesterin-Wert?

LDL-Cholesterin [mg/ml]

"normal""Außerhalb der Norm"

"Außerhalb der Norm"

• Der Referenzbereich wird aus der Verteilung des Cholesterins in der gesunden (!) Bevölkerung ermittelt

• Die zentralen 95% der Werte werden als "normal" angesehen; Werte darunter oder darüber als "Außerhalb der Norm"


//////////////////////////////////////////////

//////////////////////////////////////////////

0

0.002

0.004

0.006

0.008

0.01

0.012

0.014

40 60 80 100 120 140 160 180 200 220 240

Wah

rsch

einl

ichk

eits

dich

te

1) Bestimmung eines (2-seitigen) Referenzbereiches

2.5% 2.5%

Vorgehensweise: 1) bestimme Mittelwert und Standardabweichung im gesunden Kollektiv, 2) bestimme die von der entsprechenden Normalverteilung vorhergesagten*Quantile für die zentralen 95% (nicht beobachtete* Quantile aus den Daten)

30�s

x

s�1.96- s��1.96Folie 78

1) Zweiseitiger Referenzbereich:


10

20

30

Cou

nt

0.05

0.10

0.15

Prob

abilit

y

0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300

30140

��

sx

= 140 -1.96·30 bis 140 +1.96·30

Mittelwert

Standard-abweichung

!szxszx �� 975.0025.0 bis

Referenzbereich für die Daten

1.96025.0 ��z2.5%-Quantil

96.1975.0 �z97.5%-Quantil

= [81.2 bis 198.8]

n=200

was ist ein "normaler" Cholesterin-Wert?

LDL-Cholesterin [mg/ml]


1) Einseitiger Referenzbereich:

Median 120

arithm. Mittel 140Standardabweichung 74

Anteil

0.100.200.300.40

0 100 200 300 400 500Triglycerid [mg/dl]

arithm. Mittel der log(T...) 2.104Standardabw. der log(T...) 0.186

geometr. Mittel 102.104 = 127

1.6 1.8 2.0 2.2 2.4 2.6 2.8

Anteil

log(Triglycerid)

0.100.200.30

was ist ein "normaler" Triglycerid-Wert?


95% der Triglycerid-Werte erwartet man unter 257 mg/dl:

64510.95 .z �

10 2.104 + 1.645 · 0.186 = 10 2.410 = 257

1) Einseitiger Referenzbereich: was ist ein "normaler" Triglycerid-Wert?

arithm. Mittel der log(T...) 2.104Standardabw. der log(T...) 0.186

geometr. Mittel 102.104 = 127

1.6 1.8 2.0 2.2 2.4 2.6 2.8

Anteil

log(Triglycerid)

0.100.200.30

Folie 81

Zusammenfassung Referenzbereich


• Referenzbereiche werden in der Regel aus einer Stichprobe der gesunden (!)Bevölkerung ermittelt

• wird nichts anderes angegeben, beschreibt der– 2-seitige Referenzbereich die zentralen 95% der Werte– 1-seitige Referenzbereich die unteren (oberen) 95% der

Werte

• Vorsicht: – Werden an einem Patienten 20 diagnostische Tests

durchgeführt, so erwarten wir, dass einer dieser Tests fälschlicherweise ein Ergebnis "Außerhalb der 95% Norm"ergibt.


2) Standardfehler des Mittelwerts

Wenn ich aus einer großen Grundgesamtheit

verschiedene Stichproben ziehe

und jeweils deren Mittelwert bestimme

- wie groß ist dann die Streuung dieser Mittelwerte

im Vergleich zur Streuung in der Grundgesamtheit

zum Beispiel80 Mio. Deutsche

Einwohner der Ortschaften A, B, C, ...

Mittlere Schuhgröße in der jeweiligen Ortschaft

Wie groß ist die Streuung der Mittelwerte ?

Wie groß ist die Streuung der Einzelwerte ?

Mittelwerte aus verschiedenen Stichproben und ihre Verteilung


2) Standardfehler des Mittelwerts

Rice Virtual Lab in Statistics>Simulations/Demonstrations

>Sampling Distribution Simulation >Begin

http

://on

lines

tatb

ook.

com

/rvls

.htm

l

��,

sx,

x��,

Mittelwerte aus verschiedenen Stichproben und ihre Verteilung

Folie 84

2) Verteilung von Mittelwerten


• Zentraler Grenzwertsatz: Mittelwerte sind (näherungsweise) normalverteilt.

• Mittelwerte haben denselben Erwartungswert wie die Grundgesamtheit: �� x

• Die Standardabweichung der Mittelwerte ist kleiner als die der Grundgesamtheit:

– SD der Grundgesamtheit:– SE der Mittelwerte:

nSE �

��

"Standard Error of the Mean""Standard Deviation"


2) Der Standardfehler des Mittelwerts*

ist ein Maß für die Unsicherheit des Stichproben-Mittelwertes

Mit seiner Hilfe kann man den Vertrauensbereich (Konfidenzintervall) für einen Mittelwert abschätzen

nsSE �

* engl.: Standard Error of the Mean, SEM

Standardabweichungin der Stichprobe

Stichprobenumfang

Folie 86

2) Bereichsschätzung


95%-der x

xf39

9

��

�

SE

n

x�x

xf

95%-der x

(Mittelwert aus 9 Werten)

Verteilung der Beobachtungen

Verteilung des Mittelwerts

Folie 87

3) Definition: Konfidenzintervall


Ein

Konfidenzintervall für den Erwartungswert �wird aus der Stichprobe derart berechnet,

dass es mit einer W'keit (1-�)*100% den Erwartungswert � überdeckt

Irrtumswahrscheinlichkeit

(zum Konfidenzgrad 1-�)

Folie 88

3) Konfidenzintervall:


10

20

30

Cou

nt

0.05

0.10

0.15

Pro

babi

ity

0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300

12.2200

3030140

�

��

��

nsSE

sx

= 140 -1.96·2.12 bis 140 +1.96·2.12

•Mittelwert•Standard-abweichung

•Standard-fehler

SEzxSEzx �� 212 // bis ��

Konfidenzbereich für den Mittelwert

025.02/ ��Irrtumswahrscheinlichkeit "links"1.96025.0 ��z2.5%-Quantil

96.1975.0 �z97.5%-Quantil975.02/1 ��Irrtumswahrscheinlichkeit "rechts":

= [135.8 bis 144.2]

n=200

wie genau konnte der mittlere Cholesterin-Wert durch die Studie mit n=200 ermittelt werden?


Beispiel: Wird die Menschheit größer?

Konfidenzintervalle für � :

74.1105.5

��SE

176 ±1.96*1.74

Jahrgang 1970 Jahrgang 2000

Der "wahre" Mittelwert liegt mit 95% Sicherheit im

Intervall[172.6 , 179.4 cm]

80.1107.5

��SE

177 ±1.96*1.80

Der "wahre" Mittelwert liegt mit 95% Sicherheit im

Intervall[173.5 , 180.5 cm]

Gro

esse

[cm

]

160162

164166168

170172174

176178180

182184186

188190

19702000Jahrgang

cmx 176�cms 5.5�

cmx 177�cms 7.5�


3) Konfidenzintervall & Stichprobengröße

Gro

esse

[cm

]

160

162

164

166

168

170

172

174

176

178

180

182

184

186

188

190

1970 2000

Jahrgang

Gro

esse

[cm

]

160

162

164

166

168

170

172

174

176

178

180

182

184

186

188

190

1970 2000

Jahrgang

KleineStichprobe

GroßeStichprobe

Das Konfidenzintervall hängt von der Größe der unter-suchten Stichprobe ab.

Bei kleinen Stichproben besteht zusätzliche Unsicherheit� verwende t-Verteilung


4) Ist die Stichprobe klein: � t -Verteilung

0

0.1

0.2

0.3

0.4

-5 -4 -3 -2 -1 0 1 2 3 4 5

Normalverteilung (0,1)n=4 FGn=2 FGn=1 FG

t-Verteilung

Harms, S. 279Tab. III

Freiheitsgrade: ist der Stichprobenumfang

z. B. N=10, dann nimmt man eine t-Verteilung

mit n=9 FG

� �2

12

1

2

21 �

�

�

� �

��

��

��"

��

��

"�

n

n nx

nn

n

xf�

In die Formel der t-Verteilung geht nicht mehr die Standardabweichung ein, sondern nur der Stichpro-benumfang N in Form der Freiheitsgrade n=N-1:

x

� � #�$

��"0

1 dtetn tnwobei " die Gamma-Funktion ist:


4) Konfidenzintervall bei kleinen Stichproben

!SEtx n �� ,1

Mittelwertder Stichprobe

Streuungdes Mittelwerts

Quantil dert-Verteilung mit

n-1 Freiheitsgraden

Beispiel: Stichprobengröße n=10-> Freiheitsgrade FG=9aus Tabelle für t-Verteilung: bei � =0.05, zweiseitig -> t9,,0.05=2.26

(anstelle von 1.96 bei der NV)

Folie 93

Konfidenzintervall nach Transformation


0.2381.55184

��

sxn

x � log(iPTH)

0.05

0.15

1.0 1.2 1.4 1.6 1.8 2.0 2.2

Gesucht: 95%-Konfidenzintervall für den Erwartungswert des intakten Parathormons (iPTH) in institutionalisierten Patienten

95%-Konfidenzintervall für geom. Mittel:

!1.591.52 10bis10

asymmetrisch

geom. Mittel: 101.55=35.9

iPTH [pg/ml]

0.10

0.30

0 20 40 60 80100 140 180

6.41�x

!38.9bis.133�

1.973183,0.95 �t

!1.59bis1.52184

0.2381.9731.550.95,183

�

��nstx


Konfidenzintervall für Gruppenvergleich

][ ,221 21 Dnn SEtxx ��

Konfidenzintervall für die Mittelwertsdifferenz ��:�21 ��

Mittelwerteder

Stichproben

Streuung derMittelwerts-

differenz

Quantil dert-Verteilung mit

n1+ n2-2Freiheitsgraden

Folie 95

4) Zusammenfassung Konfidenzintervall


• Die Berechnung des Konfidenzintervalls beruht auf dem Standardfehler des Mittelwerts, welcher vom Stichprobenumfang abhängt.

• in der Regel wird ein Konfidenzniveau von 95% angesetzt (bzw. eine Irrtumswahrscheinlichkeit von 5%, Jedoch Vorsicht: Fallschirme & Co!)

• die Quantile (z. B. 0.025 und 0.975) entnehmen wir der t-Verteilung

nsSE �

Folie 96

So nicht!


" Das mittlere Einkommenbeträgt 98856.7961 und liegt mit 95%iger Sicherheit im Bereich 88829 bis 108883 ".

• Erst prüfen,ob Daten normalverteilt sind (JMP: Shapiro-Wilk Test: p > 0.05)

• Wenn nein:Daten logarithmieren

• Wenn das nicht hilft:andere Transformationen verfügbar? (z. B. Anteile: logOdds, ArcSinWurzel)

• Wenn nein:�Ränge bilden bzw. nicht-

parametrische Verfahren verwenden (s. später)

�Daten mit Quantilen beschreiben (Box&Whiskers Plot)

�mit anderen Verteilungen als der Normalverteilung arbeiten (Binomialverteilung, Poissonverteilung ... s. später)

Sondern so:

Folie 97

M E R K Z E T T E L


• Referenzbereiche werden in der Regel an Gesunden bestimmt. Wir verwenden sie aber z.B., um Kranke zu identifizieren.(Karl Popper hätte gegen diese Logik wohl manche Einwände...)

• Die Begriffe einseitig und zweiseitig werden oft auftauchen: sie beziehen sich auf das links und rechts in einer Verteilung von Werten.

• Den Standardfehler des Mittelwerts müssen Sie ab jetzt aus dem ff und für immer draufhaben. Die Berechnung von Konfidenzintervallen beruht meist auf dem SE.

• Konfidenzintervalle sind ein höchst universelles und praktisches Maß, wenn man wissen will, wie sehr man einem Schätzwertes 'trauen' kann.

• Woher kommt die 1.96?

nsSE �

!SEx �� 96.1

95% KI unter Normalvertei-

lungsannahme:

Übung von Hand: Standardfehler / Konfidenzintervall

Gro

esse

[cm

]

165

170

175

180

185

190

Norddeutsche Süddeutsche

Die mittlere Körpergröße von jeweils 10 Nord- undSüddeutschen unterscheidet sich um 2.8 cm (s. Grafik). Es soll untersucht werden, ob dieser Unterschied statistisch signifikant ist. Die Daten hierzu sind:Norddeutsche

cm.,cm.x 878180 �� cm.,cm.x 669177 �� Süddeutsche

A) Berechnen Sie den Standardfehler des Mittelwerts für beide Gruppen

�Nord,x� �Süd,x�

B) Ermitteln Sie die Konfidenzintervalle anhand der Normalverteilung bei einer Irrtums-wahrscheinlichkeit von � =0.05 und zeichnen Sie sie zusammen mit den jeweiligen Mittelwerten als Rauten in den Grafen ein.1. Schritt: wie lautet der z-Wert für %�(z)=�/2? ____________2. Schritt: für beide Gruppen untere und obere Grenze berechnen anhand von

Unterscheiden sich die Mittelwerte signifikant? ____________

x/zx �� 2�

C) Ermitteln Sie die Konfidenzintervalle anhand der t-Verteilung bei einer Irrtums-wahrscheinlichkeit von � =0.05.1. Schritt: wie lautet der t-Wert für gegebenes � und n=10? _____________2. Schritt: für beide Gruppen untere und obere Grenze berechnen anhand von x,ftx ��

Nord:Süd:

Nord:Süd:

D) Welches der beiden Konfidenzintervalle repräsentiert die Wahrheit besser und wieso?

� für zweiseitige Fragestellungenf �=0.1 �=0.05 �=0.011 6.31 12.71 63.662 2.92 4.30 9.923 2.35 3.18 5.844 2.13 2.78 4.605 2.02 2.57 4.036 1.94 2.45 3.717 1.89 2.36 3.508 1.86 2.31 3.369 1.83 2.26 3.25

10 1.81 2.23 3.1711 1.80 2.20 3.1112 1.78 2.18 3.0513 1.77 2.16 3.0114 1.76 2.14 2.9815 1.75 2.13 2.9516 1.75 2.12 2.9217 1.74 2.11 2.9018 1.73 2.10 2.8819 1.73 2.09 2.8620 1.72 2.09 2.8521 1.72 2.08 2.8322 1.72 2.07 2.8223 1.71 2.07 2.8124 1.71 2.06 2.8025 1.71 2.06 2.7926 1.71 2.06 2.7827 1.70 2.05 2.7728 1.70 2.05 2.7629 1.70 2.05 2.7630 1.70 2.04 2.7540 1.68 2.02 2.7060 1.67 2.00 2.66120 1.66 1.98 2.62inf 2.58 1.96 1.65

�=0.05 �=0.025 �=0.005� für einseitige Fragestellungen

Student t-Verteilung

Biostatistik


Übung 3• Referenzbereich• Konfidenzintervall

Folie 100

2-seitiger Referenzbereich: Cholesterin


• Wie lauten die Parameter der NV der Cholesterinwerte?: ��= _____________, ��= _____________

• Welches sind die Z-Werte für die zentralen 95% der StandardNV (Tabelle)?: Z0.025= ____________, Z0.975= ____________

• Wie lautet die untere Grenze des Referenzbereiches (1 Dezimalstelle genau)?:Chollower = � + Z0.025�� = ______________ Wie lautet die obere Grenze des Referenzbereiches (1 Dezimalstelle genau)?:Cholupper = � + Z0.975�� = ______________

• Wie lautet der Referenzbereich?: [ ____________ bis ____________ ]• Warum unterscheidet sich der Referenzbereich von den zentralen 95% der

Beobachtungen? - entsprechend 2.5% (Wert =_____________ ) und 97.5% (Wert =_____________ )

Bestimmen Sie den 2-seitigen Referenzbereich für Cholesterin durch folgende Vorgehensweise:

Folie 101

1-seitiger Referenzbereich: Triglyzeride


• Wie lauten die Parameter der NV der log-Triglyzeridwerte?: ��= _____________, ��= _____________

• Z-Wert für die unteren 95% der StandardNV?: Z0.95= __________• Wie lautet die Grenze des (transformierten) Referenzbereiches (3 Dezimalstellen

genau)?: log10(Trigupper) = � + Z0.95�� = _____________ • Wie lauten die delogarithmierten Werte?:

��= _____________ (geom. Mittelwert), Trigupper = _____________• Wie lautet der (delogarithmierte) Referenzbereich?: [__________ bis __________ ]• Wie lautet das 95%-Quantil der Beobachtungen?: _____________• Warum unterscheidet sich der Referenzbereich

vom 95%-Quantil der Beobachtungen?

Bestimmen Sie den 1-seitigen Referenzbereich für Triglyzeride durch folgende Vorgehensweise:

Tipp: unter Tables >Summary :95% eingeben bei "For quantile statistics",dann Trig auf button Statistics >Quantile

Folie 102

Konfidenzbereich für mittleren Cholesterin-Wert


• Taschenrechner: Berechnen Sie anhand des Mittelwerts und der Standardabweichung den Standardfehler des Mittelwerts, und nachfolgend das 95% Konfidenzintervall (CI) für den mittleren Cholesterin-Wert.

• Stimmen diese Werte mit den Angaben im output-Fenster Distributions überein?

• Zeichnen Sie das CI [ ________ bis ________ ] in die Verteilung oben ein (einfach von Hand).

___________��nsSE

________

________

21

2

/

/

�

��

��

� SEzx

SEzx

upper

lower

�

�

�

�

Woher nehmen Sie die Z-Werte?

Für welches ��?

Folie 103

Konfidenzbereich für mittleren Triglyzerid-Wert


• Taschenrechner: Berechnen Sie anhand des Mittelwerts und der Standardabweichung den Standardfehler des Mittelwerts, und nachfolgend das 95% Konfidenzintervall (CI) für den logarithmierten, mittleren Triglyzerid-Wert.

• Wie lauten die delogarithmierten Werte für

___________��nsSE

________

________

21

2

/

/

�

��

��

� SEzx

SEzx

upper

lower

�

�

�

�

!______________%95

_________

bisCIgeom ��

Folie 104

Gruppenvergleich


HotSpot:Uniform Scaling

Vergleichen Sie den diastolischen Blutdruck nach Geschlecht, und anhand der Konfidenzintervalle für die Mittelwerte: DistributionY: BPdia, By: sexVorgriff: Unterscheiden sich die beiden Ge-schlechter signifikant? HotSpot:

Uniform Scaling

Alternativ und vorgreifend:Analyze >Fit Y by X, mit X: sex und Y: BPdiaIm HotSpot dann:Display Options >Points Jittered und >Mean Diamonds(Verwenden Sie den Hilfe-button für Erklärungen zu Diamonds)

Biostatistik


Einheit 41) Statistische Tests -

Prinzipien:Nullhypothese, Alternativhypothesep-WertSignifikanz

2) Fehler 1. und 2. Art:� und �

3) 1-Stichprobent-Test

4) 2-Stichprobent-Test

5) gepoolte Varianz

JMP: Fit Y by X

Beachte download für

Übung: Lehrdatensatz-Therapie.jmp

von ILIASFolie 106

Wiederholung


Grundgesamtheit

Stichprobe (n)

Verteilung des Mittelwerts (...der Mittelwerte von Stichproben)

nsSE �

Standardfehler des Mittelwerts Konfidenzintervall

!SEzx ��


Warnungen

• Ein statistischer Test ist eine Entscheidungshilfe ER KANN NICHTS BEWEISEN

• Statistische Signifikanz bedeutet nicht inhaltliche Relevanz


1) Prinzip eines statistischen Tests{-1.6, 0.7, 0.9, 2.7, 4.4} ... n = 5 Mittelwert x�= 1.42Standardabw. s = 2.26SE = 2.26/sqrt(5) = 1.01

Verteilung des Mittelwerts unter der Nullhypothese: normalverteilt mit 0��

Verteilung des Mittelwerts: normalverteilt mit x��

Irrtumswahrscheinlichkeit �=5%: erst wenn der p-Wert kleiner als 5% wird, bezeichnen wir es als "unwahrscheinlich", dass unter der Nullhypothese der beobachtete Wert von 1.42 auftritt.

p >��nicht signifikant

p-Wert = 0.08: "die Wahrscheinlichkeit, unter derNullhypothese einen Wert von 1.42 oder nochextremer (also �1.42) zu beobachten beträgt 8%".

Normalverteilung der Daten:

ND(1.4,2.26)

0 1 2 3 4 5 6-1-2-3-4-5-6

0.40.30.2

0.1

Dic

hte

0 1 2 3 4 5 6-1-2-3-4-5-6

0.40.30.2

0.1

Dic

hteNormalverteilung

des Mittelwerts: ND(1.4,1.01)

0 1 2 3 4 5 6-1-2-3-4-5-6

0.40.30.2

0.1

Dic

hte

Alternativhypothese: "Es gibt einen Effekt - der mittlere Wert ist ungleich 0 (hier: 1.42)"

Nullhypothese: "Es gibt keinen Effekt - der mittlere Wert ist gleich 0"

und ��=SE (bei kleinen Stichproben ist die Normalverteilungsannahme nicht mehr gut erfüllt ... später t-Verteilung nehmen )

und ��=SE (... s. o.: später t-Verteilung)

z. B. Frage: "unterscheidet sich ein Mittelwert signifikant von 0?"

Folie 109

... in JMP ...


Der beobachtete Mittelwert von 1.42 liegt 1.405

Standardfehler (SE) von 0 entfernt. Dies entspricht einem p-Wert von 0.08

(einseitig) bzw. 0.16 (zweiseitig).


1) Definition: p-Wert

Wahrscheinlichkeit

des beobachteten Werts der Prüfgröße

oder noch unwahrscheinlicherer Werte,

wenn die Nullhypothese zutrifft

Folie 111

1) ... ein Cholesterin-SenkerPilotstudie mit n = 5 Tierenmittl. Chol.-Absenkung x�= 1.42Standardabw. s = 2.26SE = 2.26/sqrt(5) = 1.01

Verteilung des Mittelwerts unter der Nullhypothese: normalverteilt mit 0��

Verteilung des Mittelwerts: normalverteilt mit x��

Irrtums-wahrschein-lichkeit �=5%

p >��nicht signifikant, d. h. die in der Pilotstudie erhaltene Absenkung von 1.42 könnte auch rein zufällig mit einer W'keit von 8% aufgetreten sein.

p-Wert = 0.08: "die Wahrscheinlichkeit, bei einemnicht wirkenden Medikament eine Absenkung vonmindestens 1.42 zu beobachten beträgt 8%".

Verteilung der Absenkungen: ND(1.4,2.26)

0 1 2 3 4 5 6-1-2-3-4-5-6

0.40.30.2

0.1

Dic

hte

0 1 2 3 4 5 6-1-2-3-4-5-6

0.40.30.2

0.1

Dic

hteNormalverteilung

des Mittelwerts: ND(1.4,1.01)

0 1 2 3 4 5 6-1-2-3-4-5-6

0.40.30.2

0.1

Dic

hte

Alternativhypothese: "Das Medikament wirkt – es senkt den Cholesterin-Wert"

Nullhypothese: "Das Medikament wirkt nicht bedeutend – es senkt den Cholesterin-Wert nicht signifikant"

und ��=SE (bei kleinen Stichproben ist die Normalverteilungsannahme nicht mehr gut erfüllt ... später t-Verteilung nehmen )

und ��=SE (... s. o.: später t-Verteilung)

"unterscheidet sich die mittlere Cho-lesterin-Absenkung signifikant von 0 ?"


1) Signifikanz, Nicht-Signifikanz & n

0.20

0.40

0.60

0.80

-6 -4 -2 0 2 4 6 8 10 12 14

Nicht-Signifikanz Signifikanz

0.100.200.300.400.500.60

-6 -4 -2 0 2 4 6 8 10 12 14

n=5 n=20

0

0.1

0.2

0.3

0.4

-6 -4 -2 0 2 4 6 8 10 12 140

0.1

0.2

0.3

0.4

-6 -4 -2 0 2 4 6 8 10 12 14

p > � = 5% p < � = 5%

Verteilung des

Mittelwerts

Verteilung des

Mittelwerts


z.B.

z.B.

1) Statistische Tests

. . . dienen der Entscheidung

zwischen der Nullhypothese ,„es gibt keinen Unterschied“,

und der Alternativhypothese ,„es gibt einen“.

Dabei macht man manchmal Fehler . . .

0H

1H

0��

0��


2) Fehler 1. und 2. Art: � und ��

Ent

sche

idun

g

Situation in der GrundgesamtheitH0 falsch

(z. B. "es gibt einen Unterschied")

H0 richtig(z. B. "es gibt keinen

Unterschied")

Wir ver-werfen H0

„signifikant“

Richtige Entscheidung

�

Fehler 1. Art

Wir verwer-fen H0 nicht

„nicht signifikant“

Fehler 2. Art��

Richtige Entscheidung

Güte (Power): 1-�� Irrtumswahrscheinlichkeit: ��

Irrtumswahrscheinlichkeit: �� 1-��

0

0

0

0


2) Zusammenhang zwischen ��-�und ��-�Fehler

H0trifft zu

H1trifft zu

� �

kritischer Wert der Teststatistik

0

0.01

0.02

0.03

0.04

0.05

0 20 40 60 80 100

Verteilung des Mittelwerts unter der Alternativ-hypothese

Verteilung des Mittelwerts

unter der Null-hypothese

nicht signifikant signifikant

��

W'keit, einen Unterschied zu entdecken, nimmt zu (1-�), aber auch die W'keit, eine falsche Entscheidung zu treffen (�)

Folie 116

2) Die Wahrscheinlichkeiten für die Fehler 1. und 2. Art hängen ab von:


• Stichprobenumfang• Varianz• verwendetem Test• wahrem Unterschied, z. B. • der jeweils anderen

Fehlerwahrscheinlichkeit

n2�

0��

Folie 117

3) Wie führt man einen Test durch?


• Hypothesen H0 und H1 formulieren• Signifikanzniveau � wählen• geeigneten Test finden• Prüfgröße berechnen• Überschreitungswahrscheinlichkeit (p-Wert)

oder kritischen Wert berechnen• Entscheidung formulieren

Folie 118

3) Statistische Tests: 1-Stichproben t-Test


Skalentyp1 Gruppe, Vergleich mit Referenzwert

2-Gruppen-Vergleich

nominal �2-Test �2-Testdichotom Binomial-Test

(Vorzeichentest)Fishers exakter Test

ordinal t-Test für Ränge Mann-Whitneymetrisch 1-Stichproben t-Test 2-Stichproben t-Test

Folie 119




X: Ursache

Y: W

irkun

g

10152025

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.701.80

1.902.00

A 0 BABBlutgruppe



Streudiagramm

Phä

noty

p

0.000.25

0.50

0.751.00

A1 A2 BC.Genotyp

y1

y2

y3y4y5Mosaikplot

Boxplots

Y: S

tetig

Y: N

omin

al

0.000.250.500.751.00

0 10 20 30Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

00.250.500.75

1


Ja

Nein

Kaplan-Meier-

Verfahren


Vorausschau


JMP: Fit Y by X

Folie 120

3) 1-Stichproben t-Test: Beispiel Anorexie


1) Differenzen „nachher“ - „vorher“

2) Mittelwert und SE der Differenzen

3) t-Test zur Nullhypothese „die mittlere Differenz ist Null“:

4) Prüfgröße

t = Mittelwertsdifferenz durch deren Standardfehler

DSEx 0t ��

� 1.480.0

03.3�

��10

15

20

25

vorher nachher

BMI

"Wie viele Standardfehler liegt

die 3.3 von der Nullhypothese weg?"

"Mit welcher W'keit tritt dies auf?"

H0: ��= �0 = 0

80.03.3 �� DSEx


p-Wert

-6 -4 -2 0 2 4 6 8 10 12 t

Unsere beobachtete mittlere Differenz ist t = 4.1 Standardfehler vom Nullhypothesen-Wert entfernt

Wie groß ist die Fläche unter der Kurve rechts von t=4.1 ?

0.0003Das heißt, es passiert nur in 0,03% der Fälle, dass eine mittlere Differenz so groß ist, wenn die Nullhypothese stimmt.

2-seitiger Test: wir sind noch konservativer, und hinterfragen sogar, ob der Kuraufenthalt bei Anorexiepatientinnen nicht auch eine Gewichtsabnahme herbeiführen könnte. Dann müssen wir beide Möglichkeiten addieren, dass eine Beobachtung 4.1 Standardfehler vom wahren Wert entfernt ist.p = 0.0003 + 0.0003 = 0.0006

Folie 122

3) 1-Stichproben t-Test: Beispiel Anorexie


1) Differenzen „nachher“ - „vorher“

2) Mittelwert und SE der Differenzen

3) t-Test zur Nullhypothese „die mittlere Differenz ist Null“ : (a) Teststatistik (t-Wert) ausrechnen (b) Überschreitungswahrscheinlichkeit (p-Wert) ausrechnen (c) mit vorgegebenem Signifikanzniveau � vergleichen (d) Ergebnis formulieren

t = 4.1

p = 0.0006

p =0.0006 < 0.05 = �

„Der beobachtete Unterschied von 3.3 unterscheidet sich signifikant von dem hypothetischen Wert 0. Die Nullhypo-these wird abgelehnt“

10

15

20

25

vorher nachher

BMI

80.03.3 �� DSEx

Folie 123

3) 1-Stichproben t-Test: Gebrauchsanweisung


& wähle Nullhypothese und Alternativhypothese

& Formuliere das Ergebnis: falls p < ��'�es gibt einen signifikanten Unterschied

& wähle Signifikanzniveau ��= 5%

H0: d = 0 H1: d � 0

& Voraussetzungen für t-Test erfüllt? (Stichprobe groß oder Grundgesamtheit normalverteilt)

& berechne die Prüfgröße (t-Wert) und die Überschreitungswahrscheinlichkeit (p-Wert)

Folie 124

4) Statistische Tests: 2-Stichproben t-Test



2-Gruppen-Vergleich





Frage: Unterscheidet sich der „mittlere“ Triglyzerid-Gehalt von Gesunden und Kranken?

gesund:

krank:

Triglyzeride [mg/dl]

4) 2-Stichproben t-Test: Beispiel Blutfettgehalt

0.1

0.3

0.5

0 200 400 600 800 1000

0.10.20.30.4

0 200 400 600 8001000

Triglyzeride [mg/dl]


Frage: Unterscheidet sich der „mittlere“ Triglyzerid-Gehalt von Gesunden und Kranken?

Beispiel: Blutfettgehalt, Logarithmus-Transformation

1.0 1.5 2.0 2.5 3.0

0.10.20.30.4

1.0 1.5 2.0 2.5 3.0

0.10.20.30.4

log10 (Triglyzeride)

log10 (Triglyzeride)

gesund:

krank:

Folie 127

4) 2-Stichproben t-Test: Prinzip


• Frage: sind die Erwartungswerte zweier Gruppen der Grundgesamtheit gleich?H0: �A= �B H1: �A� �B

• Berechne den p-Wert gemäß der t-Verteilung mit n1+n2-2 Freiheitsgraden

• Wähle Signifikanzniveau � je nach Stichprobenumfängen n1 und n2

AB

BA

SExxt )( �

�• berechne Testgröße (t-Wert)

Folie 128

4) 2-Stichproben t-Test: Auswertung Blutfettgehalt


1.5

2.0

2.5

3.0log(Triclyceride)

gesund erkrankt Gruppe

log(Triclyceride)

Level Number Mean SEMgesund 51 2.10407 0.02915erkrankt 320 2.19949 0.01164

EstimateSE

Lower 95%Upper 95%

-0.095420.03139

-0.15713-0.03370

-3.040 369 0.0025Difference t-Test DF Prob > |t|

Assuming equal variances

t-Test

Folie 129

Wie sag ich's?


1. Die Triglyzerid-Werte von nG=51 Gesunden und nK=320 Erkrankten wurden durch einen 2-Stichproben t-Test verglichen. Zur Erfüllung der Normalverteilungs-Annahme wurde der Test mit log10-transformierten Werten durchgeführt.

2. Die geom. Mittel der Triglyzerid-Konzentrationen betragen bei Gesunden �G=127.1, und bei Erkrankten �K=158.3 mg/dl.

3. Unter der Nullhypothese, dass sich die geom. Mittelwerte beider Gruppen nicht unterscheiden, ist der 1.25-fach höhere Wert bei den Erkrankten nur mit einer W'keit von p=0.0025 zu erwarten (t=3.04 mit Differenz log10(�K)-log10(�G)=0.095 und SE=0.03).

4. Basierend auf einer Irrtumswahrscheinlichkeit von �=0.05 (oder 0.01) ist dieser Unterschied signifikant; die Nullhypothese wird daher abgelehnt.

Sondern ungefähr so:

So nicht: "p<0.05; signifikant, die Alternativhypothese wird angenommen".


(1) Differenz der Logarithmen = 0.0954

(2) delogarithmieren: 100.0954 = 1.25

(3) Interpretation: das geometrische Mittel der Kranken (158.3) ist 1.25 mal so groß wie das geometrische Mittel der Gesunden (127.1)

4) Blutfett-Beispiel

Interpretation der Differenz der Logarithmen


1) Mittlere Differenz

2) Standardabw. der Differenzen:

3) Standardfehler der Differenzen

4) t-Wert

5) p-Wert für DF=9

6) Entscheidung

1-Stichproben t-Test 2-Stichproben t-Test

Cho

lest

erin

150

175

200

225

250

275

300

A vorherB nachher

Cho

lest

erin

150

175

200

225

250

275

300

A vorherB nachher

Es werden patienten-spezifische Differenzengegen "0" verglichen.

H0: "die mittlere Differenz ist gleich Null"

Es werden die Mittelwerte beider Kollektive verglichen.

H0: "Mittelwert vorher ist gleich

Mittelwert nachher"

1) Mittelwerte „vorher“, „nachher“

2) gepoolte Varianz ( ):

3) gepoolter Standardfehler

4) t-Wert

5) p-Wert für DF=18

6) Entscheidung

„Die beobachteten Mittelwerte unterscheiden sich nicht signifikantvoneinander. Die Nullhypothese kann nicht abgelehnt werden“

237.6 ; 210.7

85.10202 �ABs3.14�ABSE

88.13.14

7.2106.237�

��

��

AB

AB

SEt ��

p=0.076

p> 0.05=�

-26.9

p=0.047

p< 0.05=�

„Der beobachtete Unterschied von 26.93 unterscheidet sich signifikant von dem hypothetischen Wert 0. Die Nullhypothese wird abgelehnt“

302711

09260 ..

.SE

tD

D ��

��

��

037.sD �711.SED �

s. nächste Folie


5) Die gemeinsame Varianz von 2 unabhängigen Stichproben

140

160

180

200

220

240

260

280

A B

n 10 50

Mean 227.4 218.9

Variance 630.1 690.5

Std Dev 25.1 26.3

SE 7.9 3.7

Problem: nA << nB

1.681499

5.690491.6309

222

��

��

��

�BA

BBAAAB DFDF

sDFsDFs

Der gemeinsame Standardfehler wird aus der gepoolten Varianz berechnet:

Gepoolte Varianz:

0.950

1.68110

1.681

2222

��

��B

AB

A

ABBAab n

snsSESESE

DF = Zahl der Freiheitsgrade

= n-1

Folie 133

M E R K Z E T T E L


• 1) Ein statistischer Test ist eine Entscheidungshilfe, er kann nichts beweisen, und 2) Statistische Signifikanz bedeutet nicht inhaltliche Relevanz.

• Jeder statistische Test muss einen Fehler 1. Art akzeptieren: Die Irrtumsw'keit � gibt vor, mit welcher W'keit man einen Effekt als vorhanden ("signifikant") behauptet, obwohl er in Wirklichkeit nicht existiert (H0 ist wahr).

• Jeder statistische Test muss einen Fehler 2. Art akzeptieren: Die W'keit � gibt an, mit welcher W'keit man einen Effekt als nicht vorhanden ("nicht signifikant") behauptet, obwohl er in Wirklichkeit existiert (H1 ist wahr).

• (1-�) ist dann die Power: W'keit, dass man einen Effekt findet, wenn er in Wirklichkeit existiert (H1 ist wahr).

• p-Wert: Wahrscheinlichkeit des beobachteten Werts oder noch extremerer Werte, wenn man die Nullhypothese zugrunde legt.

��p

Übung von Hand: 1-Stichproben t-TestIn einer klinischen Vorstudie wurde an 15 Patienten die cholesterinsenkende Wirkung eines neuen Medikamentes untersucht (s. Grafik). Im Mittel konnte das Medikament den Cholesterinwert um 17.7 Einheiten senken. Die Standardabweichung der patientenspezifischen Differenzen (nachher-vorher) betrug 42.07. Es soll untersucht werden, ob die cholesterinsenkende Wirkung des Medikaments bei einer Irrtumswahrscheinlichkeit von 5% signifikant ist.

Nullhypothese:Alternativhypothese:Irtumswahrscheinlichkeit:Beobachteter Wert:Standardabweichung:Standardfehler:Prüfgröße:Stichprobenumfang:Freiheitsgrade:p-Wert:

Cho

lest

erin

125

150

175

200

225

250

275

A vorher B nachher

Berechnen Sie zum Vergleich das Konfidenzintervall

Antwort: Unter einer Irrtumswahrscheinlichkeit von ________ ist die beobachtete, mittlere Differenz von 17.7 statistisch _________________________ (signifikant / nicht signifikant?). Die Nullhypothese wird daher _________________________ (verworfen / nicht verworfen?). Die Wirksamkeit des Medikamentes ist damit __________________.

Biostatistik


Übung 4• Null- und

Alternativhypothese

• 1-Stichproben t-TestFragestellung: ist der mittlere Effekt gleich einem vorgegebenen Wert (z. B. = 0?)

• 2-Stichproben t-TestFragestellung: ist der mittlere Effekt in 2 Gruppen gleich groß?

Folie 136

Übung 4: Null- und Alternativhypothese


• Verwenden Sie den erweiterten "LehrdatensatzTherapie.jmp"

• geben Sie die Verteilung der Differenzen (post-pre) des diastolischen Blutdrucks der Patienten getrennt nach Therapiegruppe ("Treatment") aus: (Analyze >Distribution, Y:"BPdia post-pre", By "Treatment"). …Normalverteilungsannahme jeweils erfüllt?

• Wie lautet die mittlere Differenz und ihr Konfidenzintervall für jede Gruppe?control : ________ [ _______ bis ______ ]verum : ________ [ _______ bis ______ ]

• Testen Sie in beiden Gruppen die mittlere Differenz gegen die Nullhypothese "die mittlere Differenz beträgt 0": HotSpot >Test Mean

�Geben Sie im folgenden Dialogfenster keinen Wert für die "wahre" Standard-abweichung ein (ergibt t-Test), und

�wiederholen Sie dies unter der Annahme dass die wahre Standard-abweichung 5 mm Hg ist (ergibt Z-Test)

signifikant von 0

verschieden?

HotSpot >Test Mean

HotSpot >Test Mean

Auswertung s. nächste Folie

Folie 137

Übung 4: 1-Stichproben t-Test, Z-Test


t-Test Z-Testcontrol verum control verum

Hypoth. Value*Actual Estimate*DFStd DevSigma givenTest StatisticProb > |t| *Prob > t *Prob < t *

• Füllen Sie die Tabelle anhand der Auswertungsfenster der vorherigen Folie aus.

• Zeichnen Sie für den t-Test die mit Pfeil gekenn-zeichneten Werte in die Grafen ein.

• Was ist signifikant?

-2 -1 0 1 2

t-Test: control

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6

t-Test: verum

A

B

CDE

Vertei-lung des Mittel-werts unter H0

Folie 138

Ü 4: 2-Stichproben t-Test


• Werten Sie die gleichen Daten mit dem 2-Stichproben t-Test aus: Menü Analyze > Fit Y by X mit Y: "BPdia post-pre",X: "Treatment".

• Wie lauten die 1- und 2-seitigen p-Werte?zweiseitig: ___________linksseitig: ___________rechtsseitig: ___________

• Warum erzielt dieser t-Test andere p-Werte als zuvor?1) ___________________ ___________________ ___________________ 2) ___________________ ___________________

HotSpot> t Test,> Means and Std Dev

> Display Options > MeansDiamonds

Biostatistik


Einheit 51) Nichtparametrische

Verfahren2) Rangbildung3) Rangtest nach

Mann & Whitney4) Rangtest nach

Wilcoxon5) Kruskal-Wallis Test Beachte

download für Übung:

Y1234.jmpvon ILIAS

JMP: Fit Y by X

Alternativen zu t-Test und anderen parametrischen Verfahren:

Folie 140




X: Ursache

Y: W

irkun

g

10152025

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.701.80

1.902.00

A 0 BABBlutgruppe



Streudiagramm

Phä

noty

p

0.000.25

0.50

0.751.00

A1 A2 BC.Genotyp

y1

y2

y3y4y5Mosaikplot

Boxplots

Y: S

tetig

Y: N

omin

al

0.000.250.500.751.00

0 10 20 30Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

00.250.500.75

1


Ja

Nein

Kaplan-Meier-

Verfahren


Vorausschau


JMP: Fit Y by X

Folie 141

Vorbemerkung: häufig auftretende Komplikationen


• Daten der vereinigten Stichprobe sind nicht normalverteilt

• Daten pro Gruppe sind zwar normalverteilt und erlauben die Berechnung von Konfidenz-intervallen, diese erlauben aber keine eindeutige Beurteilung(z.B. wegen unbalanciertem Studiendesign. Häufiger Fall: viele Kontrollen verfügbar, aber nur wenig Patienten)

• Eine geeignete Transformation ist nicht auffindbarHäufiger Fall: log-Transformation ist problematisch wegen Null-Werten

Patienten & Kontrollen

Patienten

Kontrollen

Kontrollen Patienten

Kontrollen Patienten

Folie 142

1) Von parametrischen zu nicht-parametrischen Verfahren über Rangbildung


• Der t-Test und die Varianzanalyse werden als parametrische Verfahren bezeichnet, weil sie auf einer (parametrisierten) Verteilungsannahme beruhen.

• Annahmen: 1) Stichproben kommen aus einer normalverteilten Grundgesamtheit, und 2) haben die gleiche (keine ungleiche) Varianz.

• Gibt es keine geeignete Transformation, durch die man normalverteilte Daten und Varianzen-Gleichheit herstellen kann, kann man zu Rängen übergehen

• Statistische Tests, mit denen Rangdaten analysiert werden können, werden als nicht-parametrische Verfahren bezeichnet. Sie sind "verteilungsfrei", weil sie an keine Verteilungs-annahme gebunden sind.

Parametrische Verfahren

(t-Test, ANOVA, F-Test, ...)

Nicht-parametrische Verfahren

• Keine Normalverteilung

• Ungleiche Varianzen

• t-Test für Ränge• Rangtest nach Mann &

Whitney• Rangtest nach Wilcoxon• Kruskal-Wallis Test• etc.

Folie 143

2) Rangbildung


0123456789

1011

Ran

g Y

98

5

3.5

21

10

76

3.5

Control Patient45

50

55

60

65

Y

6261

54

5049

46

63

5857

50

Control Patient

Meßwerte Rangwerte

1.Alles in einenTopf

2.Sortieren: Nummern

nach Größe="Ränge"

3.Wieder trennen

und erneut auftragen

Ergebnis: Die Form der Verteilung der Werte ändert sich in der Regel nur geringfügig und

verfälscht die inhaltliche Aussage kaum.

Folie 144

Entscheidungsverlauf bei Komplikationen


Geeignete Transformation

auffindbar?

Nicht-parametrisches

Verfahren

2-Stichproben t-Test durchführen

auf transformier-ter Ebene weiter wie oben

Nicht-parametrischen Test verwenden

Ergebnisse zurücktrans-

formieren

ja

nein

nein

nein

ja

ja

?

??

x� �xLog

1,2,3,...

Daten dergemeinsamen Stichprobe

normalverteilt?

Datenpro Gruppe

normalverteilt?

Fragestellung ist mit Konfidenzintervallen

beantwortbar

Folie 145

3) Rangtest nach Mann-Whitney (Prüfgröße T )


Placebo (Kontrolle) Medikament (Therapie)tägliche Urinproduktion

[ml/Tag] Rang* tägliche Urinproduktion [ml/Tag] Rang*

1000 1 1400 61380 5 1600 71200 3 1180 2

1220 4T=9

* 1=kleinster Wert, 7=größter Wert

Vorgehen: 1) bilde die Ränge über die vereinigte Stichprobe*, und2) bilde die Rangsumme der kleineren Stichprobe

3) berechne, mit welcher W'keit eine Rangsumme von 9, oder noch extremer, auftritt (analog Fisher's exakter Test)

Nullhypothese: wenn das Medikament nicht wirkt, sollten die Rangsummen etwa ähnlich

sein (relativ zum Stichprobenumfang).

��Ist der Wert von T=9 extrem genug, dass man die Nullhypothese ablehnen kann?"

*Gleiche Werte erhalten denselben Rang = mittlerer Rang der Werte (wie bei Rangkorrelation)

(Das Pendant zum 2-Stichproben t-Test )

Folie 146

3) Rangtest nach Mann-Whitney: exakter Weg


Rangsumme T der kleineren Gruppe

3) berechne, mit welcher W'keit eine Rangsumme von T=9, oder noch extremer, auftritt:

Liste aller möglichen Rangkombinationen für 3 Werte (Placebo-Gruppe) von 7:

Ergebnis: bei 3 von 7 Werten gibt 35 verschiedene Möglichkeiten von Rangkombinationen:

Ergebnis: 7/35 = 1/5 Rangkombina-tionen sind extremer oder gleich T=9�� p=0.20 (einseitig)

p=0.40 (zweiseitig)

4) Wie groß ist die W'keit, dass eine Rangsumme extremer als 9 auftritt?

Folie 147

3) Rangtest nach Mann-Whitney: approximativ


Für größere Stichproben eignet sich die vorige Methode nicht mehr. Wenn die kleinere Stichprobe jedoch mehr als 8 Beobachtungen enthält, ist die Normalverteilungsapproximation relativ robust, mit

Erwartungswert

Standardfehler

und Teststatistik

� �2

1�� BSS

Tnnn�

� �12

1�� BSBS

TnnnnSE

T

TT SE

Tz ��

� � 122

1433�

��T�

� � 812

1434*3�

��TSE

375.08129

��

�Tz

bzw. mit Stetigkeits-Korrektur*

T

T

T SE

Tz 2

1��

� 3125.08

21129

��

�Tz

��p=0.38 (zweiseitig)

Im vorigen Beispiel

* Ränge sind diskret – Normalverteilung ist stetig. nS: Stichprobenumfang der kleineren Gruppe, nB: Stichprobenumfang der größeren GruppeFolie 148

3) Rangtest nach Mann-Whitney (Prüfgröße U )


Der Rangtest nach Mann-Whitney gibt es auch mit Prüfgröße U, die mit T wie folgt zusammenhängt:

Im vorigen Beispiel

� �2

1�� SS nnTU

Für die kritischen Werte für U ist man dann auf Tabellen wie folgt angewiesen:

n B

n S 1 2 3 4 5 6 7 8 9 10 11 121 - - - - - - - - - - - -2 - - - - - - 0 0 0 0 13 - - 0 1 1 2 2 3 3 44 0 1 2 3 4 4 5 6 75 2 3 5 6 7 8 9 116 5 6 8 10 11 13 147 8 10 12 14 16 188 13 15 17 19 229 17 20 23 26

10 23 26 2911 30 33

� �

� �

32

1339

21

�

��

�� SS nnTU

Ergebnis:

• Der Stichprobenumfang ist für die U-Statistik zu klein (H0 kann mit nS=3 und nB=4 generell nicht verworfen werden)

• p=0.2 (1-seitig) und p=0.4 (2-seitig) ist jedoch ver-lässlich (s. vorletzte Folie)Tab.: Kritische Werte für U, �=0.05 (1-seitig) oder �=0.025 (2-seitig), und nB>nS

"-" bedeutet, dass H0 in jedem Fall

angenommen werden muss.

Folie 149

Die Nicht-parametrischen Pendantsvon statistischen Tests


Parametrisch Nicht-parametrisch

t-Test für unabhängigeStichproben (2-Stichproben t-Test)

Rangtest nach Mann & Whitney

t-Test für abhängige Stichproben (z. B. vorher-nachher Vergleich)

Rangtest nach Wilcoxon

ANOVA Kruskal-Wallis Test

ANOVA mit Messwiedholung Friedmann-Test (hier keine Folien dazu – s. Literatur)

Folie 150

4) Rangtest nach Wilcoxon: Prüfgröße W


1. Differenzen bilden: nachher - vorher2. Ränge bilden: Beträge der Differenzen in Ränge umwandeln3. Vorzeichen zuweisen: Den Rängen das Vorzeichen der

ursprünglichen Differenz geben4. Teststatistik: W = Summe�über alle Ränge

tägliche Urinproduktion [ml/Tag]Rang der Differenz

Rang der Differenz mit VorzeichenProband vor

Einnahmenach

Einnahme Differenz

1 1600 1490 -110 5 -52 1850 1300 -550 6 -63 1300 1400 +100 4 +44 1500 1410 -90 3 -35 1400 1350 -50 2 -26 1010 1000 -10 1 -1

W=-13

Vorgehen:

Der Rangtest nach Wilcoxon eignet sich zur Analyse von verbundenen Stichproben, wenn Annahmen zur Normalverteilung und Varianzengleichheit nicht erfüllt sind.

Beispiel:

Nullhypothese: wenn das Medikament nicht wirkt,

sollte die Rangsumme der Differenzen etwa W=0

betragen.

Ergebnisse: • Die tägliche Urinproduk-tion wurde bei 5 von 6 Probanden geringer

• Wie wahrscheinlich ist es, einen Wert von W=-13oder noch extremer zu beobachten?

9001000110012001300140015001600170018001900

Urin

e

a_pre b_post

Differenzen=0 werden ignoriert; der Stichprobenumfang wird dann

entsprechend reduziert.

(Das Pendant zum 1-Stichproben t-Test )

Folie 151

4) Rangtest nach Wilcoxon: exakt


• Wie wahrscheinlich ist es, einen Wert von W=-13 oder noch extremer zu beobachten?

usw. ............ 64 mögliche Rangkombinationen

Summe W der Ränge mit Vorzeichen-13 13

Ergebnis: 7/64 Rangkombinationen sind extremer oder gleich W=-13

�� p=0.11 (einseitig)

9001000110012001300140015001600170018001900

Urin

e

a_pre b_post

p=0.22 (zweiseitig)

Folie 152

4) Rangtest nach Wilcoxon: Tabelle


Bemerkung: Wir haben W hier als Summe aller Ränge definiert. Man kann auch die Summen der positiven oder negativen Ränge bilden, was mathematisch äquivalent ist. Allerdings muss man dann entsprechend andere Tabellen benutzen, z. B.:

Was ist der kritische W-Wert für n=6?

Für eine signifikante Absenkung der Urinmenge hätte es einen W-Wert von ca. 20 gebraucht.

Kritische W-Werte für ��=0.05, zweiseitig

Folie 153

4) Rangtest nach Wilcoxon: approximativ


Für größere Stichproben eignet sich die vorige Methode nicht mehr. Die Normalverteilungs-approximation ist dann jedoch relativ robust, mit

Erwartungswert

Standardfehler

und Teststatistik

bzw. mit Stetigkeits-Korrektur*

0�W�

� �� 6

121 ��

nnnSEW

W

WW SE

Wz ��

WW SE

Wz

2/1��

��p=0.194 (zweiseitig)* Ränge sind diskret – Normalverteilung ist stetig

� �� 5.9916

112166��

��WSE

36.15.9

13��

��Wz

3.15.9

2/113�

��Wz

Folie 154

Die Nicht-parametrischen Pendantsvon statistischen Tests


Parametrisch Nicht-parametrisch

t-Test für unabhängigeStichproben (2-Stichproben t-Test)

Rangtest nach Mann & Whitney

t-Test für abhängige Stichproben (z. B. vorher-nachher Vergleich)

Rangtest nach Wilcoxon

ANOVA Kruskal-Wallis Test

ANOVA mit Messwiedholung Friedmann-Test (hier keine Folien dazu – s. Literatur)

Demo: Rangbildung macht Werte "nicht sehr kaputt"

0

5

10

15

20

25

30

35

Ran

g

a_Men b_Fw/o c_FwithGruppe

a_Men b_Fw/o c_Fwith

2

4

6

8

10

12

14

16

Hal

bwer

tsze

it K

offe

in

a_Men b_Fw/o c_Fwith a_Men b_Fw/o c_Fwith

Serumhalbwerts-zeit von Koffein nach Einzeldosis

Werte

Ränge

(Beispiel eines Kruskal-Wallis-Tests als Pendant zur Varianzanalyse für mehrere Gruppen)

Folie 156

5) Kruskal-Wallis-Test


Vorgehen: 1) bilde die Ränge über die vereinigte Stichprobe*, und2) bilde die Rangsumme für jede Gruppe

*Gleiche Werte erhalten denselben Rang = mittlerer Rang der Werte (wie bei Rangkorrelation)

H0: Wenn es keinen Gruppeneffekt gibt, sollten die großen und kleinen Ränge in den einzelnen Gruppen etwa gleichmäßig verteilt sein (Der mittlere Rang jeder Gruppe sollte also etwa dem Durchschnitt aller Ränge entsprechen).

Beispiel mit 3 Gruppen:

Gruppe 1 2 3 gesamt

Probanden n1 n2 n3 N

Rangsumme R1 R2 R3 R

mittlerer Rang 1R 2R 3R R2

1...21 ��

��

NN

NRi

ii n

RR �

� � � � � �233

222

211 RRnRRnRRnD ��

und

(entspricht SAQbetween )

Prüfgröße H nach Kruskal-Wallis (normiert D auf den Stichprobenumfang):

� �112

��

�NN

DH ist näherungsweise �2-verteilt mit FG=Gruppen-1

Folie 157

5) Kruskal-Wallis-Test: Beispiel Serumhalbwertszeit


Serumhalbwertszeit von Koffein nach Einzeldosis

162

1312

1

��

�

��

NR

� ��

8.10001667.249

1622.149

1623.1113

2

2

2

��

��

��D

� �

� �11.12

131318.100012

112

��

��

��

�NN

DH

�2-Verteilung (df=2)

�p=0.0024Folie 158

5) Kruskal-Wallis-Test: Beispiel Serumhalbwertszeit


162

1312

1

��

�

��

NR

� ��

8.10001667.249

1622.149

1623.1113

2

2

2

��

��

��D

� �

� �11.12

131318.100012

112

��

��

��

�NN

DH

�2-Verteilung (df=2)

�p=0.0024

Folie 159

M E R K Z E T T E L


• Die Umwandlung der Daten in Ränge ist immer als Strategie zu erwägen, wenn Voraussetzungen für statistische Tests fehlen.

• Typische Umstände, die zu nicht-parametrischen Verfahrenführen, sind: Daten sind nicht normalverteilt, eine geeignete Transformation ist nicht verfügbar, ungleiche Varianz zwischen Gruppen, Ausreißerproblematik.

• Der Informationsverlust durch Rangbildung ist meist nicht substanziell; nicht-parametrische Tests erreichen oft >80% der Power des parametrischen Tests.

• Die infolge von Rangbildung etwas verringerte Power ist weitaus weniger folgenschwer, als "falsche" Ergebnisse infolge von fehlenden Voraussetzungen für einen (parametrischen) Test.

• Das Gegenteil kann der Fall sein: der nicht-parametrische Test ergibt "Signifikanz", während ein t-Test jämmerlich versagt (s. Folie "Übung 5: Gruppenunterschied für Y4").

1,2,3...

p-WertFolie 160

t-Test für Ränge



2-Gruppen-Vergleich




Der t-Test kann auch auf ordinale Daten angewandt werden, wenn die Ränge hinreichend "quantitativ" sind

(viele Ränge, gute Unterscheidbarkeit, ... durch Normalverteilung beschreibbar). Die Testprozedur unterscheidet sich dann nicht von der des t-Tests.

... weiter mit Mann-Whitney

Hinweis der Vollständigkeit halber: ...ist nicht immer hilfreich aber prinzipiell machbar.

Biostatistik


Übung 5• als Vorübung zur

Hausarbeit:

eine statistische Analyse unter üblichen Komplikationen...

• von ILIAS: Datensatz "Y1234.jmp"

Folie 162

Übung 5: Datensatz & Aufgabenstellung


Verwenden Sie als Entschei-dungshilfe für die statistischbeste Vorgehensweise die ein-leitend gezeigteFolie "Entschei-dungsverlaufbei Komplika-tionen"

Control 99 99 45 42Control 66 66 13 30Control 124 124 117 32Control 104 104 54 25Control 128 128 136 30Control 75 75 18 42Control 110 110 68 38Control 79 79 21 24Control 94 94 37 26Control 121 121 104 33Control 145 145 261 26Control 69 69 14 27Control 103 103 52 28Control 120 120 100 33Control 123 123 112 30Control 100 100 46 28Control 121 121 104 31Control 62 62 11 31Control 106 106 58 32Control 88 88 29 31Patient 138 200 2154 0Patient 105 105 56 0Patient 129 129 141 10Patient 129 129 141 15Patient 99 99 45 60

Group Y1 Y2 Y3 Y4Verwenden Sie den rechts gezeigten Daten-satz der Datei Y1234.jmp (oder kopieren Siedie Daten von rechts direkt in JMP), unduntersuchen Sie für alle 4 Zielvariablen (Y1... Y4, sagen wir z. B. Serumparameter), obsich die Werte zwischen Kontroll- undPatientengruppe signifikant unterscheiden.

• Prüfen Sie mit dem Shapiro-Wilk Test jeweils zuerst,ob die Annahme normalverteilter Daten abzulehnen ist.

• Die hier erforderlichen Tests finden Sie unter Analyze > Fit Y by X > "Group" auf X und "Y1 ... Y4" auf Y:

• Sollte die Durchführung eines nicht-parametrischen Test erfor-derlich werden, finden Sie diesen im HotSpot unter Nonpara-metric > Wilcoxon Test

Folie 163

Übung 5: Gruppenunterschied für Y1


60 70 80 90 110 130 150

Normal(105.48,22.8822)

Shapiro-Wilk W Test

0.959767W

0.4099Prob<W

60708090

100110120130140150

Y1

Control PatientGroup

Patient-ControlAssuming unequal variancesDifferenceStd Err DifUpper CL DifLower CL DifConfidence

18.1509.174

39.228-2.928

0.95

t RatioDFProb > |t|Prob > tProb < t

1.9783288.175170.08250.0412*0.9588

-30 -20 -10 0 10 20 30

t Test

Oneway Analysis of Y1 By Group

• Shapiro-Wilk: Der Normalvertei-lungsannahme der Daten wird... nicht widersprochen: ��2-Stichproben t-Test kann durchgeführt werden

• 2-Stichproben t-Test :�einseitig: p=0.0412 ��

�zweiseitig: p=0.0825 ��

• 95% Konfidenzintervalle (KI):�KIPatient überlappt mit MeanControl��

�KIControl überlappt nicht mit MeanPatient��

Delikat. t-Test ist nur in 1-seitiger Betrachtung sign., was sicheres Vorwissen voraussetzt. KI sind nicht eindeutig, wegen unbalancierter Stichprobenumfänge. Zu vermuten: Lägen nur 5 Kontrollen vor, würde vermutlich alles nicht-signifikant.

Gesamtbeurteilung:

Folie 164



Warum unterscheiden sich die hier gezeigten Konfidenzintervalle von denen im numerischen output rechts? (Stichworte: wo wird

der Standardfehler aus gepoolter und wo aus gruppenspezifischer Standardabweichung berechnet?)

• Shapiro-Wilk: Der Normalverteilungsan-nahme der Daten wird nur in der vereinigten Stichprobe widersprochen, nicht jedoch für die einzelne Gruppe. ��-Test nicht möglich, aber Konfidenzintervalle

• 95% Konfidenzintervalle (KI):

�KIPatient überlappt nicht mit MeanControl��

�KIControl überlappt nicht mit MeanPatient��

Gesamtbeurteilung: trotz unbalancierter Stichprobenumfänge ergeben beide Konfidenzintervalle eine eindeutige Interpretation: jeweils keine Überlappung mit dem anderen Mittelwert �� !��

60 80 100 140 180 220

60 80 100 140 180 220

Patientenp=0.12

Kontrollenp=0.55

50 100 150 200


p=0.04

50

100

150

200

Y2


MeanStd DevStd Err MeanUpper 95% MeanLower 95% MeanN

101.8523.0520585.1545968

112.638791.061305

20

Moments

MeanStd DevStd Err MeanUpper 95% MeanLower 95% MeanN

132.440.18457417.971088182.2957482.504261

5

Moments

Warum unterscheiden sich die hier gezeigten Konfidenzintervalle von denen im numerischen output rechts? (Stichworte: wo wird

der Standardfehler aus gepoolter und wo aus gruppenspezifischer Standardabweichung berechnet?)

Folie 165



1.0 1.5 2.0 2.5 3.0 3.5

1.0 1.5 2.0 2.5 3.0 3.5

1.0 1.5 2.0 2.5 3.0 3.5

• Shapiro-Wilk: Der Normalverteilungsan-nahme der Daten wird sowohl in der... vereinigten Stichprobe widersprochen, als auch für die einzelne Gruppe. ��-Test und Konfidenzintervalle nicht möglich.

Gesamtbeurteilung:wie zuvor: trotz unbalancierter Stichprobenumfänge ergeben beide Konfidenzintervalle keine Überlappung mit dem anderen Mittelwert �� einen signifikant höheren Mittelwert.

0 50 100 150 200 250 300

0 500 1000 1500 2000


p<0.0001

0 500 1000 1500 2000

Patientenp=0.0005

Kontrollenp=0.002

• Log-Transformation erwirkt zwar keine... Normalverteilung der vereinigten Stichprobe, jedoch bei den Gruppen.��"��#��$��%��


p=0.038Patientenp=0.12

Kontrollenp=0.55

1.0

1.5

2.0

2.5

3.0

3.5

log1

0(Y3

)


Rücktransformation der Werte: Der geometrische Mittelwert der Kontroll-gruppe ist mit 10^1.6986=50 signifikant niedriger als derjenige der Patientengruppe mit 10^2.2066=161

p=

p=

p=

p=

p=

p=

Folie 166



• Shapiro-Wilk: Der Normalverteilungsannahme der Daten wird sowohl in dervereinigten Stichprobe widersprochen, als auch für die einzelne Gruppe. Log-Transformation ist nich möglich, weil in der Patientengruppe zweimal "0" auftritt.

-100

10203040506070

Y4


Patient-ControlAssuming unequal variancesDifferenceStd Err DifUpper CL DifLower CL DifConfidence

-13.95011.19116.881

-44.7810.95

t RatioDFProb > |t|Prob > tProb < t

-1.246514.080614

0.27930.86030.1397

-40 -20 0 10 20 30 40

t TestMachen Sie hier absichtlich einen (nicht statthaften) t-Test, und vergleichen Sie das Ergebnis:

ControlPatient

Level205

Count290.00035.000

Score Sum14.50007.0000

Score Mean2.010

-2.010

(Mean-Mean0)/Std0

35S

-2.00955Z

0.0445*Prob>|Z|

2-Sample Test,Normal Approximation

4.1763ChiSquare

1DF

0.0410*Prob>ChiSq

1-way Test, ChiSquareApproximation

Wilcoxon / Kruskal-Wallis Tests (Rank Sums)

-100

10203040506070

Y4


• Nicht-parametrischen Testverwenden:

Mann-Whitney.wird in JMP verallgemeinernd Kruskal-Wallis Test genannt, der für mehr als 2 Gruppen

verwendet werden kann.

• Ergebnis: Die Patientengruppe hat einen signifikant niedrigeren, mittleren Rang: p=0.04

(HotSpot des Outout-Fensters "Fit Y by X":Nonparametric > Wilcoxon Test)

Folie 167

AddOn:


Woher kommen in JMP die Konfidenzintervalle im Means&Diamonds-Plot, und warum unterscheiden sie sich vom gruppenspezifischen KI?

Antwort: die Konfidenzintervalle werden im output unter der Rubrik"Means and Standard Deviations" auf Basis der gruppenspezi-fischen Standardabweichung berechnet, im Means&Diamonds-Plotdagegen auf Basis der gepoolten Standardabweichung; auf letzteresbezieht sich auch der Hinweis "Std Error uses a pooled estimate oferror variance". Die zwischen beiden Gruppen unterschiedliche Breiteder Konfidenzintervalle resultiert nicht aus der gepoolten Standard-abweichung (denn es wird ja eine gemeinsame angenommen undberechnet), sondern lediglich aus den unterschiedlichen Stichproben-umfängen, die in den jeweiligen Standardfehler dann eingehen (z. B.Patienten: kleine Stichprobe�größerer Standardfehler�breiteres KI).Was ist die gepoolte Standardabweichung?: sie errechnet sich ausder gepoolten Varianz, s. nächste Folie. Es handelt sich lediglich umdas gewichtete Mittel beider (gruppenspezifischen) Varianzen. JedeGruppe trägt also anteilig zur Gesamtvarianz bei. Diegruppenspezifische Standardabweichung wird im output unter "Meansand Standard Deviations" ausgegeben. Die dort aufgeführten KIwerden wie üblich berechnet: mean ±1.96 SE (bzw. mitBerücksichtigung der t-Verteilung).Inhaltlich: Ob eine Auswertung auf Basis einer gemeinsamen(gepoolten) oder einer gruppenspezifischen Standardabweichunggemacht werden sollte hängt von der Umgebung der Fragestellungab: sollen Elefanten mit Mäusen verglichen werden ist einegruppenspezifische Varianz sicherlich besser gerechtfertigt, als beimtypischen Vergleich Kontrolle/Verum (wo man sich darum bemüht, dieGruppen möglichst vergleichbar zu machen). Zwischen solchenExtremen gibt es keine genaue Grenze. Unterschiede zwischenbeiden Ansätzen sind in der Regel ohnehin nur bei unbalanciertenStudiendesigns zu erwarten, und nicht bei balancierten.

aus gepoolter Varianz

aus gruppenspezifischer Varianz


Die gemeinsame Varianz von 2 Stichproben

gruppenspezifisch gepoolt

Gruppe C P C P

n 20 5 20 5

Mean m 101.9 132.4 101.9 132.4

Std Dev s 23.05 40.18 26.83

SE=s /sqrt(n) 5.15 17.97 5.999 11.998

95% KI (m ±1.96 SE) [91 - 112] [82 bis 182] [89 bis 144] [107 bis 157]

83.26

7.719194

18.40405.2319 22

222

�

��

��

��

�

CP

PC

PPCCCP

s

DFDFsDFsDFs

Die Gepoolte Varianzist lediglich ein nach n gewichteter Mittelwert beider Varianzen:

Anmerkung:Soll eine Beurteilung auch aufBasis eines gepoolten Standard-fehlers erfolgen, so wird dieser ausder gepoolten Varianz berechnet:

B

AB

A

ABBAab n

snsSESESE

2222 ��

DF = Zahl der Freiheitsgrade = n-1

"gepoolte"

aus gepoolter Varianz

aus gruppenspezifischer Varianz

Problem: nC > nP

Biostatistik


Einheit 61. Das Rechnen mit Häufigkeiten

Konfidenzintervall für Anteile

2. Unabhängige & abhängige W'keiten

() � 2-Test4. Fisher's exakter Test

JMP: Fit Y by X

Tests auf unabhängige Häufigkeiten:

Folie 170




X: Ursache

Y: W

irkun

g

10152025

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.701.80

1.902.00

A 0 BABBlutgruppe



Streudiagramm

Phä

noty

p

0.000.25

0.50

0.751.00

A1 A2 BC.Genotyp

y1

y2

y3y4y5Mosaikplot

Boxplots

Y: S

tetig

Y: N

omin

al

0.000.250.500.751.00

0 10 20 30Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

00.250.500.75

1


Ja

Nein

Kaplan-Meier-

Verfahren


Vorausschau


JMP: Fit Y by X


4-Felder Tafel – H0 - UnabhängigkeitBringt die Desinfektion was für's Überleben?

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohneDesinfektion

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohneDesinfektion

ja

nein

17

7

38

18

Ja, schon. - oder könnte der mittlere Anteil von "mit" auch im KI von "ohne" liegen?

Es war einmal vor über 200 Jahren:

Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.

844.0738

38�

��p

95% KI für "ohne": p=17/(17+18)=0.486

� �

� �

!65.032.035

486.01486.096.1486.0

1025.095.0

bis

NppzpCI

�

��

��

Standardfehler des Mittelwerts p: SE(p)

z0.025=1.96 ist das 2.5% Quantil der StandardNV

Anteil Überlebender "mit" Desinfektion:

Ergebnis: p=84.4% liegt nicht im KI von "ohne": signifikant besser. Aber Problem: der Stichprobenumfang ist nicht groß, die NV-Approximation funktioniert hier nur, weil p=0.486 nahe 0.5 liegt-> NV approximiert symmetrische Binomialverteilung recht gut.

Folie 172

Approximatives Konfidenzintervall für Anteile


N: Stichprobenumfangk: absoluter Anteilp: AnteilN

kp �

95% Konfidenzintervall:(z0.025=1.96 ist das 2.5%_Quantil der Standardnormalverteilung)

� �N

ppzpCI ��

1025.095.0

N 10 100 1000k 5 50 500p 0.5 0.5 0.5z(0.025) 1.96 1.96 1.96SE(p) 0.1581 0.0500 0.0158lower CL 0.1901 0.4020 0.4690upper CL 0.8099 0.5980 0.5310

Beispiel

Beachte: diese Normalverteilungs-

approximation sollte nur verwen-det werden, wenn

k ��und n-k ��.

Standardfehler des Mittelwerts p: SE(p)

Folie 173

Exakte 95% Konfidenzgrenzen für Anteile


Selber bauen in JMP:

Spalte lower 95% CI (beta):

Spalte upper 95% CI (beta):

geschätztes p

95%

Kon

fiden

zint

erva

ll fü

r ges

chät

ztes

p

N

N

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

2

3

4

5

6

78910

1214161820

3040501002005001000

2

3

4

5

6

789

10

1214161820

304050

100200500

1000

Folie 174

Unabhängige Ereignisse Abhängige Ereignisse


JA NEINAppendizitis

JAN

EIN

Losl

asss

chm

erz

� �45.0

45

�*

�LAP

n

� � 05.0,5 �*� LAPn

� �35.0

35

�*

�

LAPn

� � 15.015�*

�

LAPn

� � 6.0�AP � � 4.0�AP

� � 5.0�LP

� � 5.0�LP

JA NEINAppendizitis

JAN

EIN

Bril

lent

räge

r

� �� 20.0

20

��

*

�

BPAP

BAP

n

� �� 30.0

30

��

*

�

BPAP

BAP

n

� � 6.0�AP � � 4.0�AP

� � 5.0�BP

� � 5.0�BP

� �� 30.0

30

��

*�

BPAPBAP

n� �

� � � �20.0

20

��

*

�

BPAP

BAPn

Die Häufigkeit des gemeinsamen Auftretens ergibt sich einfach durch Multiplikation der Randhäufigkeiten(Multiplikationssatz der W'keitsrechnung)

Die Häufigkeit des gemeinsamen Auftretens ergibt sich nicht mehr durch einfache Multiplikation:ob ein Loslassschmerz auftritt, hängt davon ab, ob eine Appendizitis vorliegt oder nicht.

Wenn wir testen wollen, ob eine beobachtete Abhängigkeit signifikant ist, erklären wir den unab-hängigen Fall als H0, und quantifzieren, wie sehr die beobachtete Abhängigkeit davon abweicht.

Folie 175

Tests auf Häufigkeitsunterschiede


Skalentyp1 GruppeVgl. m. Standardwert

2-Gruppen-Vergleich

nominal �2-Test �2-Test

dichotom Binomial-Test(Vorzeichentest)

Fishers exakter Test, Odds-Ratio-Test

ordinal t-Test für Ränge U-Test

metrisch 1-Stichproben-t-Test 2-Stichproben-t-Test

Folie 176

4-Felder Tafel – H0 - Unabhängigkeit


Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohneDesinfektion

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohneDesinfektion

ja

nein

17

7

38

18

Bringt die Desinfektion was für's Überleben?

Für Nullhypothese: Wie würde die 4-Felder Tafel aussehen, wenn die Desinfektion keinen Effekt hätte?

oder so?So, oder so,

H0: Der Anteil der Überlebenden ist unabhängig von Desinfektion.

Für Test: Wie können wir die Abweichungen von dieser Unabhängigkeit testen?

Ja, schon. - Oder könnte das auch rein zufällig so auftreten?

Es war einmal vor über 200 Jahren:

Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.

Folie 177

�2-Test: OP-Desinfektion-Überleben


Ant. erwartet ohne mitüberlebt 0.30 0.39 0.69

tot 0.14 0.18 0.310.44 0.56 1

beobachtet ohne mitüberlebt 17 38 55

tot 18 7 2535 45 80

Anteile ohne mitüberlebt 0.21 0.48 0.69

tot 0.23 0.09 0.310.44 0.56 1

Beim �2-Test werden alle Abwei-chungen der beobachteten Anzahl(B) von den unter H0 erwarteten(E) summiert = Prüfgröße =��2

��

�E

)EB( 22�

Abs. erwartet ohne mitüberlebt 24.1 30.9

tot 10.9 14.180

Chi^2 ohne mitüberlebt 2.07 1.61

tot 4.56 3.5511.79

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohneDesinfektion

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohneDesinfektion

ja

nein

17

7

38

18

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohne

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohne

ja

neinH024

14

31

11

multiplizieren

B Beo

bach

tet

E Erw

arte

t

Folie 178

�2-Verteilung(en) & Freiheitsgrade


0

0.2

0.4

0.6

0.8

1

0 5 10 15 20 25Chi^2

P

1248

FGWelche �2–Verteilung man nehmen muss, bestimmt

die Zahl der Freiheits-grade, die sich aus den Zeilen und Spalten der

Kontingenztabelle ergibt:

1Chi^2

Der �2–Wert von 11.79 entspricht bei 1 FG einem p-Wert nahe 0 (p=0.0006).

Daher wird die Nullhypothese (Merkmale sind unabhängig) verworfen.

Wir gehen davon aus, dass Listers Desinfektionseffekt nicht zufällig ist.

FG=(Zeilen-1)(Spalten-1)

=��2

Chi^2 mit ohneüberlebt 2.07 1.61

tot 4.56 3.5511.79

Folie 179

Rolle des Stichprobenumfangs


Der �2-Wert muss nicht durch eineschrittweise Berechnung ausgeführt wer-den, wie in der letzten Folie aus didak-tischen Gründen gezeigt. Er kann auchüber folgende Formel berechnet werden:

� �� dbcadcba

bcadN��

��

22�

12

8

10

10

120

80

100

100

N=40 N=400

�2=0.404p=0.525

�2=4.04p=0.044

nicht signifikant signifikant

Ergebnis:Bei gleichbleiben-den Anteilen ent-scheidet der Stich-probenumfang über Signifikanz und Nicht-Signifikanz

Folie 180

Chi2-Test: Gebrauchsanweisung:


• Nullhypothese: beide Merkmale unabhängig• Trage die Beobachtungskombinationen

in einer Tabelle ein (zB: 4-Felder-Tafel)• Bestimme die Freiheitsgrade f• Berechne die Prüfgröße �2

• Vergleiche p-Wert mit Signifikanzniveau �• p-Wert < Signifikanzniveau �

+ Nullhypothese ablehnen + AbhängigkeitAnmerkung: Der Erwartungswert der �2-Verteilung ist gleich der Zahl der Freiheitsgrade f;die Varianz ist gleich 2 f. Der errechnete �2-Wert lässt sich also grob einschätzen.

Folie 181

Erweiterungen des Chi2-Tests


2�

... können nicht für einseitige Fragestellungen verwendet werden

Anpassungstest:Liegt eine bestimmte theoretische Verteilung vor?

Homogenitätstest:Sind die beobachteten (empirischen) Verteilungen gleich?

Ist

Ist

=

Gruppe 1 Gruppe 2

=

Beobachtet Binomialverteilt

?

?

Folie 182

Statistische Tests



2-Gruppen-Vergleich






Folie 183

Exakter Test nach Fisher: Prinzip (1-seitiger Test)


Der Exakte Fisher-Test ist ein Test auf Unabhängigkeit in der Kontingenztafel, welcher –im Ggs. zum �2-Quadrat-Test- auch mit wenig Beobachtungen funktioniert. Nullhypothese: Zeilen und Spalten sind unabhängig voneinander besetzt.

Testprinzip: unter allen Kontingenztafeln mit den gleichen Randsummen (wie den beobachteten) wird der Anteil (die W'keit) derjenigen Kontingenztafeln bestimmt, die eine noch extremere Ausprägung als die beobachtete haben.

Beispiel: seltene Erkrankung (j/n) und Raucherstatus (R/NR).

Frage: wie wahrscheinlich ist es, ein 4:1-Verhältnis bei Rauchern und ein 1:4-Verhältnis bei Nichtrauchern zu finden?

R / NR

krank j/n

4 1 5

1 4 5

5 5 10

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

R / NR

krank j/n

4 1 5

1 4 5

5 5 10

R / NR

krank j/n

3 2 5

2 3 5

5 5 10

R / NR

krank j/n

2 3 5

3 2 5

5 5 10

R / NR

krank j/n

1 4 5

4 1 5

5 5 10

R / NR

krank j/n

0 5 5

5 0 5

5 5 10

(1890-1962)

Entscheidung: die Summe der Wahrscheinlichkeiten für das Auftreten dieser beobach-teten und der noch extremeren Ausprägungen der 4-Felder-Tafel ergibt den p-Wert.

Folie 184

Exakter Test nach Fisher: Berechnung (1-seitiger Test)


Die Wahrscheinlichkeit für eine spezielle Kombination in der Kontin-genztafel leitet sich aus der Hypergeometrischen Verteilung ab:

NR / R

krank j/n

a b a+b

c d c+d

a+c b+d n

� � � � � � � �!!!!!

!!!!dcban

dbcadcbaP ��

Testprinzip: unter allen Kontingenztafeln mit den gleichen Randsummen (wie den beobachteten) wird der Anteil (die W'keit) derjenigen Kontingenztafeln bestimmt, die eine noch extremere Ausprägung als die beobachtete haben.

0.0040 0.0992 0.3968 0.3968 0.0992 0.0040P=

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

R / NR

krank j/n

4 1 5

1 4 5

5 5 10

R / NR

krank j/n

3 2 5

2 3 5

5 5 10

R / NR

krank j/n

2 3 5

3 2 5

5 5 10

R / NR

krank j/n

1 4 5

4 1 5

5 5 10

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

P=10.32%, dass 4:1:1:4 (oder eine noch extremere Konstellation) auftritt

Folie 185

Exakter Test nach Fisher: 1-seitig / 2-seitigProblem bisher: wir haben stillschweigend angenommen, dass Rauchen die Wahrscheinlichkeit der Erkrankung erhöht. Wenn wir aber kein Vorwissen hierzu haben, könnte es auch genau umgekehrt sein (Bsp.: Rauchen als Parkinson-Prophylaxe? Dann müssen wir auch die "rechts-seitigen" Extreme berücksichtigen.)

0.0040 0.0992 0.3968 0.3968 0.0992 0.0040P=

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

R / NR

krank j/n

4 1 5

1 4 5

5 5 10

R / NR

krank j/n

3 2 5

2 3 5

5 5 10

R / NR

krank j/n

2 3 5

3 2 5

5 5 10

R / NR

krank j/n

1 4 5

4 1 5

5 5 10

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

P=10.32%, dass 4:1:1:4 (oder eine einseitig noch extremere Konstellation) auftritt

2-seitiger Test:

P=20.64%, dass 4:1:1:4, oder eine zweiseitig noch extremere Konstellation) auftritt

Die 4-Felder-Tafel und zugehörige W'keiten müssen nicht symmetrisch

sein (wurde hier nur aus didaktischen Gründen gewählt)

Beachte: selbst in wissenschaftlichen Publikationen ist oft nicht ersichtlich, ob 1-

oder 2-seitig getestet wurde. Die Er-gebnisse sind dann nicht interpretierbar!

Folie 186

Jetzt mit Fisher's exaktem Test


Bringt die Desinfektion was für's Überleben?

Für Nullhypothese: Wie groß ist die W'keit, dass diese oder eine noch extremere 4-Felder Tafel auftritt? (unter der Annahme, dass die Randhäufigkeiten gleich bleiben)

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohneDesinfektion

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mitohneDesinfektion

ja

nein

17

7

38

18

Ja, schon. - Oder könnte das auch rein zufällig so auftreten?

ohne/mit

überl./tot

17 38 55

18 7 25

35 45 80

ohne/mit

überl./tot

16 39 55

19 6 25

35 45 80

ohne/mit

überl./tot

15 40 55

20 5 25

35 45 80

ohne/mit

überl./tot

14 41 55

21 4 25

35 45 80

ohne/mit

überl./tot13 42 55

22 3 25

35 45 80

ohne/mit

überl./tot

12 43 55

23 2 25

35 45 80

ohne/mit

überl./tot

11 44 55

24 1 25

35 45 80

ohne/mit

überl./tot

10 45 55

25 0 25

35 45 80

Also 7 noch extremere. Wie wahrscheinlich treten die auf? .....� � � � � � � �

!!!!!!!!!

dcbandbcadcbap ��

�

p 5.67E-04 9.10E-05 1.09E-05 9.51E-07 5.76E-08 2.27E-09 5.17E-11 5.05E-13

� �� 0007.0p , dass diese oder eine noch extremere 4-Felder Tafel auftritt, d. h. wir verwerfen H0 und bezeichnen den Desinfektionseffekt als signifikant da p<��

Folie 187

�2 & Fisher mit JMP

Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/ Folie 188

Interpretation von Fisher's exaktem

Test


JMP output aus vorhergehender Folie:

Left: p=0.9999Prob(Überleben=n)is greater for Desinfektion=j than n

2-Tail: p=0.0013Prob(Überleben=n)is different across Desinfektion

Beobachtet:

mit

ja

neinohne

Right: p=0.0007Prob(Überleben=n)is greater for Desinfektion=n than j

z. B.:

mit

ja

neinohne

z. B.:

mit

ja

nein

ohne

Extremer als so:

extremer als so:oder

Folie 189

Vergleich: besser �2 oder Fisher?


�2-Test Fisher's exakter Test

p-Wert (im Beispiel) 0.0006 0.0007Präzision approximativ exaktStichprobengröße nur anwendbar

wenn alle Erwartungswerte >5 sind

geht immer (kann bei großem N den PC aber ziemlich lange beschäftigen)

1-/2-seitig ist immer 2-seitig kann 1- oder 2-seitig interpretiert werden

Erweiterbar (m x n)Gesamt

++

+

++++ +

++Folie 190

M E R K Z E T T E L


• Wollen wir mit bedingten Ereignissen rechnen, können wir nicht mehr einfach den Multiplikationssatz verwenden.

• Mit dem �2-Test oder Fishers exaktem Test könnnen wir untersuchen, ob zwei Ereignisse voneinander abhängig sind.

• Der �2-Test funktioniert nach dem Prinzip: wie stark weichen die beobachteten von den erwarteten Häufigkeiten ab? Ist die Abweichung stark, können wir nicht von Unabhängigkeit (=H0) ausgehen.

• Fishers exakter Test funktioniert nach dem Prinzip: mit welcher W'keit sind die beobachteten oder noch extremere Häufigkeitsunterschiede zu erwarten?Ist diese W'keit (=p-Wert) klein, können wir nicht von Unabhängigkeit (=H0)ausgehen.

• Wenn möglich, sollte Fisher's exakter Test immer dem �2-Test vorgezogen werden

H1H1HH

H0HH0HHHH

�2��222222222222222222222222222222222222222222222222222222222222222222222��

Übung von Hand: �2-Test

0.00001

0.00010.00005

0.00002

0.0010.0005

0.0002

0.010.005

0.002

0.10.05

0.02

0.2

0.4

p-W

ert

0 2 4 6 8 10 12 14 16 18 20chi 2̂

Die mögliche Abhängigkeit von Hypertonie zu Ernährungsweise soll anhand eines �2-Tests untersucht werden

1. Schritt: Berechnung der beobachteten Anteile ja nein

janein

Vegetarier

Hyp

erto

nie

2. Schritt: Berechnung der er-warteten Anteile (H0: die Häu-figkeit von Hypertonie hängt nicht von der Ernährung ab)

ja neinja

nein

Vegetarier

Hyp

erto

nie

3. Schritt: Berechnung der erwarteten, absoluten Häufgkeiten unter H0

ja neinja

nein

Vegetarier

Hyp

erto

nie

4. Schritt: Berechnung der Differenzen zwischen Beobachtung und Erwartung

ja neinja

nein

Vegetarier

Hyp

erto

nie

5. Schritt: Berechnung des �2-Wertes:

� �

�

�� E

EB 22�

ja neinja a=25 b=25 50

nein c=35 d=15 5060 40 100

Vegetarier

Hyp

erto

nieBeobachtete, absolute

Häufigkeiten:5. Schritt: Umrechnung des �2-Wertes in einen p-Wert

6. Schritt: Interpretation des p-Wertes und Beurteilung des Ergebnisses

p-Werte der �2-Verteilung für 4-Felder-Tafeln (df=1)

Der �2-Wert von ____ entspricht einem p-Wert von _____. Die Wahrscheinlichkeit, dass eine 4-Felder-Tafel mit derar-tigen, oder noch extremeren Abweichungen auftritt beträgt demzufolge ______. Bei einer Irrtumswahrschelinlichkeit von �=______ wird die Nullhypothese _______________ (verworfen / nicht verworfen). Mit _____%iger Sicherheit kann davon ausgegangen werden, dass das Auftreten von Hypertonie von der Ernährungsweise ___________ (abhängt / nicht abhängt)

Biostatistik


Übung 6• 4-Felder Tafeln• Chi2-Test• Fishers exakter Test

Folie 193

Übung 6: �2-Test (1): 4-Felder Tafel


• Verwenden Sie das JMP-Menü Tables>Summary, um aus dem Datensatz"Lehrdatensatz-Therapie.jmp" eine 4-FelderTafel zu erstellen, welche die Häufigkeitvon Depression (Spalte depression) inAbhängigkeit des Geschlechts (Spaltesex) darstellt. Tragen Sie dieHäufigkeiten in die Tabelle unten ein.

Geschlecht

Female Male ��

Depression

no

yes

�

???

Folie 194

Übung 6: �2-Test (2): von Hand, in Excel


beobachtet F Mno 226 227 453yes 17 21 38

243 248 491

Anteile F Mno 0.4603 0.4623 0.9226yes 0.0346 0.0428 0.0774

0.4949 0.5051 1.0000

Ant. erwartet F Mno 0.4566 0.4660 0.9226yes 0.0383 0.0391 0.0774

0.4949 0.5051 1.0000

Abs. erwartet F Mno 224.2 228.8yes 18.8 19.2

491

Chi^2 F Mno 0.0146 0.0143yes 0.1735 0.1700

0.37

• Führen Sie einen �2-Test "manuell" in Exceldurch, in dem Sie so vorgehen, wie in der Folie"Chi2-Test: Beispiel Pigmentierung" gezeigt. D. h.berechnen Sie die �2-Abweichungen in folgendenSchritten, und tragen Sie Ergebnisse rechts ein:

1. beobachtete, absolute Anteile2. beobachtete, relative Anteile3. erwartete, relative Anteile4. erwartete, absolute Anteile,) �2-Abweichungen (Beob.-Erw.)2/Erw.

• Tragen Sie die Summe�2-Abweichungen (��2)unten rechts ein.

• Welcher p-Wert ergibtsich aus ��2, wenn Sieihn grafisch aus derfolgenden Grafik einer �2-Verteilung mit DF =1Freiheitsgraden ablesen:

0

0.2

0.4

0.6

0.8

1

0 0.5 1 1.5 2 2.5

Chi^2

P

��2=

1.

2.

3.

4.

5.

Folie 195

Übung 6, JMP : �2-Test & Fisher's exakter Test


• Überprüfen Sie Ihre manuelle Auswertungaus Excel mit JMP, indem Sie im MenüAnalyze >Fit Y by X die Variabledepression in Abhängigkeit von sexuntersuchen.

• p-Wert des �2-Tests?• p-Wert von Fisher's exaktem Test

(zweiseitig)?

• Treten Depressionen unabhängig vomGeschlecht auf?: __________, weil_________________________________.

p=_________

p=_________

• Wiederholen Sie eine ähnlicheAuswertung, indem Sie die Variabledepression in Abhängigkeit desFamilienstatus' (famStatus) untersuchen:Treten Depressionen unabhängig vomFamilienstatus auf?

• Was formulieren Sie als Ergebnis?

Biostatistik


Einheit 7 Ergänzung zu Kontingenztafeln:

1) Inter-Rater-Agreement KWas uns bisher noch fehlt:

2) Überlebenszeit- oderSurvival-Analyse, Kaplan-Meier-Verfahren

3) Logistische RegressionMultiples Testen:

4) Bonferroni Korrektur5) Meta-Analysen

Anwendungen & Vermischtes

Folie 197

1) Übereinstimmung: Cohen's - (Kappa)


1) Zwei Zellbiologen sollen den Effekt einer Substanz auf Zellen beurteilen, indem sie die gleichen 100 Zellen einer Kultur als morphologisch intakt (+) oder degeneriert (-) bewerten.

+ -+ 30 10 40

- 20 40 60

50 50 100

Rat

er B

Rater A

Beobachtet wurde von den beiden Beurteilern:

2) Ist diese Methode dahingehend geeignet, dass diese Art der Beurteilung zu einem übereinstimmen-den Ergebnis kommt? Anders gefragt: wie stark stim-men die beiden Beurteiler in ihrem Ergebnis überein?

Beispiel einer Fragestellung:

Methode: wie schon beim �2-Test müssen wir (um Abweichungen vom Zufall feststellen zu können) zunächst definieren, was man zufällig erwarten würde

+ -+ 0.2 0.2 0.4

- 0.3 0.3 0.6

0.5 0.5 1

Rat

er B

Rater A

Erwarten würde man anhand der Randhäufigkeiten

+ -+ 20 20 40

- 30 30 60

50 50 100

Übereinstimmungen Nicht-Übereinstimmungen

+ -+ 30 10 40

- 20 40 60

50 50 100

(EN: "Inter-rater agreement")

Folie 198



Rat

er B

Rater A

Beobachtet wurde von den beiden Beurteilern:

Rat

er B

Rater A

Erwarten würde man anhand der Randhäufigkeiten

+ -+ 0.3 0.1 0.4

- 0.2 0.4 0.6

0.5 0.5 1

+ -+ 0.2 0.2 0.4

- 0.3 0.3 0.6

0.5 0.5 1

exp

exp

1 pppobs

�

��.

4.05.015.07.0

��

�.

Definition von Cohen's -�

Beobachteter Anteil von Übereinstimmungen

Erwarteter Anteil von Übereinstimmungen

Je näher K bei 1 liegt, desto besser stimmen die beiden Rater überein.


Folie 199



&�'�()*��+��,

0,4 ��&�'�()-��+%�#��,

0,6 ��&�'�().��+��/��,

0,8 ��&��+�%��,

Beurteilung von Cohen's -�: -=0.40

-=0.76

Erweiterungen von Cohen's K :- kann in der gleichen Weise auf beliebige Kontingenztafeln angewandt werden- Für mehr als 2 Beurteiler: Fleiss' Kappa.


Probleme von Cohen's K:��-� kann negative Werte annehmen, ist dann aber nicht interpretierbar- kann bei "schiefen" Randhäufigkeiten inkonsistente Ergebnisse liefern:

Abhilfe: intraclass correlation coefficient (ist aber komplizierter...)

40

60

70 3040

60

30 70

Die Übereinstimmungs"rate" ist mit 60% in beiden Fällen gleich

Folie 200





X: Ursache

Y: W

irkun

g

10152025

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.701.80

1.902.00

A 0 BABBlutgruppe


Streudiagramm

Phä

noty

p

0.000.25

0.50

0.751.00

A1 A2 BC.Genotyp

y1

y2

y3y4y5Mosaikplot

Boxplots

Y: S

tetig

0.000.250.500.751.00

0 10 20 30Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

00.250.500.75

1


Ja

Nein

Kaplan-Meier-

Verfahren


2) Was uns bisher noch fehlte...


JMP: Fit Y by X

Folie 201

Verteilung�Verteilungsfunktion�Survival


Urliste:


2

4

6

Cou

nt

0.05

0.10

0.15

0.20

Pro

babi

lity

0 5 10 15 20 25 30

0.00.20.40.60.8

Cum

Pro

b

0 5 10 15 20 25 30

1.0

0.00.20.40.60.8

1-C

um P

rob

0 5 10 15 20 25 30days

1.0

Verteilung

Verteilungsfunktion(=kumulierte Verteilung)

Survival(=1-Verteilungsfunktion)

"90% der Mütter bleiben höchstens (�) 17.7 Tage

in der Klinik"

"10% der Mütter bleiben mehr als (>) 17.7 Tage

in der Klinik"

Folie 202

Verteilung�Verteilungsfunktion�Survival


F(x)

Urliste:


0.00.20.40.60.8

1-C

um P

rob

0 5 10 15 20 25 30days

1.0Survival(=1-Verteilungsfunktion)

Beachte:

Wurden nicht alle Merkmalsträgerbis zum Eintreten des Ereignisses beobachtet,

dann muss dies im „Nenner“ berücksichtigt werden

� Kaplan-Meier-Verfahren (siehe VL Epidemiologie)

Folie 203

2) Überlebenszeit- oder Verweildaueranalyse


Monat 0 Monat 1 Monat 2

Studienbeginn

Rekrutierungsende

Studienende

Tier54321

Eintritt in die Studie

Zielereignis

0.00

0.2

0.4

0.6

0.8

1.0

P(S

urvi

ve)

10 20 30 40 50Survival [Tage]

0 10 20 30 40 50

Tier54321

0 10 20 30 40 50 60

Beobachtungsdauer [Tage]

Kohortenstudie

Auswertung

Folie 204

2) Survival: Kaplan-Meier-Verfahren


0.0

0.2

0.4

0.6

0.8

1.0

0 100 200 300 400

Zensierung

Ereignis

Sur

viva

l S(x

)

berücksichtigt auch "zensierte" Beobachtungen:- Patienten, die an anderen Ursachen versterben- Patienten, die nur eine Zeit lang beobachtet wurden

und solche Patienten, die bis zum Beobachtungsende überleben.

22

2

2

Har

ms,

S. 2

17 T

ab 7

.9 T

hera

pie

Folie 205

3) Logistische Regression: Challenger-Unglück


28. Jan. 1986

On January 28, 1986 the space shuttleChallenger had a catastrophic failure due toburnthrough of an O-ring seal at a joint in oneof the solid-fuel rocket boosters. This was the25th shuttle flight. Of the 24 previous shuttleflights, 7 had incidents of damage to joints,16 had no incidents of damage, and 1 wasunknown. (The data comes from recoveredsolid rocket boosters— the one that wasunknown was not recovered.)

Tabelle: Shuttle Flüge vor 1986: Temperatur und Dichtungsschäden

Stehen Dichtungsschäden

und Außentemperatur in Zusammenhang?

Flight Temp (°F)

Joint damage

Y/NSTS-1 66 NOSTS-2 70 YESSTS-3 69 NOSTS-4 80STS-5 68 NOSTS-6 67 NOSTS-7 72 NOSTS-8 73 NOSTS-9 70 NOSTS 41-B 57 YESSTS 41-C 63 YESSTS 41-D 70 YESSTS 41-G 78 NOSTS 51-A 67 NOSTS 51-C 53 YESSTS 51-D 67 NOSTS 51-B 75 NOSTS 51-G 70 NOSTS 51-F 81 NOSTS 51-I 76 NOSTS 51-J 79 NOSTS 61-A 75 YESSTS 61-B 76 NOSTS 61-C 58 YES

Folie 206

3) Logistische Regression: Challenger-Unglück

Flight Temp (°F)

Joint damage

Y/NSTS-1 66 NOSTS-2 70 YESSTS-3 69 NOSTS-4 80STS-5 68 NOSTS-6 67 NOSTS-7 72 NOSTS-8 73 NOSTS-9 70 NOSTS 41-B 57 YESSTS 41-C 63 YESSTS 41-D 70 YESSTS 41-G 78 NOSTS 51-A 67 NOSTS 51-C 53 YESSTS 51-D 67 NOSTS 51-B 75 NOSTS 51-G 70 NOSTS 51-F 81 NOSTS 51-I 76 NOSTS 51-J 79 NOSTS 61-A 75 YESSTS 61-B 76 NOSTS 61-C 58 YES

Hängt die W'keit eines Dichtungsschadens von der Temperatur ab?

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

Join

t dam

age

1/0

45 50 55 60 65 70 75 80 85Temp (°F)

Join

t dam

age

Y/N

0.00

0.25

0.50

0.75

1.00

50-65 65-70 70-75 75-80 80-Temp class

YES

NO

X: stetig, Y: stetig

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

Join

t dam

age

1/0

50-65 65-70 70-75 75-80 80-Temp class

X: nominal, Y: stetig

X: nominal, Y: nominal

Join

t dam

age

Y/N

0.00

0.25

0.50

0.75

1.00

50 55 60 65 70 75 80 85

Temp (°F)

YES

NO

X: stetig, Y: W'keit

Wie bei einer linearen

Regression

soll die dicho-tome Variable

(Beschädigung Ja/Nein)

als W'keit (stetig)

und abhängig von der Tem-peratur

(stetig)

beschrieben werden

NO

Folie 207

3) Logistische Regression: Logit-Transformation


Interval (51,55) (56,60) (61,65) (66,70) (71,75) (76,80) (81,85)Temp 53 58 63 68 73 78 83p 0.99 0.99 0.99 0.2 0.25 0.01 0.01Logit 4.595 4.595 4.595 -1.386 -1.099 -4.595 -4.595

Challenger-Daten gruppiert in Schritten von 5°F:Anteil Beschädigungen

�

� �

��

�p

p1

ln

Tempp

p 37.04.251

ln ��

� �

�� Temp

Temp

eeP 37.04.25

37.04.25

1 �

�

��

1) Wir können die Logit-transformierten Daten durch eine lineare Regression anpassen:

2) Durch Rücktransformation erhalten wir dann die logistische Kurve:

Folie 208

3) Logistische Regression: JMP-output

Datenpunkte werden in Y-Richtung zufällig verzittert

(die X-Koordinate ist korrekt)

logistische Kurve: "W'keit, mit der eine Beschädigung bei dieser Temperatur zu erwarten ist"

Test auf Nullhypothese "W'keit einer Beschädigung hängt nicht von der

Temperatur ab"

* die "Estimates" weichen von der vorigen Folie ab, weil das Modell dort an die gruppierten Daten angepasst wurde

*

Tempp

p 232.004.151

ln ��

� �

��

*

Achsenabschnitt signifikantSteigung signifikant

"Parameter Estimates" für

Folie 209

4) Multiples Testen: Bonferroni-Korrektur


• Für eine Fragestellung sollen an ein- und demsel-ben Datensatz etwa 10 Tests durchgeführt werden

• Jeder dieser Tests liefert ein Ergebnis mit einer Irrtumswahrscheinlichkeit von 5%

• Wenn wir uns 10 mal mit einer W'keit von 5% irren, dann irren wir insgesamt mit einer W'keit von 50% (entweder beim ersten, oder beim zweiten, oder beim dritten ... = 5+5+5+5+5+5+5+5+5+5=50%)

10 Tests

� =5% pro Test

� =50% für 10 Tests

� =0.5% pro Test

� =5%für 10 Tests

Anders gesagt: Wenn Sie mit einer W'keit von 5% pro Versuch

ihren Finger treffen, dann sollten Sie nicht 20 mal hacken.

• Wenn wir uns insgesamt mit einer W'keit von 5% irren wollten, dann müssten wir die Irrtumsw'keit für jeden einzelnen Test um das 10-fache erniedrigen. Dies nennt

man Bonferroni-Korrektur

( )Folie 210

5) Meta Analysen am Beispiel OR


• Oft werden kleine Studien durchgeführt, ausgewertet und veröffentlicht

• Es ist naheliegend, die Ergebnisse so zusammenzufassen, als hätte man eine große Studie durchgeführt

Wichtig: Die Studien müssen vergleichbar sein!• gleiche Ein- und Ausschlusskriterien?• RCT* doppelt verblindet und randomisiert?• gleiche Behandlung in RCT?• gleiche Beobachtung in RCT bzw. Kohorten?

Grundidee von Meta-Analysen:

* Randomized Clinical Trial

Folie 211

5) Forest Plot


• Anh VNM 89• Anh VNM 92-95• Birku ETH 96-97• Danis WAF 93-94• Hien VNM 89-90• Hien VNM 91-98• Karbwang THI 91• Karbwang THI 92-94• Murphy KEN 92-94• Djuawo NIG (98)• Olumese NIG 94-96• Phuong VNM 92-95• Seaton PNG 92-95• Taylor MAL 92-94• Win MYA 89-91• van Hensbroek GAM 92-94

0.001 0.01 .1.2 .5 1 2 5 10Odds Ratio

Stud

ien:

Biostatistik


Übung 7• Logistische Regression

Folie 213

Übung 8: Logistische Regression


Tabelle: Shuttle Flüge vor 1986: Temperatur und Dichtungsschäden

• Kopieren Sie die Daten ausder Tabelle links in eine leereJMP-Tabelle.

• Reproduzieren Sie die Aus-wertung aus den vorher-gehenden Folien, indem Sieim Menü Analyze >Fit Yby X die Variable "Damage"(dichotom: Y) in Abhängig-keit der Variable Temp (stetig:X) untersuchen.

• p=_____? (im Ausgabe-fenster, unter der Rubrik"Parameter estimates")

• Wählen Sie im HotSpot desAusgabefensters die Option"Save ProbabilityFormula", um Spalten imTabellenblatt erstellt zu be-kommen, durch welche dieFunktion der LogistischenKurve berechnet wird (eskommen ziemlich viele Spalten -schauen Sie nach Spalte"Prob[YES] und deren Formel).

Flight Temp (°F)

Damage Y/N

STS-1 66 NOSTS-2 70 YESSTS-3 69 NOSTS-4 80STS-5 68 NOSTS-6 67 NOSTS-7 72 NOSTS-8 73 NOSTS-9 70 NOSTS 41-B 57 YESSTS 41-C 63 YESSTS 41-D 70 YESSTS 41-G 78 NOSTS 51-A 67 NOSTS 51-C 53 YESSTS 51-D 67 NOSTS 51-B 75 NOSTS 51-G 70 NOSTS 51-F 81 NOSTS 51-I 76 NOSTS 51-J 79 NOSTS 61-A 75 YESSTS 61-B 76 NOSTS 61-C 58 YES

Biostatistik


Einheit 81) Wahrscheinlichkeits-

rechnungBeispiel: Lotto, Münzwurf ��0��$�#��1��2� ��

2) Additions-,Multiplikationssatz

3) Binomialkoeffizient

4) Binomialverteilung5) Binomialtest6) Poissonverteilung

Verteilungen:

Folie 215

Grobe Abschätzungen im Dreisatz


Probabilistische Sicherheitsanalyse: Nach der Deutschen Risikostudie der Gesellschaft für Anlagen- und Reaktorsicherheit (GRS) von 1989 ist für einen deutschen Druckwasserreaktor der zweiten Generation (z. B. Block B Biblis) alle 33.000 Betriebsjahre mit einem schweren Unfall zu rechnen. Optimisten sagen: alle 1.000.000 Jahre.

Zur Zeit sind weltweit 210 Kernkraftwerke mit 439 Reaktorblöcken am Netz.

In welchem Abstand in Jahren haben wir demnach einen schweren Unfall zu erwarten?

Ist ein derart vereinfachter Dreisatz gerechtfertigt?

Empirischer Ansatz: Seit 1955: Harrisburg, Tschernobyl, Fukushima (=mind. 3) Sagen wir 3 pro 55 Jahre = ca. alle 18 Jahre

Ist dieser Schätzwert eher über- oder unterschätzt?Folie 216

Wiederholung &

Programm


Binomialverteilung

Poisson-Verteilung

Folie 217

1) Häufigkeiten vs. Wahrscheinlichkeiten


)(lim)( EfEP n�$�n

n = Gesamtzahl aller Beobachtungen

Hn(E) = absolute Häufigkeit des Ereignisses „E“

fn(E) = relative Häufigkeit des Ereignisses „E“

P(E) = Wahrscheinlichkeiten des Ereignisses „E“

nEHEf nn

)()( �

Folie 218

1) Empirische & theoretische Größen


Empirische Größe Theoretische Größe

1

3

5Count

-400 -200 0 100 200 300

Häufigkeitsverteilung

empirische Varianz s2

(Standardabweichung s)

Mittelwert x

Wahrscheinlichkeitsverteilung

Varianz � 2

(Standardabweichung � ��


Folie 219

1) Nehmen wir mal 'ne Münze...


... die fällt entweder mit Kopf oder mit Zahl

Wenn wir sie oft genug werfen ...

00.20.40.60.81.0 Relative Häufigkeit ( )

...dann nähert sich die relative Häufigkeit des Ereignisses "Kopf", der Wahrscheinlichkeit für dieses Ereignis an:

Relative Häufigkeit ( ) � � � � � Wahrscheinlichkeit ( )Folie 220

1) Das Gesetz der großen Zahlen: Münzwurf


0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1 10 100 1000 10000n

Anzahl der Würfe (Stichprobengröße n)

Rel

ativ

e H

äufig

keit

(Kop

f fäl

lt) KopfKopf

Zahl Zahlusw

.

Rel

ativ

e H

äufig

keit

(Kop

f fäl

lt)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1 10 100 1000 10000n

KopfZahl

Kopf

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1 10 100 1000 10000n


Rel

ativ

e H

äufig

keit

(Kop

f fäl

lt)

KopfZahlusw

.

ZahlZahlZahl

Zahl

95% aller Wurfsequenzen sind in Ihrem Verlauf zwischen den beiden blauen Linien zu erwarten.

Diesen Abschnitt würde man als signifikante Abweichung von der (95%-) Erwartung bezeichnen.

Erster Simulationsverlauf Zweiter Simulationsverlauf

Dritter Simulationsverlauf


Klassischer Wahrscheinlichkeitsbegriff:

Anzahl günstiger Fälle

Anzahl möglicher FälleP=

Folie 221

2) Additionssatz der Wahrscheinlichkeitsrechnung


Die Wahrscheinlichkeit, dass beim Werfen einer Münze "Kopf" fällt, ist: P( ) = 0.5

Ebenso für "Zahl" : P( ) = 0.5

Additionssatz der W'keitsrechnung

1 mal werfen:Die Wahrscheinlichkeit, dass Kopf oder Zahl fällt ist:

P( oder ) = P( )+P( ) = 0.5+0.5 = 1

Merke: Bei "Oder"-Verknüpfungen werden W'keiten addiertFolie 222

2) Multiplikationssatz der Wahrscheinlichkeitsrechnung


2 mal werfen:Die Wahrscheinlichkeit, dass 1x Kopf und 1x Zahl fällt ist:

P( und )= P( ) •P( ) = 0.5•0.5 = 0.25

Multiplikationssatz der W'keitsrechnung

Merke: Bei "Und"-Verknüpfungen werden W'keiten multipliziert

Aber Vorsicht...

Folie 223

2) Multiplikationssatz der Wahrscheinlichkeitsrechnung


... dieses Ereignis kann auf 2 verschiedene Arten zustande kommen

P( )•P( ) = 0.25

P( )•P( ) = 0.25Oder so: erst , dann :

Nämlich so: erst , dann :

P(K und Z)=P(K)•P(Z) + P(Z)•P(K)

= 0.25 + 0.25 = 0.5Additionssatz der W'keitsrechnung

Folie 224

Additionssatz Multiplikationssatz


der Wahrscheinlichkeitsrechnung

� Vereinigung zweier Ereignisse � Durchschnitt zweier Ereignisse

allgemeiner Fall:P(A oder B) = P(A) + P(B) – P(A und B)Bsp: A=blonde Haare, B=braune Augen

disjunkter Fall:P(A oder B) = P(A) + P(B)Bsp: A=blonde Haare, B=braune Haare

allgemeiner Fall:P(A und B) = P(A) • P(B | A)Bsp: A=Haarfarbe, B=Augenfarbe

unabhängige Ereignisse: P(A und B) = P(A) • P(B)Bsp: A=Haarfarbe, B=Brille (ja/nein)

blond braun

Bril

lene

in

ja

P(B)P(A und B)P(A)

P(A) P(B)

Folie 225

Beispiel: Münze


Wie groß ist die W'keit, dass bei 3 x Werfen 1x Kopf fällt?

0.5• 0.5• 0.5 = 0.1251. Möglichkeit: & &oder

2. Möglichkeit: & &oder

3. Möglichkeit: & &

0.5• 0.5• 0.5 = 0.125

0.5• 0.5• 0.5 = 0.125

P(K) = 0.375

P( ) = P( ) = 0.5

Folie 226

Beispiel: "verzerrte" Münze


Wie groß ist die W'keit, dass bei 3 x Werfen 1x Kopf fällt?

0.4• 0.6• 0.6 = 0.1441. Möglichkeit: & &oder

2. Möglichkeit: & &oder

3. Möglichkeit: & &

0.6• 0.4• 0.6 = 0.144

0.6• 0.6• 0.4 = 0.144

P(K) = 0.432Die W'keit für "Kopf" ist geringer als zuvor,

deshalb wird es wahrscheinlicher, dass Kopf nur 1 mal fällt

P( )=0.4, P( ) = 0.6

Folie 227

3) Viele Wege führen nach Rom


Auf wie viele verschiedene Artenkann man bei 4x Werfen,

"2x Kopf und 2x Zahl" erhalten?

1. Weg

2. Weg

3. Weg

4. Weg

5. Weg

6. Weg

Auf wie viele verschiedene Artenkann man bei 40x Werfen,

"20x Kopf und 20x Zahl" erhalten?• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •

• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •

137 846 528 820 WegeFolie 228

3) Der schnellste Weg: Der Binomialkoeffizient


�

� �

�kn" n

über k "

gibt die Anzahl der möglichen Wege an, aus n Würfen k Treffer zu erhalten(ohne Berücksichtigung der Reihenfolge)

� �!kn!k!n

kn

��

�

� �

�n...!n �� 321wobei

" n-Fakultät "

��

� �

�6

101•2•3•4•5•6 • 1•2•3•41•2•3•4•5•6•7•8•9•10 7•8•9•10

1•2•3•4=

504024

= = 210 Wege

Folie 229

3) Der Binomialkoeffizient im Lotto


W'keit, dass die 1. Kugel ein Kreuzchen trifft : 6 / 49" 2. " : 5 / 48" 3. " : 4 / 47" 4. " : 3 / 46" 5. " : 2 / 45" 6. " : 1 / 44

Wahr'keit für 6 Richtige = 816983131

441

452

463

474

485

496

�&&&&&

� �

81698313654321

49484746454443321654321

4944433216496

49649

��

��

��

�

��

�

� �

��

�

� �

�

.........

!!!

knBerechnung über den

Binomialkoeffizienten:

Es braucht "im Schnitt" 13 983 816 Lottoscheine,

um 1 mal 6 Richtige zu haben.

410 12

23 27

46

Folie 230

4) Binomialverteilung


Angenommen, ein Experiment habe nur zwei verschiedene Ergebnisse,

geheilt/nicht geheilt - lebend/tot - männlich/weiblich

dann gibt die Binomialverteilung die Wahrscheinlichkeit dafür an, dass in

insgesamt n unabhängigen Versuchen kmal ein bestimmtes Ergebnis eintritt.

Demo: http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-bin.html

Folie 231

4) Wahrscheinlichkeitsrechnung einfach: Der Münzwurf


Schauen wir uns das Beispiel 4 x werfen genauer an:mögliche Kombinationen sind:

es fällt 2 x Kopf und 2 x Zahl

... und fertig ist unsere Wahrscheinlichkeitsverteilung, von n=4 Würfen k mal Kopf zu erhalten

k=0 k=1 k=2 k=3 k=4

es fällt immer Zahl

es fällt immer Kopf



0.0625

0.250.375

0.25

0.06250

1/16

2/16

3/16

4/16

5/16

6/16

Folie 232




es fällt immer Zahl

es fällt immer Kopf



Schauen wir uns das Beispiel 4 x werfen genauer an:...und sagen =p und =q

W'keit, dass Kopf fällt

W'keit, dass Zahl fällt

Folie 233



p pq qp pq qp pq q

p pq qp pq qp p q qes fällt 2 x Kopf

und 2 x Zahl(k=2)

q q q qes fällt immer

Zahl(k=0)

p p p pes fällt immer

Kopf(k=4)

q pp pqp p p

qp p pqppp


(k=3)

q q qpq q qpq q qpq q q pes fällt 1 x Kopf

und 3 x Zahl(k=1)

Schauen wir uns das Beispiel 4 x werfen genauer an:...und sagen =p und =q

AnzahlWege

104

��

� �

�4

14

��

� �

�6

24

��

� �

�4

34

��

� �

�1

44

��

� �

�

q4 p1 q3 p2 q2 p3 q1 p4

q4 4pq3 6p2q2 4p3q p4W'keiten

W'keit, dass Kopf fällt

W'keit, dass Zahl fällt

Folie 234

4) Die Binomialverteilung



(k=2)

es fällt immer Zahl(k=0)

es fällt immer Kopf(k=4)


(k=3)


(k=1)

AnzahlWege

104

��

� �

�4

14

��

� �

�6

24

��

� �

�4

34

��

� �

�1

44

��

� �

�

q4 p1 q3 p2 q2 p3 q1 p4

q4 4pq3 6p2q2 4p3q p4W'keiten

und genau das macht auf ganz einfache Weise

Formel:

W'keit, dass das betrachtete

Ereignis eintritt (z.B. "Kopf fällt")

Wie viele Wege führen zum betrachteten

Ereignis

"Kopf" tritt k mal ein "Zahl" tritt in den anderen Fällen ein (n-k)

W'keit, dass das komplementäre Ereignis eintritt (z.B. "Zahl fällt")

� � knk ppkn

kP ��

� �

�� 1)(

Folie 235

4) Formen der Binomialverteilung


knk ppkn

kKP ��

� �

�� )1()(

)1(2 ppn ��

pn ��

p=0.2 (n=10)

p=0.5 (n=10)

(Symmetrie)

p=0.8 (n=10)

Erwartungswert:

Varianz:

Formel:0.10

0.20

0.30

0 1 2 3 4 5 6 7 8 9 10

0.05

0.15

0 1 2 3 4 5 6 7 8 9 10

0.10

0.20

0.30

0 1 2 3 4 5 6 7 8 9 10

Folie 236

4) Übungsaufgabe


Wie groß ist die Wahrscheinlichkeit, dass bei n=5 Behandelten alle geheilt werden?

� �

33080

208055

5

1

5

05

..

..)P(K

-ppkn

k)P(K n-kk

/�

��

� �

��

��

� �

��

Die Wahrscheinlichkeit, dass eine bestimmte Behandlung erfolgreich ist, sei p=0.8.

Wie groß ist die Wahrscheinlichkeit, dass bei n=5 Behandelten keiner geheilt wird?

� �

00032020

208005

0

1

5

50

..

..)P(K

-ppkn

k)P(K n-kk

/�

��

� �

��

��

� �

��

p5 (1-p)5

Folie 237

4) Übungsaufgabe


0.0

0.1

0.2

0.3

0.4

0.5

0 1 2 3 4 5

Wie groß ist die W'keit, dass von 5 Behandelten mindestens einer geheilt wird:

Die Wahrscheinlichkeit, dass von insgesamt n=5 Behandelten k geheilt werden, sieht gemäß der Binomialverteilung mit p=0.8 so aus:

k= Anzahl Geheilter unter 5 Behandelten

W

ahrs

chei

nlic

hkei

t

� � 0003201010 .)K(PKP ��0

� � � � � � � � � � 999680543210 ......PPPPP)K(P ��0

einfacher geht das so:

k P(k)

0 0.00032

1 0.00640

2 0.05120

3 0.20480

4 0.40960

5 0.32768

++++

Folie 238

Tests auf Häufigkeitsunterschiede



2-Gruppen-Vergleich






Folie 239

5) Binomialtest: Bsp. Anästhesie


• Neue Anästhesiemethode– bei k=10 von n=10 Patienten ohne Komplikation

– Geschätzte Erfolgswahrscheinlichkeit p = 100%

• Bisherige Erfolgswahrscheinlichkeit p = 93%– Ist die neue Anästhesiemethode besser oder war es Zufall?

• Wie wahrscheinlich ist es unter der bisherigen Erfolgs-wahrscheinlichkeit von p = 0.93, dass bei 10 Patienten von insgesamt 10 keine Komplikationen auftreten?

0.93k = 0.9310 = 0.484Folie 240

5) Binomialtest: Bsp. Anästhesie


• Neue Studie mit n=50 Patienten– Komplikationen bei k=2 von n=50 Patienten – Geschätzte Erfolgswahrscheinlichkeit = 96 %

• Bisherige Erfolgswahrscheinlichkeit = 93 %– Ist die neue Anästhesiemethode besser oder war es Zufall?

• Wie wahrscheinlich ist es unter der bisherigen Erfolgs-wahrscheinlichkeit von p = 0.93, dass bei mindestens 48 Patienten von 50 keine Komplikationen auftreten?

?50494848 ��1 ...)()()()( kPkPkPkP

Folie 241

5) Binomialtest mit n=50, p=0.93


0.05

0.10

0.15

0.20

30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

31.1%� �

k

Testprinzip Binomialtest: Wie wahrscheinlich ist es unter der bisherigen Erfolgswahrschein-lichkeit von p = 0.93, dass bei mindestens 48 Patienten von 50 keine Komplikationen auftreten?

Folie 242

Anwendung und Probleme


Ergebnis: mit der bisherigen Methode (p=93%) erwartet man in 31.1% der Studien mit n=50 ein Ergebnis, das mindestensgenau so gut ist, wie das der neuen Methode. Gemessen am üblichen 5%-Kriterium ist das nicht signifikant besser.

0.05

0.10

0.15

0.20

303132333435363738394041424344454647484950

31.1%� �

kSchlussfolgerungen

1) ist p ohnehin schon nahe bei 0 oder 1, dann wird es sehr schwierig, Signifikanz zu erreichen (im obigen Fall könnte nur k =50 ein ��<5% erwirken ��3� ��((4�5��!� �� .)

2) kleine Stichprobenumfänge vergrößern dieses Problem zusätzlich3) Signifikanz vs. Relevanz: solange die neue Methode keine anderen,

gravierenden Nachteile mit sich bringt, sollte sie angewandt werden, daa) jegliche Vermeidung von Komplikation anzustreben ist, undb) die Anwendung den Stichprobenumfang erhöht, und später eine

Statistik mit besserer Güte (Power 1-�) durchgeführt werden kann.

Folie 243

5) Faustregel


Für undist die Binomialverteilung hinreichend symmetrisch,

und man kann näherungsweise mit der

Normalverteilung rechnen.

50� np 51 0�� np)(

Demo

für die Approximation der Binomialverteilung durch die Normalverteilung

Folie 244

Zusammenfassung Binomialverteilung


• die Binomialverteilung gibt die Wahrscheinlichkeit dafür an, dass in insgesamt n unabhängigen Versuchen k mal ein bestimmtes Ergebnis eintritt.

• für p < 0.5 ist sie linkssteil (rechtsschief)für p = 0.5 ist sie symmetrischfür p > 0.5 ist sie rechtssteil (linksschief)

• Der Binomialtest beantwortet die Frage: Wie wahrscheinlich ist es unter einer vorgegebenen Erfolgswahrscheinlichkeit (Nullhypothese), dass mindestens/höchstens die beobachtete Anzahl "Treffer" eingetreten ist?

Folie 245

6) Die Poissonverteilung


Die Poissonverteilung verwendet man, wenn ein Mittelwert gegeben istund die Frage lautet: Wie groß ist die W'keit, k zu finden

� � 22 �� e!k

kKPk

Beispiel Erythrocyten im Mikroskop zur Auszählung:

Annahmen: Die Zellen verteilen sich • zufällig (die Aufenthaltsw'keit an einer beliebi-

gen Stelle im Gitter ist für alle Zellen gleich) und

• unabhängig (Zellen klumpen nicht oder stoßen sich nicht gegenseitig ab)

Auf einem Gitter mit 100 Quadraten verteilen sich 80 Zellen �im Mittel: 2 = 0.8 Zellen/Quadrat

Bei bekanntem Mittlelwert 2 ergibt sich die W'keit,in einem beliebigen Quadrat k Zellen zu finden zu:

Folie 246

6) Die Poissonverteilung


0.00

0.10

0.20

0.30

0.40

0.50

0 2 4 6 8

k P(K=k)0 0.44931 0.35952 0.14383 0.03834 0.00775 0.00126 0.00027 1.87E-058 1.87E-06 ....

Die Poissonverteilung besitzt einen unendlichen Träger (x-Achse ist unendlich lang) � Im Gegensatz zur

Binomialverteilung (mit endlichem Träger n)!

Beispiel Erythrocyten im Mikroskop zur Auszählung:

� � 22 �� e!k

kKPk

Folie 247

Vergleich Poisson- und Binomialverteilung


k Poisson (0.8) Binomial (80,0.01)0 0.4493 0.44751 0.3595 0.36162 0.1438 0.14433 0.0383 0.03794 0.0077 0.00745 0.0012 0.00116 0.0002 0.00017 1.87E-05 1.53E-058 1.87E-06 1.41E-06

Poissonverteilung Bei 80 Zellen in 100 Quadraten

erwarten wir 0.8 Zellen

pro Quadrat

Erwartungs-wert:�2=0.8

Binomialverteilung

Erwartungswert: np=0.8

� p = 0.8/n = 0.01

In einem Quadrat können maximal 80 Zellen auftreten

n=80.

0.000.100.200.300.400.50

0 1 2 3 4 5 6 7 8

Biostatistik


Übung 8• Binomialverteilung,

Binomialtest• optional: Münzwurf

(Gesetz der großen Zahlen)

Folie 249

Übung 8: Binomialtest (1)


• Fügen Sie im Datensatz "Lehrdatensatz-Therapie.jmp" eine neue Spalte "Treatment success" mit Datentyp "Character" an, mit der Sie den Anteil derjenigen Patienten bestimmen (s.u.), deren diastolischer Blutdruck gesenkt wurde (BPdia post-pre<0).

• Bestimmen Sie den Anteil der erfolgreichen Behandlungen durch Analyze >Fit Y by X, mit X: "Treatment", Y: "Treatment success". Ergebnis (absolut,%): control: ______ von ______=_______%verum: ______ von ______=_______%.

Formel

Formeleditor>Conditional

>If

Formeleditor >Comparison >Is Missing und dann >Conditional >Not

Fragestellung: Im "LehrdatensatzTherapie.jmp" soll die Gruppe der mit dem neuen Blutdruck-senker behandelten Patienten auf den Anteil der erfolgreich Behandelten hin untersucht werden. Der bisher standardmäßig eingesetzte Blutdrucksenker erzielt bei 80% der Be-handelten eine Blutdrucksenkung. Basierend auf diesem Standard soll untersucht wer-den, ob der in der vorliegenden Studie gefundene Anteil eine wesentliche Steigerung im Anteil der erfolgreich Behandelten darstellt, oder auch rein zufällig sein könnte.

Folie 250

Übung 8: Binomialtest (2)


• Erstellen Sie eine eigene Datentabelle "BinomialTest.jmp" (File >New >Data Table)mit 4 Spalten (Namen s. screen-shot rechts) und 43 Zeilen an. Geben Sie die Formel für die Binomialverteilung ein (s. Sprechblasen), mit p=0.8 (H0: der Anteil der mit dem Standard erfolgreich Behandelten beträgt 80%)

• Die Befehle finden Sie in den Functionsdes Formeleditors:

�Spalte "k": Row() ist die Zeilennummer unter >Row >Row

�Spalte "H0_P(K=k|n,p)": die Einzelw'keiten der Binomialverteilung, gegeben n, k.Binomial Probability (p,n,k). finden Sie unter Functions >Discrete Probabilities > Binomial Probability.

�Spalte "H0 kumulativ": Zeilen des Datensat-zes können indiziert werden unter >Row>Subscript. Was bewirkt diese Formel?

• Wie hoch ist demnach die W'keit, dass das Medikament unter H0 (p=0.8) bei 37 (oder mehr) von 42 Patienten einen Behandlungserfolg zeigt.p=_______________

• Erbringt das neue Medikament eine signifikante Verbesserung?: _______

• Relevante Verbesserung?: _______

Folie 251

Übung 8, optional: Münzwurf, Binomialverteilung


• Simulieren Sie Ihren eigenen Datensatz "Münzwurf": File >New >Data Table (Reproduzieren der Folie 4, Einheit 5: "Das Gesetz der großen Zahlen":)

• legen Sie 4 Spalten (Namen s. screen-shot rechts) und 10000 Zeilen an.

• Geben sie in jede Spalte die Formel ein, wie in den Sprechblasen rechts angegeben. Die Befehle finden Sie in den Functions des Formeleditors:

�Spalte "Wurf Nr": Row() ist die Zeilennummer unter Functions >Row >Row

�Spalte "Kopf oder Zahl (0,1)": Random Binomial (n,p) zieht eine Zufallszahl aus der Binomialverteilung. Wir verwenden n=1 und p=0.5: "0" ("Kopf") und "1" ("Zahl") sind mit p=0.5 mit gleicher W'keit zu erwarten.

�Spalte "Zahl kumulativ": Zeilen des Daten-satzes können indiziert werden unter Functions >Row >Subscript. Was bewirkt diese Formel?

�Spalte "Zahl relativ": Relative Häufigkeit für "1" ("Zahl") abhängig von "Wurf Nr".

• Visualisieren Sie den Münzwurf mit dem Graphbuilder (Graph >Graphbuilder) mit X: "Wurf Nr", Y: "Zahl relativ", mit log x-Achse

• Sampeln Sie Verläufe: Button Apply in For-meleditor zu Spalte "Kopf oder Zahl (0,1)"

Übung von Hand: Binomialverteilung

(C1) Gegeben sei eine Binomialverteilung mit p=0.2 und n=4. Berechnen Sie die Einzelw'keiten für k=0...n.

(A) Auf wieviel verschiedenen Wegen kann man beim 10-maligen Werfen einer Münze 4 mal "Kopf" erhalten (wenn die Reihenfolge nicht berücksichtigt wird)?

1. dass es sich bei 4 Kindern einer Familie um 1 Buben und 3 Mädchen handelt?Formel: Ergebnis:

2. dass unter den 4 Geschwistern mindestens eines ein Mädchen ist?Formel: Ergebnis:

(B) die Wahrscheinlichkeit einer Knabengeburt sei p=0.52, und die einer Mädchengeburt sei q=0.48. Wie groß ist dann die Wahrscheinlichkeit,

(C) Eine Glühbirnenfertigung läuft mit einem konstanten Ausschußanteil von 10%. Zur Qualitätsprüfung werden 5 Glühbirnen entnommen. Wie groß ist die W'keit, mindestens eine defekte Glühbirne unter den 5 entnommenen zu entdecken?

(C2) Zeichnen Sie die Verteilung aus (C1)

(C3) Zeichnen Sie die zu (C2) gehörige Verteilungsfunktion

P(K=k|n,p)

00.10.20.30.40.5

0 1 2 3 4k =

P(K

=k|n

,p)

P(K=k|n,p)

00.20.40.60.8

1

0 1 2 3 4k =

P(K

>=

k|n

,p)

Biostatistik


Einheit 9

1) Anwendung Diagnostik2) Sensitivität & Spezifität3) Positiver Vorhersagewert4) Negativer Vorhersagewert

Anwendung Epidemiologie5) Anteile & Chancen6) Relatives Risiko (RR)

mit Konfidenzintervall 7) Odds Ratio (OR)

mit Konfidenzintervall

Anwendungen von 4-Felder-Tafeln, allg.: Kontingenztafeln.

Folie 254




X: Ursache

Y: W

irkun

g

10152025

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.701.80

1.902.00

A 0 BABBlutgruppe



Streudiagramm

Phä

noty

p

0.000.25

0.50

0.751.00

A1 A2 BC.Genotyp

y1

y2

y3y4y5Mosaikplot

Boxplots

Y: S

tetig

Y: N

omin

al

0.000.250.500.751.00

0 10 20 30Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

00.250.500.75

1


Ja

Nein

Kaplan-Meier-

Verfahren


Vorausschau


JMP: Fit Y by X

Folie 255

Programm


Unabhängige & Abhängige Ereignisse

grammmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm

Folie 256

1) Diagnostische Frage


• Zur Diagnose von HIV stehe Ihnen ein Test zur Verfügung, der eine Infektion mit einer W'keit von 99.9% entdeckt.

• Mit welcher W'keit ist ein Betroffener tatsächlich infiziert, wenn der Test positiv ausgefallen ist?

• Notwendige Randinformationen hierzu: Die Prävalenz von HIV beträgt in DE etwa 0.1%(1:1000), die Spezifität des Test beträgt 99%.

pro 1 000 000 Infizierte Nicht-

Infizierte

Test +

Test -

Summe

W'keit (infiziert | Test positiv) = Positive-TestInfizierte

��

�9909999

999

Ist das ein guter Test?

Folie 257

1) Diagnostik in der 4-Felder-Tafel


Tatsächliche SituationTe

ster

gebn

is

Krank Gesund

PositivRichtige

EntscheidungA

Falschpositiv

B

positiverVorhersagewert

A / (A+B)

NegativFalsch-negativ

C

RichtigeEntscheidung

D

negativerVorhersagewert

D / (D+C)

SensitivitätA / (A+C)

SpezifitätD / (D+B)

Folie 258

1) Diagnostik - Kenngrößen


P(krank) = Prävalenz (a priori Wahrscheinlichkeit)= Schätzwert aus Prävalenz, Inzidenz, Anamnese, etc.

P (Test = pos | krank) = Sensitivität= W'keit, einen Kranken als krank zu erkennen.

P (Test = neg | gesund) = Spezifität= W'keit, einen Gesunden als gesund zu erkennen.

P (krank | Test = pos) = positiver Vorhersagewert= W'keit, krank zu sein, wenn der Test positiv ist.

P (gesund | Test = neg) = negativer Vorhersagewert= W'keit, gesund zu sein, wenn der Test negativ ist.

Folie 259

2) Gute & schlechte diagnostische Tests


hoch niedrig

hoch

niedrig

Sensitivität

Spe

zifit

ät

Krank Gesund

Krank Gesund

Fals

ch-

Pos

itiv

Fals

ch-

Neg

aitiv

Fals

ch-

Pos

itiv

Fals

ch-

Neg

aitiv

Test-positiv

Test-negativ

Test-positiv

Test-negativ

Test-positiv

Test-negativ

Test-positiv

Test-negativ

-

Guter TestGesunde werden verlässlich bestätigt,

unter Kranken aber viele Falsch-negative.��6��3��- oder Ausschlusstest verwenden

Kranke werden mit hoher Verlässlichkeit erkannt, gleichzeitig aber viele Falsch-positive.��7��8��)�!��/��9��

vorhanden, unter Inkaufnahme Falsch-positiver.

Ungeeigneter Test

Folie 260

3) Der positiv-prädiktive Wert PPV hängt von der Prävalenz ab


PPV

150

350Test

positiv

Testnegativ

400

100

500

Ges

unde

500

Kra

nke

Prävalenz

50%(500 von 1000)

30%(300 von 1000)

5%(50 von 1000)

90

210560

140

700

Ges

unde

300

Kra

nkeTest

positiv

Testnegativ

760

19035

15950

Ges

unde

50 K

rank

eTestpositiv

Testnegativ

Testsituation 1000 Personen

P (krank |Test = pos)=

Sensitivität: 70%Spezifität: 80%



= 78%

= 60%

= 16%Trivial, aber irritierend: Je weniger Kranke es gibt, desto geringer ist die W'keit, dass ein Test-Positiver

als krank erkannt wird. Im Extrem: Ist die Prävalenz Null, dann ist diese W'keit (der PPV) auch Null.

=350/(350+100)

=210/(210+140)

=35/(35+190)

Folie 261

4) Der negativ-prädiktive Wert NPV hängt von der Prävalenz ab


NPV

150

350Test

positiv

Testnegativ

400

100

500

Ges

unde

500

Kra

nke

Prävalenz

50%(500 von 1000)

30%(300 von 1000)

5%(50 von 1000)

90

210560

140

700

Ges

unde

300

Kra

nkeTest

positiv

Testnegativ

760

19035

15950

Ges

unde

50 K

rank

eTestpositiv

Testnegativ

Testsituation 1000 Personen

P (gesund |Test =neg)=




= 73%

= 88%

= 98%Trivial, aber irritierend: Je weniger Kranke es gibt, desto höher ist die W'keit, dass ein Test-Negativer

als gesund erkannt wird. Im Extrem: Ist die Prävalenz Null, dann ist diese W'keit (der NPV) 100%.

=400/(400+150)

=560/(560+90)

=760/(760+15)

Folie 262

AddOn Excel-Rechner: Zusammenhang PPV-NPV


Sensitivität 0.99Spezifität 0.9

Prävalenz positiver Vorhersagewert

negativer Vorhersagewert

0.00 0.00 1.000.05 0.34 1.000.10 0.52 1.000.15 0.64 1.000.20 0.71 1.000.25 0.77 1.000.30 0.81 1.000.35 0.84 0.990.40 0.87 0.990.45 0.89 0.990.50 0.91 0.990.55 0.92 0.990.60 0.94 0.980.65 0.95 0.980.70 0.96 0.970.75 0.97 0.970.80 0.98 0.960.85 0.98 0.940.90 0.99 0.910.95 0.99 0.831.00 1.00 0.00

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Prävalenz

positiverVorhersagewertnegativerVorhersagewert

Folie 263

5) Bayes-Formeln


Positiver Vorhersagewert P(krank | Test=pos)

Negativer Vorhersagewert P(gesund | Test=neg)

Spez)-(1Prävalenz)-(1SensPrävalenzSensPrävalenz

��

�

Sens)-(1 PrävalenzSpezPrävalenz)-(1SpezPrävalenz)-(1

��

�

"richtig-Positive" "falsch-Positive"

"richtig-Negative" "falsch-Negative"

Folie 264

5) ELISA-Test auf HIV-Infektion


infiziert nicht infiziert

Test +

Test -

Summe

0.999 x 0.002 0.01 x 0.998

0.99 x 0.9980.001 x 0.002

0.002 0.998

Prävalenz= 0,2 %

Sensitivität= 99,9 %Spezifität= 99,0 %

P (infiziert |Test = +)

%16.70.010.9980.9990.002

0.9990.002

��

��

positiver Vorhersagewert

99.999%0.0010.0020.990.998

0.990.998

��

��

negativer Vorhersagewert

P (nicht infiziert |Test = -)

Folie 265

M E R K Z E T T E L


Bestätigungstest: Man möchte bei den Untersuchten wenig falsch-positive Ergebnisse haben, also muss die Spezifität hoch sein (z. B. nach Überweisung)

Fazit 3: Bei hoher Prävalenz

Screeningtest: Man möchte bei den Untersuchten wenig falsch-negative Ergebnisse haben, also muss die Sensitivität hoch sein (z. B. Röntgen-Reihenuntersuchung)

Fazit 2: Bei niedriger Prävalenz

Ohne Kenntnis der Erkrankungsprävalenzkann man aus einem positiven bzw. negativen Testergebnis nicht die Wahrscheinlichkeit für Krankheit bzw. Gesundheit des Patienten bestimmen.

Fazit 1

Folie 266

5) Epidemiologie: Anteile, Chancen & Risiken


Desinfektion

Übe

rlebe

n

Anteile: )( caa �)( dbb �

Chancen, Quoten: a/c, b/d

Odds Ratio (Chancenquotient)

db

caOR �

Relatives Risiko

dbb

caaRR

��

ohne mitja a=17 b=38 a+b=55

nein c=18 d=7 c+d=25

a+c=35 b+d=45 n=80 Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.

Folie 267

6) Relatives Risiko


Risiko

Desinfektion

Übe

rlebe

n ohne mitja a=17 b=38 a+b=55


a+c=35 b+d=45 n=80

dbb

caa

RR

�

��

Ohne Desinfektion beträgt der Anteil der Überlebenden

17/35=48.6%

Mit Desinfektion beträgt der Anteil der Überlebenden

38/45=84.4%

Insgesamt ist der Anteil Überlebender unter Nicht-Desinfektion

0.58 mal höher als unter Desinfektion

Folie 268

6) RR: das Interessierende ins Feld a


Desinfektion

Übe

rlebe

n ohne mitja a=17 b= 38 a+b=55


a+c=35 b+d=45 n=80

dbb

caa

RR

�

��Ohne Desinfektion beträgt der Anteil der Überlebenden

17/35=48.6%

Mit Desinfektion beträgt der Anteil der Überlebenden

38/45=84.4%

Der Anteil Über-lebender ist unter Desinfektion 1.74 mal höher als unter Nicht-Desinfektion

Desinfektion

Übe

rlebe

n mit ohneja a=38 b=17 a+b=55


a+c=45 b+d=35 n=80

Ist das RR=1.74 vertrauenswürdig, oder könnten sich

die Effekte auch im Bereich des RR=1

bewegen

Folie 269

6) Konfidenzintervalle für Relative Risiken


• ln(RR) ist für großes n näherungsweise normalverteilt mit Standardfehler

• Konfidenzintervall für ln(RR):

• delogarithmieren: Konfidenzintervall für RR

dbbcaaSE R �

��

��1111

R)ln(

R)ln(2/1R)ln( RSEzR ��

die Interessierenden (Überlebende),

über die ich eine Aussage

machen möchte

die Gruppe, über die ich die Aussagemache (Mit

Desinfektion)

die Interessier-enden in der Vergleichs-

gruppe (Überlebende)

die Gruppe, mit der ich vergleiche

(Ohne Desinfektion)

[elinke Grenze bis erechte Grenze]Folie 270



ln

Konfidenz-intervall

für ln(RR)berechnen

exp[0.19 bis 0.92][1.2 bis 2.5]

RR ln(RR)

Folie 271



74.1��

�db

bca

aRR

554.0R)ln( �R

]92.0bis19.0[185.01.96554.0)RRln( )RRln(2/1 �� SEz �

]5.22.1[]bis[ 92.019.0 bisee �

Desinfektion

Übe

rlebe



a+c=45 b+d=35 n=80

Konfidenzintervall für

asymmetrisch zu RR=1.74

Standardfehler:

Quantil:

Der Anteil Überlebender ist durch die Desinfektion um einen Faktor gewachsen, der mit 95%iger Sicherheit zwischen 1.2 und 2.5 liegt.

185.0351

171

451

381

R)ln( ��RSE

1.9696.1

0.975

025.0

��

zz

Folie 272

6) RR in Statistik software


Desinfektion

Übe

rlebe



a+c=45 b+d=35 n=80

Unter Desinfektion ist der Anteil Überlebender 1.7 mal höher als unter Nicht-Desinfektion

Wenn nicht desinfiziert wird beträgt der Anteil Überlebender das 0.575-fache(verglichen mit Desinfektion )

Der Anteil Nicht-Überlebender ist 3.3 mal höher, wenn nicht desinfiziert wird

Der Anteil Nicht-Überlebender unter Desinfektion beträgt das 0.3-fache verglichen mit Nicht-

Desinfektion

Folie 273

7) Odds Ratio


Anteile: )( caa �)( dbb �

Chancen, Quoten: a/c, b/d

Odds Ratio (Chancenquotient)

db

caOR �

Relatives Risiko

dbb

caaRR

��

Desinfektion Ü

berle

ben ohne mit

ja a=17 b=38 a+b=55


a+c=35 b+d=45 n=80 Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.

Folie 274

7) Odds Ratio (OR, Chancenquotient)


75.518/177/38

//OR ��dbca

Ohne Desinfektion überleben 17/18=0.94 mal soviele die OP

Mit Desinfektion überleben 38/7=5.4 mal soviele die OP

Unter Desinfektion gibt es 5.7 mal so viel Überlebende (verglichen mit

Nicht-Desinfektion)

hancenquotieieeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeiii ntnnnnnnntnnnnnnntnnnnnnnnnnnnntnnttttntttnntttttt)

Desinfektion

Übe

rlebe



a+c=45 b+d=35 n=80

ohne mit

nein 18 7

ja 17 38

Folie 275

7) Konfidenzintervalle für Odds ratios


• OR ist positiv, ln(OR) ist für großes n näherungsweise normalverteilt mitStandardfehler

• Das Konfidenzintervall für ln(OR) erhält man durch delogarithmieren:

dcbaSE 1111

ln(OR) ��

� �

345

678 ��

�

��

��

�

�

�

ln(OR)2/1

ln(OR)2/1

ln(OR)2/1

ORbisOR

ln(OR)

SEzSEz

SEz

ee

eORCI

�

�

�

Folie 276

7) Konfidenzintervalle für Odds Ratios


ln

Konfidenz-intervall

für ln(OR)berechnen

exp[0.705 bis 2.79][2.0 bis 16.3]

OR ln (OR)

Folie 277

7) Konfidenzintervalle für Odds Ratios


57.518/177/38

//OR ��dbca

53250181

71

171

381

ln .SE (OR) ��

1.749ln(OR) �1.96

96.1

0.975

025.0

��

zz

]2.79bis0.705[0.53251.961.749ln(OR) ln(OR)2/1 �� SEz �

]3.61bis0.2[]bis[ 2.790.705 �ee

Konfidenzintervall für

asymme-trisch zuOR=5.75

Standardfehler:

Quantile:

Die Überlebenschance ist durch Desinfektion um einen Faktor gewachsen, der mit 95%iger Sicherheit zwischen 2 und 16.3 liegt.

Desinfektion

Übe

rlebe



a+c=45 b+d=35 n=80

Folie 278

7) OR in Statistik software


Desinfektion

Übe

rlebe



a+c=45 b+d=35 n=80

Folie 279

M E R K Z E T T E L


• Das Relative Risiko beschreibt Anteilsunterschiede zwischen zwei Gruppen

• Das Odds Ratio beschreibt Chancen-unterschiede zwischen zwei Gruppen

• Allgemeines "Nenner-Problem": Division bei kleinem Nenner übertreibt Effekte

• Abhilfe: Konfidenzintervalle für OR und RR (kritische Grenze ist die 1).

dbca

OR �

dbb

caa

RR�

��

dcbaSE 1111

ln(OR) ��

dbbcaaSE R �

��

��1111

R)ln(

Übung von Hand: Odds Ratio & Relatives RisikoIn einer klinischen Vorstudie wurde an 100 Probanden der Blutdruck gemessen und zur Ernährungsweise in Beziehung gesetzt:

ja neinja a=25 b=25 50

nein c=35 d=15 5060 40 100

Vegetarier

Hyp

erto

nie

A1: Veranschaulichen Sie das Studienergebnis durch einen Mosaikplot

A2: Wie hoch ist der Anteil von Hypertonikern bei ...?Vegetariern : _______%Fleischessern : _______%

C1: Wie hoch das relative Risiko für Hypertonie bei Fleischessern, bezogen auf die Vegetarier?

C2: Wie lautet das Konfidenzintervall für das RR?1. Schritt: Berechnung des Standardfehlers für ln RR:

2. Schritt: Berechnung des Konfidenzinter-valls für ln RR:

3. Schritt: Rücktransformation des Konfidenzintervalls:

A3: Wie ist das Verhältnis von Fleischessern : Vegetariern bei ...?Hypertonikern : __________Gesunden :___________

In der Studie wurde also festgestellt, dass es bei ________________ (Gesunden / Hyper-tonikern?) 2.3 mal mehr Fleischesser als Vegetarier gibt.B2: Wie lautet das Konfidenzintervall für das OR?

2. Schritt: Berechnung des Konfidenzinter-valls für ln OR:

1. Schritt: Berechnung des Standardfehlers für ln OR:

3. Schritt: Rücktransformation des Konfidenzintervalls:

B1: Wie hoch ist das Odds Ratio (OR) für Fleischesser, unter Hypertonie zu leiden?

4. Schritt: Beurteilung: das OR ist mit 95%iger Sicherheit ________________ (verschieden/nicht verschieden) vom Wert 1. Es ist daher festzustellen, dass es unter Hypertonikern vermehrt _____________ (Fleischesser/ Vegetarier) gibt.

4. Schritt: Beurteilung: das RR liegt mit 95%iger Sicherheit im Bereich von ___ bis ___. Das Hypertonie-Risiko unterscheidet sich demzufolge zwischen Fleischessern und Vegetariern: ____ (ja/nein?).

In der Studie wurde also festgestellt, dass ____________ (Vegetarier / Fleischesser?) ein _____-fach höheres Risiko für Hypertonie besitzen.

Fleischesser

Blut

hoch

druc

k

0.00

0.25

0.50

0.75

1.00

Ja NeinVegetarier

Ja

Nein

� �

�

��dcba

ORlnSE 1111

� � � ��

�� ORlnSE.ORlnORlnCI 961

� � !�� 66.101.0 ebiseORCI

� � � �� caa

dbbRR

� �

��

��

��dbbcaa

RRlnSE 1111

� � � ��

�� RRlnSE.RRlnRRlnCI 961

� � !��RRCI

� � � �� cd

abOR

Biostatistik


Übung 9• OR/RR mit

Konfidenzintervallen

Folie 282

OR/RR mit Konfidenzintervallen: von Hand


Odds Ratio Relative Risk

Untersuchen Sie im Lehrdatensatz anhand des RR und des OR und deren Konfidenz-intervallen, ob sich bei Verheirateten ein höheres Risiko für Depressionen aufzeigt.

Einflussvariable: famStatusZielvariable: depression

4-Felder-Tafel depr

essi

on

famStatus

7.2126/5288/31OR ��

married single

yes 31 5 36

no 288 126 414

319 131 450

"unter den Verhei-rateten findet man 2.7 mal mehr Depressive als bei Singles"

9 :9 :1.7;03.1%95

96.1;026.04936.096.19933.0

4936.0126

12881

51

311

9933.0)7.2ln()ln(

ln(OR)

CI

SE

OR

��

��

��

� �� 55.2

126552883131

��

�RR

� �

9 :9 :40.6;01.1%95

015.0;86.147.096.1936.0

47.01311

51

3191

311

936.0ln

R)ln(

CI

SE

RR

R

��

��

�

"Das Risiko einer De-pression ist unter Ver-heirateten 2.55 mal höher als bei Singles"

Beachte: das RR darf eigentlich nur aus Kohortenstudien ermittelt werden (s. Folie "Wieso darf man aus einer Fall-Kontroll-Studie kein Relatives Risiko berechnen?").

Folie 283

OR/RR mit Konfidenzintervallen: JMP


Untersuchen Sie im Lehrdatensatz anhand des RR und des OR und deren Konfidenz-intervallen, ob sich bei Verheirateten ein höheres Risiko für Depressionen aufzeigt.

P(no|married)/P(no|single)P(no|single)/P(no|married)P(yes|married)/P(yes|single)P(yes|single)/P(yes|married)

Description0.9386481.0653632.5460820.39276

RelativeRisk

0.8932291.0138131.0122180.156145

Lower 95%0.9863751.1195346.4042850.98793

Upper 95%

Relative Risk

0.368664Odds Ratio

0.140105Lower 95%

0.970076Upper 95%

Odds Ratio

depr

essi

on

0.00

0.25

0.50

0.75

1.00

married singlefamStatus

no

yes

fam

Sta

tus

marriedsingle

288 31126 5

319131

414 36 450

depressionCount no yes

Contingency Table Vorsicht: wie ist die Kontin-genztafel angeordnet?

Welche Kombination interessiert uns eigentlich?

Was wird hier durch was geteilt?

ExponiertNicht

exponiertKrank (Fälle) 31 5 36Nicht krank (Kontrollen) 288 126 414

319 131 450

SE ln(*R) lower CL upper CLRR 2.5461 0.4706 1.01 6.40OR 2.7125 0.4936 1.03 7.14

OR & RR doch lieber von Hand rechnen? Meine Einstellung: also ich habe mir (ein für alle mal) eine Excel-Tabelle gemacht – und bei der weiß ich, was ich durch was dividiert habe:

Biostatistik


Einheit 10• Spezielle Schätzverfahren• Varianzanalyse 1• F-Test

Folie 285

Wiederholung &

Programm


Vergleich von 2 Gruppeng

Vergleich von mehreren Gruppen:Folie 286

Varianzanalyse (ANOVA)


engl.: ANalysis Of VAriance

Einflussfaktoren

Patient

Merkmal und seine Ausprägungen

diastolischerBlutdruck[mm Hg]

60.0,60.1.60.2,...

Bisher konnten wir lediglich den Einfluss des einzelnen Faktors untersuchen

Geschlecht

nominal(F/M)

Anzahl Kinder

ordinal, diskret (0,1,2,3)

Alter

stetig oder diskret

Folie 287

Varianzanalyse (ANOVA): erste Schritte


engl.: ANalysis Of VAriance

Patient

Merkmal und seine Ausprägungen

diastolischerBlutdruck[mm Hg]

60.0,60.1.60.2,...

Anzahl Kinder

ordinal, diskret (0,1,2,3)

Einflussfaktoren

Mit dem t-Test konnten wir bisher lediglich 2 Gruppen miteinander vergleichen

Geschlecht

nominal(F/M) Mit einer

ANOVA können wir mehrere Gruppen miteinander vergleichen

Folie 288

Grundannahme der Varianzanalyse


Herzminutenvolumen [Liter/Min]

4,0 5,0 5,54,5 6,0

Früchte-EsserSpaghetti-EsserSteak-EsserKontrollen

Die Beobachtungen der Stichprobe entstammen einer (1!) normalverteilten Grundgesamtheit

H0

Folie 289

… die Beobachtungen nach Farbe gruppiert:


Früchte

Spaghetti

Steak

Kontrolle

Sind die beobachteten Unterschiede auf die unterschiedlichen Diäten zurückzuführen oder einfach auf zufällige Streuung?

Folie 290

'Unzufällige' Mittelwertsverschiebung erhöht die Varianz


Früchte

Spaghetti

Steak

Kontrolle

Die Stichproben sind jetzt "verschiedener", weil die Streuung zwischen den Mittelwerten größer ist,

als man aufgrund der Streuung der Werte Innerhalb jeder Stichprobe erwarten würde

Folie 291

Mittelwertsverschiebung außerhalb des Erwarteten


Früchte

Spaghetti

Steak

Kontrolle

Wenn sich der Mittelwert einer Stichprobe deutlich von den anderen unterscheidet,ist die Streuung der Mittelwerte größer,

als man es aufgrund der Streuung der Werte innerhalb der Gruppen erwarten würde.

Folie 292

Varianz innerhalb der Gruppen


4

22222 dcbawithin

sssss ��

Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ / Inst. Med. Biometrie, www.

2as

2bs

2cs

2ds

Varianz der Gruppe a

Varianz der Gruppe b

Varianz der Gruppe c

Varianz der Gruppe d

Folie 293

Varianz zwischen den Gruppen


Früchte

Spaghetti

Steak

Kontrolle

Früchte

Spaghetti

Steak

Kontrolle� � � � � � � �

1

222222

��

��G

dcbaSxSbetween n

xxxxxxxxnsns

Standard-fehler:

Sx n

ss � 22xSbetween sns �

Varianz zwischen

den Gruppen

Stichproben-umfang pro Gruppe (hier: 7)

Varianz der Stichproben-Mittelwerte

Anzahl Gruppen

(hier: 4)

Folie 294

Nullhypothese & Alternativhypothese


= F-Wert

Wenn es keinen Lage-unterschied zwischen den Gruppen gibt, dann ist die

1

.

2

2

22

�

�

within

between

withinbetween

ssbzw

ss

H0 H1

Varianz innerhalb

der Gruppen

Varianz zwischen

denGruppen

=

Wenn es einen Lage-unterschied zwischen den Gruppen gibt, dann ist die

1

.

2

2

22

0

0

within

between

withinbetween

ssbzw

ss

Varianz innerhalb

der Gruppen

Varianz zwischen

denGruppen

>

1

Folie 295

Verteilung(en) des F-Werts


Wenn F einen großen Wert annimmt, ist die Streuung zwischen denStichprobenmittelwerten größer als aufgrund der Streuung innerhalb derStichproben erwartet. Dann wird die Hypothese, dass alle Stichprobenaus derselben Grundgesamtheit stammen, abgelehnt.

�� 2

2

within

between

ssF

Varianz der Grundgesamtheit,geschätzt aus den Stichprobenmittelwerten

Varianz der Grundgesamtheit,geschätzt als Durchschnitt der Stichprobenvarianzen

• Abhilfe: Jede Kombination aus Gruppenzahl und Stichprobengröße hat ihre eigene F-Verteilung, die über verbleibende Freiheitsgrade FG definiert wird:

Wann ist ein F-Wert ein "großer" F-Wert?

Ähnlich wie schon beim �2-Test

between: FGZähler = nG -1within: FGNenner = nG*(nS-1)

F-Verteilung mit 3/24 FG

• Problem: Je mehr Gruppen (nG), oder je höher der Stichprobenumfang (nS) pro Gruppe, desto mehr Variabilität erwarten wir in den F-Werten, die man aus den verschiedenen Kombinationen erhalten würde.

• Beispiel von vorher: 4 Gruppen mit je 7 Personen:between: FGZähler = 4 -1 = 3within: FGNenner = 4*(7-1) = 24

Folie 296

F-Verteilung(en)


00.10.20.30.40.50.60.70.80.9

1

0.1 1 10F

p(F,

FG-Z

ähle

r,FG

-Nen

ner) F(1,5)

F(1,10)F(1,100)F(2,5)F(2,10)F(2,100)F(5,5)F(5,10)F(5,100)F(10,5)F(10,10)F(10,100)

2 Gruppen3 Gruppen6 Gruppen11 Gruppen

Freiheits-grade Zähler

Freiheits-grade

Nenner

Für F<1 (z.B. 0.2) gibt es keine Interpretation außerhalb des Zufalls. In diesen Fällenwird H0 beibehalten, aber auch überprüft, ob sich nicht ein unzufälliger (systematischer)Fehler in die Erhebung eingeschlichen hat (z.B. unzufällige Stichprobenziehung).

Folie 297

Auswertung (kein Gruppenunterschied)


in JMP in Excel

=VARIANZ(B2:B5)*7

=SUMME(C2:C5)/4

=B7/C8

Folie 298

Vom F-Wert zum p-Wert


0

0.2

0.4

0.6

0.8

1

0.01 0.1 1 10F

p(F,

3,24

)

Schritt 1: Freiheitsgrade ermitteln:4 Gruppen (nG=4), je nS=7 ergibt FGZähler=nG-1=3, FGNenner=nG(nS-1)=4*6=24

Schritt 2: p-Wert für F=0.47 in F(3,24)-Verteilung ermitteln

��F(3,24)

Folie 299

Auswertung (mit Gruppenunterschied)


in JMP in Excel

=VARIANZ(B2:B5)*7

=SUMME(C2:C5)/4

=B7/C8

Folie 300

Vom F-Wert zum p-Wert


0

0.2

0.4

0.6

0.8

1

0.01 0.1 1 10F

p(F,

3,24

)

Schritt 1: Freiheitsgrade ermitteln:4 Gruppen (nG=4), je nS=7 ergibt FGZähler=nG-1=3, FGNenner=nG(nS-1)=4*6=24

Schritt 2: p-Wert für F=14.3 in F(3,24)-Verteilung ermitteln

��F(3,24)

Folie 301

ANOVA: allgemeine Vorgehensweise


• between-Varianz (s2between) und

within-Varianz (s2within) ermitteln

• F-Wert als Quotient : F= s2between/ s2

within• Freiheitsgrade ermitteln:

between: FGZähler = nG -1within: FGNenner = nG *(nS -1)

• F-Verteilung(FGZähler ,FGNenner) suchen• p-Wert ablesen• Ergebnis formulieren

(H0 ablehnen/nicht ablehnen)

Folie 302

Bsp.: Lehrdatensatz: Unterschiede - und doch normalverteilt?


70

80

90

100

110

120

0.05 0.15Probability

70

80

90

100

110

120

BP

dia

0 1 2 3#children

S hapi r o- W i lk W T es t

0.995898W

0.3944P ro b < W

G o o d n e s s -o f-F i t Te

#childrenErrorC. Total

Source3

392395

DF388.463

21215.42321603.886

Sum ofSquares

129.48854.121

Mean Square2.3926F Ratio

0.0681Prob > F

Analysis of Variance

Die ANOVA wird nicht signifikant H0 kann nicht verworfen werden

Folie 303

Bsp.: Lehrdatensatz: Unterschiede - noch "normalverteilter"?


70

80

90

100

110

120

0.05 0.15Probability

S hap i r o- W i lk W T es t

0.996 763W

0.616 1P ro b < W

G o o d n e s s -o f-F i t T

70

80

90

100

110

120

BP

dia2

0 1 2 3#children

#childrenErrorC. Total

Source3

392395

DF3042.908

21215.42324258.331

Sum ofSquares

1014.3054.12

Mean Square18.7414

F Ratio<.0001*Prob > F


Die ANOVA wird signifikant H0 wird verworfen......obwohl die Normalvertei-lungsannahme weiterhin gilt

Biostatistik


Übung 10• ANOVA "von Hand"

rechnen in Excel

Folie 306

ANOVA "von Hand" in Exceldownload: "E09 ANOVA Spaghetti.xls" von ILIAS


ANOVA in Excel:Daten: Kontrolle Spaghetti Steak Früchte

4.6 4.6 4.3 4.3 Stichprobenumfänge4.7 5 4.4 4.4 Anzahl Gruppen: 44.7 5.2 4.9 4.5 Beob. pro Gruppe: 74.9 5.2 4.9 4.95.1 5.5 5.1 4.95.3 5.5 5.3 5 Teststatistik5.4 5.6 5.6 5.6 gesamt: DF SAQ MS F-Wert p-Wert

Mittelwert 4.9571 5.2286 4.9286 4.8000 4.9786 gesamt 27 4.5071SAQbetween 0.0005 0.0625 0.0025 0.0319 between 3 0.6814 0.2271

gewichtet: 0.0032 0.4375 0.0175 0.2232 0.6814 within 24 3.8257 0.1594 1.4249 0.2600

SAQ within: Kontrolle Spaghetti Steak Früchte SAQ gesamt: Kontrolle Spaghetti Steak Früchte0.1276 0.3951 0.3951 0.2500 0.1433 0.1433 0.4605 0.46050.0661 0.0522 0.2794 0.1600 0.0776 0.0005 0.3347 0.33470.0661 0.0008 0.0008 0.0900 0.0776 0.0490 0.0062 0.22900.0033 0.0008 0.0008 0.0100 0.0062 0.0490 0.0062 0.00620.0204 0.0737 0.0294 0.0100 0.0147 0.2719 0.0147 0.00620.1176 0.0737 0.1380 0.0400 0.1033 0.2719 0.1033 0.00050.1961 0.1380 0.4508 0.6400 gesamt 0.1776 0.3862 0.3862 0.3862 gesamt

SAQwithin 0.5971 0.7343 1.2943 1.2000 3.8257 SAQgesamt 4.5071

4.25

4.5

4.75

5

5.25

5.5

5.75

Her

zMin

uten

Vol

umen

a_Fr

ücht

e

b_S

pagh

etti

c_S

teak

d_K

ontro

lle

groupErrorC. Total

Source3

2427

DF0.68142863.82571434.5071429

Sum ofSquares

0.2271430.159405


0.2600Prob > F

Analysis of Variancein JMP:

2

�

� �

� � MWMWGesamtGruppe

Gruppe

between

nSAQ�

�SAQgewichtetbetween

2

. �

� �

� � MWGruppe

Beob

SAQdieser

Gruppe

�SAQwithin

2

. ��

�� MW

Gesamt

Beob

�SAQgesamt

=SAQ / DF =MSbetween / MSwithin

=FVERT (F-Wert; FGbetween;FGwithin)

Biostatistik


Einheit 11• Spezielle Schätzverfahren:

Varianzanalyse 2• Prinzip kleinste Quadrate• Ein- / zweifaktoriell• Wechselwirkungen

zwischen Einflussvariablen (Interaktionseffekte)

• Messwiederholungen

Folie 308

Wiederholung & Programm



Varianz innerhalb der GruppenF=• ANOVA mit

Messwiederholung• Herleitung über Summe der

Abweichungsquadrate(SAQ)

Folie 309



Wenn die Beobachtungen der Stichprobe einer (1!) normalverteilten Grundgesamtheit entstammen,

dann ist zu erwarten, dass die Varianz zwischen den Gruppenmittel-werten ungefähr derjenigen entspricht, die die Werte innerhalb der Gruppe haben.

Wenn die Varianz zwischen den Gruppenmittelwerten verschieden ist von derjenigen, die die Werte innerhalb der Gruppe haben,

dann ist zu erwarten, dass mindestens eine der Stichproben aus einer anderen Grundgesamtheitentstammt.

Umkehrschluss:

Folie 310



Merke: Eine ANOVA ist nur statthaft, wenn die Voraussetzungen erfüllt sind:

Diese sind:

1) normalverteilte Daten2) keine ungleichen Varianzen

zwischen den Gruppen

Folie 311

Datenbeispiel (einfaktorielle ANOVA)


TherapiegruppeKontrolle Spaghetti Steak Früchte

4.6 4.6 4.3 4.34.7 5.0 4.4 4.44.7 5.2 4.9 4.54.9 5.2 4.9 4.95.1 5.5 5.1 4.95.3 5.5 5.3 5.05.4 5.6 5.6 5.6

Mittelwert Therapien (Spalten) 4.96 5.23 4.93 4.80

SAQ für Therapien (Spalten) 0.597 0.734 1.294 1.200

Gesamtmittel = 4.98, � aller SAQ = 4.507

4.25

4.5

4.75

5

5.25

5.5

5.75

Her

zmin

uten

volu

men

a_Kontrol le b_Spaghetti c_Steak d_FrüchteTherapie

"Summe der Abweichungsquadrate"

Faktor = Therapie

Folie 312

ANOVA: Formalitäten


� �� i

i xx 211

1x 2x 3x 4x� ��

ii xx 2

22 � �� i

i xx 233 � ��

ii xx 2

44

x � �� t i

ti xx 2

Eine wichtige Beziehung:Die Varianz ist

� �

1

1

2

2

��

�

��

nSAQ

n

xxs j

j

Therapiegruppet=1 t=2 t=3 t=4

i=1 x11 x21 x31 x41

i=2 x12 x22 x32 x42

i=3 x13 x23 x33 x43

i=4 x14 x24 x34 x44

i=5 x15 x25 x35 x45

i=6 x16 x26 x36 x46

i=7 x17 x27 x37 x47

Mittelwert Therapien (Spalten)

SAQ für Therapien (Spalten)

Gesamtmittel = , � aller SAQ = "Summe der Abweichungsquadrate"

Folie 313



Die Varianz zwischenden Gruppen ist:


i=1 x11 x21 x31 x41

i=2 x12 x22 x32 x42

i=3 x13 x23 x33 x43

i=4 x14 x24 x34 x44

i=5 x15 x25 x35 x45

i=6 x16 x26 x36 x46

i=7 x17 x27 x37 x47



Gesamtmittel = , � aller SAQ =

� �� i

i xx 211

1x 2x 3x 4x� ��

ii xx 2

22 � �� i

i xx 233 � ��

ii xx 2

44

x � �� t i

ti xx 2

� �

1

1

2

2

��

�

��

t

between

t

tt

nSAQ

n

xxs

Summe der Abweichungsquadrate

zwischen den Gruppenmittelwerten

Folie 314

Varianz innerhalb der Gruppen



i=1 x11 x21 x31 x41

i=2 x12 x22 x32 x42

i=3 x13 x23 x33 x43

i=4 x14 x24 x34 x44

i=5 x15 x25 x35 x45

i=6 x16 x26 x36 x46

i=7 x17 x27 x37 x47



Gesamtmittel = , � aller SAQ =

� �� i

i xx 211

1x 2x 3x 4x� ��

ii xx 2

22 � �� i

i xx 233 � ��

ii xx 2

44

x � �� t i

ti xx 2

Die mittlere Varianz innerhalb der Gruppen ist:

� �

� �11

1

1 2

2

��

�

��

��

i

within

t

i

t itti

t

nSAQ

n

n

xxns

41( )++ ++ ++

oder so: Die mittlere Varianz innerhalb der Gruppen ist:

� ��

� � � � � � � �

�

� �

��

��

�

�

�

�

�

��

�

�

�

�

�

��

�

��

�

��

�

��

��

��

��

��

11

141

111141

41

4321

244

233

222

211

4

244

3

233

2

222

1

211

24

23

22

21

it

i

ii

ii

ii

ii

t

ii

t

ii

t

ii

t

ii

tttt

nSAQSAQSAQSAQ

n

n

xxxxxxxx

n

xx

n

xx

n

xx

n

xx

ssss

Folie 315

Freiheitsgrade FGbetween und FGwithin


Die mittlere Varianz innerhalb der Gruppen ist:

� �12

��

it

within

nnSAQs

Die Varianz zwischenden Gruppen ist:

12

��

t

between

nSAQs

Im Zähler des F-Werts: Im Nenner des F-Werts:

FGbetween FGwithin

nt=Anzahl Therapiegruppen, ni=Anzahl Probanden je Gruppe

Terminologie: die Varianzen werden bei ANOVAs in der Regel als "mittlere Quadratsummen" (MQ, mean squares, oder MS) bezeichnet

(die in Statistik-Programmen dann auch aufgeführt werden):

withinwithin

within MQFGSAQ

�betweenbetween

between MQFGSAQ

�

im Bsp.:FGbetween =3

im Bsp.:FGwithin =24

Folie 316

Varianzzerlegung


= + + +


4.6 4.6 4.3 4.34.7 5.0 4.4 4.44.7 5.2 4.9 4.54.9 5.2 4.9 4.95.1 5.5 5.1 4.95.3 5.5 5.3 5.05.4 5.6 5.6 5.6

Mittelwert Therapien (Spalten) 4.96 5.23 4.93 4.80

SAQ für Therapien (Spalten) 0.597 0.734 1.294 1.200

Gesamtmittel = 4.98, � aller SAQ = 4.507

Wichtige Beziehung: SAQbetween und SAQwithin

ergeben zusammen die Summe der SAQ der

einzelnen Beobachtungen:

SAQtotal=SAQbetween+SAQwithin

� �

� � � � � � � � !� � � � ! !

0.681=0.0319+0.0025+0.0625+0.00057

...98.423.598.496.47 22

24

23

22

21

2

��

��

�� xxxxxxxxn

xxnSAQ

i

ttibetween

SAQwithin

= 3.826

= 0.681 + 3.826 Folie 317

...Randbemerkung zur letzten Folie


� �� t

tibetween xxnSAQ 2aus vorheriger Folie:

Warum steht hier der Stichprobenumfang pro Gruppe?

Erinnerung:

Antwort: 1. Wir haben die Varianz berechnet, indem wir die Standardabweichung der Stichprobenmittelwerte als Schätzer für den Standardfehler des Mittelwerts (des Mittelwerts der Mittelwerte)

genommen haben.

2. Die Summe der Abweichungsquadrate beträgt das 7-fache, wenn jeder dieser Mittelwerte aus 7 Probanden gebildet wurde.

Folie 318

Zusammenfassung: Kenngrößen der ANOVA


159.024826.3

227.03681.0

��

��

within

withinwithin

between

betweenbetween

FGSAQMQ

FGSAQMQ

2724324)17(4

314

��

��

total

within

between

FGFG

FG

425.1159.0227.0

�

�

�within

between

MQMQF

4.507=

3.826=

0.681=

total

within

between

SAQSAQ

SAQ

0

0.2

0.4

0.6

0.8

1

0.01 0.1 1 10F

p(F,

3,24

)

F-Verteilung mit 3 und 24 FG:

Folie 319

Praxis: Lehrdatensatz


#children (diskret)

Blutdruck (stetig)

#children (nominal)

Blutdruck(stetig)

Regression ANOVA

Gibt es einen Zusammenhang zwischen dia-stolischem Blutdruck und Zahl der Kinder?

Antwort: • ????• Regression nicht besonders geeignet,

da Kinderzahl diskret & evtl. nicht-linearer Zusammenhang vorliegt

Antwort:• Gruppenunterschied nicht signifikant:

Eine künstliche Änderung des Datentyps (hier diskret � nominal) kann sinnvoll sein.

80

90

100

110

120

BP

dia

0 1 2 3#children

80

90

100

110

120

BP

dia

0 0.5 1 1.5 2 2.5 3#children

Folie 320



Gibt es einen Zusammenhang zwischen dia-stolischem Blutdruck und Zahl der Kinder?

Sind Daten normalverteilt?

Überprüfung der Voraussetzungen (sollte man eher am Anfang machen):

Ungleiche Varianzen zw. Gruppen?

O'Brien[.5]Brown-ForsytheLeveneBartlett

Test0.74110.16570.17340.5467

F Ratio3333

DFNum392392392

.

DFDen0.52810.91950.91440.6503

Prob > F

55555555555444444444333333333

[Der F-Test wird hier derart durchgeführt, dass diebeobachteten Varianzen pro Gruppe (im Zähler) inBezug zur theoretischen Varianz unter H0 (imNenner) gesetzt werden. Wie sonst: ein großer F-Wert weist dann auf eine starke Abweichungzwischen beobachteter Varianz und "H0-Varianz"und zeigt eine signifikante Abweichung von H0 an.]

Ergebnis: Analyse war statthaft,da einer normalverteilten Grund-gesamtheit & ungleichen Vari-anzen nicht widersprochen wird.

Shapiro-Wilk W Test

0.995898W

0.3944Prob<W

Note: Ho = The data is from the Normal distribution.Small p-values reject Ho.

Goodness-of-Fit Test

80 90 100 110 120

Normal(94.947,7.3955)

diastolischer Blutdruck (BPdia)

Folie 321



0

100000

200000

300000

400000

500000

inco

me

0 0.5 1 1.5 2 2.5 3

#children

00.5

11.5

2

2.53

#chi

ldre

n

0 200000 400000

income

#children (diskret)

income (stetig)

#children (nominal)

income (stetig)

Regression ANOVA

Gibt es einen Zusammenhang zwischen Einkommen und Zahl der Kinder?

Antwort: • Zusammenhang schwach, Steigung

signifikant (p=0.01).• Regression nicht besonders geeignet, da

Kinderzahl diskret & evtl. nicht-linearer Zusammenhang vorliegt

• Die Residuen sind hier ganz sicher nicht mehr normalverteilt und ohne Trend.

Antwort:

0

100000

200000

300000

400000

500000

inco

me

0 1 2 3#children

• Gruppenunterschied signifikant (p=0.003).• ABER: ist das Einkommen überhaupt

normalverteilt? –Nein!

SO? – KEINE ANOVA!

�Transformieren, Ränge bilden, etc.

Folie 322

Die großen Geschwister der ANOVA


• Einfaktorielle ANOVA ("oneway ANOVA")

•Zweifaktorielle ANOVA ("2-way ANOVA")•ANCOVA ("Analysis of CoVariance", "Kovarianzanalyse"): ein Faktor ist stetig

• ANOVA mit Meßwiederholung ("... with repeated measures", "...with random effect")

• ANOVA mit genesteten Faktoren ("... with nested effects")

• MANOVA (Multivariate ANOVA)

"Einflussgröße""Einflussvariable"

"unabhängige Variable"

"Zielgröße""Zielvariable"

"abhängige Variable"

X Y

A

Y

B

Wechselwirkung

("Interaktion")

YX1X1X1X4

X1 X2 X3 AY

B

A EBCD

FGH

X Y

Folie 323

Ein- und zweifaktorielle ANOVA


Lehrdatensatz: "Hat die Be-handlung einen Einfluss auf den diastolischen Blutdruck?"

Einfaktorielle ANOVA Zweifaktorielle ANOVA

Variation zwischen den

Gruppen (verum/control)

Variation innerhalb

der Gruppen(verum/control)

Gesamtvariation

Variation zwischen den

Gruppen

Variation innerhalb der

Gruppen

Gesamtvariation

Variation durch

Behandlung

Variation durch

Depression

Variation durch Interaktion von

Behandlung & Depression

Lehrdatensatz: "Haben Behandlung (Faktor 1)und Depression (Faktor 2) Einfluss auf den diastolischen Blutdruck?

Insbesondere erlaubt der Wechselwirkungsterm dieUntersuchung der Frage: wirken sich Faktor 1 und Faktor 2 ingleicher oder entgegengesetzter Weise auf die Zielgröße aus?

Folie 324

Zweifaktorielle ANOVA: SAQs (Gruppen)


Zweifaktorielle ANOVA

SAQbetween Groups SAQwithin Groups

SAQgesamt

SAQBehandlung SAQDepression SAQBehandlung*Depression

Die Gesamtvariation ist gleich der Summe der Quadratsummen aller vier Bestandteile: SAQgesamt =SAQwithin Groups+SAQFaktor 1+SAQFaktor 2+SAQFaktor 1*Faktor 2

SAQbetween

Lehrdatensatz: "Haben Behandlung (Faktor 1)und Depression (Faktor 2) Einfluss auf den diastolischen Blutdruck?

Folie 325

Zweifaktorielle ANOVA: SAQs – (Berechnung)


10

0

5

-10

-15

-5

Treatment: control control verum verumDepression: nein ja nein ja

Dia

stol

isch

er B

lutd

ruck

nach

her -

vorh

er

Diastolischer Blutdruck

nachher - vorher

Treatment (Faktor 1)

verum control Zeilenmittel

Depression (Faktor 2)

ja-6, -1, -1

Mittelwert: -2.67 (n=3)-6, -3, -2, 2

Mittelwert: -2.25 (n=4) -2.43 (n=7)

nein

-14, -13, -13, -12, -11, -10, -9, -9, -9, -8, -8, -8, -7, -7, -6, -6, -6, -6, -5, -5, -5, -5, -5, -4, -4, -3, -2, -2, -2, -2, -2, -1, -1, -1, 0, 1, 1, 2, 3

Mittelwert: -5.23 (n=39)

-13, -12, -11, -11, -8, -8, -7, -6, -6, -6, -5, -5, -5, -5, -4, -4, -3, -3, -2, -2, -2, -2, -1, -1, -1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 4, 5, 7, 11


-3.365 (n=85)

Spaltenmittel -5.05, (n=42) -1.82, (n=50) -3.3 (n=92)

� ��

� ��

21.2*1

2222

2111

2

2

FFbetwFF

FaktorFF

FaktorFF

betweengesamtwithin

GGbetween

gesamt

SAQSAQSAQSAQxxnSAQ

xxnSAQ

SAQSAQSAQxxnSAQ

xxSAQ

��

��

��

��

��

��

��

��

Folie 326

Zweifaktorielle ANOVA: SAQs – (Auswertung)


Diastolischer Blutdruck

nachher - vorher

Treatment (Faktor 1)

verum control Zeilenmittel

Depression (Faktor 2)

ja-6, -1, -1

Mittelwert: -2.67 (n=3)-6, -3, -2, 2

Mittelwert: -2.25 (n=4) -2.43 (n=7)

nein

-14, -13, -13, -12, -11, -10, -9, -9, -9, -8, -8, -8, -7, -7, -6, -6, -6, -6, -5, -5, -5, -5, -5, -4, -4, -3, -2, -2, -2, -2, -2, -1, -1, -1, 0, 1, 1, 2, 3


-13, -12, -11, -11, -8, -8, -7, -6, -6, -6, -5, -5, -5, -5, -4, -4, -3, -3, -2, -2, -2, -2, -1, -1, -1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 4, 5, 7, 11


-3.365 (n=85)

Spaltenmittel -5.05, (n=42) -1.82, (n=50) -3.3 (n=92)

� � � ��

� � � ��

4.135.7237.8256.95.73.3365.3853.343.27

237.83.382.1503.305.542

1894.2256.9-2151.1256.93.378.146...3.367.23

2151.13.311...3.36

22

22

22

22

��

��

��

��

� ��

21.2*1

2222

2111

2

2

FFbetwFF

FaktorFF

FaktorFF

betweengesamtwithin

GGbetween

gesamt

SAQSAQSAQSAQxxnSAQ

xxnSAQ

SAQSAQSAQxxnSAQ

xxSAQ

��

��

��

��

��

��

��

��

Folie 327

Zweifaktorielle ANOVA: Freiheitsgrade, F-Wert, p-Wert


SAQbetween Groups=256.9DFbetw=nGruppen-1=3

SAQwithin Groups=1894.2DFwithin=ngesamt-nGruppen=88

SAQgesamt=2151.1DFgesamt=ngesamt-1=91

SAQBehandlung=237.8DFF1=nF1-1=1

SAQDepression=5.7DFF2=nF2-1=1

SAQBehandlung*Depression=13.45DFF1*F2=(nF1-1)(nF2-1)=1

Spalte SAQ: s. rechtsSpalte DF: s. rechtsSpalte MS = SAQ/DFSpalte F = MSbetween/MSwithinSpalte Prob<F = FVert(F, DFbetween, DFwithin)

=bet

wee

n

Excel-Tabelle: SAQ DF MS F Prob<Fgesamt 2151.1 91between 256.9 3 85.64within 1894.2 88 21.52 3.98 0.0104F1 (Behandlung) 237.8 1 237.79 11.05 0.0013F2 (Depression) 5.7 1 5.67 0.26 0.6091F1*F2 13.45 1 13.45 0.62 0.4313

(Degrees of freedom, DF)

Folie 328

Zweifaktorielle ANOVA: Vergleich mit software


Excel-Tabelle: SAQ DF MS F Prob<Fgesamt 2151.1 91between 256.9 3 85.64within 1894.2 88 21.52 3.98 0.0104F1 (Behandlung) 237.8 1 237.79 11.05 0.0013F2 (Depression) 5.7 1 5.67 0.26 0.6091F1*F2 13.45 1 13.45 0.62 0.4313=b

etw

een

DFSquaresofSumSquareMean �

Problem: Statistik-Programmeverwenden zuweilen automatisch(ohne Sie hierüber zu informieren)Adjustierungen, um die Auswertung unter problematischen Nebenbedingungen* zu optimieren. *Hier: kleiner Stichprobenumfang für Depression="ja"

betweenwithin

gesamtwithin

between

Error

Model

MSMSMSMSF

�

�

Folie 329

Interaktionseffekte


depressiv

nichtdepressiv

control verumBehandlung

Y

Haupteffekte vorhan-den, sowohl für "Depression"(Yd<Ynd)als auch für "Behandlung"(Yc<Yv)

Ein Behandlungserfolg liegt vor – egal ob Depressionen vorliegen oder nicht

KeineInteraktion

depressiv


Y

Umkehrende("disordinale")Interaktion

depressiv


Y

Gegenläufige("hybride")

Interaktion

depressiv


Y

Schwache("ordinale")

Interaktion

nicht depressiv

nichtdepressiv

nichtdepressiv

Haupteffekt für "Depression" ist vorhanden (Yd<Ynd); für Behandlung vielleicht.

Der Behandlungserfolg ist schwächer, wenn Depressionen vorliegen

Haupteffekt für "Depression" ist vorhanden (Yd<Ynd); Interaktion hebt Haupteffekte auf.

Die Behandlung nützt nur "Depressiven", "Gesunden" schadet sie sogar

Keine Haupteffekte vorhanden, sondern nur Interaktion.

Die Behandlung nützt nur "Depressiven", "Gesunden" schadet sie sogar

schl

echt

er -

bess

er

Folie 330

ANOVA mit Meßwiederholung



4.6, 4.7, 4.6 4.6, 4.6, 4.7 4.3, 4.5, 4.5 4.3, 4.4, 4.1

4.7, 4.8, 4.8 5.0, 4.9, 5.2 4.4, 4.4, 4.4 4.4, 4.5, 4.1

4.7, 4.8, 4.9 5.2, 5.4, 5.1 4.9, 4.9, 4.8 4.5, 4.7, 4.5

4.9, 4.7, 5.1 5.2, 5.2, 5.1 4.9, 4.9, 5.1 4.9, 4.9, 4.5

5.1, 4.9, 5.2 5.5, 5.5, 5.4 5.1, 5.1, 5.0 4.9, 4.9, 4.8

5.3, 5.2, 5.6 5.5, 5.2, 5.5 5.3, 5.5, 5.6 5.0, 5.0, 5.4

5.4, 5.6, 5.4 5.6, 5.5, 5.6 5.6, 5.9, 5.7 5.6, 5.6, 5.2



Streuung zwischen den Therapien

SAQbetweeen Therapie

Rest-Streuung("error")

SAQResidual

GesamtstreuungSAQgesamt

Streuung innerhalb der ProbandenSAQwithin Individuals

Streuung zwischen den Probanden

SAQbetween Individuals

FGgesamt=ntnm-1

FGwithin Ind=nm-1 FGbetween Ind=nm(nt-1)

FGbetween Ther=nt-1 FGResidual=(nm-1)(nt-1)

nt: Anzahl der Therapiegruppen (hier: 4), nm: Anzahl der Messwiederholungen (hier: 3)

Bei einer ANOVA mit Messwiederholung werden die SAQ in SAQ innerhalb und zwischen Personen zerlegt. Letzere wird in die SAQ zwischen den Messungen und einen Rest (Residuum oder Fehlervarianz) zerlegt:

Der F-Wert wird dann aus dem Verhältnis der Varianz der Messungen und der Fehlervarianz gebildet, mit FGbetween Ind=nm-1und Fehlervarianz FGResidual=(nm-1)(nt-1)

Biostatistik


Übung 11• Einfaktorielle ANOVA in

JMP• Zweifaktorielle ANOVA in

JMP• Ergebnisvergleich

Folie 332

Einfaktorielle ANOVA: Behandlung�6��#��

Vorlesung Biostatistik, HP Duerr, http://homepages.uni-tuebingen.de/hp.duerr/ Inst. Med. Biometrie, www.uni-tuebingen.de/biometry/Ergebnis: Treatment senkt BPdia

Lehrdatensatz: "Senkt die Behandlung den diastolischen Blutdruck? Rahmenbedingungen der Daten: in der Therapiestudie sollte die Wirksamkeit des Medikaments als Blutdrucksenker ermittelt werden. Unter den Versuchspersonen waren eher zufällig einige Patienten mit Depressionen. Dem Studienleiter fiel auf, dass diese u. U. anders auf das Medikament ansprechen. Fragen: Wirkt Medikament? Spielt Depression eine Rolle?

• Verwenden Sie das JMP-Menü Analyze>Fit Model, um im "LehrdatensatzTherapie.jmp" eine einfaktorielle Varianzanalyse durchzuführen(alternativ: t-Test unter Analyze>Fit Y by X)

• Wählen Sie die Differenz des diastolischen Blutdrucks (BPdia post-pre) als Zielvariable, und Treatment als Einflussvariable

RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)

0.106060.0963434.614736-3.29787

94

Summary of Fit

ModelErrorC. Total

Source1

9293

DF232.4471

1959.21252191.6596

Sum ofSquares

232.44721.296

Mean Square10.9152

F Ratio

0.0014*Prob > F


InterceptTreatment[control]

Term-3.4661171.5815018

Estimate0.478690.47869

Std Error-7.243.30

t Ratio<.0001*0.0014*

Prob>|t|

Parameter Estimates

TreatmentSource

1Nparm

1DF

232.44712

Sum ofSquares

10.9152F Ratio

0.0014*Prob > F

Effect Tests

-15

-10

-5

0

5

10

BPd

ia p

ost-p

re

control verumTreatment

Folie 333

Zweifaktorielle ANOVA: Blutdruck


Zweifaktorielle ANOVA im Lehrdatensatz: "Haben Behandlung (Faktor 1) undDepression (Faktor 2) Einfluss auf die Veränderung des diastolischen Blutdrucks?

• Verwenden Sie das JMP-Menü Analyze>Fit Model,um im Datensatz "Lehrdatensatz.jmp" eine zweifaktorielle Varianzanalyse durchzuführen

• Wählen Sie die Differenz des diastolischen Blutdurcks (BPdia post-pre) als Zielvariable, und depressionund Treatment als Einflussvariablen

• Erstellen Sie den Wechselwirkungsterm aus beiden Einflussvariablen, indem Sie diese kreuzen (button "Cross")

BehandlungDepression

Folie 334

Zweifaktorielle ANOVA: Blutdruck


1) Welche Schlussfolgerungen ergeben sich aus der Analyse?

2) Welche Schlussfolgerungen erge-ben sich aus der Wechselwirkung?

BehandlungDepression

RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)

0.1194330.0894144.639462-3.29348

92

Summary of Fit

ModelErrorC. Total

Source3

8891

DF256.9103

1894.16582151.0761

Sum ofSquares

85.636821.5246


0.0104*Prob > F


Interceptdepression[no]Treatment[control]depression[no]*Treatment[control]

Term-2.982511-0.5241780.96620680.7578735

Estimate0.9211360.9211360.9211360.921136

Std Error-3.24-0.571.050.82

t Ratio0.0017*0.57080.29710.4129

Prob>|t|

Parameter Estimates

depressionTreatmentdepression*Treatment

Source111

Nparm111

DF6.970198

23.68252714.570729

Sum ofSquares

0.32381.10030.6769

F Ratio0.57080.29710.4129

Prob > F

Effect Tests

Ergebnis: Treatment senkt BPdia nicht(vgl. mit Ergebnis der 1-faktoriellen Analyse zuvor)

HotSpot > LS

Means Plot

Ergebnis: eine Verbesserung des Blutdrucks tritt nur bei Nicht-Depressiven auf (bei depressiv=yes ändert sich die Gruppe verum kaum).Problem insgesamt: unbalanciertes Studiendesign (ndepressiv ist sehr klein)��8� ��der Studie sind kaum möglich – es ist unklar, ob der Einfluss des Faktors Depression nur eine Verzerrung darstellt, oder ernstgenommen werden muss.

Ein- Datum Thema Übung Grundbegriffe, Skalentyp ... · Biostatistik Vorlesung + Übung Institut für Medizinische Biometrie Westbahnhofstr. 55,72070 Tuebingen PD Dr. Hans-Peter Dürr

Documents