Biostatistik, Sommer 2019 Beschreibende Statistik Prof. Dr. Achim Klenke https://www.aklenke.de 4. Vorlesung: 17.05.2019 1/59
Biostatistik, Sommer 2019Beschreibende Statistik
Prof. Dr. Achim Klenke
https://www.aklenke.de
4. Vorlesung: 17.05.2019
1/59
Inhalt1 Vorbetrachtungen2 Beschreibende Statistik
Beispiel: Versuch zur KeimhemmungHistogrammMittelwertStandardabweichungMedian und QuantileBoxplotVergleichende Histogramme
3 Bivariate MerkmaleKorrelationLineare Regression
4 Statistik mit dem Statistikpaket R
2/59
Vorbetrachtungen
It is easy to lie with statistics.But, it is hard to tell the truth without it.
Andrejs Dunkels
3/59
Vorbetrachtungen
Was kann und soll Statistik?Beispiel: 200-facher WurfelwurfDaten:2 3 1 6 5 2 5 2 3 2 6 1 1 6 6 3 6 3 5 1 2 2 2 3 5 5 4 5 2 1 5 4 5 46 2 6 2 6 6 6 2 6 6 6 6 3 2 5 4 6 2 2 3 6 5 6 5 4 6 4 4 1 1 5 2 5 16 5 1 1 2 1 5 6 3 4 3 2 4 5 1 5 1 2 3 6 4 6 3 2 2 4 2 6 4 3 5 4 4 55 3 3 6 2 2 2 2 4 2 3 2 2 1 4 4 5 5 3 6 2 1 4 6 6 5 1 1 3 5 2 6 2 26 5 6 5 6 4 3 5 2 6 2 4 4 3 6 5 3 5 2 5 3 2 3 1 4 1 6 3 2 4 4 3 4 66 3 2 6 2 5 1 3 3 4 2 5 1 6 6 1 6 4 2 4 2 3 4 2 3 1 5 5 2 1
Erster Schritt: Daten sortieren / reduzieren.
Augen 1 2 3 4 5 6
Anzahl 24 44 29 29 34 40
Fur diesen Schritt muss man schon wissen, was man wissenmochte! Mochte man wissen, wie oft zwei Sechsenhintereinander gefallen sind, hat man bereits zu viel verloren.
4/59
Vorbetrachtungen
Was kann und soll Statistik?Beispiel: 200-facher Wurfelwurf
Augen 1 2 3 4 5 6
Anzahl 24 44 29 29 34 40
2. Schritt: Daten darstellen. (hier: Histogramm)
1 2 3 4 5 6
010
3050
5/59
Vorbetrachtungen
Was kann und soll Statistik?
Beispiel: 200-facher Wurfelwurf
1 2 3 4 5 6
010
3050
3. Schritt: Daten bewerten / Schlusse ziehen.
Ist der Wurfel fair? (=⇒ Test)
Wahrscheinlichkeit fur die Sechs? (=⇒ Schatzung)Hierzu notwendig: Modell fur den Zufall.Etwa: Jede Seite mit gleicher Wahrscheinlichkeit, Wurfe sindunabhangig etc.
6/59
Vorbetrachtungen
Das kann und soll Statistik.
Beschreibende (deskriptive) StatistikDaten sortieren / reduzieren, Kenngroßen ausrechnenDaten darstellen
Schließende StatistikSchlussfolgerungen ziehen (setzt Modell voraus):
Modellparameter schatzen (mit Fehlerschranken)Hypothesen testen
7/59
Vorbetrachtungen
Programm bis Semesterende
1 Elemente der beschreibenden StatistikHistogrammeKenngroßenRegression
2 Wahrscheinlichkeitstheorie: Gangige Modelle aufstellen unduntersuchen
3 Schließende Statistik: Fur die Modelle aus (2):SchatzwerteKonfidenzintervalleTests
8/59
Beschreibende Statistik Beispiel: Versuch zur Keimhemmung
Keimhemmung durch ABS und SaccharoseVersuch aus dem Pflanzenphysiologischen Praktikum (Prof. Paulsen)
In Tomaten keimen die Samen (typischerweise) nicht.Vermutung: Keimhemmung durch
Osmose (Saccharose)Abscisinsaure (ABS)ein Zusammenwirken von beidem
Ein Versuch soll klaren, welche Stoffe wirklich keimhemmendsind.
9/59
Beschreibende Statistik Beispiel: Versuch zur Keimhemmung
Keimhemmung durch ABS und SaccharoseVersuchsaufbau im Pflanzenphysiologischen Praktikum
Versuch (mit Gartenkresse statt Tomaten).In vier Petrischalen werden jeweils exakt 100 SamenGartenkresse ausgebracht. Gewassert wird mit
(A) Aqua dest. (zur Kontrolle)(B) ABS Losung(C) Saccharose-Losung(D) Saccharose-ABS-Losung
Nach zwei Tagen wird gezahlt, wie viele Samen gekeimt haben.(Fiktives) Ergebnis:
Versuch A B C D
Keime 90 85 45 25
10/59
Beschreibende Statistik Histogramm
Keimhemmung durch ABS und Saccharose
Versuch A B C D
Keime 90 85 45 25
Beschreibende Statistik: Daten darstellen.
A B C D
020
6010
0
Schlussfolgerung?11/59
Beschreibende Statistik Histogramm
Keimhemmung durch ABS und Saccharose
A B C D
020
6010
0
Um die Daten bewerten zu konnen, muss man dieSchwankungen kennen.
Moglichkeit 1. Modell fur die Schwankungen aufstellen.(=⇒W-Theorie)
Moglichkeit 2. Weitere Versuche anstellen und Schwankungenmessen.
12/59
Beschreibende Statistik Histogramm
Keimhemmung durch ABS und SaccharoseIm Praktikum wird jeder Versuch dreimal durchgefuhrt.
Versuch A B C DKeime Schale 1 90 85 45 25Keime Schale 2 88 87 44 27Keime Schale 3 91 75 45 29
A B C D
020
6010
0
Wie quantifiziert man die Streuung der Werte? 13/59
Beschreibende Statistik Histogramm
Keimhemmung durch ABS und SaccharoseIm Praktikum wird jeder Versuch dreimal durchgefuhrt. 20Versuchsgruppen. Ergebnis fur Saccharose (C)
53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49
C
020
4060
14/59
Beschreibende Statistik Mittelwert
Keimhemmung durch ABS und Saccharose
Daten mussen auf wenige Kenngroßen reduziert werden, damitman sie versteht.Die zwei wesentlichen Maße:
Lagemaße: Mittelwert, Median, QuantileStreumaße: Standardabweichung, Interquartilabstand
15/59
Beschreibende Statistik Mittelwert
Keimhemmung durch ABS und SaccharoseArithmetischer Mittelwert
x =Summe der Datenwerte
Anzahl der DatenAlso
x =160
60∑i=1
xi = 44.133.
C
020
4060
16/59
Beschreibende Statistik Standardabweichung
Keimhemmung durch ABS und SaccharoseStandardabweichung
Maß fur die Streuung: quadratische Abweichung vom Mittelwert.Standardabweichung:
s =
√√√√ 159
60∑i=1
(xi − x)2 = 5.31.
In vielen Fallen:Im Intervall x ± s liegen ca. 68% der Daten.Im Intervall x ± 2s liegen ca. 95% der Daten.Im Intervall x ± 3s liegen ca. 99% der Daten.
17/59
Beschreibende Statistik Standardabweichung
Keimhemmung durch ABS und SaccharoseStandardabweichung
Mittelwert: x = 44.13.Standardabweichung: s = 5.31.Wie viele Daten liegen in x ± s = [38.82, 49.44]?
53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49
C
020
4060
18/59
Beschreibende Statistik Standardabweichung
Keimhemmung durch ABS und SaccharoseStandardabweichung
Mittelwert: x = 44.13.Standardabweichung: s = 5.31.Wie viele Daten liegen in x ± s = [38.82, 49.44]?
53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49
41 Daten in [38.82, 49.44], entsprechend 4160 = 68.3%.
19/59
Beschreibende Statistik Standardabweichung
Keimhemmung durch ABS und SaccharoseStandardabweichung
Mittelwert: x = 44.13.Standardabweichung: s = 5.31.Wie viele Daten liegen in x ± 2s = [33.51,54.75]?
53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49
58 Daten in [33.51,54.75], entsprechend 5860 = 96.7%.
20/59
Beschreibende Statistik Standardabweichung
Mittelwert und Standardabweichung
FazitDer (arithmetische) Mittelwert
x =1n
n∑i=1
xi
ist eine Kennzahl fur die Lage der Daten.Die Standardabweichung
s =
√√√√ 1n − 1
n∑i=1
(xi − x)2
ist ein Maß fur die Streuung der Daten.21/59
Beschreibende Statistik Standardabweichung
Mittelwert und Standardabweichung
Fazit (2)In vielen Fallen (wenn die Daten etwa normalverteilt sind) gilt
Im Intervall x ± s liegen ca. 68% der Daten.Im Intervall x ± 2s liegen ca. 95% der Daten.Im Intervall x ± 3s liegen ca. 99% der Daten.
22/59
Beschreibende Statistik Median und Quantile
Keimhemmung durch ABS und SaccharoseMedian
Definition (Median)Der Median ist diejenige Zahl m, so dass
hochstens die Halfte der Daten strikt darunter undhochstens die Halfte strikt daruber liegt.
Hier: m = 43.
53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49
26 Werte unter 43; 29 Werte uber 43.
23/59
Beschreibende Statistik Median und Quantile
Keimhemmung durch ABS und SaccharoseMedian
Definition (Median)Der Median ist diejenige Zahl m, so dass
hochstens die Halfte der Daten strikt darunter undhochstens die Halfte strikt daruber liegt.
Der Median ist ein robustes Maß fur die Lage der Daten.Einzelne große Messabweichungen verandern den Mediannicht.
24/59
Beschreibende Statistik Median und Quantile
Keimhemmung durch ABS und Saccharose1. Quartil
Definition (1. Quartil)Das erste Quartil ist diejenige Zahl Q1, so dass
hochstens 25% der Daten strikt darunter undhochstens 75% strikt daruber liegt.
Hier Q1 = 41.
53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49
14 Werte (23.3%) unter 41; 41 Werte (68.3%) uber 41.
25/59
Beschreibende Statistik Median und Quantile
Keimhemmung durch ABS und Saccharose3. Quartil
Definition (3. Quartil)Das dritte Quartil ist diejenige Zahl Q3, so dass
hochstens 75% der Daten strikt darunter undhochstens 25% strikt daruber liegt.
Hier Q3 = 47.
53 52 41 41 42 58 40 43 42 38 43 49 34 51 4539 41 45 45 39 37 36 42 44 47 43 46 43 43 4542 52 49 44 50 40 47 46 50 50 41 51 41 47 4252 36 46 42 56 39 40 36 42 36 36 47 45 47 49
41 Werte (68.3%) unter 47; 14 Werte (23.3%) uber 47.
26/59
Beschreibende Statistik Median und Quantile
Median und Quartile
FazitDer Median ist ein robustes Maß fur die Lage der Daten.Der Interquartilabstand
IQR := Q3−Q1
ist ein Maß fur die Streuung der Daten.
27/59
Beschreibende Statistik Median und Quantile
Quantile
Definition (Quantil)Fur jedes α ∈ (0,1) ist das α-Quantil diejenige Zahl mα, so dass
hochstens der Anteil α der Daten kleiner als mα ist undhochstens der Anteil 1− α der Daten großer als mα.
Beispielm0.25 = Q1, m0.5 =Median, m0.75 = Q3.
28/59
Beschreibende Statistik Boxplot
Keimhemmung durch ABS und SaccharoseBoxplot
Median und Quartile werden grafisch oft im Boxplot dargestellt.
Mittellinie = Median (=43)Obere Box-Kante: Q3 (=47)Untere Box-Kante: Q1 (=41)Antennen (whiskers) gebengroßten (=58) und kleinsten (=34)Datenpunkt an, haben aberhochstens die Lange 1.5×IQR(=9). Daher geht die obereAntenne nur bisQ3+1.5IQR=47+9=56. Der großteDatenpunkt ist als Referenzeingezeichnet.
●
3545
55
29/59
Beschreibende Statistik Boxplot
Boxplot
Ein Boxplot ist eine grafische Darstellung von Daten.Mittellinie = MedianOberer Box-Kante: Q3Untere Box-Kante: Q1Die obere Antenne gibt den großten Datenwert an, der nichtgroßer als Q3 + 1.5× IQR ist. Daruberliegende Wertewerden manchmal einzeln dargestellt.Die untere Antenne gibt den kleinsten Datenwert an, dernicht kleiner als Q1− 1.5× IQR ist. DarunterliegendeWerte werden manchmal einzeln dargestellt.
30/59
Beschreibende Statistik Boxplot
Keimhemmung durch ABS und Saccharose
Wird jeder der vier Versuche A, B, C, D sechzigmaldurchgefuhrt, so konnen wir die Ergebnisse im gemeinsamenBoxplot darstellen:
●
●
●
●
A B C D
2040
6080
31/59
Beschreibende Statistik Vergleichende Histogramme
Keimhemmung durch ABS und SaccharoseHistogramm A
Die Ergebnisse von Versuch A konnen wir in einem Histogrammdarstellen.
74 76 78 80 82 84 86 88 90 92 94
02
46
810
32/59
Beschreibende Statistik Vergleichende Histogramme
Keimhemmung durch ABS und SaccharoseHistogramm B
Die Ergebnisse von Versuch B konnen wir in einem Histogrammdarstellen.
74 76 78 80 82 84 86 88 90 92 94
02
46
8
33/59
Beschreibende Statistik Vergleichende Histogramme
Keimhemmung durch ABS und SaccharoseGemeinsames Histogramm
Die Ergebnisse der Versuche A und B (jeweils 60) konnen wir ineinem Histogramm darstellen.
74 76 78 80 82 84 86 88 90 92 94
02
46
810
AB
34/59
Beschreibende Statistik Vergleichende Histogramme
Keimhemmung durch ABS und SaccharoseGemeinsames Histogramm bei unterschiedlichem Datenumfang
Angenommen, von Versuch A wurden nur 30 Daten erhoben,von Versuch B aber 60.Direktes Histogramm nutzlos.
74 76 78 80 82 84 86 88 90 92 94
02
46
8
AB
35/59
Beschreibende Statistik Vergleichende Histogramme
Keimhemmung durch ABS und SaccharoseGemeinsames Histogramm bei unterschiedlichem Datenumfang
Angenommen, von Versuch A wurden nur 30 Daten erhoben,von Versuch B aber 60.Histogramm umskalieren, so dass Balkenhohe = relativeHaufigkeit.
74 76 78 80 82 84 86 88 90 92 940.00
0.10
0.20 A
B
36/59
Bivariate Merkmale Korrelation
Messung zweier Merkmale
An einer Reihe von Tieren 1, . . . ,n werden zwei Merkmale xund y gemessen. Etwa:
xi = Korpergewicht von Tier iyi = Sauerstoffverbrauch von Tier i pro Stunde und pro kgKorpergewicht
37/59
Bivariate Merkmale Korrelation
Positive Korrelationx und y sind positiv korreliert, wenn große Werte von xtendenziell große Werte von y mit sich bringen.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3 4 5 6 7
34
56
78
x
y
Starke positive Korrelation.38/59
Bivariate Merkmale Korrelation
Positive Korrelationx und y sind positiv korreliert, wenn große Werte von xtendenziell große Werte von y mit sich bringen.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
3 4 5 6 7
45
67
89
x
y
Maßige positive Korrelation.39/59
Bivariate Merkmale Korrelation
Negative Korrelationx und y sind negativ korreliert, wenn große Werte von xtendenziell kleine Werte von y mit sich bringen.
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3 4 5 6 7−16
−14
−12
−10
−8
−6
x
y
Starke negative Korrelation.40/59
Bivariate Merkmale Korrelation
Negative Korrelationx und y sind negativ korreliert, wenn große Werte von xtendenziell kleine Werte von y mit sich bringen.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
3 4 5 6 7
−9
−8
−7
−6
−5
−4
x
y
Maßige negative Korrelation.41/59
Bivariate Merkmale Korrelation
Unkorreliert
x und y sind unkorreliert, wenn große Werte von x keineTendenz zu großen oder kleinen Werten von y mit sich bringen.
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3 4 5 6 7
12
34
5
x
y
42/59
Bivariate Merkmale Korrelation
Korrelationskoeffizient
Wie quantifiziert man die Korrelation?Korrelationskoeffizient:
% :=
∑ni=1(xi − x)(yi − y)√(∑n
i=1(xi − x)2) (∑n
i=1(yi − y)2)
−1 ≤ % ≤ +1. Es gilt% > 0: positiv korreliert% nahe bei 1: stark positiv korreliert% < 0: negativ korreliert% nahe bei -1: stark negativ korreliert% = 0: unkorreliert
43/59
Bivariate Merkmale Korrelation
Starke Positive Korrelation
% = 0.996
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3 4 5 6 7
34
56
78
x
y
44/59
Bivariate Merkmale Korrelation
Maßige Positive Korrelation
% = 0.88
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
3 4 5 6 7
45
67
89
x
y
45/59
Bivariate Merkmale Korrelation
Unkorreliert
% = −0.03
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3 4 5 6 7
12
34
5
x
y
46/59
Bivariate Merkmale Korrelation
Maßige Negative Korrelation
% = −0.88
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
3 4 5 6 7
−9
−8
−7
−6
−5
−4
x
y
47/59
Bivariate Merkmale Korrelation
Starke Negative Korrelation
% = −0.999
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3 4 5 6 7−16
−14
−12
−10
−8
−6
x
y
48/59
Bivariate Merkmale Lineare Regression
Lineare Regression
Ist % ≈ 1 oder % ≈ −1, so gibt es vermutlich ein Gesetz der Art
y = ax + b,
aber die Messwerte von y (oder auch von x) sind fehlerhaft.Wie konnen wir a und b aus den Daten schatzen?Idee (Gauß): Summe der Abweichungsquadrate alsFehlerfunktion
Q(a,b) =n∑
i=1
(yi − axi − b)2.
Finde a und b, so dass Q(a,b) minimal wird.
49/59
Bivariate Merkmale Lineare Regression
Lineare RegressionBestimmung von a und b
Q(a,b) =n∑
i=1
(yi − axi − b)2.
Wir kurzen ab:
x2 =1n
n∑i=1
x2i , y2 =
1n
n∑i=1
y2i , xy =
1n
n∑i=1
xiyi .
An der Minimalstelle muss die Ableitung von Q(a,b) nach bverschwinden:
0 = −n∑
i=1
2(yi − axi − b) = 2n (b + ax − y).
50/59
Bivariate Merkmale Lineare Regression
Lineare RegressionBestimmung von a und b
0 =n∑
i=1
2(yi − axi − b) = 2n(b + ax − y).
Es folgtb + xa− y = 0. (1)
An der Minimalstelle muss die Ableitung von Q(a,b) nach averschwinden:
0 = −2n∑
i=1
xi(yi − axi − b) = −2n(xy − ax2 − bx)
Es folgtx b + x2 a− xy = 0. (2)
51/59
Bivariate Merkmale Lineare Regression
Lineare RegressionBestimmung von a und b
Wir haben alsob + xa− y = 0. (1)
undx b + x2 a− xy = 0. (2)
Auflosen von (1) und (2) nach a und b ergibt:
a =xy − x · yx2 − x2 und b =
x2 · y − x · xyx2 − x2 .
52/59
Bivariate Merkmale Lineare Regression
Lineare Regression
SatzFur die Ausgleichsgerade y = ax + b sind
a =xy − x · yx2 − x2 und b =
x2 · y − x · xyx2 − x2
optimal im Sinne des Prinzips der Summe der Fehlerquadrate.Die Ausgleichsgerade nahert die Daten gut an, falls derKorrelationskoeffizient
% :=xy − x · y√
x2 − x2√
y2 − y2
nahe bei 1 oder −1 ist.
53/59
Bivariate Merkmale Lineare Regression
Regression Beispiel
i 1 2 3 4 5 6
xi 1.0 2.2 2.7 2.7 3.5 5.0
yi 4.9 7.2 8.8 8.4 10.4 11.2
Aus diesen Daten berechnen wir
x = 2.85y = 8.48
x2 = 9.611
y2 = 76.24xy = 26.6.
54/59
Bivariate Merkmale Lineare Regression
Regression Beispiel
x = 2.85y = 8.48
x2 = 9.611
y2 = 76.24xy = 26.6.
Es folgt
a =xy − x · yx2 − x2 = 1.625
b =x2 · y − x · xy
x2 − x2 = 3.853
% =xy − x · y√
x2 − x2√
y2 − y2= 0.96
55/59
Bivariate Merkmale Lineare Regression
Regression Beispiel
y = ax + b, a = 1.625, b = 3.853, % = 0.96.
●
●
●
●
●
●
1 2 3 4 5
56
78
910
11
x
y
56/59
Statistik mit dem Statistikpaket R
Median, Quantile
Datensatz yc fur Versuch in R eingeben.yc <− c( 53,52,41,41,42,58,40,43,42,38,43,49,34,51,45,
39,41,45,45,39,37,36,42,44,47,43,46,43,43,45,
42,52,49,44,50,40,47,46,50,50,41,51,41,47,42,
52,36,46,42,56,39,40,36,42,36,36,47,45,47,49
)
Mittelwert (mean), Standardabweichung (sd), Median, undQuantilemean(yc)
sd(yc)
median(yc)
quantile(yc, 0.25, type=1)
quantile(yc, 0.75, type=1)
summary(yc)
57/59
Statistik mit dem Statistikpaket R
Boxplot, Balkendiagramm, Histrogramm
Darstellung eines Datensatzesboxplot(yc)
barplot(yc)
hist(yc)
Boxplot der Datensatze ya, yb, yc, yd (mussen wie yc
eingegeben werden) der Versuche A, B, C, D in einemDiagramm:boxplot(ya, yb, yc, yd, col=2:5)
58/59
Statistik mit dem Statistikpaket R
Lineare Regression
Eingabe der Datensatze x und y:x <− c(1.0, 2.2, 2.7, 2.7, 3.5, 5.0)
y <− c(4.9, 7.2, 8.8, 8.4, 10.4, 11.2)
Ausgabe von Steigung und y -Achsenabschnitt derAusgleichsgeraden, sowie Korrelationskoeffizient %lm(y ∼ x)
cor(x, y)
Grafische Darstellungplot(x, y) # Malen der Punkte
abline(lm(y ∼ x), col=2, lwd=3) #Ausgleichsgerade
59/59