Top Banner
Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων" Περιγραφική Στατιστική
22

Descriptive Statistics Slides

Dec 26, 2014

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Περιγραφική Στατιστική

Page 2: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Παράδειγμα

1•

Γίνεται

μια

μελέτη

για

τους

τραυματισμούς

στο

μάτι

(σοβαροί

ή

όχι

τόσο

σοβαροί) κατά

τη

διάρκεια

αγώνων τέννις, squash, badminton και

ρακέτας.

Ηλικία Άντρας Γυναίκα Άντρας Γυναίκα< 30 7 1 4 5

30-50 9 10 10 27> 50 4 0 4 1

Σύνολο 20 11 18 33

Σοβαρός Τραυματισμός Επιπόλαιος Τραυματισμός

Page 3: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Παράδειγμα

2

Πραγματοποιείται

μια

μελέτη

για

την

επίδραση

του

αλκοόλ στα

επίπεδα

χοληστερόλης.

Χ

μετράει

το

ποσό

του

αλκοόλ

το

οποίο

μετριέται

ανά εβδομάδα

και

ανά

άτομο.

i Όρια f i F i F i /n1 0 - 2.5 201 201 0.2182 2.5 - 5.0 372 573 0.6213 5.0 - 7.5 260 833 0.9024 7.5 - 10 80 913 0.9895 ≥10 10 923 1.000

Page 4: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

f i f i /nA 19 0.543B 16 0.457 A

B

Page 5: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

f i f i /nA 19 0.543B 16 0.457

0.400

0.420

0.440

0.460

0.480

0.500

0.520

0.540

0.560

A B

Page 6: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

Τάξεις f i f i /n%0 - 9 5 7.7%

110 - 19 11 16.9%20 - 29 20 30.8%30 - 39 9 13.8%40 - 49 13 20.0%50 - 59 7 10.8%

0

5

10

15

20

25

0 -- 9 10 -- 19 20 -- 29 30 -- 39 40 -- 49 50 -- 59

Page 7: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

(Πολύγωνο

Συχνοτήτων)

Τάξεις f i f i /n%0 - 9 5 7.7%

110 - 19 11 16.9%20 - 29 20 30.8%30 - 39 9 13.8%40 - 49 13 20.0%50 - 59 7 10.8%

0

5

10

15

20

25

0 -- 9 10 -- 19 20 -- 29 30 -- 39 40 -- 49 50 -- 59

Page 8: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

(Κατανομή)

Τάξεις f i f i /n%0 - 9 5 7.7%

110 - 19 11 16.9%20 - 29 20 30.8%30 - 39 9 13.8%40 - 49 13 20.0%50 - 59 7 10.8%

0

5

10

15

20

25

0 -- 9 10 -- 19 20 -- 29 30 -- 39 40 -- 49 50 -- 59

Page 9: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Σχέση

Μέσου

-

Διαμέσου

-

Κορυφής

x

x

-2 -1 1 2

0.1

0.2

0.3

0.4

Αν

η

κατανομή

είναι

συμμετρικήτότε

αυτά

συμπίπτουν

2 4 6 8 10 12 14

0.02

0.04

0.06

0.08

0.1

0.12

Αν

η

κατανομή

είναι

θετικάΑσύμμετρη

(Μ < m <

)

0.2 0.4 0.6 0.8 1 1.2

0.2

0.4

0.6

0.8

Αν

η

κατανομή

είναι

αρνητικάΑσύμμετρη

(Μ >

m > )

x

x

Page 10: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ποσοστημόρια

(Percentiles)

ΟρισμόςΕίναι

εκείνη

η

τιμή

των

διατεταγμένων

δεδομένων, όπου

τουλάχιστον

το

100 p% αυτών

των

δεδομένων

είναι

κάτω

από αυτήν

την

τιμή

και

το

100 (1-p)% είναι

τουλάχιστον

πάνω

από

αυτήν

την

τιμή.

Page 11: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ποσοστημόρια

(Percentiles)

Ειδικές

Περιπτώσεις1.

Πρώτο

τεταρτημόριο

(quartile)

Q1

αφήνει

δεξιά

το

75% των

παρατηρήσεων2.

Τρίτο

τεταρτημόριο

Q3

αφήνει

δεξιά

το

25% των

παρατηρήσεων3.

Διάμεσος

(Q2

)4.

Δεκατημόρια

(Dk )

5.

Εκατοστημόρια

(Pk )

⎟⎠⎞

⎜⎝⎛ +

41n

⎟⎠⎞

⎜⎝⎛ +

4)1(3 n

⎟⎠⎞

⎜⎝⎛ +

10)1(nk

⎟⎠⎞

⎜⎝⎛ +

100)1(nk

Page 12: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ποσοστημόρια

(Percentiles)

Παράδειγμα

1 4, 6, 7, 15, 18, 20, 25n= 7,

Q1 = 6

Q3 = 20

24

17=

+

64

)17(3=

+

Page 13: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ποσοστημόρια

(Percentiles)

Παράδειγμα

2

4, 6, 7, 15, 18, 20, 23, 25n= 8,

Q1 = 6.25 (Πάω

στη

παρατήρηση και

παίρνω

το

25% της

απόστασής

της

από

την

.)

Q3 = 22.25

(Πάω

στη

παρατήρηση και

παίρνω

το

75% της

απόστασής

της

από

την

.)

25.24

18=

+

75.64

)18(3=

+

Page 14: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ομαδοποιημένα

Δεδομένα

Το

q ποσοστημόριο

εντοπίζεται

στην

κλάση

που περιέχει

την

qn παρατήρηση, δηλαδή

εάν,

Fi-1

< q n ≤

Fi

τότε

το

ποσοστημόριο

βρίσκεται

στην

i-τάξη

και δίνεται

από

τον

τύπο:

)( 11 −− −+= ii

ii Fqn

fhaP

Page 15: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΠαράδειγμαΤάξεις f i f i /h i F i

0 - 5 3 0,6 315 - 10 7 1,4 10

110 - 20 16 1,6 2620 - 35 18 1,2 4435 - 60 12 0,8 56

60 -100 4 0,1 60

Να

υπολογιστούν

η διάμεσος, Q3

, d7

, P5

.

Q2

= m , q = , q n = 60 = 30

Q2

= 20 + (30 -

26) = 23.33

21

21

1815

)( 11 −− −+= ii

ii Fqn

fhaP

Page 16: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΠαράδειγμαΤάξεις f i f i /h i F i

0 - 5 3 0,6 315 - 10 7 1,4 10

110 - 20 16 1,6 2620 - 35 18 1,2 4435 - 60 12 0,8 56

60 -100 4 0,1 60

Να

υπολογιστούν

η διάμεσος, Q3

, d7

, P5

.

q = , q n = 60 = 45

Q3

= 35 + (45 -

44) = 37.08

43

43

1225

)( 11 −− −+= ii

ii Fqn

fhaP

Page 17: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΠαράδειγμαΤάξεις f i f i /h i F i

0 - 5 3 0,6 315 - 10 7 1,4 10

110 - 20 16 1,6 2620 - 35 18 1,2 4435 - 60 12 0,8 56

60 -100 4 0,1 60

Να

υπολογιστούν

η διάμεσος, Q3

, d7

, P5

.

q = , q n = 60 = 42

d7

= 20 + (42 -

26) = 33.3

107

1815

107

)( 11 −− −+= ii

ii Fqn

fhaP

Page 18: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΠαράδειγμαΤάξεις f i f i /h i F i

0 - 5 3 0,6 315 - 10 7 1,4 10

110 - 20 16 1,6 2620 - 35 18 1,2 4435 - 60 12 0,8 56

60 -100 4 0,1 60

Να

υπολογιστούν

η διάμεσος, Q3

, d7

, P5

.

q = , q n = 60 = 3

P5

= 0 + (3 -

0) = 5

1005

35

1005

)( 11 −− −+= ii

ii Fqn

fhaP

Page 19: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ασυμμετρία (skewness)

x

2 4 6 8 10 12 14

0.02

0.04

0.06

0.08

0.1

0.12

Αν

g1

> 0 → θετική ασυμμετρία

0.2 0.4 0.6 0.8 1 1.2

0.2

0.4

0.6

0.8

Πολλές

φορές

μας

ενδιαφέρει

να

ελέγξουμε

την

ασυμμετρία

της

κατανομής

( ) 23

23

1

2

1

3

'2

'3

1

)(1

)(1

⎟⎠

⎞⎜⎝

⎛−

−==

=

=

n

ii

n

ii

xxn

xxn

mmg

Αν

g1

< 0 → αρνητική

ασυμμετρία

Page 20: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Κύρτωση (Kurtosis)

Αν

g2 » → οι

ουρές

της

κατανομής

είναι

πλατιές. (outliers)

Αν

g2 « → οι

ουρές

της

κατανομής

είναι

κοντές.-4 -2 2 4

0.1

0.2

0.3

0.4

-4 -2 2 4

0.1

0.2

0.3

0.4

( ) 3)(1

)(1

3 2

1

2

1

4

2'2

'4

2 −

⎟⎠

⎞⎜⎝

⎛−

−=−=

=

=

n

ii

n

ii

xxn

xxn

mmg

Page 21: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Box Plots-100 36 42 -5

2 35 38 54 38 53 -116 34 -23 -38 29 -33 -2

12 9 -15 9515 10 -16 9213 30 -17 -6025 27 -9 3323 100 -4 -33

StatisticsvarMean 12.08Median 9.50Variance 1,428.328

Skewness -0.080Kurtosis 1.898Minimum -100Maximum 100Percentiles 25 -8.00

50 9.5075 33.75

Page 22: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Box Plots-100 36 42 -5

2 35 38 54 38 53 -116 34 -23 -38 29 -33 -2

12 9 -15 9515 10 -16 9213 30 -17 -6025 27 -9 3323 100 -4 -33

-100

-50

0

50

100

var

A

AA