Top Banner
Head First Statistics Ch.14 2 (Chi) 분포 2012. 6.30 chois79 12630토요일
17

Head first statistics14

Jun 30, 2015

Download

Technology

HyeonSeok Choi

Head first statistics14
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Head first statistics14

Head First Statistics Ch.14 𝝌2(Chi) 분포

2012. 6.30chois79

12년 6월 30일 토요일

Page 2: Head first statistics14

이 장에서는...

13장 가설 검증

영가설을 기준으로 검정 집단의 통계가 얼마나 발생하기 어려운 경우인지를 판단하여 가설을 검증

이 장에서는 결과를 분석

기대하는 것과 실제로 일어난 일의 차이를 분석하여 무엇인가 잘못되고 있다는 것을 판단

그럼 무엇이 다른가?

13장: 기하 분포, 이항 분포, 푸아송 분포를 따를 때

𝝌2 분포: 분포와 관계 없이 결과를 가지고 검증

12년 6월 30일 토요일

Page 3: Head first statistics14

뚱보 댄의 카지노슬롯머신

슬롯머신의 확률 분포

1000번 실행한 후 실제 결과

X (수입) -2 23 48 73 98

P(X=x) 0.977 0.008 0.008 0.006 0.001

X (수입) -2 23 48 73 98

도수 965 10 9 9 7

12년 6월 30일 토요일

Page 4: Head first statistics14

뚱보 댄의 카지노슬롯머신

관측도수 vs 기대도수X P(X=x) 관측 도수 기대 도수 (P(x) * 1000)

-2 0.977 965 977

23 0.008 10 8

48 0.008 9 8

73 0.006 9 6

98 0.001 7 1

12년 6월 30일 토요일

Page 5: Head first statistics14

𝝌2 검사기대되는 것과 실제로 얻게 되는 것 사이에 존재하는 차이를 평가

𝝌2 = 𝛴 (O - E)2 / E

O: 관측 도수

E: 기대 도수

뚱보 댄의 카지노 - 𝝌2

𝝌2 = (965-977)2/977 + (10-8)2/8 + (9-8)2/8 + (9-6)2/6 + (7-1)2/1 = 38.272

12년 6월 30일 토요일

Page 6: Head first statistics14

𝝌2 분포 2가지 주요한 용례

적합도

어떤 데이터의 집합이 어떤 분포에 얼마나 잘 맞는지 검사

독립성

두 변수의 독립성을 검사하는데 사용

𝝌2 분포

X2 ~𝝌2 (ν): 자유도 ν를 갖는 검정 통계 X2를 사용한다는 의미

ν(nu): 자유도

12년 6월 30일 토요일

Page 7: Head first statistics14

자유도 νν에 따른 𝝌2의 분포

그림에서 k는 ν를 의미

그림 출처: http://en.wikipedia.org/wiki/Chi-squared_distribution

자유도 ν의 의미

부과된 제약 사항을 고려하면서 우리가 계산해야만 하는 기대 도수의 수

ν = (클래스의 수) - (제약의 수)

Ex)

ν = 5 - 1 = 4

X (수입) -2 23 48 73 98

도수 977 8 8 6 1

12년 6월 30일 토요일

Page 8: Head first statistics14

𝝌2의 유의성이란?관측도수와 기대도수 사이에 존재하는 차이가 얼마나 유의한지를 의미

기각역은 상위 꼬리의 단측 검증을 사용

유의수준 ɑ를 이용해서 𝝌2 검정을 수행

P(𝝌2ɑ(ν) ≥ x) = ɑ

그림 출처: http://www.medcalc.org/manual/chi-square-table.php

𝝌2 확률 테이블을 사용하여 기각역을 구함

Ex) 자유도 4에 대한 유의수준 25%를 구함

12년 6월 30일 토요일

Page 9: Head first statistics14

𝝌2을 이용한 가설 검정가설 검정 단계

검정을 수행할 가설과 대립 가설을 설정

기대 도수와 자유도를 계산

결정을 내리는 데 사용할 기각역 설정

검정 통계 𝝌2을 계산

검정 통계가 기각역 안에 있는지 여부를 확인

결정

12년 6월 30일 토요일

Page 10: Head first statistics14

𝝌2을 이용한 가설 검정: 적합도 검정(Ex: 댄의 슬롯머신)

유의 수준 5%

영가설 설정

H0: 슬롯머신에서 금액을 딸 확률은 아래와 같은 확률 분포를 따름

기대 도수와 자유도 계산 및 5% 수준의 기각역 설정

자유도: 5 - 1 = 4

기각역 영역: 𝝌25%(4) = 9.49

검정 통계 계산 및 기각역 검증

𝝌2 = 𝛴 (O - E)2 / E = 38.272 > 9.49

결론

기각역 안에 존재하므로, 해당 슬롯 머신은 위와 같은 확률 분포를 따르지 않음

X (수입) -2 23 48 73 98

P(X=x) 0.977 0.008 0.008 0.006 0.001

12년 6월 30일 토요일

Page 11: Head first statistics14

𝝌2 적합도 검정대부분의 확률 통계에서 사용 가능

실제 관측을 기준으로 함

𝝌2 를 위한 자유도 설정분포 조건 ν(자유도)

이항 P를 알고 있을 경우P의 값을 모르고 있을 경우

n - 1n - 2

푸아송 𝜆의 값을 알고 있을 경우𝜆의 값을 모르고 있을 경우

n - 1n - 2

정규 평균과 분산을 알고 있을 경우평균과 분산을 모르고 있을 경우

n - 1n - 3

12년 6월 30일 토요일

Page 12: Head first statistics14

𝝌2을 이용한 독립성 검정어느 두 요소가 서로 독립인지를 검정

독립성 검정 단계

검정을 수행할 가설과 대립 가설을 설정

기대 도수와 자유도를 계산

단, 서로 독립이라는 가설에 근거하여 기대 도수를 계산

결정을 내리는 데 사용할 기각역 설정

검정 통계 𝝌2을 계산

검정 통계가 기각역 안에 있는지 여부를 확인

결정

12년 6월 30일 토요일

Page 13: Head first statistics14

뚱보 댄의 카지노블랙잭 - 쿠르피에(1/3)쿠르피에 한 사람이 실제보다 많은 돈을 잃고 있는가?

각 쿠프피에에 대한 관측 결과

만약 쿠르피에가 결과와 서로 관련이 없을 경우

P(승리) = 승리총합/전체총합 <= 승리한 비율

P(A) = A총합/전체총합 <= A가 게임한 비율

즉, 위의 2 확률이 서로 독립적

P(A가 이기는 비율) = P(승리) * P(A) = 승리총합/전체총합 * A총합/전체총합

기대 도수 = 전체 총합 * P(A가 이기는 비율) = 승리총합 * A총합 / 전체총합

쿠르피에 A 쿠르피에 B 쿠르피에 C

승리 43 49 22

무승부 8 2 5

패배 47 44 30

12년 6월 30일 토요일

Page 14: Head first statistics14

뚱보 댄의 카지노블랙잭 - 쿠르피에(2/3)관측 결과

기대 도수

𝝌2 = 𝛴 (O - E)2 / E = 5.004

쿠르피에 A 쿠르피에 B 쿠르피에 C 총계

승리 43 49 22 114

무승부 8 2 5 15

패배 47 44 30 121

총계 98 95 57 250

쿠르피에 A 쿠르피에 B 쿠르피에 C

승리 114*98/250 = 44.688 114*95/250 = 43.32 114*57/250 = 25.992

무승부 15*98/250 = 5.88 15*95/250 = 5.7 15*57/250 = 3.42

패배 121*98/250 = 47.432 121*95/250 = 45.98 121*57/250 = 27.588

12년 6월 30일 토요일

Page 15: Head first statistics14

뚱보 댄의 카지노블랙잭 - 쿠르피에(3/3)자유도 계산

ν = (클래스의 수) - (제약의 수) = 9 - 5 = 4

1%의 유의 수준에서 독립여부 확인

기각역 영역: 𝝌21%(4) = 13.28 > 5.00

결정

𝝌2이 기각역의 밖에 있으므로 서로 영가설을 받아 들임

쿠르피에 A 쿠르피에 B 쿠르피에 C

승리

무승부

패배

12년 6월 30일 토요일

Page 16: Head first statistics14

자유도 일반화열 1 ... 열 k-1 열 k

행 1

열 1

행 1

...

행 h-1

행 h-1

열 1 ... 열 k-1 열 k

행 1

...

행 h-1

행 h

ν = h - 1

ν = k - 1

ν = (h - 1) * (k - 1)

12년 6월 30일 토요일

Page 17: Head first statistics14

𝝌2 분포 2가지 주요한 용례

적합도

어떤 데이터의 집합이 어떤 분포에 얼마나 잘 맞는지 검사

독립성

두 변수의 독립성을 검사하는데 사용

𝝌2 = 𝛴 (O - E)2 / E

𝝌2 의 분포

자유도(ν)와 밀접한 관련이 있음

자유도(ν) = (h - 1) * (k - 1)

12년 6월 30일 토요일