Top Banner
Mathematical Statistics Statistical Inference 통계적 추론 Statistical Inference 개념 1) 모집단과 모수 모집단 Population : 연구, 조사, 실험에 있어 관심의 대상이 되는 집단 개체 전체 예1 | 한남대학교 학생들의 일주일 공부시간 조사 : 조사기간 중 한남대학교 등록한 학생 예2 | 후보 지지율 여론조사 : 조사 기간 중 대한민국 국적을 가지고 있고 투표권이 있는 국민 예3 | 삼성전자와 한전 주식으로 포트폴리오를 할 경우 각 포트폴리오의 기대 수익과 위험도 조사 - 삼성전자와 한전 주식 예4 | 기업의 광고는 매출을 증가시키나? - 국내 기업 전체 모수 parameter : 조사, 연구, 실험을 통하여 알고자 개체의 특성, 모르는 값이지만 하나의 값 (기호) θ - 모집단 평균( ), 모집단 비율( ), 모집단분산( ), 모집단 평균차이( ), 그리고 두 확률변수(X,Y)의 선형 함수관계( , ) 예1 | 한남대학교 학생들의 일주일 공부시간 : 개인의 공부시간이 중요한 것은 아니다. 전체적 평균 개념의 정 보가 필요하므로 이 경우 모수는 “모집단 평균(μ)”이다. 예2 | 후보 지지율 여론조사 : 전체 유권자 중 해당 후보를 지지하는 유권자 비율 - 모수는 “후보 지지율(p)” 예3 | 기대수익은 평균, 위험은 분산으로 측정하므로 모수는 “평균(μ)과 분산( )” 예4 | 광고 데이터(X), 매출액 데이터(Y) - 함수관계( ) : 모수는 절편 a, 기울기 b 2) 표본과 통계량 표본 sample : 모집단 중 조사 대상이 되는 일부 개체 확률표본 random sample : 모집단 개별 개체가 표본으로 추출될 가능성(likely)이 동일하게(equally) 하여 얻은 표본 통계량 : 확률표본 데이터로부터 계산된 (요약) 값, 모수 θ의 추정값으로 사용되는 통계량을 추정치 estimator라 하고 라 표현 - 데이터로부터 계산된 값 예1 | 한남대학교 학생들의 일주일 공부시간 : 200명을 확률(임의) 추출하여 지난 주 일주일 동안 공부시간을 조사하여 얻은 데이터로부터 계산된 공부시간 (표본0평균 ( ) 예2 | 후보 지지율 여론조사 : 확률층화추출에 의해 얻은 1,500명(표본오차 2.5%, 신뢰수준 95%) 중 해당 후보 를 지지한다고 응답한 사람수 : 예3 | 광고 데이터(X), 매출액 데이터(Y) - 함수관계( ) : 통계량=OLS(최소제곱추정치) θ = μ θ = p θ = σ 2 θ = μ 1 μ 2 Y = a + bX θ 1 = a, θ 2 = b σ 2 Y = a + bX + e ˆ θ ˆ θ = X ˆ θ = ˆ p = x / n = 650 / 1500 ˆ Y = ˆ a + ˆ bX ( ˆ a, ˆ b ) 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page 18
8

통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Dec 09, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Mathematical Statistics

Statistical Inference

통계적 추론 Statistical Inference 개념

1) 모집단과 모수

•모집단 Population : 연구, 조사, 실험에 있어 관심의 대상이 되는 집단 개체 전체

예1 | 한남대학교 학생들의 일주일 공부시간 조사 : 조사기간 중 한남대학교 등록한 학생

예2 | 후보 지지율 여론조사 : 조사 기간 중 대한민국 국적을 가지고 있고 투표권이 있는 국민

예3 | 삼성전자와 한전 주식으로 포트폴리오를 할 경우 각 포트폴리오의 기대 수익과 위험도 조사 - 삼성전자와 한전 주식

예4 | 기업의 광고는 매출을 증가시키나? - 국내 기업 전체

•모수 parameter : 조사, 연구, 실험을 통하여 알고자 개체의 특성, 모르는 값이지만 하나의 값

(기호) θ - 모집단 평균( ), 모집단 비율( ), 모집단분산( ), 모집단 평균차이( ),

그리고 두 확률변수(X,Y)의 선형 함수관계( , )

예1 | 한남대학교 학생들의 일주일 공부시간 : 개인의 공부시간이 중요한 것은 아니다. 전체적 평균 개념의 정보가 필요하므로 이 경우 모수는 “모집단 평균(μ)”이다.

예2 | 후보 지지율 여론조사 : 전체 유권자 중 해당 후보를 지지하는 유권자 비율 - 모수는 “후보 지지율(p)”

예3 | 기대수익은 평균, 위험은 분산으로 측정하므로 모수는 “평균(μ)과 분산( )”

예4 | 광고 데이터(X), 매출액 데이터(Y) - 함수관계( ) : 모수는 절편 a, 기울기 b

2) 표본과 통계량

•표본 sample : 모집단 중 조사 대상이 되는 일부 개체

•확률표본 random sample : 모집단 개별 개체가 표본으로 추출될 가능성(likely)이 동일하게(equally) 하여 얻은 표본

•통계량 : 확률표본 데이터로부터 계산된 (요약) 값, 모수 θ의 추정값으로 사용되는 통계량을 추정치 estimator라

하고 라 표현 - 데이터로부터 계산된 값

예1 | 한남대학교 학생들의 일주일 공부시간 : 200명을 확률(임의) 추출하여 지난 주 일주일 동안 공부시간을

조사하여 얻은 데이터로부터 계산된 공부시간 (표본0평균 ( )

예2 | 후보 지지율 여론조사 : 확률층화추출에 의해 얻은 1,500명(표본오차 2.5%, 신뢰수준 95%) 중 해당 후보

를 지지한다고 응답한 사람수 :

예3 | 광고 데이터(X), 매출액 데이터(Y) - 함수관계( ) : 통계량=OLS(최소제곱추정치)

θ = µ θ = p θ =σ 2 θ = µ1 − µ2Y = a + bX θ1 = a, θ2 = b

σ 2

Y = a + bX + e

θ

θ = X

θ = p = x / n = 650 /1500

Y = a + bX (a, b)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page1 8

Page 2: 통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Mathematical Statistics

Statistical Inference

확률표본과 데이터

1) 확률표본 random sample

모집단의 각 개체가 표본으로 선택될 가능성이 동일하도록 (equally likely) 추출하여 얻은 표본 개체

2) 데이터 data

•확률표본 개체의 특성을 관측한 값 (예 : 공부시간, 후보 지지여부, 광고액, 매출액)

•관측된 특성값을 확률변수 random variable라 함 (예) X=공부시간, 지지여부(O/X)

•데이터 표현 : : n은 표본크기

•(예) (첫번째 학생의 공부시간 12.5시간), ,…

3) 확률분포함수 probability density function

•데이터 관측값에 대응하는 확률값 함수

•데이터가 가진 정보를 확률개념으로 표현한 것

•(예) 공부시간 10~20을 하는 학생의 비율은 13%이다.

(x1, x2,!, xn )

x1 = 12.5 x1 = 3.7

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page2 8

0 10 20 100

0.13

population X~f(x;θ)

sample xi~f(x;θ)

확률표본 (iid) = 서로 독립이고 동일분포에서 추출 xi ~ f (x;θ )

통계량 statistic

x =xi∑n, p = #of "S"

n, s2 =

(xi − x )2∑

n −1

추정 검정

추정치 검정통계량

θ : µ = x , p,σ 2 = s2

TS : x − µs / n

~ t(n −1), p − ppq / n

~ z, (n −1)s2

σ 2 ~ χ 2 (n −1)

Page 3: 통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Mathematical Statistics

Statistical Inference

샘플링 분포 sampling distribution

1) 모집단 분포 population (probability density) distribution

•모집단 개체 관심 특성인 확률변수의 분포를 의미함

•모집단에 대한 정보를 얻기 위하여 알아야 하는 것 : ① 확률분포함수 ② 모수

•확률분포함수 는 개별 개체의 관측값의 정보이므로 관심이 적음 - 모집단 분포에 관심이 있을 경우 실시하

는 분석을 “적합성 검정(Goodness of Fits Test)”이라 함. 가장 유명한 것이 정규성 검정

•모수 는 모집단 개체 특성의 요약값이므로 추론을 한다는 것은 이 값에 대한 정보를 얻는 것임

2) 표본 분포 sample distribution

•확률표본(iid)이므로 모집단의 분포와 동일하다. - 모집단 분포를 모르므로 표본분포도 알지 못함

•표본분포도 표본 개체의 개별 값에 대한 정보이므로 관심의 대상이 아님

3) 샘플링 분포

•확률표본으로부터 계산된 통계량의 확률분포함수를 의미함 - 모집단의 분포를 알지 못해도 통계량의 분포는 알 수 있음

•(중심극한정리) 모집단의 분포와 상관없이 표본의 크기가 충분히 크면 표본평균의 확률분포함수는 정규분포에 근사한다.

->

•그림처럼 표준정규분포에서 양쪽 합 5%가 되는 값은 이므로 이를 이용하여 모집단 평균 에 대한 95% 신뢰구간을 구할 수 있다.

• => 가 모평균 95% 신뢰구간임

•이처럼 모수에 대한 추론을 위하여 통계량의 샘플링 분포가 필요함 (수리통계 변수변환 공부 이유) - 바로 이 샘플링분포를 알기 위함

Xi ~ f (x;θ )

f θ

f

θ

x ~ (app)N(µ, σn) x − µ

s / n= 23.5 − µ5 / 50

~ N(0,1)

±1.96µ

−1.96 < 23.5 − µ5 / 50

<1.96 (23.5 −1.96*5 / 50,23.5 +1.96*5 / 50)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page3 8

Page 4: 통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Mathematical Statistics

Statistical Inference

중심극한 정리 Central Limit Theorem

모집단의 분포와 관계없이 표본평균의 분포를 정규분포에 근사한다. <=>

(수학적 증명) 모집단~ 이면 표본평균~

경험적 법칙 Empirical Rule

분포가 좌우 대칭의 형태를 가지면 경험적으로 다음 사실을 이용할 수 있다.

추정 estimation

1) 개념

•확률표본으로 계산된 통계량을 이용하여 모수 값을 알아보는 것을 추정이라 함

•모수 θ의 추정값(estimate 추정을 위해 계산된 값)을 라 표현함 : 추정량(estimator)은 추정값을 구하는 공식을 의미하는데 본 강의에서는 추정량과 추정값을 혼동해서 사용하겠음

•모수 θ는 모르는 값이고 하나의 값임 - 모수는 확률변수가 아님

•과녁 중심을 모수 θ라 하면 화살 하나(1번의 조사 데이터)로 10점을 맞추는 것임 - 실제 하나의 화살로 (조사를 여러번 하는 것은 아니므로) 과녁을 맞춤

•그러나 과녁을 맞추는 경우는 사후적으로 적중했는지 알 수 있으나 추정은 실제 모수 값을 아는 것은 아님, 그것이라 믿고 활용함 - 전수조사 전에는 결코 모수의 참 값을 알지 못함

•추정값과 모수는 동일할 가능성은 없음

2) 좋은 추정값

•불편성 unbiasedness : , 추정값과 모수값은 동일하지 않지만, 여러번 반복조사 하여 추정값의 평균

(기대값)을 구하면 모수의 참 값과 동일함 - 이런 추정량을 불편추정량이라 함

•추정값과 모수의 차이를 편이(Bias) 라 정의함 :

•일치성 consistency : 표본의 크기가 커지면 추정값은 모수 값에 근사함, - 이를 일치 추

정량이라 함 - 표본평균의 모평균에 근사한다. (대수의 법칙 Law of Large Number)

x ~ N(µ,σ / n )

(µ,σ ) (µ,σ / n )

θ

P(θ = θ ) = 0

E(θ ) = θ

B(θ ) = (θ −θ )

limn→∞

P(θn = θ ) = 1

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page4 8

Page 5: 통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Mathematical Statistics

Statistical Inference

3)Best 추정량 : 평균제곱오차 Mean Square Error 최소 추정량

•추정값과 모수의 차이 제곱 기대값(평균제곱오차)을 최소로 하는 추정값 :

•평균제곱오차=추정분산+편이(Bias)2 :

•MSE를 최소화 하는 추정량을 찾는 것은 불가능

4) 최소분산불편추정량 MVUE (Minimum Variance among Unbiased Estimator)

•편이 인 추정량 중 추정분산을 최소화 하는 추정량을 가장 좋은 추정량이라 함

•Rao Cramer Lower Bound : 추정량이 가질 수 있는 최소 추정분산

•MLE이면서 모집단의 분포가 지수족(exponential family)이면 MLE는 (완비)충분통계량(Complete Sufficient Statistic)임

•Rao Blackwell Theorem : 충분통계량의 함수 중 불편성을 찾는 추정량은 RCLB 하한을 추정분산으로 갖는다. - MVUE

•Leman-Scheffe : 완비충분통계량 중 불편 추정량은 유일하다. (uniqueness)

5) 점 추정 point estimation ( )

•모수의 값은 단일 값으로 추정함 - MVUE 사용

•모평균 (표본평균), 모비율 (표본비율), 모집단분산 (표본분산)

•모평균 차이 , 모비율 차이 , 모분산 차이

6) 구간 추정 interval estimation ( )

•MVUE 샘플링 분포 활용

•확률분포함수의 꼬리 부분은 균등하게 배분(𝛼/2)한 후 가운데 범위를 100(1-𝛼)% 신뢰구간

•모평균 95% 신뢰구간 : (모집단 표준편차

𝝈를 모르면 표본 표준편차 s 사용) -> => ( )

•통계량 의 샘플링 분포에는 모수 가 있으나 통계량의 샘플링분포는 모수가 포함되어 있지 않음

- 이 통계량을 pivot 주축 통계량이라 하고 이를 이용하여 신뢰구간을 구함

MSE(θ ) = E(θ −θ )2

MSE(θ ) = E(θ − E(θ ))2 + (E(θ )−θ )2 =V (θ )+ B(θ )2

B(θ ) = 0

θ

µ = x p σ 2 = s2

µ1 − µ2^

= x1 − x2 p1 − p2^

= p1 − p2 σ 12 /σ 2

2^

= s12 / s2

2

(L(θ ),U(θ ))

x ~ (CLT )N(µ, σn)

x − µs / n

~ N(0,1) z0.025 = −1.96 < x − µs / n

< z0.975 = 1.96

x µ x − µs / n

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page5 8

Page 6: 통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Mathematical Statistics

Statistical Inference

•<=>

•양쪽 𝛼/2 균등 배부 이유 : 신뢰구간의 폭이 가장 작아짐

•치우친 분포에서도 양쪽으로 𝛼/2 배분하나? (Yes) 편리를 위하여 꼬리가 긴 쪽에 많은 확률을 배분하면 신뢰구간의 폭은 짧아지지만…

가설 검정

1) 통계적 가설 statistical hypothesis

•통계학이 적용되는 연구문제는 통계적 가설로 정의 - 데이터를 기반하여 통계적 가설의 진위를 검증함

•통계적 가설은 관심 모수의 값으로 표현됨

•통계적 가설은 귀무가설과 대립가설로 나눔

•귀무가설 null hypothesis : 모수 하나의 값으로 설정, 차이가 없다, 영향을 미치지 않는다, 효과가 없다,

nothing,

•대립가설 alternative : 귀무가설에 설정된 이외 모수 값 모두, 연구가설이라고 함, 효과가 있음,

•대립가설은 단측가설( )과 양측가설( )로 나뉨

2) 검증 오류 test errors

•1종 오류 type I error = P(귀무가설 기각 | 귀무가설 참)

•2종 오류 type II error = P(귀무가설 채택 | 대립가설 참)

•검정력 test power = P(귀무가설 기각 | 대립가설 참) = 1-2종오류

•가설검정 결과 2가지 종류의 오류가 발생 - 동시에 두 오류를 줄이는 가설검정법 없음

•두 오류 중 하나를 고정하자 - 우리 관심이 대립가설에 있으므로 1종 오류를 고정하고 (대립가설을 채택하고 싶어 이 정도 오류는 허용하자) 검정력을 최대화 하는 검정방법을 찾음

•고정된 1종 오류를 유의수준 significant level - 허용된 오류

L(x ) = x −1.96s / n < x < x +1.96s / n =U(x )

H0 :θ = θ0

H0 :θ >θ0 H0 :θ ≠ θ0

실제 모집단 판단 귀무가설 진실 대립가설 진실

귀무가설 기각 1종 오류(α) = 유의수준 옳은 판단 : 검정력

귀무가설 채택 옳은 판단 2종 오류(β)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page6 8

Page 7: 통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Mathematical Statistics

Statistical Inference

3) 검정통계량 (test statistics)

•통계적 가설의 진위 여부를 판단하기 위하여 표본 데이터로부터 계산된 통계량

•검정 통계량은 귀무가설에 설정된 모수의 MVUE 추정값이 기반되고 피봇통계량의 샘플링분포가 이용됨

•검정통계량 값은 귀무가설에 설정된 모수 값을 활용하여 계산한다. (귀무가설이 맞다고 가정)

•귀무가설 하에서 검정통계량 값이 계산되므로 확률분포의 끝 부분 값도 가질 수 있음 - 그러나 연구가설인 대립가설을 원하므로 어느 정도 오류는 감수하자. 이것이 유의수준임, 분포의 끝 부분(이곳을 기각역이라 함)에 계산된 검정통계량 값이 놓이면 귀무가설이 옳을 수 있는데도 불구하고 귀무가설을 기각함

•그러므로 이를 허용된 오류라고 하고 유의수준이라 함

4) 유의수준 (significant level)

•귀무가설이 옳음에도 불구하고 귀무가설을 기각할 확률 - 설정된 1종 오류, 허용된 오류

•일반적으로 5%, 1%, 10% 주로 사용

•유의수준과 신뢰수준은 역관계 - 95% 신뢰수준 <=> 5% 유의수준

•귀무가설 설정된 모수 값( )을 활용하여 샘플링 분포를 구함

5) 기각역(critical region)

•귀무가설 하에서 검정통계량의 샘플링분포의 양끝 구간으로 계산된 검정통계량 값이 이 구간에 속하면 귀무가설을 기각함

•유의수준 크기에 의해 기각역 범위가 결정됨

•기각역이 시작되는 값을 기각값 value이라 함

•대립가설이 양측가설이면 유의수준을 𝛼/2씩 양쪽으로 배정하고

•단측가설은 유의수준 𝛼 전체를 한 쪽에 배정하여 기각역을 구함

6) 유의확률 p-value probability-value

•주어진 검정통계량으로 귀무가설을 기각할 최소의 유의수준 (계산된 1종 오류)

•귀무가설 하의 샘플링분포에서 검정통계량 값 극단 꼬리의 확률임

•계산된 유의수준, 데이터 기반 유의수준 (초록색 빗금, 대립가설이 양측가설이면 한쪽 확률의 2배)

•유의확률≤유의수준 ⬄ 귀무가설 기각

•유의확률>유의수준 ⬄ 귀무가설 채택

H0 :µ = µ0

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page7 8

Page 8: 통계적 추론 Statistical Inference 개념wolfpack.hnu.ac.kr/2015_Fall/D4BE/통계적추론.pdfMathematical Statistics Statistical Inference 통계적 추론 Statistical Inference

Mathematical Statistics

Statistical Inference

통계적 추론 절차

1. 연구문제 및 통계적 문제 정의

•연구문제를 요약하고 이를 통계적 문제로 변환

•통계적 문제 : 모수로 설정, 적절한 통계적 방법 제시

•(예) H대 학생 흡연율은 전국 흡연율 43.7%보다 낮다고 할 수 있나? 모집단 비율 p(=H대 학생 흡연율) 추론 (95% 신뢰구간 구하기, 유의수준 5% 모비율 가설 검정)

2. 수집 데이터 정리 및 검증

•적용할 통계적 방법이 요구하는 데이터 검증

•모비율 추론에서 검정통계량의 샘플링분포는 대표본 이론(중심극한 정리)에 따른다. ( )

•(예) 표본크기 n=60명, 흡연자 20명 - (만약 43.7% 흡연 그룹에서 사람을 무작위로 선택하였을 경우 33.3% 흡연율이 조사될 확률은 어느 정도인가? 확률이 낮다면 흡연율은 낮음)

• : 대표본 조건 만족

3. 통계적 가설 설정 (신뢰구간 구하는 문제는 생략)

•귀무가설과 대립가설 설정 및 유의수준 설정 (특별 언급이 없으면 5% 사용)

•(예) 귀무가설 : , 대립가설 : (단측가설, 홍보효과가 있음)

4. 검정통계량, 유의확률 계산 (신뢰구간 계산)

•모수의 MVUE를 이용하여 피봇통계량을 구하고 표본 데이터와 귀무가설의 설정된 모수 값을 이용하여 검정통계량을 계산하고 샘플링분포을 이용하여 유의확률을 계산함

•(예)

•95% 신뢰구간 :

5. 결론 및 활용

•적절한 표 작성 (기초 통계량, 검정통계량, 유의확률)

•결과에 대한 활용 측면의 해석 - 유의확률이 5%보다 크므로 귀무가설이 채택됨 - 대학 주장 틀림

전국 성인 흡연율은 43.7%라고 국민건강관리공단에서 발표하였다.(2015) 기독교 대학인 H대학 총장은 최근 3년간 금연 홍보가 효과적일 것이라고 주장하였다. 이를 알아보기 위하여 H 학생 60명을 무작위 추출하여 흡연여부를 조사하였더니 20명이 흡연한다고 하였다. 대학의 주장이 적절한지 유의수준 5%에서 판단하시오.

min(np,nq) ≥ 5

min(60*0.43,60*0.57) ≥ 5

p = 0.437 p < 0.437

TS = p − p0p0q0 / n

= 0.333− 0.4370.437*(1− 0.437) / 60

= −1.624 ~ N(0,1)

−1.96 < 0.333− p0.333*0.667 / 60

<1.96

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page8 8

1.624