Mathematical Statistics Statistical Inference 통계적 추론 Statistical Inference 개념 1) 모집단과 모수 • 모집단 Population : 연구, 조사, 실험에 있어 관심의 대상이 되는 집단 개체 전체 예1 | 한남대학교 학생들의 일주일 공부시간 조사 : 조사기간 중 한남대학교 등록한 학생 예2 | 후보 지지율 여론조사 : 조사 기간 중 대한민국 국적을 가지고 있고 투표권이 있는 국민 예3 | 삼성전자와 한전 주식으로 포트폴리오를 할 경우 각 포트폴리오의 기대 수익과 위험도 조사 - 삼성전자와 한전 주식 예4 | 기업의 광고는 매출을 증가시키나? - 국내 기업 전체 • 모수 parameter : 조사, 연구, 실험을 통하여 알고자 개체의 특성, 모르는 값이지만 하나의 값 (기호) θ - 모집단 평균( ), 모집단 비율( ), 모집단분산( ), 모집단 평균차이( ), 그리고 두 확률변수(X,Y)의 선형 함수관계( , ) 예1 | 한남대학교 학생들의 일주일 공부시간 : 개인의 공부시간이 중요한 것은 아니다. 전체적 평균 개념의 정 보가 필요하므로 이 경우 모수는 “모집단 평균(μ)”이다. 예2 | 후보 지지율 여론조사 : 전체 유권자 중 해당 후보를 지지하는 유권자 비율 - 모수는 “후보 지지율(p)” 예3 | 기대수익은 평균, 위험은 분산으로 측정하므로 모수는 “평균(μ)과 분산( )” 예4 | 광고 데이터(X), 매출액 데이터(Y) - 함수관계( ) : 모수는 절편 a, 기울기 b 2) 표본과 통계량 • 표본 sample : 모집단 중 조사 대상이 되는 일부 개체 • 확률표본 random sample : 모집단 개별 개체가 표본으로 추출될 가능성(likely)이 동일하게(equally) 하여 얻은 표본 • 통계량 : 확률표본 데이터로부터 계산된 (요약) 값, 모수 θ의 추정값으로 사용되는 통계량을 추정치 estimator라 하고 라 표현 - 데이터로부터 계산된 값 예1 | 한남대학교 학생들의 일주일 공부시간 : 200명을 확률(임의) 추출하여 지난 주 일주일 동안 공부시간을 조사하여 얻은 데이터로부터 계산된 공부시간 (표본0평균 ( ) 예2 | 후보 지지율 여론조사 : 확률층화추출에 의해 얻은 1,500명(표본오차 2.5%, 신뢰수준 95%) 중 해당 후보 를 지지한다고 응답한 사람수 : 예3 | 광고 데이터(X), 매출액 데이터(Y) - 함수관계( ) : 통계량=OLS(최소제곱추정치) θ = μ θ = p θ = σ 2 θ = μ 1 − μ 2 Y = a + bX θ 1 = a, θ 2 = b σ 2 Y = a + bX + e ˆ θ ˆ θ = X ˆ θ = ˆ p = x / n = 650 / 1500 ˆ Y = ˆ a + ˆ bX ( ˆ a, ˆ b ) 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page 18
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Mathematical Statistics
Statistical Inference
통계적 추론 Statistical Inference 개념
1) 모집단과 모수
•모집단 Population : 연구, 조사, 실험에 있어 관심의 대상이 되는 집단 개체 전체
예1 | 한남대학교 학생들의 일주일 공부시간 조사 : 조사기간 중 한남대학교 등록한 학생
예2 | 후보 지지율 여론조사 : 조사 기간 중 대한민국 국적을 가지고 있고 투표권이 있는 국민
예3 | 삼성전자와 한전 주식으로 포트폴리오를 할 경우 각 포트폴리오의 기대 수익과 위험도 조사 - 삼성전자와 한전 주식
예4 | 기업의 광고는 매출을 증가시키나? - 국내 기업 전체
•모수 parameter : 조사, 연구, 실험을 통하여 알고자 개체의 특성, 모르는 값이지만 하나의 값
•검정통계량 값은 귀무가설에 설정된 모수 값을 활용하여 계산한다. (귀무가설이 맞다고 가정)
•귀무가설 하에서 검정통계량 값이 계산되므로 확률분포의 끝 부분 값도 가질 수 있음 - 그러나 연구가설인 대립가설을 원하므로 어느 정도 오류는 감수하자. 이것이 유의수준임, 분포의 끝 부분(이곳을 기각역이라 함)에 계산된 검정통계량 값이 놓이면 귀무가설이 옳을 수 있는데도 불구하고 귀무가설을 기각함
•그러므로 이를 허용된 오류라고 하고 유의수준이라 함
4) 유의수준 (significant level)
•귀무가설이 옳음에도 불구하고 귀무가설을 기각할 확률 - 설정된 1종 오류, 허용된 오류
•일반적으로 5%, 1%, 10% 주로 사용
•유의수준과 신뢰수준은 역관계 - 95% 신뢰수준 <=> 5% 유의수준
•귀무가설 설정된 모수 값( )을 활용하여 샘플링 분포를 구함
5) 기각역(critical region)
•귀무가설 하에서 검정통계량의 샘플링분포의 양끝 구간으로 계산된 검정통계량 값이 이 구간에 속하면 귀무가설을 기각함
•유의수준 크기에 의해 기각역 범위가 결정됨
•기각역이 시작되는 값을 기각값 value이라 함
•대립가설이 양측가설이면 유의수준을 𝛼/2씩 양쪽으로 배정하고
•단측가설은 유의수준 𝛼 전체를 한 쪽에 배정하여 기각역을 구함
6) 유의확률 p-value probability-value
•주어진 검정통계량으로 귀무가설을 기각할 최소의 유의수준 (계산된 1종 오류)
•귀무가설 하의 샘플링분포에서 검정통계량 값 극단 꼬리의 확률임
•계산된 유의수준, 데이터 기반 유의수준 (초록색 빗금, 대립가설이 양측가설이면 한쪽 확률의 2배)
•(예) H대 학생 흡연율은 전국 흡연율 43.7%보다 낮다고 할 수 있나? 모집단 비율 p(=H대 학생 흡연율) 추론 (95% 신뢰구간 구하기, 유의수준 5% 모비율 가설 검정)
2. 수집 데이터 정리 및 검증
•적용할 통계적 방법이 요구하는 데이터 검증
•모비율 추론에서 검정통계량의 샘플링분포는 대표본 이론(중심극한 정리)에 따른다. ( )
•(예) 표본크기 n=60명, 흡연자 20명 - (만약 43.7% 흡연 그룹에서 사람을 무작위로 선택하였을 경우 33.3% 흡연율이 조사될 확률은 어느 정도인가? 확률이 낮다면 흡연율은 낮음)
• : 대표본 조건 만족
3. 통계적 가설 설정 (신뢰구간 구하는 문제는 생략)
•귀무가설과 대립가설 설정 및 유의수준 설정 (특별 언급이 없으면 5% 사용)
•(예) 귀무가설 : , 대립가설 : (단측가설, 홍보효과가 있음)
4. 검정통계량, 유의확률 계산 (신뢰구간 계산)
•모수의 MVUE를 이용하여 피봇통계량을 구하고 표본 데이터와 귀무가설의 설정된 모수 값을 이용하여 검정통계량을 계산하고 샘플링분포을 이용하여 유의확률을 계산함
•(예)
•95% 신뢰구간 :
5. 결론 및 활용
•적절한 표 작성 (기초 통계량, 검정통계량, 유의확률)
•결과에 대한 활용 측면의 해석 - 유의확률이 5%보다 크므로 귀무가설이 채택됨 - 대학 주장 틀림
전국 성인 흡연율은 43.7%라고 국민건강관리공단에서 발표하였다.(2015) 기독교 대학인 H대학 총장은 최근 3년간 금연 홍보가 효과적일 것이라고 주장하였다. 이를 알아보기 위하여 H 학생 60명을 무작위 추출하여 흡연여부를 조사하였더니 20명이 흡연한다고 하였다. 대학의 주장이 적절한지 유의수준 5%에서 판단하시오.