통계학원론 Chapter 1. 통계학이란? 1. 통계학이란 정의 [Webster’s Dictionary] 통계학(Statistics)은 숫자 데이터(numbered data)를 수집(collect), 정리 (summarize), 분석 (analysis), 표현(presentation)에 관련된 일련의 과정에 관한 학문으로 수학 의 한 분야이다. [Kendall and Stuart] 통계학은 모집단(population: 관심의 대상이 되는 집단)의 성질(이를 통계 학에서는 변수라 한다)을 세거나 측정하여 얻어진 데이터를 다루는 과학의 한 분야이다. [Ott] Statistics is about data. 통계학은 데이터에 관한 학문이다. [Anonymous] 통계학은 미지에 대한 가이드이다. Statistics is a guide to the unknown. [Me] 통계는 예술이다. Statistics is art. (1) 데이터 수집 (data collection) 관심 집단의 특성을 측정한다. 측정된 특성을 변수라 하고 변수 형태 는 비율 (ratio), 구간 (interval), 순서 (ordinal), 명목 (nominal)으로 나눈다. (2) 데이터 정리 (data summarization) 수집된 데이터를 표나 그래프로 (히스토그램, 산점도) 정리하 여 그래프 요약을 (graphical summary) 얻거나 평균, 표준편 차, 비율과 숫자 요약을 얻는다. (3) 데이터 분석 (data analysis) 알고자 하는 모집단의 특성 (모수), 함수관계에 대한 추론 단계 추론 (inference)이란 모수 (parameter) 값을 추정하거나 통계적 가설에 대한 진위여부를 판단하는 단계 (4) 데이터 표현 (data presentation) 데이터를 정리, 분석하여 얻은 정보를 적절히 표현하는 단계. 통계 전공자가 아니더라도 쉽게 이해할 수 있도록 작성한다. 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr Page 1
14
Embed
1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
통계학원론 Chapter 1. 통계학이란?
1. 통계학이란
정의
[Webster’s Dictionary] 통계학(Statistics)은 숫자 데이터(numbered data)를 수집(collect), 정리(summarize), 분석 (analysis), 표현(presentation)에 관련된 일련의 과정에 관한 학문으로 수학의 한 분야이다.
[Kendall and Stuart] 통계학은 모집단(population: 관심의 대상이 되는 집단)의 성질(이를 통계학에서는 변수라 한다)을 세거나 측정하여 얻어진 데이터를 다루는 과학의 한 분야이다.
[Ott] Statistics is about data. 통계학은 데이터에 관한 학문이다.
[Anonymous] 통계학은 미지에 대한 가이드이다. Statistics is a guide to the unknown.
[Me] 통계는 예술이다. Statistics is art.
(1) 데이터 수집 (data collection)
관심 집단의 특성을 측정한다. 측정된 특성을 변수라 하고 변수 형태는 비율 (ratio), 구간 (interval), 순서 (ordinal), 명목 (nominal)으로 나눈다.
(2) 데이터 정리 (data summarization)
수집된 데이터를 표나 그래프로 (히스토그램, 산점도) 정리하여 그래프 요약을 (graphical summary) 얻거나 평균, 표준편차, 비율과 숫자 요약을 얻는다.
(3) 데이터 분석 (data analysis)
알고자 하는 모집단의 특성 (모수), 함수관계에 대한 추론 단계 추론 (inference)이란 모수 (parameter) 값을 추정하거나 통계적 가설에 대한 진위여부를 판단하는 단계
(4) 데이터 표현 (data presentation)
데이터를 정리, 분석하여 얻은 정보를 적절히 표현하는 단계. 통계 전공자가 아니더라도 쉽게 이해할 수 있도록 작성한다.
연역적 방법으로 Data Analysis 과학철학자 Popper(11955)는 “이론은 직관에 의해서만 얻어질 수 있다”고 주장해 연역적 방법의 타당성을 강조하였다.
통계적가설(모형 설정) -> 데이터 수집 -> 가설검정 순으로 진행
지적 능력은 수능성적에 직선적 영향을 줄 것이다는 이론을 통계적 가설(귀무가설과 대립가설로 나뉨)로 만듬 -> 데이터 수집 -> 데이터로부터 계산된 값(이를 통계량이라 함)을 이용하여 귀무가설을 받아들이거나 기각하여 이론의 타당성을 검증함
(2)탐색적 exploratory 데이터분석
1977년 John W. Tukey 제안 탐색적 데이터 분석(EDA: Exploratory Data Analysis) 방법 (1)수집된 데이터가 가진 정보를 숫자 요약과 그래프를 이용하여 찾아내거나 (2)데이터를 보다 유용하게 만들기 위하여 데이터를 재표현(re-expression) 하여 정보 획득
•귀납적 방법 : 데이터 표현 -> 내재된 정보 탐색 -> 이론 도출
•최신 EDA : Data Mining, Big Data
IQ와 수능성적과 관계를 시각적으로 표현하여 두 관계가 이차식 형태를 갖고 있다는 사실을 발견하였다. 물론 이차식 관계는 확증적 데이터 분석을 적용하여 최종적으로 확증하게 된다.
사회조사는 19세기 후반부터 사회 과학자들에 의해 사용되기 시작하였다. Karl Marx는 1880년에 2만 5천명의 프랑스 노동자를 대상으로 그들의 정치적 태도와 성향에 대한 우편 조사를 시행하였고, Max Weber는 직접 관찰과 조사 연구를 통하여 노동자들의 심리, 태도, 직업관 등을 연구하였다. 20세기에 들어오면서 미국 사회학자들에 의해 사회 조사 방법론 연구가 활발하게 진행되었으며, 미국 통계국(Bureau of Census)은 표본 추출 방법과 자료 수집 방법에 대한 연구에 집중하였고, Gallup과 Roper와 같은 사회여론 조사기관은 방법론을 발전시켰다.
•게임 이론(game theory, probability, chance): 중세에 종교적, 도덕적 장벽으로 인하여 발전이 더딤
•Fermat, Pascal(1754): 드멜라라는 친구의 요청으로2인 게임에서 경기 조합 방법을 계산하기 위하여 파스칼의 삼각형을 제안하였다.
(활용1)
동전을 던져 3번 먼저 이기면 게임이 끝나고 승자는 만원을 가져간다. 동전을 3번 던진 결과 A가 2번 B가 한 번을 이기고 동전을 잃어버려 더 이상 게임을 진행 할 수 없다. 만원을 어떻게 나누어 가져야 하는가?
(활용2) 전개하시오.
추론통계의 근간이 확률분포함수는 사회과학, 자연과학 분야에서 다양한 형태의 관측, 실험 데이터 분석을 위하여 개발되었다.
정규분포 Normal Distribution : (De Moire, 1733) 이항분포 확률 계산 시 n이 크면 계산이 불가능해져 대체할 공식이 필요하였다. n이 충분히 크고 p=1/2일 때 정규분포 식 유도함. (Laplace, 1812) 이항분포와 기하분포의 정규근사 탐구 (Gauss, 1809) 우주의 법칙은 완전한 체계(이론) 하에서 움직인다. 그렇더라도 법칙과 관측에는 오차가 발생하게 된다고 주장하였다. 오차는 수정되어야 법칙을 활용할 구 있어 오차에 대한 분포(정보)가 필요하였다. 오차의 합은 0일 될 것이라는(우연의 상쇄) 행성간 거리 오차에 대한 히스토그램으로부터 정규분포 식을 유도하였음 (하여 정규분포를 Gaussian 분포라 함)
W.S. Gosset (1908): 독일 양조장 공장장, 소표본일 경우 대표본 이론(표본평균의 분포가 정규분포에 따름)을 사용할 수 없음 않음으로 인하여 발견한 분포가 t-분포이다.
F. Galton(1885): (1)회귀분석(유전학자, 완두콩과 부모자녀 키의 관계), Karl Pearson 수리적 접근 (2)요인분석(언어능력과 수리능력 측정 6개 항목-고전, 불어, 영어, 수학, 음악, 과학 분류) - Spearman 이론 전개
Fisher: 농업 통계 분야 분산분석 방법론 적용, 사회과학 조사 : 여론조사 (1900년 이후)
•표본 Sample 여론조사 (한 여론조사기관에서 1997년 12월에 국회에서 의결한 금융실명제 보완 입법에 대한 국민들의 지지율을 조사)
•시청률조사 : 표본조사, people meter 활용
•전수 census 인구통계(5년)
▪실험 experiment •개체의 반응 관찰하기 위한 의도된 처리
•Causality
▪흡연과 폐암발생
한 제약회사에서 새로 개발된 AIDS 치료제의 효과를 분석하는 실험을 실시.
•실험방법 1 : AIDS 에 감염된 환자 20 명을 임의로 선발하여 위의 치료제를 투약한 후, 시간의 흐름에 따른 치료 효과를 측정
•실험방법 2 : AIDS 에 감염된 환자 20 명을 랜덤하게 10 명씩 두 집단으로 나눈 후, 한 집단에는 새로 개발된 치료제를 투약하고, 다른 집단에는 치료제를 투약하지 않은 채 시간의 흐름에 따른 두 집단의 반응을 비교 - placebo 효과 -> double blind 실험
단순랜덤추출법이란 모집단 N개의 개체가 표본으로 뽑힐 가능성이 동일하도록(즉, 모집단 각 개체가 표본으로 추출될 가능성은 1/N) n개 (n≤N)의 표본을 추출하는 방법이다. 모집단의 각 원소에 1, 2, 3, …, N까지의 번호를 부여하고, 그 중에서 n개의 번호를 임의로 선택하여(일반적으로 난수 활용) 그 번호에 해당하는 원소를 표본으로 추출하는 방법이다.
이론적으로 가장 확률적인 방법다(ideal 방법)이나 표본프레임을 구하는 것이 어렵고 추출된 표본을 찾아가야 하므로 조사 비용의 증가로 경제성이 낮다.
일에예상고객인원은 5,000 명이고표본수를 200 명이라 하면25번째, 50번째, 75번째, ...고객을 조사하면 된다. 물론 응답 거절이나 무응 답으로인하여한-두 번호 오차는 있을 수 있다.
전화번호 선택 시 일정번호를 건너뛰며 선택한다. 예를들면 629-7622 이선택되면(Random Digit Dialing) 629-7722, 629-7822, ... 이런 식이다.
3) 층화추출법 stratified sampling
층화추출법이란 모집단이 상당히 이질적인 원소들의 층으로 구성되어 있을 때 표본이 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 즉, 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후에 각 층에서 표본을 랜덤하게 추출하는 방법이다.
표본추출 및 조사 비용과 시간을 줄일 수 있는 장점이 있어 가장 널리 사용되는 방법이다. A기업에서 사내 직원 만족도를 조사한다고 하자. 사원 ID 를 이용하여 SRS 방법을 사용 할 수 있으나 회사에 대한 만족도가 직급별 차이가 존재할 것이므로 직급을 층(그룹)으로 하여층화추출방법을사용하는것이적절하다. 기업의규모가크면성별혹은입사연 수를 또 다른 층으로 사용하여 Multi-stage 층화 추출 방법을 사용하면 된다.
전화 여론 조사의 경우 응답자들을 지역에 의해 층화하고 전화 번호 선택은 계통 추출 방법을 이용하게 되므로 층화-계통 추출 방법을 이용하게 된다.
집락추출법은 모집단이 몇 개의 집단이 결합된 형태로 구성되어 있고, 각 집단 내부에서는 원소들에게 일련번호를 부여할 수 있는 경우에 이용되는 표본추출방법이다. 각 집단을 집락(cluster)이라고 하는데 표본추출과정은 일부집락을 랜덤으로 선택하고 선택된 각 집락 내에서 표본을 임의로 선택하는 방법이다.
조사비용과 시간 면에서 층화추출보다 효율적이지만 집락이 서로 다른 특성을 가지면 추정 결과는 왜곡된다.
(층화추출법과 집락추출법 비교)
집락 추출법 : 서울시내에서 임의로 100개의 가구 추출 시, 먼저 5개의 구를 선택하여 선택된 구내에서 4개의 동을 선택하여 각 동에서 50 가구 선택 (참고) 이미 나눠진 집락을 이용
층화 추출법 : 서울시내 슈퍼마켓의 연평균 매출액 조사, 일정한 기준하에서 슈퍼마켓을 ‘대형, 중형, 소형, 미니’의 네개층으로 나눈 후에, 각 층의 비율(예. 1:2:3:4)로 표본을 추출 (참고) 조사목적에 맞도록 임의로 정함.
조사기관 표본 조사 방법
규모 비례 확률 방법을 사용하여 전국 200 개 지역을 층화하고(층화 추출) 일련의 계통 추출 방법으로 가구 내 응답자를 선택한다. 좀더 상세히 살펴보면 표본 추출은 4 단계로 이루어진다.
1) 6 개 도시(서울, 부산, 대구, 인천, 대전, 광주), 8 개도(경기, 강원, 충남·북, 경남·북, 전 남