경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국 통계학자, 생물학자, 수학자 - 분산 분석 창시자 iris 분꽃 데이터 - 3개 종, 4개 변수 관측 데이터 - sepal 꽃 받침 (길이, 넓이) - petal 꽃잎 (길이, 넓이) 분산 개념 정의 •변수의 데이터 흩어짐의 척도이다. • 활용 • 변동계수 Coefficient of Variation CV - 표준편차를 평균으로 나눈 값으로 축정 단위가 다른 데이 터의 흩어짐 (반대 꾸준함) 비교할 때 사용 : > sd(iris$Sepal.length)/mean(iris$Sepal.length) 0.1417113 • 품질 - 분산의 역수 •의사결정 - 위험, 분산이 클수록 위럼이 높음 분산분석이란 • 데이터가 움직인 공간에 대한 척도, 관측값이 큰 개체, 작은 개체, 개체들간 변수 관측값 왜 이렇게 변동이 있나? 이 변동을 어떻게 설명할 수 없을까? • 꽃 받침의 길이의 변동을 설명하는 방법? 1) 품종에 따라(범주형, 정성적) 받침의 길이는 달라지지 않을까? - 분산분석 2) 꿏 받침 넓이에 따라(측정형, 정량적) 달라지지 않을까? - 회귀분석 s 2 = ( x i − x ) 2 ∑ n − 1 CV = s x Y (length) = α + β x(width) + e 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page 17 mean(iris$Sepal.length); var(iris$Sepal.length) stripchart(iris$Sepal.length, method="stack", pch=c(18), col=c("blue"), main="Dot diagram of Sepal_length”, offset=0.5)
7
Embed
Y length α βx width ewess.hannam.ac.kr/Stat_Notes/elem_stat/BE_DA/... · 2015-11-22 · 1) 총변동 total sum of squares SST •종속변수의 변동 • - 검은색 화살표
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
경영경제 데이터
일원 분산분석
예제 데이터
R. A. Fisher (1919) 영국 통계학자, 생물학자, 수학자 - 분산분석 창시자
iris 분꽃 데이터 - 3개 종, 4개 변수 관측 데이터
- sepal 꽃 받침 (길이, 넓이)
- petal 꽃잎 (길이, 넓이)
분산 개념
정의
•변수의 데이터 흩어짐의 척도이다.
•
활용
•변동계수 Coefficient of Variation CV - 표준편차를 평균으로 나눈 값으로 축정 단위가 다른 데이
터의 흩어짐 (반대 꾸준함) 비교할 때 사용 : > sd(iris$Sepal.length)/mean(iris$Sepal.length) 0.1417113
•품질 - 분산의 역수
•의사결정 - 위험, 분산이 클수록 위럼이 높음
분산분석이란
•데이터가 움직인 공간에 대한 척도, 관측값이 큰 개체, 작은 개체, 개체들간 변수 관측값 왜 이렇게 변동이 있나? 이 변동을 어떻게 설명할 수 없을까?
Case Study I : 💾 ear_infection.csv Keller 9th “Managerial Statistics”
아이들의 귀 염증을 치료하는 방법은 (1) 염증 제거 수술 (2) Surfafurazole 약 처방 (3) 플라시보 placebo 3가지가 있다. 병의 치료가 효과가 있는지 다음으로 판단한다. a) 아픈 증상 나타난 회수(number of episodes of the illness) b) 재발로 인한 소아과 의사 방문 회수(visits) c) 처방전 회수(prescription) d) 호흡기 염증 지속 기간 (days)
어떤 치료 방법이 가장 효과적인지 분석하시오.
Case Study II : 💾 Jobs.csv Keller 9th “Managerial Statistics”
성별, 학력(E1=고졸미만,E2=고졸, E3=대학 수료 E4=대졸)에 따른 직장의 수에 차이가 있는지 (37세~45세) 분석하시오. 일단 개별 변인으로 판단하시오.
Case Study III : 💾 bank2.csv Keller 9th “Managerial Statistics”
여성 CEO에 대한 차별 분석에서 (1) 승인률은 차이가 없었고 (2) 이자율에서는 남성 CEO에 비해 높아, 차별이 있다고 분석되었다. 그러나 은행은 이자율을 결정할 때는 대출 신청 기업의 기업 형태를 보고 결정한다고 했다. 이를 알아보기 위한 분석을 실시하시오. Business 종류 1=개인, 2=파트너쉽, 3=주식회사
요인 변동합 자유도 평균변동 F-통계량
집단간 (품종) 64.7 2 32.5 130.8
(<0.001)오차 32.5 145 0.25
총변동 97.2 147
한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr
/ Page7 7
분산분석(F=130.8, 유의확률<0.001) 결과 품종 간 꽃 받침 길이는 차이가 있음
Tukey HSD 검정 결과 쌍체 집단의 차이는 모두 유의하여 Virginia 꽃 받침 길이가 가장 길고 versicolor 종의 길기가 가장 짧다.