Top Banner
Week 6 ANOVA ANOVA Sehyug Kwon, Dept. of Statistics, HANNAM University Fall 2007. Lecture in SKKU
17

Week 6 ANOVA - wolfpack.hannam.ac.kr

Oct 19, 2021

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Week 6 ANOVA - wolfpack.hannam.ac.kr

Week 6ANOVAANOVA

Sehyug Kwon, Dept. of Statistics, HANNAM University Fall 2007. Lecture in SKKU

Page 2: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVADOE (개념)

실험관심 대상에 대한 정보를 얻기 위한 계획된 테스트나 관측관심 대상에 대한 정보를 얻기 위한 계획된 테스트나 관측

절대실험 absolute experiment: 3G 서비스에대한고객만족도현상을관찰(관측, 조사)하여 관심 대상에 어떤 현상이 나타나는지 분석

비교실험 comparative experiment: 기존마케팅전략과새로운마케팅전략비교관심현상에 영향을 요인(factor)을조절하여 반응(response) 변화분석

Control vs. Experimental group

Placebo 효과

Pre and Post test 제어 요인(Controllable Factors)

용어

실험단위: 처리(실험조건, 요인수준)가가해지는최소단위

찰 위 체 최 위

제어 요인(Controllable Factors)

X1 X2 … Xp

관찰단위: 개체의최소단위

반응(response): 관심대상의측도, output, Y

요인(factor): 제어가능하며반응에영향을주는인자, X’s회귀분석의 설명변수에 해당

Inputs Outputs

Y=X’s+E실험

회귀분석의 설명변수에 해당

수준(level): 실험에사용되는요인의값범주형이거나실험에서 설정된 측정형값 …

비제어 인자(Uncontrollable Factors)

Z1 Z2 Zq

Sehyug Kwon, Dept. of Statistics, HANNAM University1 Fall 2007. Lecture in SKKU

( )

Page 3: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVADOE (기본 원리)

실험설계원리Randomization (랜덤화): 실험단위의 배정과 실험순서 랜덤하게 결정 실험의 객관성 보장Randomization (랜덤화): 실험단위의 배정과 실험순서 랜덤하게 결정 실험의 객관성 보장

Replication(반복): 동일 처리를 2개 이상의 실험단위에 가함 실험오차 계산

Blocking(블록화): 랜덤화 불가능, 실험의 정도를 높인다. (예) 농지 6개, 비료 (A, B, C)

C B A

A B C

Repetition: 같은 조건에서 여러 번 반복 실험, 관측치는 평균 하나만 사용

용어2용어2

주효과 (main effect): 요인이 반응변수에 미치는 영향

교호효과 (interaction effect): 인자의 결합조건이 반응변수에 미치는 영향

교락(confounding): 두 개 이상의 효과를 분리할 수 없는 경우락( g) 두 개 이상의 과를 분리할 수 없는 경우

반응치(response): 종속변수 관측 값

모형형측정값=전체평균+처리효과(Σ주효과+Σ교호효과)+(블록효과+)+(실험오차+관찰오차)

ijkijkjiijkY εαββαμ ++++= )(

Sehyug Kwon, Dept. of Statistics, HANNAM University2 Fall 2007. Lecture in SKKU

Page 4: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVADOE (데이터)

데이터형태반응: 측정형 회귀분석 종속변수와 동일 개념반응: 측정형, 회귀분석 종속변수와 동일 개념

요인형태 수준 사용 분석방법

범주형 원 수준 그대로 사용 요인 유의성

순서형 원 수준 그대로 사용 요인 유의성

측정형 임의 값을 설정 (최대 3수준) 요인 유의성, RSM (최적화)

요인유의성? (요인 하나, 수준 3개인 경우)

각수준별분포가차이가있나?

각수준의반응평균의차이가있나?각수준의 분산이 동일해야가능하다.

모형: ijiijY εαμ ++=

μi=μ+αi

μ1 μ2 μ3

Sehyug Kwon, Dept. of Statistics, HANNAM University3 Fall 2007. Lecture in SKKU

Page 5: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVADOE (모형)

모형 (요인 2개, 교호 작용 있는 경우)

i=1, 2, …, a: 요인 1의수준, j=1, 2, …, b: 요인 2의수준, k=1, 2, … : 반복수ijkijkjiijkY εαββαμ ++++= )(

i 1, 2, …, a: 요인 1의수준, j 1, 2, …, b: 요인 2의수준, k 1, 2, … : 반복수

오차항: eijk ~ iid Normal(0, σ2)

등분산가정이진단필요? (not necessary) 실험 설계에 의해 관측치 수집, 사회과학(n>20 이상)

요인 개수

일원분산분석, 이원분산분석, 다원분산분석

분석 내용

Screening

요인의유의성: 수준별반응평균차이 (주효과)교호효과는필요한 경우에만 고려

유의한 요인 선택 후교호효과 포함유의한 요인 선택 후교호효과 포함

요인별영향정도비교: 유의확률(F-통계량)

Optimization

요인들의실험결합수준을옮겨가면서최적반응을얻는조건을찾음: RSM요인들의실험결합수준을옮겨가면서최적반응을얻는조건을찾음: RSM재실험이 가능해야 한다.

Sehyug Kwon, Dept. of Statistics, HANNAM University4 Fall 2007. Lecture in SKKU

Page 6: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (개념)

분산분석이란반응의 변동을 분해

수준 수준반응의 변동을 분해

요인에의한설명변동 + 오차변동

집단(수준) 내(within) 변동

2집단(수준) 간(between) 변동

수준(1) 수준(2)

수준(3)

3총변동 (Total Sum of Squares)

총변동3=SSB 2 + SSW

SST2Between

Sum of Squares

SST

요인 유의성

3Within Sum of Squares

요인 유의성?

요인설명변동의크기의유의성검정: F-검정

요인수준별반응평균의차이가크면요인은반응변수에영향을준다.

Sehyug Kwon, Dept. of Statistics, HANNAM University5 Fall 2007. Lecture in SKKU

Page 7: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (분산분석표)

총변동분해(decomposition)

모형: Yij=μ+αi+eij (요인이 하나인 경우 일원분산분석)모형: Yij μ+αi+eij (요인이 하나인 경우, 일원분산분석)

i=3, j=(1, 2, 3), (1, 2, 3), (1, 2, 3, 4) => 총 표본개수 n=10

총변동(SST: Total SS) Y.2Y

.3YY∑∑ −ij YY 2)(총 동( )

집단간 변동(SSB: Between SS)

SSA :요인 A 변동 수준(1) 수준(2) 수준(3)

.1Y∑∑i j

j

∑∑ −i j

i YY 2. )(

요인각 수준의평균차이

집단내 변동(SSW: Within SS)

SSE: 오차변동

∑∑ −i j

iij YY 2. )(

ANOVA Table요인 A의 수준 수 = a

변동 자유도 SS MS F

Between (요인 A) a-1 SSA(=SSB) MSB=SSB/(a-1)

총표본수 = n F=MSB/MSEWithin (오차) n-a SSE(=SSW) MSE=SSE/(n-a)

(MSE는 σ2 추정치)Total (총) n-1 SST

Sehyug Kwon, Dept. of Statistics, HANNAM University6 Fall 2007. Lecture in SKKU

Page 8: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (검정)

요인유의성귀무가설: μ1= μ2=…= μ (수준(집단)별 반응변수 평균은 동일하다) α1= α2=…= α =0귀무가설: μ1 μ2 … μa (수준(집단)별 반응변수 평균은 동일하다) α1 α2 … αa 0

집단이 2개이면독립인 t-검정

대립가설: 적어도 한 집단의 평균은 다르다.

주효과, 교호효과 모두 각 수준별 평균 차이의유무 분석

사후검정(post-hoc test)

집단간(pairwise) 평균 차이, 집단 그룹간(contrast) 평균 차이

분산분석 F-검정 결과에 관계 없이 시행

다중비교 (multiple comparison)

Tukey Honestly Significant Difference(자연과학), Scheffe(사회과학)

Fihser 혹은 Bonferroni Least Significant Difference (1종 오류높음),

Dunnett (control 집단과비교)

대비(contrast)

집단그룹간평균차이검정집단그룹간평균차이검정

계수의합이 0이되도록지정

Sehyug Kwon, Dept. of Statistics, HANNAM University7 Fall 2007. Lecture in SKKU

Page 9: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (예제)

데이터 SHIPS.xls유람선운영 S 사는배의크기에따른고객만족도점수의차이가있는지알아보기위한조사유람선운영 S 사는배의크기에따른고객만족도점수의차이가있는지알아보기위한조사

배크기별로 8개 유람선임의추출, 각유람선탑승고객의평가점수를평균한측정치

Name Small Name Medium Name LargeHanseactic 90.5 Amsterdam 91.1 Century 89.2Mississippi Queen 78 2 Crystal Symphony 98 9 Disney Wonder 90 2Mississippi Queen 78.2 Crystal Symphony 98.9 Disney Wonder 90.2Philae 92.3 Maasdam 94.2 Enchantment of the Seas 85.9Royal Clipper 95.7 Noordam 84.3 Grand Princess 84.2Seabourn Pride 94.1 Royal Princess 84.8 Infinity 90.2Seabourn Spirit 100 Ryndam 89.2 Legend of the Seas 80.6

요인 1개 수준 a=3개 반복수 j=8개 n=24

Seabourn Spirit 100 Ryndam 89.2 Legend of the Seas 80.6Silver Cloud 91.8 Statendam 86.4 Paradise 75.8Silver Wind 95 Veendam 88.3 Sun Princess 82.3

요인 1개, 수준 a=3개, 반복수 j=8개, n=24

Sehyug Kwon, Dept. of Statistics, HANNAM University8 Fall 2007. Lecture in SKKU

Page 10: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (예제; 나무상자 그리기 in Minitab)

나무상자그림 그리기Small 유람선이상개체존재: 제외한후분산분석Small 유람선이상개체존재: 제외한후분산분석

100.0

95.0

90 090.0

85.0

GR

AD

E

80.0

2

SML

TYPE

75.0

Sehyug Kwon, Dept. of Statistics, HANNAM University9 Fall 2007. Lecture in SKKU

Page 11: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (예제; 분산분석 in Minitab)

분산분석결과요인은숫자변수만인식요인은숫자변수만인식

Sehyug Kwon, Dept. of Statistics, HANNAM University10 Fall 2007. Lecture in SKKU

Page 12: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (예제; 분산분석 결과 in Minitab)

F-검정: 배의크기에따른만족도점수차이는있다. 집단간분산동일성검정필요없으나…

Tukey 사후검정: (small, large) 고객만족도의차이가있다.

95.0

92.5

90.0

87.5

GR

AD

E의

평SML

type_v

85.0

Sehyug Kwon, Dept. of Statistics, HANNAM University11 Fall 2007. Lecture in SKKU

Page 13: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (GLM 의미)

Generalized Linear Model (일반화 선형모형)

설명변수가 범주형 측정형 mixed된 선형모형설명변수가 범주형, 측정형 mixed된 선형모형

(예) 지시변수가있는회귀모형

예제 데이터 SPORT.xlsBiathalon 세계랭킹(1-25)에영향을미치는요인: (성별, 수영기록, 육상기록)

∑ +++++=k

ijkijkjiijk eXy ...... )(...( 설명변수요인들 βγαμ )

Biathalon 세계랭킹(1 25)에영향을미치는요인: (성별, 수영기록, 육상기록)측정형설명변수: 수영기록 , 육상기록

지시변수: 성별(D)

Sehyug Kwon, Dept. of Statistics, HANNAM University12 Fall 2007. Lecture in SKKU

Page 14: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (GLM 결과 in Minitab)

육상기록영향정도(기울기)는성별(더미)에따른차이없음

분산분석표?

Sehyug Kwon, Dept. of Statistics, HANNAM University13 Fall 2007. Lecture in SKKU

Page 15: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA (요인 2개)

데이터 Heart.xlsHeight: 0 if step at the low (5.75") height, 1 if at the high (11.5") heightHeight: 0 if step at the low (5.75 ) height, 1 if at the high (11.5 ) height

Frequency: the rate of stepping. 0 if slow (14 steps/min), 1 if medium (21 steps/min), 2 if high (28 steps/min)

Rest_HR: the resting heart rate of the subject before a trial, in beats per minute

HR: the final heart rate of the subject after a trial, in beats per minute

(계단 높이, 올라가는 속도)가 심장박동에 영향을 미치나?

반응변수: HR

요인: Height, Frequency

공변량 (Analysis of Covariance: ANOCOVA)

Rest_HR: 정상 맥박

요인들의반응변수 HR에대한영향은사전백박에따라달라진다.

실험전 상태가실험후 상태에영향을줄 때실험전 상태를공변량(covariate)이라 한다.

공변량은사전효과를제외하는역할 그러므로요인과교차항고려할필요없음공변량은사전효과를제외하는역할, 그러므로요인과교차항고려할필요없음.

학습방법에따른성적상승효과분석: 사전점수가공변량의대표적인예

Sehyug Kwon, Dept. of Statistics, HANNAM University14 Fall 2007. Lecture in SKKU

Page 16: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA ( Heart.xls, 그래프 표현)

Sehyug Kwon, Dept. of Statistics, HANNAM University15 Fall 2007. Lecture in SKKU

Page 17: Week 6 ANOVA - wolfpack.hannam.ac.kr

ANOVAANOVA ( Heart.xls, ANOCOVA)

공변량은교차항을고려할필요없음, 교호작용고려

요인플롯지정 (그래프표현)주효과, 교호효과 plot

요인수준(집단)별사후검정

Sehyug Kwon, Dept. of Statistics, HANNAM University16 Fall 2007. Lecture in SKKU