Page 1
1
สมการถดถอยอยางงาย Simple Linear Regression
ผชวยศาสตราจารย นคม ถนอมเสยง
สาขาวทยาการระบาดและชวสถต
คณะสาธารณสขศาสตร มหาวทยาลยขอนแกน
Email: [email protected]
WebPage: http://home.kku.ac.th/nikom
สมการถดถอยอยางงาย: Simple Linear Regression
ใชวธการทางสถตนเมอไร ?
ใหพจารณาดจากคาถามตอไปน
•ระดบไขมนในเลอดมความสมพนธกบความดนโลหต
หรอไม และสามารถทานายความดนโลหต ไดหรอไม?
•คาสมรรถภาพปอด (FEV1) มความสมพนธกบ
คณภาพชวต (SGRQ Total) หรอไม และสามารถ
ทานายคณภาพชวตผปวย COPD ไดหรอไม ?
Page 2
2
สมการถดถอยอยางงาย: วตถประสงค
•เพออธบายความสมพนธระหวาง 2 ตวแปร
•เพอใชในการทานาย
Systolic BPCHOL
Systolic BPCHOL
ระดบ CHOLESTEROL (CHOL) จะทานาย
Systolic BP ไดอยางไร ?
Systolic BPCHOL
Systolic BPCHOL
Systolic BPCHOL
Page 3
3
นกวจยกลมหนงศกษาขอมลผมาตรวจทโรงพยาบาล
จานวน 7 ราย ขอมลปรากฏตามตาราง
idno=คนท,chol(x)=ระดบไขมนในเลอด,sysbp(y)=ความดนโลหตแบบ systolic
1151617
1612726
1232435
1592974
1312493
1212642
1944371
sysbp(y)chol(x)idno
ความสมพนธระหวาง ระดบไขมนในเลอดและความดน
โลหตชนด Systolic พจารณาจากกราฟ
เรยกกราฟนวา “Scatter Plot”
Page 4
4
แนวคด ถาสรางสมการแสดงความสมพนธเชงเสน
ระหวาง 2 ตวแปร จากสมการเสนตรงดงน
= คาตวแปรตาม
a หรอ 0 = คาคงทหรอจดตดบนแกน y (intercept)b หรอ 1 = คาความชน (slope) หรอสมประสทธ (coefficient)xi = ตวแปรอสระ
ii
ii
xy
bxay
10ˆ
ˆ
y
หรอ
สมการ เรยกวาสมการถดถอย
คานวณคา a = คาคงทหรอจดตดบนแกน y หรอ
b = คาความชนหรอสมประสทธ อยางไร ?
หลกการคานวณ คอทาใหระยะหางระหวางจดกบ
เสนตรงนอยทสด วธการนเรยกวา “กาลงสองนอยทสด”
(Least Square)
ii bxay
Page 5
5
วธกาลงสองนอยทสด: คอการทาใหผลรวมกาลงสอง
ของความคลาดเคลอนของแตละคาสงเกต y กบคาท
อยบนสมการเสนตรง y
วธคานวณ: a, b ทาไดดงน
xb-ya
n
)x(x
n
)y)(x(yx
b2
i2i
iiii
xx
xy
S
Sb
xงของเบนกาลงสอสวนเบยง
xyงของเบนกาลงสอสวนเบยงb
Page 6
6
ตวอยาง: จากขอมล ระดบไขมนในเลอดและระดบความดน
โลหต Systolic
2x xy 2y x y
14899428876056982910041923รวม
1322518515259211151617
2592143792739841612726
1512929889490491232435
2528147223882091592974
1716132619620011312493
1464131944696961212642
37636847781909691944371
y2xyx2sysbp(y)chol(x)idno
. graph twoway (lfit sysbp chol) (scatter sysbp chol)
. graph twoway (lfitci sysbp chol) (scatter sysbp chol)
Page 7
7
7143.2477
1923x 4286.143
7
1004y
3115713.7/)1923(569829
7/)1004)(1923(2887602
b
83548.57
ii x3115713.57.83548y
สมการถดถอยคอ
(247.7143)(.3115713)-4286.143a
. regress sysbp chol
Source | SS df MS Number of obs = 7---------+------------------------------ F( 1, 5) = 21.06
Model | 4033.86954 1 4033.86954 Prob > F = 0.0059Residual | 957.844744 5 191.568949 R-squared = 0.8081---------+------------------------------ Adj R-squared = 0.7697
Total | 4991.71429 6 831.952381 Root MSE = 13.841
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------chol | .3115713 .0678983 4.589 0.006 .1370331 .4861096_cons | 57.83548 19.37235 2.985 0.031 8.037256 107.6337
------------------------------------------------------------------------------
ab
การแปรความหมาย y จากสมการถดถอย
เมอคาไขมนในเลอดเปลยนไป 1 หนวยทาใหคาความดนโลหต
Systolic สงขนเทากบ .3115713 หนวย
ii x3115713.57.83548y
Page 8
8
การประเมนสมการถดถอยพจารณาจากคา “สมประสทธการกาหนด”(coefficient of determination) คาของ coefficient of determination คานวณจาก
n
1i)Yi(Y
n
1i
2)YiY(2r
ˆ
yy
xx22
S
Sbr หรอ
r2 มคา 0 ถง 1
r2 ใกล 1 สมการถดถอยสามารถอธบายการเปลยนแปลง
(ความแปรปรวน) ตวแปรตามไดมาก
. regress sysbp chol
Source | SS df MS Number of obs = 7---------+------------------------------ F( 1, 5) = 21.06
Model | 4033.86954 1 4033.86954 Prob > F = 0.0059Residual | 957.844744 5 191.568949 R-squared = 0.8081---------+------------------------------ Adj R-squared = 0.7697
Total | 4991.71429 6 831.952381 Root MSE = 13.841
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------chol | .3115713 .0678983 4.589 0.006 .1370331 .4861096_cons | 57.83548 19.37235 2.985 0.031 8.037256 107.6337
------------------------------------------------------------------------------
r 2
n
1i)Yi(Y
n
1i
2)YiY(2r
ˆ
yy
xx22
S
Sbr หรอ
r2rพจารณาเครองหมายของ r
Page 9
9
ดเบนอธบายไสวนเบยง
)Yi
Y( ˆ
ดอธบายไมไ
เบนสวนเบยง
)Yi
(Y ˆ
)Yi
(Y เบนทงหมดสวนเบยง
สวนเบยงเบน (ทงหมด ทอธบายได/อธบายไมได)
ตวอยาง: คานวณคา coefficient of determination
ดงน
71004
148994
71923
569829
3115713.S
Sbr 2
2
2
yy
xx22
.8081 r 2
แสดงวา: สมการถดถอยอธบายความสมพนธของ
ความดนโลหต Systolic กบระดบไขมน
ในเลอดได 80.81%
Page 10
10
2 ndf;tcoefficienofSE
tCoefficien
S
bt
b
xx
2y/x
b S
SS
2n
)(SbSS xx
2yy2
y/x
การทดสอบความสมพนธเชงเสนระหวาง 2 ตวแปร
สถตใชทดสอบไดแก
n
)ix(
ix
xxS
22
n
)i
y(
iy
yyS
22
เมอ
ขนตอนในการทดสอบสมมตฐาน
0.05
ระดบไขมนในเลอดและระดบความดนโลหตsystolic มความสมพนธเชงเสนตอกน อยางมนยสาคญทางสถต (t=4.589; p-value =0.0058)
5. ตดสนใจและสรปผล
. di min((1-ttail(7-2, 4.589)), (ttail(7-2,4.589)))*2
.00589897
(เทยบกบ 0.05)
4. หาคา P-value
3. เลอกวธการทางสถต
และคานวณคาสถต
2. กาหนดระดบนยสาคญ
1. ตงสมมตฐาน
0:
0:0
AH
H
589.4.0678983
.3115713
S
bt
b
Page 11
11
การทดสอบสมมตฐาน: จากตวอยางการทดสอบ
มขนตอนดงน
1. ตงสมมตฐาน
H0: ระดบไขมนในเลอดและระดบความดนโลหต
ไมมความสมพนธเชงเสนตอกน ( =0)
HA: ระดบไขมนในเลอดและระดบความดนโลหต
มความสมพนธเชงเสนตอกน ( = 0)
2. กาหนดระดบนยสาคญ 0.05
3. คานวณคาทางสถต
bS
bt
7
1004148994S
2
yy
7
1923569829S
2
xx
741553.42852-7
57)(41553.428.3115713-64991.71428
S
2
b
589.4.0678983
.3115713t
Page 12
12
4. ตดสนใจ/สรปผล
นาคา t=4.589 และ d.f. = n-2 = 5 เปดตาราง t ได p-
value < 0.005
สรปไดวา: ระดบไขมนในเลอดและระดบความดน
โลหต Systolic มความสมพนธเชงเสนตอกน
อยางมนยสาคญทางสถต (t=4.589;
p-value <0.005)
การคานวณชวงเชอมนของ B :คานวณจาก
จากตวอยางคานวณ 95% ชวงเชอมนของ B
เมอ b=0.3115713
= .1370331, .4861096
bS2)-n,
2(
tb
).06789830(571.20.3115713
Page 13
13
. regress sysbp chol
Source | SS df MS Number of obs = 7---------+------------------------------ F( 1, 5) = 21.06
Model | 4033.86954 1 4033.86954 Prob > F = 0.0059Residual | 957.844744 5 191.568949 R-squared = 0.8081---------+------------------------------ Adj R-squared = 0.7697
Total | 4991.71429 6 831.952381 Root MSE = 13.841
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------chol | .3115713 .0678983 4.589 0.006 .1370331 .4861096_cons | 57.83548 19.37235 2.985 0.031 8.037256 107.6337
------------------------------------------------------------------------------
Sa
Sb bS2)-n,
2(
tb
bS
Bbt
b
การใชสมการถดถอยในการประมาณคา
ก. ประมาณคาตวแปรตาม นาคา X0 ไปแทน
ในสมการ
ตวอยาง: ถา X0 = 200
= 120.14975
*** ไมแทนคา x ทอยนอกคาจากการศกษา
y
ii bxay
)200(3115713.83548.57y i
Page 14
14
. regress height age
Source | SS df MS Number of obs = 6-------------+------------------------------ F( 1, 4) = 52.51
Model | 618.242424 1 618.242424 Prob > F = 0.0019Residual | 47.0909091 4 11.7727273 R-squared = 0.9292
-------------+------------------------------ Adj R-squared = 0.9115Total | 665.333333 5 133.066667 Root MSE = 3.4311
------------------------------------------------------------------------------height | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------age | 9.181818 1.267033 7.25 0.002 5.663971 12.69966
_cons | 63.18182 3.657608 17.27 0.000 53.02667 73.33697------------------------------------------------------------------------------
. di 63.18182+9.181818*(60)
614.0909 *****
ii x181818.918182.63y
x0 = age =60 ป
6
5
4
idno
95
70
83
height
4
1
2
age
10243
8222
9431
heightageidnoตวอยาง การแทนคา x0 ทอยนอกคา
จากการศกษา
ชวงเชอมนของ ท X = X0 คานวณจากสตร
ตวอยาง: คานวณ 95% CI ของ
y
xxS
2)X0(X)
n
1(1y/xS
2)-n,2
α(
ty
200x ท y 0 ˆ
741553.4285
2)4286.143(200
7
1(1)191.5689(571.2120.14975
Page 15
15
การประมาณคาเฉลยของตวแปรตาม
ทคาของตวแปร X0 คานวณโดยแทนคา X0 ใน
สมการ
และ ชวงเชอมนของ คานวณจาก
y/xμ
ii bxay
y/xμ
xxS
2)X0(X
n
1(y/xS
2)-n,2
α(
ty
ขอกาหนด (Assumption)1. ทแตละคาของ X ตวแปร Y มการแจกแจงแบบปกต2. ทแตละคาของ Y ตวแปร X มการแจกแจงแบบปกต3. ความแปรปรวนของตวแปรตาม Y มคาเทากนทแตละคาของ X4. คาเฉลยของตวแปรตาม Y ทแตละคาของตวแปร X อยบนเสนตรงเดยวกน E(y)=y/x=a+bxi หรอ = 0+1xi
Page 16
16
. regress sysbp cholSource | SS df MS Number of obs = 7
-------------+------------------------------ F( 1, 5) = 21.06Model | 4033.86954 1 4033.86954 Prob > F = 0.0059
Residual | 957.844744 5 191.568949 R-squared = 0.8081-------------+------------------------------ Adj R-squared = 0.7697
Total | 4991.71429 6 831.952381 Root MSE = 13.841
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .3115713 .0678983 4.59 0.006 .1370331 .4861096_cons | 57.83548 19.37235 2.99 0.031 8.037256 107.6337
------------------------------------------------------------------------------. predict yhat(option xb assumed; fitted values). predict e,residual. swilk e
Shapiro-Wilk W test for normal dataVariable | Obs W V z Prob>z
-------------+-------------------------------------------------e | 7 0.98994 0.132 -2.463 0.99311
iii yye ii bxay
ขอกาหนด (Assumption)-Normality พจารณาจาก คาสวนทเหลอ (residual)
iiiii bxay;yye ˆˆ
ขอกาหนด (Assumption)-ความแปรปรวนของตวแปรตาม Y มคาเทากนท
แตละคาของ X. regress sysbp chol
Source | SS df MS Number of obs = 7-------------+------------------------------ F( 1, 5) = 21.06
Model | 4033.86954 1 4033.86954 Prob > F = 0.0059Residual | 957.844744 5 191.568949 R-squared = 0.8081
-------------+------------------------------ Adj R-squared = 0.7697Total | 4991.71429 6 831.952381 Root MSE = 13.841
------------------------------------------------------------------------------sysbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------chol | .3115713 .0678983 4.59 0.006 .1370331 .4861096_cons | 57.83548 19.37235 2.99 0.031 8.037256 107.6337
------------------------------------------------------------------------------
. hettestBreusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant varianceVariables: fitted values of sysbp
chi2(1) = 0.10Prob > chi2 = 0.7461
Page 17
17
Quantile Regression-สมการถดถอยคลอไทร ใชวเคราะหกรณละเมดขอกาหนด Regression Analysis (Koenker & Bassett,1978)
-Applied in Health
Austin, P., Tu, J., Daly, P., & Alter, D. (2005). The use of quantile regression in
health care research: A case study examining gender differences in the timeliness of
thrombolytic therapy. Statistics in Medicine, 24, 791–816.
-Wei, Y., Pere, A., Koenker, R., & He, X. (2006). Quantile regression methods for
reference growth charts. Statistics in Medicine, 25, 1369–1382.
. regress y x
Source | SS df MS Number of obs = 10-------------+------------------------------ F( 1, 8) = 0.00
Model | 2.5 1 2.5 Prob > F = 0.9586Residual | 6978.4 8 872.3 R-squared = 0.0004
-------------+------------------------------ Adj R-squared = -0.1246Total | 6980.9 9 775.655556 Root MSE = 29.535
------------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------x | -1 18.6794 -0.05 0.959 -44.07477 42.07477
_cons | 20.6 13.20833 1.56 0.157 -9.858465 51.05847------------------------------------------------------------------------------
. predict e, resid
. swilk eShapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z-------------+--------------------------------------------------
e | 10 0.67523 5.005 3.325 0.00044
. hettestBreusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant varianceVariables: fitted values of y
chi2(1) = 4.86Prob > chi2 = 0.0275
Page 18
18
. qreg y xIteration 1: WLS sum of weighted deviations = 121.88268
Iteration 1: sum of abs. weighted deviations = 111Iteration 2: sum of abs. weighted deviations = 110
Median regression Number of obs = 10Raw sum of deviations 157 (about 14)Min sum of deviations 110 Pseudo R2 = 0.2994
------------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------x | 17 3.924233 4.33 0.003 7.950702 26.0493
_cons | 3 2.774852 1.08 0.311 -3.39882 9.39882------------------------------------------------------------------------------
การแปลความหมาย เชนเดยวกยการวเคราะหสมการถดถอย
Sample Size for Regression analysis
-Dupont & Plummur (1989)
22, 2, / 2
2
( )n nt tn
0 x
residual
s
s
2 2 20( )residual y xs s s
0 2
1( ) 1residual xs s
r
ตองวนรอบ (iterative) เพอคานวณ Power of Test
Page 19
19
ตวอยาง นกวจยตองการคานวณขนาดตวอยางเพอศกษา ความสมพนธและ
การทานาย (prediction) ระหวางตวแปรอสระและตวแปรตาม ในการศกษา
เวลาทใชโดยเฉลย/วนในการออกกาลงกายมความสมพนธกบดชนมวลกาย
(body mass index: bmi) จาก pilot study พบ sx =7.5, sy = 4 และ b =-0.0667
ตองการ power of test เทากบ 80%
0 x
residual
s
s
2 2 20( )residual y xs s s 9686.3)5.7()0667.0(4 222 residuals
126.9686.3
5.7)00667.0(
2
22/,2,2 )(
nniter
ttn
หลกการคด
- เรม กาหนด n = 10
- นาขนาดตวอยาง n ทได มาหา power of test
10-2,0.20 10-2,0.025.88888952; 2.3060041t t
8909.1
643)126.(
)3060041.288888952(.2
2
itern
)()(12/,22/,2 ,2,2
nn tnntnntt
)()(1025.01,2643025.01,2643 643)12605.(64364312605.643
tt
tt
. di ( ttail(643-2, -.12605215*sqrt(643)-(invttail(643-2,1-0.025))) + ttail(643-2, -1*(-.12605215)*sqrt(643)-(invttail(643-2,1-0.025)))).89092824
. di invttail(10-2,.20)
.88888952
. di invttail(10-2,.025)2.3060041
2
22/05.0,21020.0,210
2
22/,2,2 )()(
tttt
n nniter
Page 20
20
. di ( ttail(496-2, -.12605215*sqrt(496)-(invttail(496-2,1-0.025))) + ttail(496-2, -1*(-.12605215)*sqrt(496)-(invttail(496-2,1-0.025))))
.8000536
หลกการวนรอบ (iterative)
- กาหนด n = 643 power of test = 89.09%
- กาหนด n = 496
- นาขนาดตวอยาง n ทกาหนด มาหา power of test
- power of test = 80.00 %
)()(12/,22/,2 ,2,2
nn tnntnntt
)()(1025.01,2496025.01,2496 496)12605.(49649612605.496
tt
tt
. sampsi_reg, null(0) alt(-0.0667) sx(7.5) sy(4) varmethod(sdy) power(.80) s(n)
Estimated sample size for linear regressionTest Ho: slope alt = slope null, usually null slope is 0Assumptions:
Alpha = 0.0500 (two-sided)Power = 0.8000
Null Slope = 0.0000Alt Slope = -0.0667
Residual sd = 3.9686SD of X's = 7.5000SD of Y's = 4.0000
Estimated required sample size:
n = 496
การคานวณขนาดตวอยางโดยใช Stata
bsx(#) the standard deviation of the X's.
sy(#) the standard deviation of the Y's.
null(#) specifies the "null slope".
alt(#) specifies the "alternative slope".