Top Banner
Bài 7: La chn mô hình hi quy STA301_Bài 7_v1.0013101214 93 BÀI 7. LA CHN MÔ HÌNH HI QUY Mc tiêu Sau khi kết thúc bài, hc viên shiu được nhng vn đề sau đây: Các thuc tính ca mt mô hình tt. Các loi sai l m vđị nh dng ca mô hình. Hu qukhi chn mô hình định dng sai. Kim định phát hin mô hình định dng sai. Gii thi u mô hình dng lôga tuyến tính. Gii thiu mô hình vi biến gi. Ni dung Hướng dn hc Tiêu chun cho mt mô hình tt. Các loi sai lm định dng ca mô hình. Hu qunếu mt mô hình định dng sai. Các kim định phát hin sai lm định dng. Các loi mô hình vi biến gi. Ôn li các bài hc trước để hiu được các loi mô hình hi quy. Tp trung phân bit các hu quxy ra khi có mt loi sai lm định dng nào đó. Tp trung vào các phương pháp kim định để phát hin các sai lm định dng. Tp trung hiu rõ bn cht ca vic đưa biến givào mô hình và các loi mô hình có biến gi. Xem xét kcác ví dtrong giáo trình và bài ging.
24

09 tvu sta301_bai7_v1.00131012140

Jan 22, 2018

Download

Economy & Finance

Yen Dang
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quy

STA301_Bài 7_v1.0013101214 93

BÀI 7. LỰA CHỌN MÔ HÌNH HỒI QUY

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây:

Các thuộc tính của một mô hình tốt.

Các loại sai lầm về định dạng của mô hình.

Hậu quả khi chọn mô hình định dạng sai.

Kiểm định phát hiện mô hình định dạng sai.

Giới thiệu mô hình dạng lôga tuyến tính.

Giới thiệu mô hình với biến giả.

Nội dung Hướng dẫn học

Tiêu chuẩn cho một mô hình tốt.

Các loại sai lầm định dạng của mô hình.

Hậu quả nếu một mô hình định dạng sai.

Các kiểm định phát hiện sai lầm định dạng.

Các loại mô hình với biến giả.

Ôn lại các bài học trước để hiểu được các loại mô hình hồi quy.

Tập trung phân biệt các hậu quả xảy ra khi có một loại sai lầm định dạng nào đó.

Tập trung vào các phương pháp kiểm định để phát hiện các sai lầm định dạng.

Tập trung hiểu rõ bản chất của việc đưa biến giả vào mô hình và các loại mô hình có biến giả.

Xem xét kỹ các ví dụ trong giáo trình và bài giảng.

Page 2: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

94 STA301_Bài 7_v1.0013101214

TÌNH HUỐNG DẪN NHẬP

Tình huống

Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng mô hình dưới dạng lôgarit của các biến. Một nhà nghiên cứu khác lại đề xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu). Vậy dạng mô hình nào tốt hơn để phân tích trong tình huống này?

Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới tính của họ hay không. Nhà nghiên cứu này xem xét mô hình hồi quy

E(TN/Di) = β1 + β2Di

trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ.

Câu hỏi

Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập hay không?

Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không.

Page 3: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 95

Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy luật vốn có của nó. Tuy nhiên, thông thường ở bước ban đầu ta chưa biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số liệu để khám phá ra bản chất và quy luật đó. Vậy thế nào là một mô hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì càng tốt hay không, hay một mô hình phải có phương trình hồi quy thật phức tạp, thật đẹp về mặt toán học mới là tốt?

7.1. Các thuộc tính của một mô hình tốt

BÀI TOÁN

Xét hai mô hình hồi quy tuyến tính

i 1 2 2i 3 3i k ki iY X X ... X u , (7.1)

i 1 2 2i 3 3i m mi iY X X ... X v , (7.2)

trong đó m k (do vậy sai số iu có xu thế nhỏ hơn sai số iv ). Có thể kết luận là mô

hình (7.1) tốt hơn mô hình (7.2) không? Hơn nữa, có phải một mô hình hồi quy phi tuyến nào đó (mô hình lôgarit chẳng hạn) sẽ tốt hơn hai mô hình tuyến tính đó không?

Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn?

Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay không phải được dựa trên những tiêu chuẩn nhất định. A.C. Harvey đã đưa ra các tiêu chuẩn để đánh giá chất lượng của mô hình hồi quy. Các tiêu chuẩn này đã được vận dụng rộng rãi trong thực tế, bao gồm:

Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy nhiên phải chứa đựng những biến độc lập chủ yếu ảnh hưởng đến biến phụ thuộc để giải thích được các hiện tượng cần nghiên cứu.

Việc đánh giá biến độc lập nào ảnh hưởng một cách có ý nghĩa đến biến phụ thuộc, một mặt phải dựa trên ý nghĩa thực tế của mô hình. Mặt khác có thể dựa vào phép kiểm định về các hệ số trong phương trình hồi quy.

Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với một tập số liệu cho trước.

Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số ước lượng được thay đổi rất nhiều. Vậy việc khử đa cộng tuyến có thể giúp cho mô hình hồi quy có tính xác định.

Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc càng nhiều càng tốt.

Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá tính thích hợp của mô hình so với số liệu.

Page 4: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

96 STA301_Bài 7_v1.0013101214

Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng.

Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và phương sai thuần nhất của sai số, ... sẽ đảm bảo về mặt lý thuyết của mô hình hồi quy tuyến tính cổ điển.

Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết quả dự báo càng sát với thực tế càng tốt.

7.2. Cách tiếp cận lựa chọn mô hình

Để lựa chọn được mô hình hồi quy thích hợp với bộ số liệu và mục tiêu nghiên cứu, ta có thể tiến hành lần lượt theo các bước sau:

Bước 1: Xác định danh sách các biến độc lập có thể có trong mô hình. Dựa vào ý nghĩa thực tế của bài toán đã được đặt ta, ta cần liệt kê tất cả những biến độc lập có thể có của mô hình, là những biến có khả năng ảnh hưởng đến giá trị của biến phụ thuộc. Những biến này có thể đã có sẵn trong danh sách các biến của bộ số liệu, song cũng có thể là biến được tạo ra từ các biến trong danh sách đó thông qua các phép biến đổi.

Bước 2: Kiểm tra sự vi phạm các giả thiết của mô hình hồi quy. Bước này bao gồm việc tiến hành kiểm định các vấn đề như đa cộng tuyến, phương sai thay đổi, tự tương quan, phân bố không chuẩn của sai số, ... và khắc phục các vi phạm phát hiện được.

Bước 3: Chọn dạng hàm hồi quy. Dạng hàm hồi quy có thể được xác định dựa trên kiến thức chuyên ngành liên quan đến số liệu hoặc dựa vào dạng hàm đã được sử dụng trong các nghiên cứu trước đó. Bên cạnh đó, có thể xác định dạng hàm hồi quy thông qua việc khảo sát các đồ thị biểu diễn sơ bộ mối quan hệ giữa biến độc lập và biến phụ thuộc. Chẳng hạn nếu trên đồ thị, các chấm tương ứng với các quan sát của tập số liệu nằm tập trung hai bên một đường thẳng nào đó, thì có thể chọn dạng hàm hồi quy tuyến tính. Còn nếu các chấm đó lại nằm hai bên một đường cong thì có thể dựa vào dạng của đường cong đó mà đưa ra dạng hàm hồi quy phi tuyến thích hợp.

Bước 4: Áp dụng các tiêu chuẩn để đánh giá và lựa chọn mô hình. Hệ số xác định là một thước đo thường được dùng đầu tiên để đánh giá chất lượng của mô hình hồi quy. Nếu hệ số xác định có giá trị lớn hơn 50% thì có thể coi mô hình khá phù hợp với tập số liệu. Còn nếu hệ số xác định nhỏ hơn 30% thì có thể khẳng định mô hình không phù hợp và nên tìm mô hình khác.

Ngoài hệ số xác định, còn có một số tiêu chuẩn khác có thể dùng để đánh giá các mô hình hồi quy như:

o Tiêu chuẩn log-hợp lý (log-likelihood):

n2 2

ii 1

n n 1L ln ln(2 ) u

2 2 2

.

Page 5: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 97

Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương. Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình cho rằng không hề có quan hệ giữa các biến độc lập và biến phụ thuộc). Trong thực hành, giá trị của hàm L được ước lượng bằng công thức:

n RSSL (1 ln(2 ) ln( ))

2 n .

o Tiêu chuẩn AIC (Akaike info criterion):

2k / nRSSAIC ( ).e ,

n

trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC này càng nhỏ thì mô hình càng phù hợp với số liệu.

o Tiêu chuẩn Schwarz (Schwarz criterion):

k / nRSSSC ( ).n

n

trong đó k là số tham số trong mô hình hồi quy. Giá trị SC này càng nhỏ thì mô hình càng phù hợp với số liệu.

Hệ số xác định được dùng để đánh giá sự phù hợp của mô hình hồi quy nhiều khi chưa nói lên đầy đủ chất lượng của mô hình vì một số lý do sau đây:

Nếu hai mô hình hồi quy chứa danh sách các biến độc lập khác nhau thì hệ xác định của hai mô hình đó (có thể bằng nhau) không giúp kết luận được mô hình nào tốt hơn;

Có thể việc loại bỏ bớt một số biến nào đó ra khỏi phương trình hồi quy tuy làm giảm hệ số xác định, song về thực chất lại không làm giảm đáng kể chất lượng của mô hình. Mặt khác, trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế” hơn, mặc dù sai số ước lượng có thể lớn hơn.

Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Tiêu chuẩn F dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy:

o Tiêu chuẩn F (F criterion). Với mô hình hồi quy (7.1) ta xét bài toán kiểm định:

BÀI TOÁN KIỂM ĐỊNH 1

0 2 3 k

1 i

H : ... 0

H : 0

Việc chấp nhận giả thuyết 0H có nghĩa là tất cả các biến độc lập không hề ảnh

hưởng đến giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết 0H có

nghĩa có ít nhất một biến độc lập nào đó có tác động đến biến phụ thuộc, tức là mô hình hồi quy phù hợp với số liệu ở một mức độ nhất định.

Page 6: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

98 STA301_Bài 7_v1.0013101214

Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số:

2

2

R / kF

(1 R ) /(n k 1)

,

trong đó 2R là hệ số xác định của mô hình hồi quy, k là số tham số trong mô hình, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp xỉ phân phối Fisher với bậc tự do (k, n – k –1). Qua đó có thể xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng so sánh với mức ý nghĩa đã

cho (5% chẳng hạn) để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0H .

Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước

đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài 88D và

biến độc lập là tổng sản phẩm quốc nội 88Y . Thực hiện hồi quy 88D theo 88Y ,

ta có kết quả trong bảng sau:

Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô hình hồi quy này phù hợp với tập số liệu. Kết luận đó cũng khẳng định qua giá trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000 (rất nhỏ). Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và log - hợp lý.

7.3. So sánh hai mô hình hồi quy

Cùng với hệ số xác định, các tiêu chuẩn từ 1 đến 4 trên đây đều có thể dùng để đánh giá chất lượng của mô hình. Tuy nhiên sự đánh giá đó mới đề cập đến sự phù hợp của

Page 7: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 99

mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình. Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Với hai mô hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định:

BÀI TOÁN KIỂM ĐỊNH 2

0 m 1 m 2 k

1 i

H : ... 0

H : 0, i {m 1,m 2,..., k}

Việc chấp nhận giả thuyết 0H có nghĩa các biến độc lập m 1 m 2 kX ,X ,...,X không có vai

trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và (7.2) là như nhau về khả năng dự

báo giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết 0H có nghĩa mô hình (7.1)

với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho biến phụ thuộc.

Trong thực hành, nếu giả thuyết 0H được chấp nhận

thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít hơn, nên có lợi hơn về mặt kinh tế. Còn nếu giả thuyết bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho kết quả thực sự chính xác hơn.

Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số

2 2k m

2k

R Rn kF

k m 1 R

,

trong đó 2kR là hệ số xác định của mô hình (7.1) với k tham số, 2

mR là hệ số xác định

của mô hình (7.2) với m tham số, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp xỉ phân phối Fisher với bậc tự do (n – k, k – m), qua đó có thể xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận

chấp nhận hay bác bỏ giả thuyết 0H .

7.4. Hậu quả của việc chọn mô hình không phù hợp

Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay không. Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả các nhà làm ứng dụng. Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi giải quyết một bài toán hồi quy. Việc chọn mô hình không phù hợp có thể do một trong những nguyên nhân sau gây ra:

Chọn dạng hàm không thích hợp. Dạng hàm hồi quy không thích hợp có thể dẫn đến các hậu quả sau:

o Các hệ số hồi quy bị ước lượng chệch, thậm chí dấu của hệ số hồi quy bị sai, dẫn đến những diễn giải mâu thuẫn với thực tế;

o Hệ số xác định thể hiện độ phù hợp của mô hình với số liệu có thể không cao;

Page 8: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

100 STA301_Bài 7_v1.0013101214

o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê;

o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến động mang tính hệ thống. Điều này có thể dẫn đến sự vi phạm các giả thiết cơ bản của mô hình hồi quy.

Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng. Giả sử mô hình phù hợp thực sự phải là

0 1 1 2 2Y X X u ,

nhưng ta lại sử dụng mô hình

0 1 1Y X v

nghĩa là biến 2X bị thiếu, trong khi biến này thực

sự ảnh hưởng đến biến phụ thuộc. Điều này có thể dẫn đến những hậu quả khác

nhau. Nếu biến 2X tương quan với biến 1X thì các ước lượng 0 và 1 của 0 và

1 sẽ là những ước lượng chệch và không vững của 0 và 1 , tức là

0 0E( ) ; 1 1E( ) .

Thực vậy, vì hai biến 1X và 2X tương quan với nhau nên ta có

2 0 1 1X X ,

với 0 , 1 và lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến

2X theo biến 1X . Lúc đó,

1 1 2 1E( ) ; 0 0 2 2 1 1E( ) (X X ) .

Do vậy, tùy theo dấu của 2 1 mà 1 sẽ cho ước lượng quá cao hoặc quá thấp so

với giá trị thực của 1 .

Trong trường hợp 2X và 1X không tương quan với nhau thì 1 0 và khi đó 1 là

ước lượng không chệch của 1 , nhưng 0 lại là ước lượng chệch của 0 , nếu

2X 0 .

Ngoài ra, việc bỏ sót biến còn dẫn đến hậu quả là ước lượng phương sai của sai số cũng như của phương sai của các hệ số hồi quy đều là những ước lượng chệch, kéo theo tính không chính xác của các khoảng tin cậy và vì vậy phương pháp kiểm định thông thường không còn hiệu lực.

Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại những nguy hại đáng kể. Thật vậy, giả sử mô hình phù hợp là

0 1 1Y X u , (7.3)

nhưng ta lại sử dụng mô hình

0 1 1 2 2Y X X v (7.4)

Page 9: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 101

nghĩa là dùng thừa biến 2X . Khi đó các hệ số hồi

quy ước lượng được từ mô hình (7.4) vẫn là các ước lượng vững, không chệch, nghĩa là ta vẫn có

0 0E( ) ; 1 1E( ) và 2 2E( ) 0 .

Đồng thời, phương sai của của sai số vẫn được ước lượng một cách không chệch, do đó khoảng tin cậy vẫn được xác định tương đối chính xác và phương pháp kiểm định thông thường vẫn có hiệu lực. Tuy nhiên các ước lượng thu được từ mô hình (7.4) không phải là ước lượng hiệu quả, vì phương sai của chúng sẽ lớn hơn phương sai của ước lượng tương ứng thu được từ mô hình (7.3). Hệ quả là các khoảng tin cậy của các hệ số sẽ rộng hơn, do đó vai trò của một biến độc lập đối với biến phụ thuộc có thể bị đánh giá sai (khoảng tin cậy ước lượng quá rộng sẽ có khả năng chứa điểm 0 - thể hiện biến độc lập không ảnh hưởng đến biến phụ thuộc, trong khi nếu được ước lượng đúng thì khoảng tin cậy không chứa điểm 0 - chứng tỏ biến độc lập tác động một cách có ý nghĩa lên biến phụ thuộc).

7.5. Kiểm định phát hiện sự bỏ sót biến

Với một tập số liệu cho trước, giả sử ta sử dụng mô hình hồi quy

i 0 1 i iY X u . (7.5)

Vấn đề đặt ra là ngoài biến X ảnh hưởng đến biến phụ thuộc Y, còn có biến độc lập nào khác có ảnh

hưởng quan trọng đến Y mà chưa được đưa vào mô hình hay không? Lúc đó, ta cần giải quyết bài toán kiểm định sau:

BÀI TOÁN KIỂM ĐỊNH 3

0H : Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)

1H : Có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)

Việc chấp nhận giả thuyết 0H có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự

ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc

lập đã có mặt trong mô hình. Ngược lại, việc bác bỏ giả thuyết 0H có nghĩa là mô hình

(7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình.

Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W

i 0 1 i 2 i iY X W v . (7.6)

Với mô hình này, ta xét hai trường hợp như sau:

Trường hợp 1: Có số liệu về biến W. Trong trường hợp này, ta có thể giải quyết bài toán 3 bằng nhiều cách khác nhau, chẳng hạn như:

Page 10: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

102 STA301_Bài 7_v1.0013101214

o Cách 1: Dùng kiểm định t. Để kiểm tra xem có phải biến W đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô

hình (7.6) và kiểm định giả thuyết 2 0 . Lúc đó, nếu giả thuyết này bị bác

bỏ thì thực sự biến W đã bị bỏ sót. Ngược lại, nếu giả thuyết 2 0 được chấp

nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau.

o Cách 2: Sử dụng hàm log-hợp lý. Xét thống

kê 1 0LR 2(l l ) , trong đó 1l và 0l tương

ứng là giá trị lớn nhất của lôgarit hàm hợp lý ứng với mô hình (7.6) và (7.5). Khi giả thuyết

0H đúng, thống kê LR có phân phối tiệm cận

phân phối khi bình phương với 1 bậc tự do

( 2 (1) ). Nếu 2LR (1) ( thường được lấy

bằng 5%) thì ta bác bỏ 0H và kết luận có hiện

tượng bỏ sót biến độc lập W.

o Cách 3: Sử dụng Bài toán kiểm định 2. Ta có thể áp dụng bài toán kiểm định 2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1) và (7.2). Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W. Ngược lại, nếu giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy.

Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong mô hình hồi quy. Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc bỏ sót một nhóm biến độc lập trong mô hình.

Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1 biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2) hay không.

Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng

cách lập thống kê k mLR 2(l l ) , trong đó kl và ml tương ứng là giá trị lớn nhất

của lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2). Khi giả thuyết 0H đúng,

thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do

( 2 (k m) ), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa

ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không.

Trường hợp 2: Không có số liệu về biến W . Khi không có số liệu của biến độc lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh hưởng đến biến phụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước như sau:

Page 11: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 103

o Bước 1: Dùng số liệu để ước lượng các giá trị 0 và 1 của các hệ số hồi quy

trong mô hình (7.5);

o Bước 2: Dùng các hệ số 0 và 1 và các giá trị quan sát được của biến độc lập

để ước lượng các giá trị của biến phụ thuộc

i 0 1 iˆ ˆY X .

Biến Y với các giá trị trên được gọi là biến dự báo. Từ biến dự báo này, ta lập

thêm các biến phụ 2Y , 3Y và 4Y . Có thể thấy

biến Y chứa phần thông tin của biến phụ thuộc được thể hiện qua biến độc lập X. Đồng thời có

thể cho rằng các biến 2Y , 3Y và 4Y có thể còn chứa một phần thông tin khác của biến phụ thuộc chưa được mô tả qua biến X. Như vậy, để kiểm tra xem mô hình (7.5) có bỏ sót biến độc lập nào đó hay không, ta có thể tiến hành kiểm

định để biết liệu các biến 2Y , 3Y và 4Y đúng là nhóm biến bị bỏ sót hay không.

Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng hạn như:

o Bước 3: Ta kiểm định giả thuyết 0 2 3 4H : 0 bằng cách dùng thống kê

2 2k m

2k

R Rn kF

k m 1 R

với n là số quan sát có trong số liệu, k=5, m=2, còn 2kR và 2

mR lần lượt là hệ

số xác định của các mô hình (*) và (7.5). Thống kê này có phân phối Fisher với bậc tự do n – 5 và k m 3 , qua đó tính được xác suất ý nghĩa để đưa ra kết

luận chấp nhận hay bác bỏ giả thuyết 0H . Việc chấp nhận giả thuyết cho phép

khẳng định không có hiện tượng bỏ sót biến. Còn khi giả thuyết bị bác bỏ thì có nghĩa trong mô hình (7.5) còn sót biến độc lập.

Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng hạn như:

o Áp dụng bài toán kiểm định 2 để kiểm tra xem có phải nhóm các biến 2Y , 3Y

và 4Y đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta xét mô hình hồi quy (7.5),

i 0 1 i iY X u ,

và mô hình

2 3 4i 0 1 i 2 i 3 i 4 i i

ˆ ˆ ˆY X Y Y Y v . (*)

o Phương pháp kiểm định nhân tử Lagrange. Phương pháp này được tiến hành, bắt đầu bằng Bước 1 và Bước 2 như đã nói ở trên, với một bổ sung nhỏ:

Page 12: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

104 STA301_Bài 7_v1.0013101214

Thứ nhất: Dùng các hệ số 0 và 1 và các giá trị quan sát được của biến

độc lập để thu ước lượng biến phụ thuộc Y và biến phụ 2Y , 3Y , 4Y , đồng thời xác định các giá trị của biến phần dư

i i iˆu Y Y ; i 1, 2,..., n .

Thứ hai: Xét phương trình hồi quy

2 3 4i 0 1 i 2 i 3 i 4 i i

ˆ ˆ ˆu X Y Y Y v

và dùng số liệu để ước lượng hệ số xác định 2R của phương trình hồi quy đó;

Thứ ba: Lập giả thuyết 0 2 3 4H : 0

và dùng thống kê 2nR để kiểm định giả thuyết ấy. Thống kê này có phân phối khi bình phương với 3 bậc tự do, qua đó tính được xác suất ý nghĩa để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết 0H . Việc

chấp nhận giả thuyết này đồng nghĩa với việc khẳng định không có hiện tượng bỏ sót biến. Ngược lại, nếu giả thuyết bị bác bỏ thì mô hình (7.5) còn bỏ sót biến độc lập.

Chú ý: Trong Trường hợp 2 này, ta chỉ có thể đưa ra kết luận về chất lượng của mô hình, khẳng định mô hình có bỏ sót biến hay không, mà không xác định được chính xác biến bị bỏ sót. Nếu biết chắc chắn là có hiện tượng bỏ sót biến và cần xác định rõ biến bị bỏ sót thì cần dựa vào kinh nghiệm và kiến thức của chuyên ngành có số liệu. Lúc ấy có thể tiến hành bổ sung số liệu của biến bị bỏ sót để cải tiến mô hình.

7.6. Kiểm định phát hiện hiện tượng thừa biến

Ta thấy bài toán kiểm định phát hiện hiện tượng thừa biến độc lập trong mô hình hồi quy chính là một phần của bài toán “ngược” đối với bài toán kiểm định 3 nhằm phát hiện sự bỏ sót biến độc lập trong mô hình, với giả thuyết của bài toán này được đổi thành đối thuyết của bài toán kia, và ngược lại, đối thuyết được chuyển tương ứng thành giả thuyết, hơn nữa đã có số liệu của biến W , là biến đang bị nghi vấn là biến thừa trong mô hình. Như vậy, hoàn toàn có thể dùng các phương pháp đã trình bày cho trường hợp 1, mục 7.5 trên đây, để phát hiện hiện tượng thừa biến.

7.7. Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính

Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố chuẩn của các phần dư (hay còn được gọi là sai số). Dễ dàng thấy nếu phần dư của mô hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố chuẩn. Tuy nhiên, trong thực hành rất hay gặp phải những biến phụ thuộc không có phân bố chuẩn mà lại có phân bố lôga-chuẩn. Thí dụ, với số liệu về thu nhập trên đầu

Page 13: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 105

người năm 1999 của các hộ gia đình ở huyện Ba Vì, ta có biểu đồ tần số bên trái trong hình dưới đây. Rõ ràng biểu đồ đó không đối xứng và “biến thu nhập trên đầu người” (incomecapita) không có phân bố chuẩn. Tuy nhiên, nếu ta lập biến mới logincocapita bằng cách lấy loga cơ số 10 của biến trên đây thì ta sẽ có đồ thị tần số phía bên phải với dạng của phân bố chuẩn.

Trong trường hợp này, để dự báo thu nhập trên đầu người”, rõ ràng mô hình hồi quy tuyến tính với biến phụ thuộc logincocapita sẽ phù hợp hơn mô hình hồi quy tuyến tính với biến phụ thuộc incomecapita. Lúc đó, thay vì dùng mô hình

0 1Y X v , (7.7)

ta nên dùng mô hình

10 0 1log (Y) X u . (7.8)

Dùng phương pháp bình phương bé nhất để ước các hệ số hồi quy 0 và 1 của phương

trình hồi quy tuyến tính trên, từ đó ta có thể xây dựng công thức để dự báo giá trị của biến phụ thuộc nguyên thủy Y qua biểu thức:

0 1 0 1ˆ ˆ ˆ ˆX XY 10 10 .(10 ) . (7.9)

Mô hình (7.8) được gọi là mô hình lôga tuyến tính. Bên cạnh mô hình đó, người ta còn hay dùng mô hình log-log tuyến tính, được thành lập bằng cách lấy lôga cả biến phụ thuộc lẫn biến độc lập trước khi đưa các biến đó vào mô hình hồi quy tuyến tính thông thường, nếu cả biến phụ thuộc và biến độc lập đều là những biến nhận giá trị dương

10 0 1 10log (Y) log (X) W . (7.10)

Với các giá trị 0 và 1 của phương trình hồi quy tuyến

tính trên ước lượng được bằng phương pháp bình phương bé nhất, ta có thể xây dựng công thức để dự báo giá trị của biến phụ thuộc nguyên thủy Y như sau:

0 1 0 1ˆ ˆ ˆ ˆlog(X)Y 10 10 .(X) . (7.11)

Trên đây, các mô hình (7.8)-(7.11) được trình bày cho trường hợp hồi quy đơn, tức là khi phương trình hồi quy chỉ chứa một biến độc lập. Mô hình hồi quy bội tương ứng với nhiều biến độc lập cũng có thể trình bày hoàn toàn tương tự.

Page 14: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

106 STA301_Bài 7_v1.0013101214

Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý nghĩa thực tế hơn so với mô hình hồi quy tuyến tính thông thường, nhưng nhiều khi lại giúp giải quyết được một số vướng mắc của mô hình hồi quy tuyến tính, chẳng hạn như vấn đề về phương sai sai số thay đổi đã đề cập đến trong bài trước.

7.8. Bản chất của biến giả và mô hình hồi quy với biến giải thích là biến giả

Mô hình hồi quy thường được dùng để dự báo giá trị định lượng của biến phụ thuộc theo giá trị đã biết của một hoặc nhiều biến độc lập. Trên đây chúng ta đã đề cập đến trường hợp các biến độc lập là các biến định lượng, mà giá trị chúng có thể nhận được là các số đo. Tuy nhiên, trong thực hành có nhiều trường hợp có những biến độc lập, yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, lại không phải là biến định lượng mà là biến định tính (còn được gọi là biến định danh, biến phân hạng hay biến chất) với các giá trị có thể nhận được của biến không phải là các con số, mà lại là các thuộc tính, tính chất, đặc điểm, ... nào đó của đối tượng.

Thí dụ, để xây dựng mô hình dự báo chi phí của một khách nước ngoài dành cho một chuyến du lịch được thực hiện tại Việt Nam, ta cần xét tới mọi yếu tố có thể ảnh hưởng đến khả năng sẵn sàng chi trả của khách. Các yếu tố đó có thể bao gồm tuổi, giới tính, quốc tịch của khách, thời gian (số ngày) thực hiện của chuyến du lịch, mùa tiến hành chuyến du lịch, ... Có thể thấy trong các yếu tố đó, chỉ có “tuổi” và “thời gian” là hai biến định lượng, còn lại đều không phải là các biến định lượng.

Như vậy, trước tiên ta cần mã hóa lại các biến định tính để có các biến nhận các giá trị số đại diện cho biến định tính trong phương trình. Có thể dùng các biến giả nhị phân (chỉ nhận hai giá trị 0-1) để mã hóa lại các biến định tính. Cách mã hoá bằng các biến giả như vậy khá đơn giản và có thể giúp diễn giải các hệ số ước lượng được của phương trình hồi quy một cách rất rõ ràng.

Chẳng hạn, ta có thể mã hóa biến giới tính thành biến giả GT nhận giá trị 0 nếu khách hàng là nam giới, nhận giá trị 1 nếu khách hàng là phụ nữ. Lúc đó khi ước lượng chi phí của khách du lịch theo giới tính bằng mô hình hồi quy

0 1Y GT u ,

trong đó Y là chi phí của khách hàng, u là sai số, thì hệ số chặn 0 chính bằng giá trị

chi phí trung bình của nhóm khách hàng nữ,

0 E(Y GT 0) .

Đồng thời, hệ số dốc 1 chính là giá trị chênh lệch giữa chi phí trung bình của nhóm

khách hàng nam so với chi phí trung bình nhóm khách hàng nữ, tức là tổng 0 1

của hai hệ số hồi quy có giá trị đúng bằng giá trị chi phí trung bình của nhóm khách hàng nữ,

0 1 E(Y GT 1) .

Phép kiểm định giả thuyết 0 1H : 0 về sự bằng không của hệ số dốc trong mô hình

này cho phép chúng ta đưa ra kết luận về việc liệu chi phí của nhóm khách hàng nam có ngang bằng với chi phí của nhóm khách hàng nữ hay không.

Page 15: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 107

Việc sử dụng biến giả trong mô hình hồi quy có thể mở rộng cho trường hợp biến định tính nhận nhiều giá trị, tức là khi biến định tính xác định nhiều nhóm các quan sát ứng với nhiều phạm trù khác nhau. Chẳng hạn, giả sử khách du lịch trong nghiên cứu có các quốc tịch Pháp, Nga, Nhật, Mỹ, Trung Quốc và Việt Nam. Lúc đó ta có thể dùng 5 biến

giả 1D , 2D , 3D , 4D và 5D để mã hóa biến định tính “quốc tịch” như trong bảng sau:

Quốc tịch D1 D2 D3 D4 D5

Pháp 1 0 0 0 0

Nga 0 1 0 0 0

Nhật 0 0 1 0 0

Mỹ 0 0 0 1 0

Trung Quốc 0 0 0 0 1

Việt Nam 0 0 0 0 0

Trong bảng trên, biến 1D ứng với nhóm khách mang quốc tịch Pháp, nhận giá trị 1 đối

với quan sát của khách Pháp, nhận giá trị 0 đối với các quan sát nhóm khác; biến 2D

ứng với nhóm khách mang quốc tịch Nga, nhận giá trị 1 đối với quan sát của khách đến từ nước Nga, nhận giá trị 0 đối với các quan sát nhóm khác; ... Riêng đối với nhóm quan sát ứng với khách nội địa Việt Nam, tất

cả các biến giả từ 1D đến 5D đều nhận giá trị bằng 0.

Nhóm này được lấy làm nhóm “nền” (hay còn gọi là nhóm “chứng”), với các kết quả được lấy làm mức cơ sở để so sánh với kết quả của các nhóm khác. Chẳng hạn, khi dùng mô hình hồi quy

0 1 1 2 2 3 3 4 4 5 5Y D D D D D u. (7.12)

để dự đoán mức chi phí của khách du lịch phụ thuộc vào quốc tịch của khách, kết quả

ước lượng được của hệ số chặn 0 cho biết mức chi phí trung bình của nhóm khách

nội địa

0 1 2 3 4 5E(Y D D D D D 0)

Chi phí trung bình này của nhóm “nền” được lấy làm “mức sàn” để so chi phí của các nhóm khách đến từ các nước khác. Thí dụ, từ (7.12), chi phí trung bình của nhóm

khách Pháp được ước lượng bằng 0 1

0 1 1E(Y D 1)

chênh lệch chi phí của nhóm khách Pháp so với nhóm khách nội địa được ước lượng

bằng 1 ; chi phí trung bình của nhóm khách Nga được ước lượng bằng 0 2

0 2 2E(Y D 1)

chênh lệch chi phí của nhóm khách Nga so với nhóm khách nội địa được ước lượng

bằng 2 ; ...

Page 16: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

108 STA301_Bài 7_v1.0013101214

Các phép kiểm định 10 1H : 0 , 2

0 2H : 0 , 30 3H : 0 , 4

0 4H : 0 và 50 5H : 0 sẽ

lần lượt cung cấp các kết luận so sánh chi phí trung bình của từng nhóm khách phân theo quốc tịch với chi phí trung bình của nhóm khách nội địa.

Chú ý: Các phép kiểm định trên chỉ so sánh chi phí trung bình của các nhóm khách nước ngoài với chi phí của nhóm “nền” (khách nội địa), chứ không so sánh được chi phí trung bình của các nhóm khách nước ngoài với nhau.

7.9. Mô hình hồi quy với một biến lượng và một biến chất

Sau đây chúng ta xây dựng mô hình dự báo chi phí của khách du lịch, với giả thiết chi phí đó vừa tỷ lệ với thời gian của chuyến du lịch, vừa phụ thuộc vào đặc thù riêng liên quan đến quốc tịch của khách du lịch. Lúc đó trong danh sách các biến độc lập của mô hình sẽ vừa xuất hiện biến định lượng (biến TG chỉ thời gian tính theo ngày của chuyến du lịch), vừa có biến định tính là biến biểu diễn quốc tịch của khách du lịch. Trong mô hình hồi quy, biến định tính này được mã hóa lại thành các biến giả như đã trình bày trên đây. Ta xét phương trình hồi quy

0 1 1 2 2 3 3 4 4 5 5Y D D D D D TG u . (7.13)

Ta thấy trong mô hình này, hệ số dốc cho biết chi

phí hàng ngày của khách du lịch, không phân biệt người khách đó đến từ nước nào. Như vậy hệ số này đại diện cho tính chất chung của tất cả các khách về mặt chi tiêu cho mỗi ngày trong chuyến du lịch. Các hệ số còn lại thể hiện đặc thù riêng của các nhóm khách du lịch đến từ các nước khác nhau. Có thể nói mô hình (7.13) là mô hình tổng hợp của 6 mô hình hồi quy tuyến tính đơn có cùng hệ số dốc, mỗi mô hình cho biết quy luật chi tiêu của khách hàng đến từ một nước. Cụ thể, với các hệ số ước lượng được từ (7.13), ta có thể dự báo chi phí của khách du lịch nội địa theo phương trình

0ˆˆ ˆY TG ;

chi phí của khách Pháp bằng

0 1ˆ ˆˆ ˆY ( ) TG ;

chi phí của khách Nga bằng

0 2ˆ ˆˆ ˆY ( ) TG ;

chi phí của khách Nhật bằng

0 3ˆ ˆˆ ˆY ( ) TG ;

chi phí của khách Mỹ bằng: 0 4ˆ ˆˆ ˆY ( ) TG ;

chi phí của khách Trung Quốc bằng: 0 5ˆ ˆˆ ˆY ( ) TG .

Page 17: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 109

Trên đồ thị mô tả quan hệ của chi phí theo thời gian thực hiện chuyến du lịch, các đường hồi qui của các phương trình hồi quy đơn tương ứng với các phương trình trên đây sẽ thể hiện thành các đường thẳng có cùng hệ số dốc và do đó song song với nhau.

Vì các mô hình hồi quy trên đây có chung hệ số dốc, chỉ có thể khác nhau hệ số chặn,

nên các phép kiểm định 10 1H : 0 , 2

0 2H : 0 , 30 3H : 0 , 4

0 4H : 0 và 50 5H : 0 về thực chất sẽ lần lượt cung cấp các kết luận so sánh mô hình hồi quy dự

báo chi phí của từng nhóm khách phân theo quốc tịch với mô hình tương ứng của

nhóm khách nội địa. Nếu giả thuyết k0 kH : 0 được chấp nhận thì hai mô hình

0 kˆ ˆˆ ˆY ( ) TG và 0

ˆˆ ˆY TG được coi là như nhau, chi phí của khách du lịch

của hai nhóm đó có thể dự báo theo cùng một phương trình hồi quy.

7.10. Mô hình hồi quy với một biến lượng và hai biến chất

Ta có thể đưa thêm vào mô hình (7.13) để có mô hình dự báo chi phí của khách du lịch theo biến thời gian thực hiện chuyến du lịch (TG - biến lượng) và hai biến chất là giới tính (GT) và quốc tịch của khách du lịch. Biến giới tính được mã hóa lại thành các biến giả như đã nói phía trên và ta có mô hình hồi quy mới như sau:

0 1 1 1 2 2 3 3 4 4 5 5Y GT D D D D D TG u . (7.14)

Với mô hình này, hệ số dốc vẫn thể hiện quy luật chung về chi phí hàng ngày của

khách du lịch. Trong khi đó, hệ số chặn được tách thành nhiều phần, mô tả các đặc thù riêng của từng nhóm khách về chi phí ban đầu. Cụ thể, hệ số 1 cho biết sự khác nhau

giữa khách nam và khách nữ; các hệ số 1 2 3 4 5, , , , biểu diễn sự khác biệt về chi

phí ban đầu giữa những nhóm khách du lịch đến từ các nước khác nhau; riêng hệ số

0 lại cho biết phần giống nhau, chung cho mọi nhóm khách, về chi phí ban đầu.

Như vậy, mô hình (7.14) có thể coi là mô hình gộp chung của 12 hồi quy riêng rẽ, do đó vừa thể hiện được quy luật chung của tất cả các nhóm đối tượng, vừa biểu diễn được những đặc thù riêng của mỗi nhóm. Từ phương trình hồi quy (7.14) ta có thể rút ra hai phương trình hồi quy cho biết quy luật về chi phí của hai nhóm khách nam và nữ nội địa,

0Y TG u (đối với nam),

0 1Y TG u (đối với nữ);

TG

Y

0 k

0 1

0

Page 18: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

110 STA301_Bài 7_v1.0013101214

hai phương trình hồi quy tương ứng với hai nhóm khách nam và nữ người Pháp,

0 1Y ( ) TG u (đối với nam),

0 1 1Y ( ) TG u (đối với nữ);

. . .

và cuối cùng là hai phương trình tương ứng với hai nhóm khách nam và nữ người Trung Quốc,

0 5Y ( ) TG u (đối với nam),

0 1 5Y ( ) TG u (đối với nữ).

Trên đồ thị, 12 phương trình hồi quy trên đây sẽ tương ứng với 12 đường thẳng song song với nhau, có chung độ dốc và chỉ khác nhau về vị trí cắt nhau với trục tung.

Các kết quả kiểm định các hệ số của mô hình (7.14) sẽ giúp so sánh hệ số chặn của 12

mô hình trên đây. Cụ thể, phép kiểm định giả thuyết 0 1H : 0 cho phép chúng ta

đưa ra kết luận về việc liệu yếu tố giới tính của khách du lịch có vai trò mang tính thống kê đối với hệ số chặn của các mô hình hay không. Còn các phép kiểm định

10 1H : 0 ; 2

0 2H : 0 ; 30 3H : 0 ; 4

0 4H : 0 và 50 5H : 0 sẽ lần lượt cung cấp

các kết luận đánh giá ảnh hưởng của yếu tố quốc tịch của khách du lịch đối với hệ số chặn trong các mô hình riêng rẽ (so sánh hệ số chặn trong mỗi mô hình với hệ số chặn của mô hình ứng với nhóm khách nội địa).

7.11. Sử dụng biến giả trong phân tích mùa

Tại các thời điểm khác nhau trong năm, có sự khác nhau về giá phòng của các khách sạn và giá các dịch vụ khác đi kèm. Do vậy, cần sử dụng biến giả để xây dựng mô hình biểu diễn được đặc điểm “mùa” của quy luật. Trong thực tế, đối với các địa phương, các mùa “cao điểm”, “thấp điểm” đối với du lịch thường kéo dài khác nhau và vào quãng thời gian khác nhau trong năm. Tuy nhiên, để tiện trình bày, ta tạm coi một năm có bốn mùa “Xuân”, “Hạ”,

“Thu” và “Đông”. Lúc đó, ta có thể dùng ba biến giả 1M , 2M và 3M để mã hóa biến

“Mùa” theo bảng sau:

Mùa M1 M2 M3

Xuân 1 0 0

Hạ 0 1 0

Thu 0 0 1

Đông 0 0 0

Ta sẽ kết hợp các biến giả trên đây với biến định lượng biến TG (chỉ thời gian tính

theo ngày của chuyến du lịch) để tạo ra các biến định lượng mới là 1 1TG M *TG ,

2 2TG M *TG và 3 3TG M *TG , từ đó xây dựng và tiến hành phân tích mô hình

0 1 1 2 2 3 3Y TG TG TG TG u . (7.15)

Page 19: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 111

Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với quy luật của bốn mùa. Bốn mô hình của bốn mùa có chung hệ số chặn , chỉ khác nhau ở hệ số dốc. Đối với mùa Xuân, phương trình hồi quy (7.15) thu gọn thành

0 1Y ( )TG u .

Các phương trình tương ứng với các mùa còn lại lần lượt sẽ là:

0 2Y ( )TG u (mùa Hạ); (7.15b)

0 3Y ( )TG u (mùa Thu) (7.15c)

0Y TG u (mùa Đông). (7.15d)

Các phép kiểm định 10 1H : 0 , 2

0 2H : 0 và 30 3H : 0 được thực hiện khi phân tích mô hình

(7.15) sẽ lần lượt cung cấp các kết luận so sánh hệ số dốc của từng mô hình (7.15a), (7.15b) và (7.15c) với hệ số dốc của mô hình (7.15d), cho biết chi phí hàng ngày của khách du lịch vào mỗi mùa Xuân, Hạ và Thu có khác biệt một cách có ý nghĩa thống kê so với chi phí hàng ngày của khách du lịch vào mùa Đông hay không.

Chú ý:

Với việc chọn nhóm các quan sát của mùa Đông làm nhóm “nền” (các biến giả

1M , M2 và M3 nhận giá trị bằng 0 tại nhóm này), các phép kiểm định trên chỉ giúp

so sánh hệ số dốc trong mô hình hồi quy của các mùa khác với hệ số dốc trong mô hình tương ứng của mùa Đông, chứ không so sánh được hệ số dốc trong các mô hình ứng với các mùa Xuân, Hạ và Thu với nhau. Tuy nhiên, bằng cách chọn lại nhóm nền và lập các biến giả một cách thích hợp, hoàn toàn có thể tiến hành kiểm định so sánh các cặp hệ số dốc tùy ý nào đó.

Có thể kết hợp mô hình (7.15) với mô hình (7.13) hoặc (7.14) để có một mô hình diễn tả được cả quy luật chung và các quy luật riêng cho các nhóm khách du lịch và cho các mùa trong năm. Chẳng hạn, kết hợp (7.15) với (7.13), ta sẽ có mô hình

0 1 1 1 2 2 3 3 4 4 5 5 0 1 1 2 2 3 3Y GT D D D D D TG TG TG TG u

biểu diễn được các đặc thù về mùa và đặc thù về quốc tịch của các nhóm khách du lịch.

Trong các mục từ 7.8 đến 7.11, thí dụ về chi phí của khách du lịch được dùng minh họa cho việc sử dụng biến giả để xây dựng các mô hình. Tuy nhiên, các mô hình này có thể sử dụng rộng rãi cho nhiều nghiên cứu khác có cấu trúc số liệu phù hợp.

Page 20: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

112 STA301_Bài 7_v1.0013101214

7.12. Hồi quy tuyến tính từng khúc

Mô hình hồi quy tuyến tính thường là mô hình thuận tiện cho việc giải thích ý nghĩa thực tế của các kết quả phân tích thu được. Tuy nhiên, có thể quy luật tuyến tính của mô hình không phải mang tính toàn cục mà chỉ mang tính cục bộ, tức là chỉ đúng đối với từng khoảng tương đối ngắn trong miền giá trị của một biến độc lập. Khi đó, mô hình hồi quy tuyến tính từng khúc sẽ cung cấp một giải pháp khá phù hợp.

Thí dụ, xét mô hình mô tả quan hệ giữa thu nhập của sinh viên sau khi ra trường phụ thuộc vào thâm niên công tác, trong đó có xét đến ảnh hưởng của chính sách điều chỉnh mức lương tối thiểu được nhà nước tiến hành hàng năm. Trong mô hình này, thu nhập Y được ấn định là biến phụ thuộc cùng với biến độc lập chính là TN (thâm niên), số liệu được quan sát bắt đầu từ ngày 01/01/2004 đến hết năm 2009 và giả sử việc điều chỉnh mức lương tối thiểu được thực hiện đều đặn vào ngày 01 tháng 01 hàng năm. Lúc đó, ta có thể dùng 5 biến

giả 1N , 2N , 3N , 4N và 5N để biểu diễn khoảng thời gian của các năm như trong

bảng sau:

Năm N1 N2 N3 N4 N5

2005 1 0 0 0 0 2006 0 1 0 0 0 2007 0 0 1 0 0 2008 0 0 0 1 0 2009 0 0 0 0 1 2004 0 0 0 0 0

Ta thành lập các biến định lượng mới là 1 1TN N *TN , 2 2TN N *TN ,

3 3TN N *TN , 4 4TN N *TN và 5 5TN N *TN , từ đó xây dựng và tiến hành

phân tích mô hình

0 1 1 2 2 3 3 4 4 5 5

0 1 1 2 2 3 3 4 4 5 5

Y N N N N N

TN TN TN TN TN TN u .

Đây là một mô hình hồi quy tuyến tính từng khúc, là mô hình tổng hợp của 6 mô hình hồi quy tuyến tính đơn tương ứng với từng năm từ 2004 đến 2009 như sau:

0 0Y TN u (năm 2004);

0 1 0 1Y ( ) ( )TN u (năm 2005);

0 2 0 2Y ( ) ( )TN u (năm 2006);

0 3 0 3Y ( ) ( )TN u (năm 2007);

0 4 0 4Y ( ) ( )TN (năm 2008);

0 5 0 5Y ( ) ( )TN u (năm 2009).

Page 21: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 113

Chú ý:

Mặc dù trong thực hành, đối với số liệu dạng giống như trong thí dụ nêu trên, có thể tiến hành tách tập số liệu thành 6 tập số liệu của các năm và xây dựng các mô hình hồi quy tuyến tính riêng rẽ cho từng năm bằng cách sử dụng lần lượt các tập số liệu nhỏ. Tuy nhiên mô hình tuyến tính từng khúc trình bày trên đây cung cấp hình ảnh tổng hợp, không rời rạc. Hơn nữa, bằng các phép kiểm định trong phân tích mô hình tuyến tính từng khúc, ta có thể so sánh các hệ số hồi quy giữa các mô hình hồi quy của các năm.

Nếu các quan sát trong một khoảng thời gian của mô hình tuyến tính từng khúc có sự phụ thuộc vào nhau, thì nên sử dụng phương pháp “Phân tích nhiều mức” (Multi-level analysis) thay cho mô hình tuyến tính từng khúc. Có thể tham khảo (chẳng hạn trên mạng Internet) các tài liệu khác để biết thêm về phương pháp “Phân tích nhiều mức”.

7.13. Mô hình hồi quy đa thức

Mô hình hồi quy tuyến tính là mô hình khá đơn giản, có các hệ số dễ dàng ước lượng được bằng các thuật toán quen thuộc, hơn nữa lại khá thuận tiện cho việc diễn giải ý nghĩa thực tế của mô hình. Tuy nhiên, trong thực hành lại có nhiều bài toán không phù hợp với mô hình tuyến tính mà phù hợp với mô hình phi tuyến. Chẳng hạn khi có một mặt hàng mới được tung ra thị trường, số lượng hàng tiêu thụ trong mỗi tháng sẽ tăng lên rất nhanh do tính hấp dẫn của mặt hàng. Nhưng sau một thời gian, thị trường sẽ dần dần bão hòa đối với mặt hàng đó và số lượng tiêu thụ mặt hàng đó sẽ từng bước chững lại rồi giảm xuống. Đối với trường hợp này, một mô hình phi tuyến sẽ thích hợp hơn mô hình tuyến tính. Trong số các mô hình phi tuyến, bên cạnh mô hình hồi quy lôga tuyến tính đã nói tới trong mục 7.7, các mô hình hồi quy đa thức cũng là những mô hình hay được xét đến. Sau đây chúng ta sẽ xem xét mô hình hồi quy đa thức bậc hai, các mô hình đa thức bậc cao hơn có thể được xây dựng hoàn toàn tương tự.

Mô hình hồi quy đa thức bậc hai với m biến độc lập có dạng tổng quát là m m m

i i ij i ji 1 i 1 j 1

Y X X X

, (7.16)

trong đó Y là biến phụ thuộc, iX ;i 1,2,...,m; là các

biến độc lập; i ij, , ; i, j 1, 2,...,m; là các hệ số hồi

quy cần ước lượng, còn là sai số hồi quy. Bằng cách lập các biến mới

ij i jZ X X ; i, j 1, 2,...,m;

mô hình hồi quy trên đây sẽ chuyển về dạng m m m

i i ij iji 1 i 1 j 1

Y X Z

. (7.17)

Page 22: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

114 STA301_Bài 7_v1.0013101214

Đây là mô hình hồi quy tuyến tính thông thường với 2m m biến độc lập. Sử dụng các thủ tục ước lượng đối với mô hình hồi quy tuyến tính bội, ta tìm được các giá trị ước lượng của các hệ số hồi quy trong mô hình (7.17), đó cũng chính là các hệ số của mô hình hồi quy đa thức bậc hai (7.16) đang được xét đến.

Chú ý:

Trong mô hình hồi quy tuyến tính bội (7.17) trên đây, thường có hiện tượng đa cộng

tuyến giữa biến iX và biến iiZ , i 1,2,...,m . Do vậy, trước khi tiến hành ước lượng

các hệ số của mô hình, ta nên xử lý hiện tượng đa cộng tuyến trong tập hợp 2m m biến độc lập của mô hình.

7.14. Ảnh hưởng tương tác

Trong mô hình hồi quy bội với một biến phụ thuộc và nhiều biến độc lập, ngoài ảnh hưởng riêng rẽ của từng biến độc lập, biến phụ thuộc có thể còn chịu ảnh hưởng của sự tương tác giữa các cặp biến độc lập, giữa bộ ba, bộ bốn các biến độc lập, ... Các ảnh hưởng tương tác có thể làm giá trị của biến phụ thuộc tăng lên, song tương tác cũng có thể làm giá trị của biến phụ thuộc giảm xuống.

Trong mô hình (7.17) trên đây, hệ số ij cho ta biết ảnh

hưởng tương tác của hai biến độc lập iX và jX tác

động lên giá trị của biến phụ thuộc Y . Phép kiểm định

giả thuyết ij0 ijH : 0 cho phép chúng ta đưa ra kết

luận về ảnh hưởng của sự tương tác đó. Nếu giả thuyết được chấp nhận thì ta có thể kết luận sự tương tác không gây ra tác động mang tính thống kê đối với giá

trị của Y . Nếu ngược lại, giả thuyết bị bác bỏ, thì tương tác của hai biến độc lập iX

và jX có tác động thực sự lên giá trị của biến phụ thuộc Y . Khi đó, nếu ij 0 thì giá

trị của Y sẽ tăng lên khi cả iX và jX tăng lên (tương tác có tác động đồng biến); còn

nếu ij 0 thì giá trị của Y sẽ tăng lên khi cả iX và jX tăng lên (tương tác có tác

động nghịch biến).

Chú ý:

Việc diễn giải ảnh hưởng của tương tác sẽ rõ ràng và dễ hiểu hơn, khi các biến độc lập đều là các biến nhị phân (chỉ nhận hai giá trị 0-1). Tuy nhiên, sự tương tác có thể xuất hiện giữa các biến định tính, giữa các biến định lượng, cũng như giữa biến định và biến định lượng (trước khi đưa vào mô hình hồi quy để xét tính tương tác, các biến định tính nên được đưa về các biến nhị phân bằng cách sử dụng biến giả).

Mô hình (7.17) giúp chúng ta phân tích các tương tác bộ đôi giữa các biến độc lập. Để phân tích các tương tác bộ ba, bộ bốn, ... giữa các biến độc lập, ta cần sử dụng các mô hình hồi quy đa thức bậc cao hơn, được thành lập một cách thích hợp.

Page 23: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyơ

v1.0 115

TÓM LƯỢC CUỐI BÀI

Một mô hình được coi là có những thuộc tính tốt cần có những tiêu chuẩn sau: o Có khả năng sự báo tốt.

o Phải mô tả được lí thuyết kinh tế liên quan .

o Không có những quan hệ giữa các biến độc lập và các yếu tố ngẫu nhiên.

o Giá trị của các tham số phải ổn định, nếu không dự báo sẽ không đáng tin cậy.

o Mô hình phải phản ánh được số liệu (các nhiễu phải thực sự ngẫu nhiên).

o Mô hình phải là phù hợp nhất trong số các mô hình có thể có.

• Các loại sai lầm định dạng của mô hình? Ví dụ: Giả sử ta có mô hình hàm tổng chi phí dạng bậc 3 như sau:

i 1 2 i1 3 i2 4 i3 iY X X X u (1)

Khi thiết lập một mô hình ta có thể mắc phải các sai lầm về mặt định dạng như sau:

o Mô hình bị thiếu biến cần thiết: nếu ta ước lượng mô hình (1) trên không có biến Xi3.

o Mô hình bị thừa biến: Nếu trong mô hình (1) ở trên ta đưa thêm cả biến Xi4.

o Nếu ta ước lượng mô hình dưới dạng lôga của các biến trong khi thực thế mô hình đúng có dạng tuyến tính, ta nói mô hình sai dạng hàm.

o Định dạng sai cho sai số ngẫu nhiên.

o Giả thiết về nhiễu ngẫu nhiên phân phối chuẩn.

• Hậu quả nếu một mô hình định dạng sai. o Mô hình thừa biến. o Dạng hàm sai & thiếu biến.

Do vậy:

Khoảng tin cậy và kiểm định giả thiết thường cho kết quả không đúng về các tham số.

Dự báo dựa trên các mô hình này thường không đáng tin cậy.

• Các kiểm định phát hiện sai lầm định dạng. o Kiểm định thừa biến.

Kiểm định thừa 1 biến: kiểm định T.

Kiểm định thừa từ 2 biến trở lên: Kiểm định F (thu hẹp của hàm hồi quy).

o Dạng hàm sai & thiếu biến: Kiểm định RESET.

• Phương pháp biến giả:

o Trong mô hình hồi quy, khi xem xét sự phụ thuộc của biến Y vào các yếu tố định tính (thu nhập vào giới tính, trình độ học vấn,...), ta cần lượng hóa các biến định tính này.

o Để lượng hóa các biến định tính này, ta sử dụng biến giả (Dummy variables). 1 biến giả D được thành lập nhận 2 giá trị 0 (nếu một thuộc tính nào đó xuất hiện) và 1 (nếu thuộc tính đó không xuất hiện).

o Biến giả trong mô hình hồi quy được sử dụng giống như các biến định lượng thông thường.

Page 24: 09 tvu sta301_bai7_v1.00131012140

Bài 7: Lựa chọn mô hình hồi quyƠơ[

116 STA301_Bài 7_v1.0013101214

CÂU HỎI THƯỜNG GẶP

1. Tại sao phải đánh giá và lựa chọn mô hình trong phân tích hồi quy?

2. Nếu nhiễu ngẫu nhiên của mô hình không có phân phối chuẩn như giả thiết, hậu quả sẽ như thế nào?

3. Hậu quả của việc mô hình bị định dạng sai là gì?

4. Làm thế nào để phát hiện ra các loại sai lầm định dạng nêu trên?

5. Tại sao ta chỉ xem xét phương pháp biến giả khi muốn nghiên cứu ảnh hưởng của biến định tính lên biến phụ thuộc?

6. Tại sao số biến giả được thiết lập cho một biến định tính phải ít hơn số thuộc tính của biến đó là 1?

7. Các biến giả trong mô hình hồi quy được sử dụng có khác gì với các biến định lượng thông thường không?

8. Nếu trong mô hình có cả biến lượng và biến chất thì nên xây dựng mô hình như thế nào?

BÀI TẬP TRẮC NGHIỆM

1. Các loại khuyết tật sau đây được gọi là các sai lầm định dạng của mô hình:

A. Mô hình thiếu biến cần thiết. B. Mô hình thừa biến.

C. Mô hình bị sai dạng hàm. D. Tất cả các loại trên.

2. Trong phương pháp biến giả, biến giả có thể nhận bất cứ giá trị bằng số nào:

A. Đúng. B. Sai.

3. Nếu biến độc lập gồm có 2 biến định tính, mỗi biến định tính gồm 3 thuộc tính, nếu sử dụng phương pháp biến giả, số biến giả được thiết lập trong mô hình là:

A. 3 B. 4

C. 5 D. 6

4. Trong phân tích hồi quy, chỉ có biến độc lập mới có thể là biến định tính:

A. Đúng. B. Sai.

5. Nếu mô hình có biến giả, ta không thể sử dụng phương pháp OLS để ước lượng mô hình.

A. Đúng. B. Sai.

6. Nếu một mô hình có biến độc lập bao gồm 1 biến định lượng và 2 biến định tính, mỗi biến có 2 thuộc tính, khi đó mô hình có bao nhiêu biến độc lập nếu ta giả thiết các thuộc tính khác nhau cả hệ số chặn và hệ số góc, đồng thời có tương tác giữa 2 biến định tính:

A. 3 B. 4

C. 5 D. 6.

7. Khi đặt biến giả trong mô hình, ta có thể cho bất cứ thuộc tính nào nhận giá trị bằng 0 hoặc bằng 1.

A. Đúng. B. Sai.