30/11/2018 1 PHÂN TÍCH DỮ LIỆU THỐNG KÊ ỨNG DỤNG SPSS 1 NỘI DUNG Giới thiệu chung về phân tích và dự đoán thống kê 1 Mô tả dữ liệu thống kê 2 Ước lượng và kiểm định giả thuyết thống kê 3 Phân tích dãy số thời gian và dự đoán 5 2 Phân tích hồi quy tương quan 4
117
Embed
NỘI DUNG - vai.org.vnvai.org.vn/docs/Daotao/Tke-SPSS/Tke_SPSS.pdf · 30/11/2018 3 1. Thống kê học: ... phân tích (các câu lệnh). Các cú pháp đượclưutrữvớiphần
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
30/11/2018
1
PHÂN TÍCH DỮ LIỆU THỐNG KÊ
ỨNG DỤNG SPSS
1
NỘI DUNG
Giới thiệu chung về phân tích và dự đoán thống kê1
Mô tả dữ liệu thống kê 2
Ước lượng và kiểm định giả thuyết thống kê 3
Phân tích dãy số thời gian và dự đoán5
2
Phân tích hồi quy tương quan4
30/11/2018
2
I
MỘT SỐ KHÁI NIỆM CHUNG
II
GIỚI THIỆU PHẦN MỀM
SPSS
BÀI 1
GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ
III
QUẢN LÝ DỮ LIỆU TRONG
SPSS
1. Thống kê học:
Thống kê học là khoa học nghiên cứu hệ thốngphương pháp (thu thập, xử lý, phân tích) con số (mặtlượng) của các hiện tượng số lớn tìm bản chất và tínhquy luật (mặt chất) trong những điều kiện nhất định.
30/11/2018
3
1. Thống kê học:
Thống kê là việc thu thập, trình bày, phân tích vàdiễn giải các dữ liệu dưới dạng số (Croxton và ctg)
Thống kêsuy luận
Thốngkê mô tả
Phương pháp thống kê
Các phương pháp thống kê
30/11/2018
4
1. Tổng thể thống kê và đơn vị tổng thể
Tổng thể thống kê là hiện tượng số lớn gồm các đơn
vị (phần tử) cần quan sát và phân tích mặt lượng.
Các đơn vị (phần tử) - đơn vị tổng thể.
2. Tiêu thức thống kê
Tiêu thức thống kê - đặc điểm của đơn vị tổng thể
được chọn để nghiên cứu
30/11/2018
5
3. Chỉ tiêu thống kê
Chỉ tiêu thống kê phản ánh mặt lượng gắn với chấtcủa các hiện tượng trong điều kiện thời gian và địađiểm cụ thể.
THANG ĐO TỶ LỆ(Ratio Scale)
THANG ĐO KHOẢNG(Interval Scale)
THANG ĐO THỨ BẬC(Ordinal Scale)
THANG ĐO ĐỊNH DANH(Nominal Scale)
Có gốc 0
Có khoảng cáchbằng nhau
Biểu hiệu có thứ tự hơn kém
CÁC THANG ĐO TRONG THỐNG KÊ
Đánh số các biểu hiện cùng loại của tiêu thức
Tiêu thứcthuộc tính
Tiêu thứcSố lượng
30/11/2018
6
II. Giới thiệu chung về SPSS
SPSS (Statistical Package for Social Sciences)Là phần mềm chuyên dụng xử lý thông tin sơcấp (thông tin được thu thập trực tiếp từ đốitượng nghiên cứu thông qua bảng hỏi đượcthiết kế sẵn)
11
Các màn hình SPSS
- Màn hình quản lý dữ liệu
- Màn hình quản lý biến
- Màn hình hiển thị kết quả
- Màn hình cú pháp
12
30/11/2018
7
Màn hình quản lý dữ liệu (data view)
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu baogồm cột, hàng 13
Màn hình quản lý biến (variables view)
Dùng để quản lý các biến và các thông tin liên quan đến biến, cơsở dữ liệu được lưu trữ dưới dạng *.SAV 14
30/11/2018
8
Màn hình hiện thị kết quả (output)
Các kết quả có thể copy hoặc copy object hoặc export sang cácphần mềm khác như word hay Excel,... Màn hình này cho phép taxem và lưu giữ các kết quả phân tích (*.SPO)
15
Màn hình cú pháp (syntax)
Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnhphân tích (các câu lệnh). Các cú pháp được lưu trữ với phầnmở rộng (*.SPS) 16
30/11/2018
9
File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…
Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…
View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…
Data: các vấn đề liên quan đến dữ liệu,…
Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…
Analyze: các phân tích thống kê,…
Graphs: biểu đồ và đồ thị,…
Utilities: thông tin về các biến và file,…
Window: sắp xếp và di chuyển các cửa sổ làm việc
Help: trợ giúp
Các menu chính
17
III. Quản lý dữ liệu trong SPSS
1. Tạo lập Cơ sở dữ liệu
2. Tạo biến trong cơ sở dữ liệu
3. Mã hóa lại dữ liệu
4. Lựa chọn các quan sát
5. Tách dữ liệu
6. Gộp dữ liệu
7. Lựa chọn quyền số cho các quan sát
18
30/11/2018
10
1. Tạo lập cơ sở dữ liệu trong SPSS
Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là một tập hợp thông tin có cấu trúc.
Thành phần của CSDL
• Quan sát (Observation): chứa thông tin về 1đối tượng điều tra/thời gian nghiên cứu
• Biến (variable): thể hiện các thuộc tính củaquan sát
19
Phân loại biến theo số lượng câu trả lời
Biến một trả lời (câu hỏi lựa chọn)Biến nhiều trả lời (câu hỏi tuỳ chọn)
20
30/11/2018
11
Biến một trả lời
Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số những nhóm tuổi sau:
Nhóm tuổi codeDưới 18 118 đến 30 231 đến 40 341 đến 50 4Trên 50 5
Mỗi câu hỏi sẽ hình thành một biến với các giá trị tương ứng21
Biến nhiều trả lờiCâu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệunào trong danh sách liệt kê dưới đây:
Nhãn hiệu codeVinataba 1Marlboro 2KENT 3JET 4
Mỗi biểu hiện sẽ hình thành một biến với 2 giá trị (có và không)
22
30/11/2018
12
Phân loại biến theo kiểu dữ liệu
Biến định tính
• Thang đo định danh (nominal scale)
• Thanh đo thứ bậc (ordinal scale)
Biến định lượng
• Thang đo khoảng (interval scale)
• Thang đo tỷ lệ (ratio scale)
23
Các loại/dạng dữ liệu trong SPSS
Dữ liệu chéo – cross data: Mỗi quan sát là một
đơn vị theo “không gian”
Dữ liệu chuỗi/thời gian – time serial data: Mỗi
quan sát là một đơn vị theo “thời gian”
24
30/11/2018
13
Variable Name (tên biến)Các qui tắc dưới đây được áp dụng cho tên biến:• Tên phải bắt đầu bằng một chữ.• Độ dài của tên biến không vượt quá 8 ký tự.• Tên biến không được kết thúc bằng một dấu chấm.• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) khôngđược sử dụng• Tên biến phải duy nhất (không được phép trùng lặp), phân biệtchữ trong tên biến. Các tên NEWVAR, NewVar, và newvar được xemlà giống nhau.• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (đểtránh xung đột với các biến được tự động lập bởi một số thủ tục)
Khai báo biến trong SPSS
25
Variable Type (kiểu biến)
Khai báo biến trong SPSS
26
30/11/2018
14
Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từngbiến và hiện thị kết quả khi chạy dữ liệu
Ví dụ: biến “q1” là biến “giới tính”
Khai báo biến trong SPSS
27
Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệuVí dụ: 1 là nam
2 là nữ
Khai báo biến trong SPSS
28
30/11/2018
15
Missing (giá trị khuyết) – dùng để loại những giá trị không có ý nghĩa
Khai báo biến trong SPSS
Các giá trị khuyết sẽ không tham gia vào quá trình phân tích29
Measure (thang đo)SPSS phân ra 3 loại thang đo- Nominal (thang đo định danh)- Ordinal (thang đo thứ bậc)- Scale (thang đo khoảng và thang đo tỷ lệ)
Khai báo biến trong SPSS
30
30/11/2018
16
Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có
giá trị với biến String)
Decimals (số lượng số hiện thị sau dấu phẩy)
Column format (Định kích cỡ cho cột- độ rộng của cột)
Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)
Khai báo biến trong SPSS
31
32
Ví dụ thực hànhTạo cơ cở dữ liệu
30/11/2018
17
33
Nhập dữ liệu
Thường nhập dữ liệu theo từng đối tượng (từng bảnghi) hoặc cũng có thể theo từng biến
34
30/11/2018
18
TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC
• File > Open > Data…
• Trong mục File of type chọn định dạng file phù hợp hoặcchọn All Files (*.*)
35
36
Mở một tệp tin {file} Excel
-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data... - Trong hộp thoại Open File, chọn file mà bạn muốn mở- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loạifile (Files of type) và sau đó chọn tên file (File name)- Nhắp Open
30/11/2018
19
2. Tạo biến trong cơ sở dữ liệuTransform > Compute Variable…
Tạo ra một biến mới theo biểuthức mô tả (Numeric expression)Biểu thức có thể là một phép tính, một hàm,…
Nếu tính theo một điều kiện nào đó thì nhấn vào if (đặt điều kiện vào tính toán cho biểu thức)
37
2. Tạo biến trong cơ sở dữ liệu
Phép toán+ Cộng- Trừ* Nhân/ Chia** Luỹ thừa
Toán tử> Lớn hơn< Nhỏ hơn>= Lớn hơn hoặc bằng<= Nhỏ hơn hoặc bằng= Bằng~= Không bằng& Và| Hoặc
38
30/11/2018
20
2. Tạo biến trong cơ sở dữ liệu
Phép toán+ Cộng- Trừ* Nhân/ Chia** Luỹ thừa
Toán tử> Lớn hơn< Nhỏ hơn>= Lớn hơn hoặc bằng<= Nhỏ hơn hoặc bằng= Bằng~= Không bằng& Và| Hoặc
39
2. Tạo biến trong cơ sở dữ liệuMỘT SỐ HÀM THÔNG DỤNG:
ABS(numexpr) – Trả về giá trị tuyệt đối
EXP(numexpr) – Trả về luỹ thừa của cơ số e
SQRT(numexpr) – Lấy căn bậc 2 của biểu thức
MIN(value,value[,...]) – Lấy giá trị nhỏ nhất
MAX(value,value[,...]) – Lấy giá trị lớn nhất
SUM(numexpr, numexpr[,...]) – Tính tổng của các số
MEAN(numexpr, numexpr[,...]) – Tính trung bình cộng
MEDIAN(numexpr, numexpr[,...]) – Tính trung vị
VARIAN(numexpr, numexpr[,...]) – Tính phương sai
SD(numexpr, numexpr[,...]) – Tính độ lệch chuẩn
40
30/11/2018
21
2. Tạo biến trong cơ sở dữ liệuLOWER(strexpr) – Viết thường các ký tự
UPCASE(strexpr) – Viết hoa các ký tự
LTRIM(strexpr) – Cắt khoảng trắng phía trái
RTRIM(strexpr) – Cắt khoảng trắng phía phải
STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định
dạng [F##.##]
CONCAT(strexpr, strexpr[,...]) – Nối các chuỗi ký tự
CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào
bên phải strexpr1 với độ ký tự xác định
CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào
bên trái strexpr1 với độ ký tự xác định
CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định
theo độ dài xác định [hoặc đến hết]
41
3. Mã hoá lại dữ liệu- Mã hoá lại dữ liệu thành một biến khác
• Chọn các biến muốn mã hoá, Nếuchọn nhiều biến, chúng phải có cùngdạng (chuỗi hoặc số)• Click vào Old and New Values vàđịnh rõ cách mã hoá lại trị số.• Sau đó nhấn Change
Transform > Recode into Different Variables…
Nhấn If để xác định một nhóm các đốitượng cũng giống như đã được mô tảtrong mục tính toán biến {Compute Variable}
42
30/11/2018
22
3. Mã hoá lại dữ liệu
- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)
Transform > Recode into Same Variables…
(không khuyến nghị thực hiện theo cách này!)Thực hiện tương tự như trường hợp trên nhưng biến mới được tạora thay cho biến cũ
43
3. Mã hoá dữ liệu tự động
• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang dạng số vào trong một biến mới. Biến mới này sẽ chứa các con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ đại diện cho các giá trị dạng chuổi giống nhau .
• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.Transform > Automatic Recode
44
30/11/2018
23
4. Lựa chọn các quan sátMặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn thực hiện trên một số quan sát sẽ tiến hành như sau:Data > Select cases
- Các quan sát không lựa chọnđược giữ và có dấu gạch chéochọn Filtered -> máy sẽ tạo ramột biến Filter_$ (lần sau nếuchọn tương tự thì sử dụng biếnnày để đưa vào ô Use filter variable)- Các quan sát được chọn sẽđược lưu sang cơ sở dữ liệu mớichọn Copy selected cases to a new dataset và đặt tên trong ô Dataset name- Các quan sát không lựa chọnbị xoá, chọn Deleted unselected cases
45
5. Tách dữ liệuTheo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theotừng nhóm nào đó sử dụng công cụ tách dữ liệuData > Split File
Đưa biến phân loại đưa sang ô Groups Based on:Chọn Compare groups nếu muốnso sánh giữa các nhómChọn Organize output by groups nếu muốn tách theo từng nhómriêng biệt
46
30/11/2018
24
Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:Data/ Aggregate Data
- Chuyển biến được chọn làm cơ sở để tập hợpdữ liệu sang cửa sổ Break Variable(s)- Chuyển biến muốn tập hợp sang cửa sổSummaries of Variables- Chọn Funtion để xác định các hàm tập hợp- Vào Name & Label để đặt tên và nhãn chobiến mới
47
6. Gộp dữ liệu
Tạo file dữ liệumới cho kết quả
tập hợp
Để biến mới tập hợptrong file dữ liệu hiện tại
7. Lựa chọn quyền số cho các quan sátMặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện cho một số lượng các quan sát, sử dụng quyền số.Data > Weight cases
Chọn Weight case by và đưa biến làm quyền số vào ô Frequency variable
48
30/11/2018
25
I
MÔ TẢ DỮ LIỆU QUA CÁC THAM SỐ THỐNG KÊ
II
MÔ TẢ DỮ LIỆU QUA BẢNG THỐNG KÊ
III
MÔ TẢ DỮ LIỆU QUA ĐỒ THỊ THỐNG KÊ
BÀI 2
MÔ TẢ DỮ LIỆU THỐNG KÊ
1. Các mức độ trung tâm
- Số bình quân (trung bình)- Mốt (Mo)- Số trung vị (Me)
50
30/11/2018
26
2. Các phân vị
- Phân vị thứ p là giá trị mà có p% số quan sát có giá trịnhỏ hơn hoặc bằng giá trị phân vị mức p và tương ứng có(100 - p)% số quan sát có giá trị lớn hơn hoặc bằng giátrị phân vị mức p.- Tứ phân vị- Thập phân vị
51
3. Các tham số đo độ phân tán
- Khoảng biến thiên: R = Xmax - Xmin
- Phương sai:
- Độ lệch tiêu chuẩn:
- Sai số chuẩn trung bình:
11
2
1
2
1
2
2
n
xnx
n
)xx(S
n
ii
n
ii
2SS
nS
x
52
30/11/2018
27
4. Các tham số phản ánh phân phối
- Hệ số bất đối xứng:)2)(1(
1
3
nnS
xxnSkewness
n
i
i
Hệ số này có giá trị càng gần 0 thì phân phối của dãy số lại càng đối xứng qua giá trị μ. Khi hệ số này nhỏ hơn 0, dãy số phân phối chuẩn lệch trái. Khi hệ số này lớn hơn 0, dãy số phân phối chuẩn lệch phải.
53
4. Các tham số phản ánh phân phối
- Hệ số độ nhọn:
Đối với phân phối chuẩn thì giá trị của hệ số Kurtosis bằng 3.
)n)(n)(n(S
xx)n(nKurtosis
n
i
i
321
11
4
)n)(n()n(
)n)(n)(n(S
xx)n(n
K
n
i
i
3213
321
1 21
4
Khi giá trị này bằng 0 thì đó là phân phối chuẩn, nếu giá trị mang dấu dương thì phân phối nhọn hơn so với phân phối chuẩn và ngược 54
30/11/2018
28
Sơ đồ hộp (box plot)
Me Q3Q1 XmaxXmin
• Là sơ đồ biểu diễn cùng lúc các đặc trưng trungtâm và độ biến thiên (phân tán)
Tác dụng của box plot
• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dàicủa hộp (khoảng tứ phân vị IQR).
56
Me Q3Q1 XmaxXmin
• Nhận biết độ lệch phân phối của dữ liệu
30/11/2018
29
Hình dáng của phân phốivà box plot
57
Lệch phảiLệch trái Đối xứngQ1 Me Q3Q1 Me Q3 Q1 Me Q3
Tác dụng của box plot
• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dàicủa hộp (khoảng tứ phân vị IQR).
• Nhận biết độ lệch phân phối của dữ liệu• Nhận biết lượng biến đột xuất và nghi ngờ là đột
xuất
58
30/11/2018
30
Nhận biết lượng biến đột xuất
Bài 2 59
IQR1.5 IQR1.5 IQR
Giới hạn trong
Giới hạn ngoài
Q1 Me Q3
Nghi ngờ là lượng biến
đột xuất
Nghi ngờ là lượng biến
đột xuất
Lượng biến đột xuất
Lượng biến đột xuất
Outer fence
Inner fence
hinger
1.5 IQR1.5 IQR
Nhận biết lượng biến đột xuất
30/11/2018
31
Nhận biết lượng biến đột xuất
Thực hiện bằng SPSSTrường hợp 1:Chọn Analyze > Descriptive Statistics > Frequencies…
Đưa các biến cần tính toán cáctham số sang Variable(s)Nhấn Statistic…
Trường hợp 2:Chọn Analyze > Descriptive Statistics > Explore …
Đưa các biến cần tính toán cáctham số sang Dependent ListMuốn phân tích theo biến nàođó thì đưa sang biến sangFactor ListTrong mục Display chọnStatistics hoặc Both
64
30/11/2018
33
Thực hiện bằng SPSSTrường hợp 3:Chọn Analyze > Descriptive Statistics > Descriptives…
Kiểm định về dạng phân phối(Kiểm định Kolmogorov – Smirnov một mẫu)Analyze\Nonparametric Tests\Legacy Dialogs\1-Sample K-S…
Chọn các biến cần kiểm định sang Test Variable List
Chọn các phân phối cần kiểm định:
- Phân phối chuẩn Normal
- Phân phối đều Uniform
- Phân phối luỹ thừa Exponetial
- Phân phối Poisson
133
I
PHÂN TÍCH TƯƠNG QUAN
II
PHÂN TÍCH HỒI QUY
BÀI 4
PHÂN TÍCH HỒI QUY TƯƠNG QUAN
30/11/2018
68
Phân tích tương quan nhằm đo mức độ phụ thuộc
tuyến tính giữa hai biến ngẫu nhiên
Hệ số tương quan đơn (Pearson)
I. Phân tích tương quan
135
yxyx
yxxyyxr
.),cov(
Hệ số tương quan hạng (Spearman)
I. Phân tích tương quan
136
)1(61 2
2
nn
dr is
30/11/2018
69
I. Phân tích tương quan
-1 0 +1
Liên hệ hàm số
Không có mối liên hệ
Mối liên hệ thuận càng chặt chẽ
Liên hệ hàm số
Mối liên hệ nghịch càng chặt chẽ
137
Kiểm định hệ số tương quanH0: = 0H1: ≠ 0Tiêu chuẩn kiểm định
H0: s = 0H1: s ≠ 0Tiêu chuẩn kiểm định
I. Phân tích tương quan
138
21 2
nr
rt
11/1
0
nrn
rz ss
30/11/2018
70
I. Phân tích tương quanAnalyze > Correlate > Bivariate…
Đưa các biến cần phân tích tươngquan sang Variables
Lựa chọn các hệ số tương quan
Hệ số tương quan - Pearson
Hệ số tương quan hạng-Spearman
139
II. PHÂN TÍCH HỒI QUY
Hồi quy giữa hai tiêu thức số lượng1
Hồi quy tuyến tính giữa nhiều tiêu thức số lượng2
Hồi quy với biến giả3
140
Hồi quy Logistic4
30/11/2018
71
* PHÂN TÍCH HỒI QUY ĐƠN
Đánh giá mô hình hồi quy (kiểm định các hệ số)2
Xây dựng phương trình hồi quy1
Dự đoán dựa vào mô hình hồi quy3
1. Phương trình hồi quy
Đường hồi quy lý thuyết: là đường điều chỉnh bù trừ cácchênh lệch ngẫu nhiên nêu ra mối liên hệ cơ bản của hiện tượng.
Đường hồi quy lý thuyết
x
y
0
Phương trình hồi quy: là phương trình xác định vị trí củađường hồi quy lý thuyết
30/11/2018
72
Phương trình hồi quy tổng thể
ii xxyE 10)/(
Tham số tự do (hệ số chặn)
Biến độc lậpNguyên nhân
Hệ số hồi quy (hệ số góc)
Biến phụ thuộcKết quả
Ý nghĩa các tham số
• β0: phản ánh ảnh hưởng của các nguyên nhân khác(ngoài nguyên nhân x) tới kết quả y
• β1: phản ánh ảnh hưởng trực tiếp của nguyên nhân x tớikết quả y. Cụ thể, khi x tăng thêm 1 đơn vị thì giá trị trungbình của y thay đổi là β1 đơn vị
- β1 > 0: x và y có mối liên hệ thuận (cùng chiều)- β1 < 0: x và y có mối liên hệ nghịch (ngược chiều)
30/11/2018
73
Phương trình hồi quy mẫu
ii xbby 10ˆ Ước lượng của tham số β0 Ước lượng của tham số β1
Với một mẫu ngẫu nhiên kích thước n, chúng ta có phương trình hồi quy mẫu như sau:
Phương pháp bình phương nhỏ nhất(Ordinary Least Squares- OLS)
x
y
0
146min)ˆ( 2 ii yyS
30/11/2018
74
Phương pháp bình phương nhỏ nhất(Ordinary Least Squares- OLS)
147
0))(.(2
0)1)(.(2
101
100
iii
ii
xxbbybS
xbbybS
210
10
....
iiii
ii
xbxbxyxbbny
min)( 210 ii xbbyS
Các giả thiết cơ bản của OLS
• Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên
• Kỳ vọng toán của sai số bằng không
• Sai số tuân theo quy luật phân bố chuẩn
• Phương sai của sai số không đổi
• Không có tương quan giữa các phần dư (tự tương quan)
• Không có mối tương quan giữa các biến độc lập (đa cộngtuyến) – đối với hồi quy bội
148
30/11/2018
75
Thực hiện bằng SPSSAnalyze > Regression > Linear…
Đưa biến phụ thuộc sang Dependent
Đưa một biến độc lập sang Independent(s)
149
2. Kiểm định hệ số hồi quy
Giả thuyết: H0: 1 = 0
Tiêu chuẩn kiểm định: )2(~)( 1
1 ntbSe
bT
21)(
)(xx
bSei
2)ˆ(
2
22
nyy
ne iii
150
30/11/2018
76
Ước lượng hệ số hồi quy
• Hai phía:
• Phái phải:
)()( 22
22 j
njjj
nj bsetbbsetb
)(2j
njj bsetb
• Phái trái: jj
nj bsetb )(2
Đánh giá độ phù hợp của mô hình
x
y
0
n
ii yySST
1
2
n
iii yySSE
1
2ˆ
n
i yySSR1
2ˆ
30/11/2018
77
Đánh giá độ phù hợp của mô hình
SSRSSESSTyyyyyy iiii
222 )ˆ()ˆ()(
2
22
)()ˆ(1
1
yyyyR
SSTSSE
SSTSSR
i
ii
153
R2 phản ánh phần trăm thay đổi của biến phụ thuộcđược giải thích bởi biến độc lập (mức độ phù hợpcủa mô hình)
Kiểm định ý nghĩa mô hình
Giả thuyết: H0: Mô hình không có ý nghĩa (β1=0)
Tiêu chuẩn kiểm định:
)2,1(~
2)ˆ()ˆ(
2
2
nF
nyyyyF
ii
i
154
30/11/2018
78
3. Dự đoán dựa vào mô hình hồi quy
Khoảng tin cậy ước lượng giá trị trung bình với độ tin cậy (1-α)
n
ii
n
xx
xxn
ty
1
2
20)2(
0
)(
)(1..ˆ2/
155
ii xbby 10ˆ
3. Dự đoán dựa vào mô hình hồi quy
Khoảng ước lượng giá trị cá biệt của Y
156
n
ii
n
xx
xxn
ty
1
2
20)2(
0
)(
)(11..ˆ2/
30/11/2018
79
Ước lượng giá trị dự đoánThực hiện Regression -> Nhấn save
157
Dự đoán điểm
Dự đoán bằng khoảng tin cậy
2. Hồi quy tuyến tính giữa nhiều tiêuthức số lượng
kikiii xbxbxbbY ....ˆ22110
Phương trình hồi quy
158
30/11/2018
80
Ý nghĩa các hệ số hồi quy riêng
Phản ánh ảnh hưởng thuần của nguyên nhân xj tới kếtquả y (khi các yếu tố khác không đổi). Cụ thể, khi xj
tăng thêm 1 đơn vị thì y thay đổi trung bình là βj đơn vị
159
Kiểm định hệ số hồi quy
• Giả thuyết:
)(
*
j
jj
bseb
T
*0 : jjH
• Tiêu chuẩn kiểm định:
• Nếu H0 đúng thống kê T sẽ tuân theo quy luật phân phốistudent với (n-k-1) bậc tự do.
30/11/2018
81
Ước lượng hệ số hồi quy
• Hai phía:
• Phái phải:
)()( 12
12 j
knjjj
knj bsetbbsetb
)(1j
knjj bsetb
• Phái trái:
jjkn
j bsetb )(1
Hệ số hồi quy chuẩn hoá
• Công thức: y
xjjj bBêta
• Biểu hiện vai trò của từng biến độc lập tới biến thuộc
30/11/2018
82
Đánh giá độ phù hợp của mô hình hồi quy tuyến tính bội
Sử dụng R2 điều chỉnh để so sánh độ phù hợp của môhình hồi quy có số lượng biến độc lập khác nhau
SSTSSER 12
163
1)1()1(1
1
11 22
kn
nR
nSST
knSSE
Ra
Kiểm định ý nghĩa của mô hình
Ho: ….p Hoặc: Ho: R2 = 0
)1(,1(~)1/()1(
)1/(2
2
knkF
knRkRF
164
30/11/2018
83
Hồi quy tuyến tính giữa nhiều tiêu thức số lượngAnalyze > Regression > Linear…
Đưa biến phụ thuộc sang Dependent
Đưa các biến độc lập sang Independent(s)
165
Thực hiện bằng SPSSLựa chọn Statistics…
Các lựa chọn
Estimates các ước lượng (lý thuyết)
Confidence intervals khoảng tin cậyước lượng
Covariance matrix ma trận hiệpphương sai
Model fit phân tích ANOVA
Descriptives thống kê mô tả
166
30/11/2018
84
3. Hồi quy với biến giả
Cách đặt biến giảa
Hồi quy với biến giảb
167
Đặt biến giả
Khi biến độc lập là biến định danh (biến phân loại)Biến giả là biến có 2 giá trị 0 và 1 phụ thuộc vào việc các quan sátcó chứa các tính chất được quan tâm hay không.Ví dụ: tiêu thức giới tính (nam, nữ)D1 = 0 nếu là nữD1 = 1 nếu là nam
168
30/11/2018
85
Đặt biến giả
Khu vực sinh sống (thành thị, nông thôn, miền núi)D1 = 1 nếu sống ở nông thônD1 = 0 nếu không sống ở nông thônD2 = 1 nếu sống ở thành thịD2 = 0 nếu không sống ở thành thị
169
Khu vực sinh sống D1 D2 D3 =1-D1-D2Nông thôn 1 0 0Thành thị 0 1 0Miền núi 0 0 1
Tiêu thức có k biểu hiện thì sẽ dùng k-1 biến giả, biểu hiện đượcgán trị trị 0 ở các biến giả được gọi là cơ sở
Hồi quy với biến giả
30/11/2018
86
Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi và giới tính (Nam, nữ)
b0
b2
iii DbXbbY 12110ˆ
171
Nữ (D1=0)
Nam (D1=1)
iii XbbbXbbY 1102110 0.ˆ
iii XbbbbXbbY 11202110 )(1.ˆ
Nữ:
Nam:
Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi và Khu vực (Thành thị, nông thôn, miền núi)
b0
b2
iiii DbDbXbbY 2312110ˆ
172
b3Miền núi (D1=0; D2=0)
Nông thôn (D1=1; D2=0)
Thành thị (D1=0; D2=1)
iii XbbbbXbbY 11032110 0.0.ˆ Miền núi:
iii XbbbbbXbbY 112032110 )(0.1.ˆ Nông thôn:
iii XbbbbbXbbY 113032110 )(1.0.ˆ Thành thị:
30/11/2018
87
Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) vớibiến tuổi, bằng cấp (có, không) và biến tương tác (tuổi và bằng cấp)
b0
b2
iiiii DXbDbXbbY 11312110 *ˆ
173
Không có bằng cấp (D1=0)
Có bằng cấp (D1=1)
iiii XbbXbbXbbY 110132110 0*.0.ˆ Không BC:
iiii XbbbbXbbXbbY 13120132110 )()(1*.1.ˆ Có BC:
Phân tích hồi qui logistic là một kỹ thuật thống kê để
xem xét mối liên hệ giữa biến độc lập (biến số hoặc biến
phân loại) với biến phụ thuộc là biến nhị phân (biến có
2 biểu hiện 0 và 1).
4. Phương trình hồi quy logistic
174
30/11/2018
88
Phương trình hồi quy
175
Nếu gọi p là xác suất để một biến cố xảy ra, thì 1-p
là xác suất để biến cố không xảy ra. Phương trình
hồi qui logistic được xây dựng như sau:
Phương trình hồi quy logistic
176
ixp
podds
)1
ln()ln(
ixep
p 1
i
i
x
x
eep
1
30/11/2018
89
Phương pháp xác định các hệ số hồi quy là phương
pháp hợp lý tối đa - maximum likelihood
Yi là biến phụ thuộc (biến nhị phân – 1 là xảy ra biến cố,
0 là không xảy ra biến cố)
Phương trình hồi quy logistic
177
)ˆˆ(
1)ˆˆ(
11
i
i
xiii
xi
exyxey
: Khi x tăng lên một đơn vị thì làm cho ln(odds) tăng lên lần
Nếu gọi odds0 khi xi=0 thì odds0=e
Nếu gọi odds1 khi xi = 1 thì odds1=e+
Tỷ số chênh (odds ratio - OR)
Như vậy, khi x tăng lên một đơn vị thì làm cho khả năng (xác
suất) biến cố xảy ra bằng e lần (so với với cũ)
Ý nghĩa của các hệ số
178
ee
eoddsoddsOR
0
1
ixp
podds
)1
ln()ln(
30/11/2018
90
Kiểm định Wald Chi-Square
.
Quy tắc đưa ra kết luận như quy tắc kiểm định
Kiểm định hệ số hồi quy
179
2
)ˆ(
ˆ
seSquareChiWald
Đo lường độ phù hợp tổng quát của mô hình hồi quy
logistic dựa vào chỉ tiêu -2LL
-2LL càng nhỏ thể hiện độ phù hợp mô hình càng cao
(bằng 0 tức là không có sai số)
Cũng có thể đánh giá mô hình dựa vào bảng phân loại
(clasification table)
Độ phù hợp của mô hình
180
30/11/2018
91
Dùng kiểm định Chi-Square:
Căn cứ vào mức ý nghĩa quan sát trong bảng Omnibus
Tests of Model
Kiểm định độ phù hợp của mô hình
181
Chọn Analysis> Regression> Binary Logistic…
Thực hiện bằng SPSS
182
30/11/2018
92
Nhấn Options…
Thực hiện bằng SPSS
183
I
KHÁI NIỆM CHUNG VỀ DÃY SỐ THỜI GIAN
II
PHÂN TÍCH ĐẶC ĐIỂM BIẾN
ĐỘNG CỦA HIỆN TƯỢNG QUA THỜI GIAN
III
PHÂN TÍCH CÁC THÀNH PHẦN CỦA DÃY SỐ THỜI GIAN
BÀI 5
PHÂN TÍCH DÃY SỐ THỜI GIAN VÀ DỰ ĐOÁN THỐNG KÊ
IV
DỰ ĐOÁN THỐNG KÊ
30/11/2018
93
I. Khái niệm chung về DSTG
Dãy số thời gian là một dãy trị số của chỉ tiêuthống kê được sắp xếp theo thứ tự thời gian
Có số liệu về giá trị hàng hoá dự trữ của một doanh nghiệptrong năm 2017 như sau:Ngày 1/1 1/4 1/7 1/10 31/12Gtrị(trđ) 300 320 360 340 380
Ví dụ: Có số liệu về giá trị sản xuất (GO) của doanh nghiệp A quacác năm:
II. Các chỉ tiêu phân tích đặc điểm biến động của hiện tượng qua thời gian
Mức độ bình quân qua thời gian1
Tốc độ phát triển 3
Giá trị tuyệt đối của 1% của tốc độ tăng (giảm)5
Tốc độ tăng (giảm)4
Lượng tăng (giảm) tuyệt đối 2
30/11/2018
94
1. Mức độ bình quân qua thời gian
Ý nghĩa: Mức độ bình quân theo thời gian phản ánh
mức độ đại biểu của tất cả các mức độ của dãy số.
n
y
nyyyyy
n
ii
nn
1121 ...
* Cách tính
+ Đối với dãy số thời kỳ:
1. Mức độ bình quân qua thời gian
+ Đối với dãy số thời điểm:
2CKDK yyy
* Dãy số biến động đều:
30/11/2018
95
1. Mức độ bình quân qua thời gian
+ Đối với dãy số thời điểm:
12
...2 12
1
n
yyyy
yn
n
* Dãy số biến động không đều, có số liệu tại thờiđiểm có khoảng cách thời gian bằng nhau:
1. Mức độ bình quân qua thời gian
+ Đối với dãy số thời điểm:
i
ii
ttyy
* Dãy số biến động không đều, có số liệu tại thờiđiểm có khoảng cách thời gian không bằng nhau:
30/11/2018
96
Chỉ tiêu Liên hoàn Định gốc MLH Bình quân
2. Lượng tăng (giảm) tuyệt đối
3. Tốc độ phát triển
4 Tốc độ tăng (giảm)
x
5. Giá trị tuyệt đối của 1% tốc độ tang (giảm) x x
1 iii yy 1yyii
i
iii
2
111
12
nyy
nnnn
n
ii
)100(1
i
ii y
yt )100(1y
yT ii
i
iii tT
21
1
11
2
n
nnn
nn
ii y
yTtt
)100(1(%)
)100(
)100(
1
1
1
i
i
i
i
iii
ty
yyya
)100(1(%)
)100(
)100(
1
1
1
i
i
ii
Ty
yyyA
)100(1(%) ta
100100
(%)
1
1
i
i
i
i
i
ii
y
y
ag
100100
(%)
1
1
y
y
AG
i
i
i
ii
Không tính
III. Phân tích các thành phần dãy số thời gian
Xu hướng (T)
Thời vụ/chu kỳ (S) Các yếu tố
ngẫu nhiên (I)
ISTY
ISTY
Mô hình kết hợp cộng
Mô hình kết hợp nhân
30/11/2018
97
III. Phân tích các thành phần dãy số thời gian
III. Phân tích các thành phần dãy số thời gian
Phương pháp biểu hiện biến động thời vụ2
Phương pháp biểu diễn xu hướng1
30/11/2018
98
1. Phương pháp biểu diễn xu hướng
Phương pháp bình quân trượta
Phương pháp hàm xu thếb
Dãy số được hình thànhbởi các số bình quân trượt
số bình quân cộng của mộtnhóm nhất định các mức độđược tính bằng cách lầnlượt loại trừ dần mức độđầu đồng thời thêm vào cácmức độ tiếp theo sao chosố lượng các mức độ thamgia tính số bình quân làkhông đổi
Sử dụng khi dãy số thời gian có xu thế rõ ràng theo thời gian vàbiến động mùa vụ:- Loại bỏ yếu tố thời vụ khỏi dãy số- Tiến hành biểu diễn xu thế f(t) (dãy số đã loại thời vụ).
jt Stfy ˆ
jt Stfy ˆ
Mô hình kết hợp cộng
Mô hình kết hợp nhân
Trong đó Sj là các chỉ số ở thời vụ thứ j
- San bằng mũ giản đơn
- San bằng mũ kết hợp xu hướng
- San bằng mũ kết hợp xu hướng và thời vụ
+ Kết hợp cộng
+ Kết hợp nhân
Lựa chọn mô hình san bằng mũ tốt nhất (dựa
vào RMSE)
3. Dự đoán dựa vào san bằng mũ
220
30/11/2018
111
Vấn đề là việc chọn thông thường chọn
San bằng mũ giản đơn
)yy.(yy tttt 1
ttt yyy ˆ).1(.ˆ 1
11 ˆ).1(.ˆ ttt yyy
10 Trong đó
Hoặc
Thay
12
1111 ˆ.)1(.).1(.ˆ).1(.).1(.ˆ ttttttt yyyyyyy
Tiếp tục thay thế, ta có:
111
33
22
11 11111 y.)(y......y..y.).(y)..(y.y ttttttt
1y 11ˆ yy
221
Dự đoán dựa vào san bằng mũ
Date
Q4 2000
Q3 2000
Q2 2000
Q1 2000
Q4 1999
Q3 1999
Q2 1999
Q1 1999
Q4 1998
Q3 1998
Q2 1998
Q1 1998
Q4 1997
Q3 1997
Q2 1997
Q1 1997
Q4 1996
Q3 1996
Q2 1996
Q1 1996
Number
250
200
150
100
50
VAR00001-Model_1
222
30/11/2018
112
San bằng mũ kết hợp xu hướng – mô hình Holt
hbLy ttht .ˆ
))(1(. 11 tttt bLyL
11 ).1( tttt bLLb
10
121 yyb Thông thường chọn và
,
11 yL
223
San bằng mũ kết hợp xu hướng,
Date
Q4 2000
Q3 2000
Q2 2000
Q1 2000
Q4 1999
Q3 1999
Q2 1999
Q1 1999
Q4 1998
Q3 1998
Q2 1998
Q1 1998
Q4 1997
Q3 1997
Q2 1997
Q1 1997
Q4 1996
Q3 1996
Q2 1996
Q1 1996
Number
250
200
150
100
50
VAR00001-Model_1
224
30/11/2018
113
Mô hình kết hợp nhân
San bằng mũ kết hợp xu hướng và thời vụ(Mô hình Holt – Winters)
hstttht ShbLy ..ˆ
)).(1(. 11
tt
st
tt bL
SyL
11 ).1(. tttt bLLb
stt
tt S
LyS
).1(.
225
Mô hình kết hợp nhân
San bằng mũ kết hợp xu hướng và thời vụ
43214 41 yyyyL
444441 444334224114
4yyyyyyyy
b
41
1 LyS
42
2 LyS
43
3 LyS
44
4 LyS
226
30/11/2018
114
Mô hình kết nhân
San bằng mũ kết hợp xu hướng và thời vụ
Date
Q4 2000
Q3 2000
Q2 2000
Q1 2000
Q4 1999
Q3 1999
Q2 1999
Q1 1999
Q4 1998
Q3 1998
Q2 1998
Q1 1998
Q4 1997
Q3 1997
Q2 1997
Q1 1997
Q4 1996
Q3 1996
Q2 1996
Q1 1996
Number
250
200
150
100
50
VAR00001-Model_1
227
Mô hình kết cộng
San bằng mũ kết hợp xu hướng và thời vụ
hstttht ShbLy .ˆ )).(1(. 11 ttsttt bLSyL
11 ).1(. tttt bLLb
stttt SLyS ).1(.
228
30/11/2018
115
Mô hình kết hợp cộng
San bằng mũ kết hợp xu hướng và thời vụ
Date
Q4 2000
Q3 2000
Q2 2000
Q1 2000
Q4 1999
Q3 1999
Q2 1999
Q1 1999
Q4 1998
Q3 1998
Q2 1998
Q1 1998
Q4 1997
Q3 1997
Q2 1997
Q1 1997
Q4 1996
Q3 1996
Q2 1996
Q1 1996
Number
250
200
150
100
50
VAR00001-Model_1
229
Dự đoán dựa vào san bằng mũAnalyze> Forecasting > Create Models…
230
30/11/2018
116
Dự đoán dựa vào san bằng mũAnalyze> Forecasting > Create Models…
231
Dự đoán dựa vào san bằng mũAnalyze> Forecasting > Create Models…
232
30/11/2018
117
Dự đoán dựa vào san bằng mũAnalyze>Forecasting > Create Models…
233
Dự đoán dựa vào san bằng mũAnalyze>Forecasting > Create Models…