PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÂN CỤM MỜ TRÊN … thao tom tat Pham Huy Thong.pdfthống, ở đó vẫn có những giới hạn về độ thuộc, sự do dự và

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM HUY THÔNG

PHÁT TRIỂN MỘT SỐ THUẬT TOÁN

PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH VÀ

ỨNG DỤNG TRONG DỰ BÁO

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 9460117.02

DỰ THẢO TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội, 2019

Công trình đƣợc hoàn thành tại:

Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội.

Người hướng dẫn khoa học: 1. PGS. TS. Lê Hoàng Sơn

2. PGS. TS. Nguyễn Thị Hồng Minh

Phản biện 1: .............................................

Phản biện 2: .............................................

Phản biện 3: .............................................

Luận án sẽ được bảo vệ tại Hội đồng chấm luận án cấp Đại học Quốc

gia họp tại: Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia

Hà Nội

vào hồi......giờ......., ngày.......tháng.......năm 20...

Có thể tìm hiểu luận án tại:

- Thư viện Quốc gia Việt Nam,

- Trung tâm thông tin - Thư viện, Đại học Quốc gia Hà Nội.

1

MỞ ĐẦU

Phân cụm dữ liệu là việc sắp xếp các đối tượng dữ liệu vào

từng cụm sao cho các phần tử trong cùng một cụm có mức độ tương

tự là cao nhất và hai phần tử bất kỳ ở hai cụm khác nhau có mức độ

tương tự là thấp nhất. Việc phân cụm như vậy giúp cho việc khai phá

dữ liệu, đặc biệt là các bài toán dữ liệu lớn trở nên hiệu quả khi các

dữ liệu được phân thành các nhóm với các tính chất đặc trưng. Tuy

nhiên, việc các phân cụm này cũng có một số nhược điểm là mỗi một

phần tử chỉ thuộc về một cụm dữ liệu hay một số dữ liệu có thể bị

thiếu thông tin hoặc thông tin không chắc chắn. Để giải quyết vấn đề

này, dựa trên lý thuyết về tập mờ của Zadeh, Bezdek đã đưa ra thuật

toán phân cụm mờ Fuzzy C-mean (FCM) nhằm giải quyết các nhược

điểm trên. Thuật toán này được biết đến như một phương thức chính

trong phân cụm mờ.

Tuy nhiên, chất lượng phân cụm của FCM thường không cao

do thuật toán này được cài đặt trên cơ cở của các tập mờ truyền

thống, ở đó vẫn có những giới hạn về độ thuộc, sự do dự và mơ hồ

của các tham số mẫu. Chính vì vậy việc nghiên cứu các thuật toán

phân cụm trên các tập mờ nâng cao nhằm mục tiêu giải quyết các

nhược điểm này. Đến nay đã có rất nhiều các thuật toán phân cụm

trên các tập mờ nâng cao như thuật toán phân cụm trên tập mờ loại 2

(T2FS), tập mờ trực cảm, … mang lại chất lượng phân cụm tốt hơn.

Tuy nhiên các thuật toán này khi phân cụm cho kết quả vẫn chưa đưa

ra được các thông tin đầy đủ, đặc biệt là sự phù hợp của mô hình.

Vào năm 2014, tác giả Bùi Công Cường giới thiệu tập mờ viễn

cảnh (PFS), là một sự khái quát hóa của tập mờ truyền thống và tập

mờ trực cảm. Các mô hình dựa trên PFS có thể được áp dụng cho

nhiều tình huống cần ý kiến của con người liên quan nhiều đến các

câu trả lời kiểu: đồng ý, do dự, không đồng ý và từ chối trả lời. Các

tình huống này có thể cho kết quả rõ ràng hơn trên các thuật toán

phân cụm dựa trên PFS. Chính vì vậy việc phát triển thuật toán phân

2

cụm mờ trên PFS sẽ nâng cao độ chính xác phân cụm. Hiện nay các

thuật toán phân cụm mờ trên tập mờ viễn cảnh mới chỉ dừng lại ở

việc đưa ra một số độ đo kết hợp sử dụng phân cụm phân cấp để thực

hiện mà chưa xem xét đến việc phân cụm theo cách tiếp cận phân

hoạch.

Ngoài các nhược điểm về chất lượng cụm, thuật toán FCM và

các thuật toán phân cụm trên các tập mờ nâng cao còn có một số

nhược điểm khác như xác định số cụm hay xử lý với dữ liệu phức

tạp. Thứ nhất, thuật toán FCM và các thuật toán phân cụm trên các

tập mờ nâng cao phải xác định trước số cụm trước khi thực hiện phân

cụm. Việc xác định số cụm ban đầu không tốt dẫn đến chất lượng

cụm không tốt, chứa nhiễu hoặc các điểm ngoại biên. Có ba cách tiếp

cận cụ thể là quét, tiền xử lý và cắt tỉa đang được sử dụng nhiều nhất.

Các nghiên cứu đã chứng minh được phương pháp cắt tỉa là cách tiếp

cận hiệu quả nhất. Thứ hai, xử lý với dữ liệu phức tạp là không dễ

với FCM và các thuật toán phân cụm trẻn tập mờ nâng cao. Các

phương pháp phân cụm trên tập dữ liệu phức tạp được chia thành hai

nhóm: loại dữ liệu hỗn hợp bao gồm dữ liệu kiểu loại, dữ liệu số và

cấu trúc đặc biệt của dữ liệu.

Phân cụm mờ có rất nhiều ứng dụng trong thực tế cuộc sống ở

rất nhiều lĩnh vực khác nhau như: trong kinh tế với dự báo tỉ giá, dự

báo chứng khoán, dự báo tài chính, …; trong y khoa: Hỗ trợ chuẩn

đoán hình ảnh, hỗ trợ tư vấn khám bệnh, …; trong thủy văn: dự báo

thời tiết ngắn hạn, …; trong xử lý ảnh: Phân đoạn ảnh, …; trong hệ

tư vấn: hỗ trợ ra quyết định, …

Đề tài nghiên cứu tập trung vào ứng dụng của phân cụm mờ

trong bài toán dự báo thời tiết ngắn hạn. Dự báo thời tiết ngắn hạn

kết hợp mô tả về trạng thái hiện tại của khí quyển và dự báo ngắn hạn

về khí quyển sẽ xẩy ra trong vài giờ tiếp theo. Điều này cho phép nó

có thể dự báo các tính chất thời tiết trong ngắn hạn như mưa, mây và

các cơn bão với các nguyên nhân rõ ràng khoảng thời gian này. Các

3

dữ liệu rada mới nhất, dữ liệu vệ tinh và dữ liệu dựa trên quan sát

được sử dụng để phân tích các biến đổi trong phạm vi hẹp như một

thành phố và thực hiện một dự báo chính xác cho khoảng thời gian

vài giờ sau. Tuy nhiên, quan sát vệ tinh là sự lựa chọn thích hợp cho

các khu vực trong vùng phủ sóng của nó.

Mục tiêu nghiên cứu

- Mục tiêu 1: Nghiên cứu, tổng hợp, phân tích và đề xuất thuật

toán phân cụm mờ trên tập mờ viễn cảnh. Kiểm chứng bằng

lý thuyết sự hội tụ của thuật toán và thực nghiệm, so sách với

các thuật toán phân cụm mờ khác.

- Mục tiêu 2: Nghiên cứu, phát triển các thuật toán phân cụm

mở rộng trên tập mờ viễn cảnh như: phân cụm xác định số

cụm tự động, phân cụm với dữ liệu phức tạp. Kiểm chứng, so

sách với các thuật toán liên quan khác.

- Mục tiêu 3: Nghiên cứu, phát triển ứng dụng của thuật toán

phân cụm trên tập mờ viễn cảnh vào bài toán dự báo thời tiết

dựa trên ảnh mây vệ tinh.

Nội dung nghiên cứu

- Nội dung 1: Nghiên cứu phát triển thuật toán phân cụm mờ

mới trên tập mờ viễn cảnh (FC-PFS).

- Nội dung 2: Khảo sát tính chất hội tụ của thuật toán FC-PFS

về mặt lý thuyết và kiểm chứng về mặt thực nghiệm trên bộ

dữ liệu chuẩn UCI.

- Nội dung 3: Đề xuất mở rộng của FC-PFS cho việc phân

cụm mờ tự động xác định số cụm.

- Nội dung 4: Đề xuất mở rộng của FC-PFS trong xử lý các dữ

liệu phức tạp.

- Nội dung 5: Xây dựng luật mờ viễn cảnh từ FC-PFS.

- Nội dung 6: Ứng dụng luật mờ viễn cảnh trong bài toán dự

báo thời tiết ngắn hạn dựa trên ảnh mây vệ tinh.

4

Phƣơng pháp nghiên cứu

- Khảo cứu: Khảo sát các phương pháp liên quan về phân cụm

mờ, xử lý dữ liệu không chắc chắn.

- Nghiên cứu gia tăng: Cải tiến, mở rộng thuật toán phân cụm

mờ (FCM) trên tập mờ viễn cảnh.

- Nghiên cứu lý thuyết: Phân tích và chứng minh một số tính

chất về hội tụ của mô hình đề xuất.

- Nghiên cứu mở rộng: Mở rộng FC-PFS trong một số trường

hợp đặc biệt.

- Nghiên cứu ứng dụng: Ứng dụng mô hình đề xuất cho bài

toán dự báo thời tiết ngắn hạn dựa trên ảnh mây vệ tinh.

Phạm vi và giới hạn của đề tài nghiên cứu

- Phát triển thuật toán phân cụm mờ trên tập mờ viễn cảnh với

phân cụm phân hoạch.

- Ứng dụng: Áp dụng cho bài toán dự báo thời tiết ngắn hạn dựa

trên ảnh mây vệ tinh với việc sử dụng phương pháp hồi quy

không thời gian, suy luận mờ và sử dụng luật mờ viễn cảnh.

Bố cục của luận án

- Chương mở đầu: trình bày bối cảnh nghiên cứu; tổng quan

nhanh và các hạn chế về bài toán phân cụm mờ; các vấn đề

nghiên cứu; mục tiêu nghiên cứu; hướng tiếp cận và phương

pháp nghiên cứu; nội dung nghiên cứu; phạm vi và giới hạn

nghiên cứu; các đóng góp chính và bố cục của luận án.

- Chương 1: Giới thiệu một số kiến thức cơ sở chuẩn bị về đề

tài nghiên cứu. Chương này trình bày giới thiệu sơ lược về

tập mờ, các thuật toán phân cụm mờ, các thuật toán phân

cụm mờ mở rộng cho việc tự động xác định số cụm, xử lý

với dữ liệu phức tạp và ứng dụng trong dự báo thời tiết ngắn

hạn. Một số độ đo tiêu chí đánh giá và bộ dữ liệu cũng được

trình bày.

5

- Chương 2: Giới thiệu về thuật toán phân cụm trên tập mờ viễn

cảnh từ ý tưởng thuật toán, cách thức triển khai thuật toán, đánh

giá lý thuyết về sự hội tụ và thực nghiệm tính toán.

- Chương 3: Đề xuất cải tiến của thuật toán phân cụm trên tập

mờ viễn cảnh với việc tự động xác định số cụm và xử lý dữ

liệu phức tạp, có các thực nghiệm kiểm chứng kèm theo.

- Chương 4: Áp dụng thuật toán phân cụm mờ trên tập mờ viễn

cảnh cho bài toán dự báo ảnh mây về tinh.

CHƢƠNG 1. CƠ SỞ LÝ THUYẾT

Tập mờ 1.1.

Trong phần này tác giả trình bày các khái niệm về tập mờ các

các tập mờ nâng cao, đặc biệt là tập mờ viễn cảnh. Tập mờ viễn cảnh

là tập mờ tổng quát của tập mờ trực cảm và tập mờ thường với thể

hiện được các hành vi ra quyết định giống con người như khẳng đinh,

phủ định, trung lập và từ chối

Độ đo tƣơng tự và đánh giá chất lƣợng cụm 1.2.

Các độ đo tương tự đánh giá chất lượng cụm gồm có chỉ số

Mean Accuracy (MA), chỉ số Davies-Bouldin (DB), chỉ số Rand, chỉ

số Alternative Silhouette ( ), chỉ số WGLI [64] và PBM [72].

Thuật toán phân cụm mờ 1.3.

Trong phần này, các thuật toán phấn cụm mờ trên tập mờ

thường, tập mờ loại 2 và tập mờ trực cảm được trình bày.

Một số thuật toán khác 1.4.

1.4.1. Thuật toán tối ưu bầy đàn (PSO)

Thuật toán tối ưu hóa bầy đàn (PSO) là một chiến lược tiến

hóa nhằm tối ưu hóa một vấn đề bằng phương pháp lặp cố gắng cải

thiện một giải pháp ứng viên tới một chất lượng cho trước. Thuật

toán PSO gồm các bước sau: khởi tạo bầy, tính toán các giá trị fitness

và cập nhật các phương án.

6

1.4.2. Thuật toán DifFuzzy

Thuật toán phân cụm DifFuzzy dựa trên FCM và các biểu đồ

khuếch tán để phân dữ liệu vào các cụm có cấu trúc hình học phi

tuyến phức tạp.

1.4.3. Thuật toán Dissimilarity

Thuật toán Dissimilarity là dựa trên thuật toán phân cụm mờ

K-Medoids với trọng số liên quan cho mỗi ma trận không tương tự bao

gồm 5 bước: khởi tạo, tính toán giá trị tốt nhất, tính toán trọng số liên quan

tốt nhất, định nghĩa phân hoạch mờ tốt nhất, và điều kiện dừng.

1.4.4. Phương pháp FCM-STAR

Pfeifer và Deutsch đã đề xuất mô hình không thời gian tuyến

tính, là một phiên bản 3D của mô hình hồi quy thông thường (AR) và

nó cho phép người dùng dự báo một chuỗi không thời gian dựa trên

thông tin trong quá khứ của nó theo không gian và thời gian. Mật độ

của mỗi điểm ảnh ( ) trong một miền hình ảnh có thể được mô

phỏng như một hàm " " của mật độ các pixel lân cận theo không

gian và thời gian, với giả định của quan hệ nhân quả.

Bộ dữ liệu thực nghiệm 1.5.

Tập dữ liệu thử nghiệm cho FC-PFS và các thuật toán cải tiến

được lấy trên kho dữ liệu học máy chuẩn UCI với những bộ dữ liệu

hoàn toàn là số như IRIS, WINE, WDBC, GLASS, IONOSPHERE,

HABERMAN, HEART and CMC. Các dữ liệu đầu vào cho bài toán

dự báo thời tiết ngắn hạn là các ảnh vệ tinh được lấy ở cùng một vị trí

và cùng khoảng thời gian. Bộ sưu tập hình ảnh bao gồm ba bộ hình

ảnh: Malaysia (dữ liệu 1), Luzon – Philippines (dữ liệu 2) và Jakarta

– Indonesia (Dữ liệu 3). Mỗi tập dữ liệu chứa 7 ảnh liên tiếp từ 7.30

sáng đến 13.30 chiều ngày 28/11/2014. Các hình ảnh có cùng kích

thước (100x100 pixel).

Kết luận chƣơng 1.6.

Trong chương này, các kiến thức cơ sở về tập mờ, các độ đo

đánh giá chất lượng cụm, các thuật toán phân cụm và các thuật toán

liên quan khác đã được trình bày. Các kiến thức cơ sở này sẽ là nền

tảng cho việc giải quyết các bài toán ở các chương sau.

7

CHƢƠNG 2. THUẬT TOÁN PHÂN CỤM TRÊN TẬP MỜ

VIỄN CẢNH

2.1. Ý tƣởng thuật toán

Ý tưởng của thuật toán là thiết kế hàm mục tiêu gồm hai thành

phần như của thuật toán phân cụm trên tập mờ trực cảm. Với thành

phần thứ nhất được cải tiến từ hàm mục tiêu của thuật toán phân cụm

mờ thường nhưng thành phần độ thuộc được thay thế bằng đại lượng

( ( )). Đại lượng này thể hiện cho việc một điểm dữ liệu nếu

thuộc về một cụm thì giá trị phải lớn và phải càng nhỏ. Thành

phần thứ hai trong hàm mục tiêu chính là đại lượng entropy

( ). Bằng việc cực tiểu hóa đại lượng này, các điểm dữ liệu

sẽ có giá trị và nhỏ, giúp giảm đi các giá trị trung lập và từ chối

của mô hình, giúp mô hình phân cụm cải tiến được độ chính xác hơn.

2.2. Thuật toán phân cụm trên tập mờ viễn cảnh

2.2.1. Hàm mục tiêu

Giả sử có một tập X chứa N điểm trong không gian đa chiều.

Hãy chia tập dữ liệu thành C nhóm thỏa mãn hàm mục tiêu sau.

∑ ∑ . ( )/

‖ ‖

∑ ∑ ( )

, (1)

Các ràng buộc được định nghĩa như sau:

; , -

(2)

∑ . ( )/ ,

(3)

∑ .

/

,

(4)

Mô hình đề xuất trong công thức (1-4) dựa trên nguyên lý của

tập PFS và được tóm tắt như sau:

Mô hình đề xuất là khái quát hóa của mô hình phân cụm

mờ trên tập mờ viễn cảnh trong công thức (1-4) khi

và điều kiện (4) không tồn tại, mô hình đề xuất là mô hình

phân cụm mờ trực cảm.

8

Khi và , điều kiện (4) không tồn tại, các

điều kiện khác thỏa mãn, mô hình đề xuất là mô hình phân

cụm mờ.

Công thức (3) chỉ ra độ thuộc của điểm tới tâm cụm

là ( ) thỏa mãn các ràng buộc trong mô hình

phân cụm mờ truyền thống.

Công thức (4) đảm bảo trên tập PFS vì ít nhất một trong hai

nhân tố không chắc chắn là độ trung lập và độ từ chối luôn

tồn tại trong mô hình.

Một ràng buộc khác trong (2) phản ảnh định nghĩa của các

tập PFS.

Định lý 1. Các giải pháp tối ưu của hàm mục tiêu trong (1-4)

là:

( ) . ( ) /

,

( , ),

(5)

∑ ( )(‖ ‖

‖ ‖)

,

( ; ),

(6)

∑

.

∑

/,

( ; ),

(7)

∑ . ( )/

∑ . ( )/

,

( ).

(8)

2.2.2. Chi tiết thuật toán

Thuật toán FC-PFS có cấu trúc lắp giống với thuật toán FCM

với việc khởi tạo ngẫu nhiên tham số , . Quá trình lặp bắt đầu

bằng việc tính , sau đó tính lại các giá trị mới của , và dừng

khi các giá trị , gần như không đổi.

9

2.3. Khảo sát tính chất hội tụ của thuật toán

Trong phần này, một số mệnh đề dẫn đến sự hội tụ của FC-

PFS được trình bày với ý tưởng sử dụng định lý Zangwill để chứng

minh hàm mục tiêu của thuật toán sẽ hội tụ với các nghiệm là các giá

trị được tính theo công thức (1-4).

2.4. Thực nghiệm số

Môi trường thử nghiệm thuật toán được mô tả như sau: thuật

toán đề xuất FC-PFS, thuật toán FCM [7], IFCM [10], KFCM [25] và

KIFCM [38] sử dụng ngôn ngữ lập trình. Kết quả thử nghiệm là kết

quả trung bình sau 50 lần chạy.

2.4.1. Ví dụ minh họa cho FC-PFS

Phần này sẽ minh họa chi tiết các bước thực hiện với ví dụ số

của thuật toán FC-PFS với tập dữ liệu IRIS.

2.4.2. So sánh chất lượng phân cụm

Qua kết quả nhận được, rõ ràng nhận thấy FC-PFS cho kết quả

phân cụm tốt hơn các thuật toán phân cụm khác trong nhiều trường hợp.

2.4.3. Đánh giá thuật toán qua các tham số

FC-PFS được thử nghiệm với hệ số mũ nhằm xác định sự

ảnh hưởng của hệ số này với hiệu năng của hệ thống. Kết quả cho

thấy khi giá trị hệ số mũ nhỏ, số lần thuật toán FC-PFS đạt giá trị

Mean Accuracy (MA) tốt nhất ít hơn so với một số thuật toán khác.

Tuy nhiên, khi tăng giá trị , FC-PFS cho kết quả phân cụm tốt hơn.

Giá trị cho chất lượng cụm tốt nhất ở chỉ số MA, RI và DB.

2.5. Kết luận chƣơng

Trong chương này, thuật toán phân cụm mờ trên tập mờ viễn

cảnh được đề xuất. Bằng cách kết hợp các thành phần của PFS và mô

hình phân cụm, FC-PFS cho kết quả phân cụm tốt hơn một số thuật

toán phân cụm khác như FCM, IFCM, KFCM và KIFCM. Kết quả

này là cơ sở để cho các nghiên cứu, cải tiến tiếp theo của thuật toán

trên các bài toán mở rộng như tự động xác định số cụm, xử lý dữ liệu

phức tạp và áp dụng cho một số ứng dụng dự báo trong tương lai.

10

CHƢƠNG 3. MỘT SỐ CẢI TIẾN CỦA THUẬT TOÁN

PHÂN CỤM MỜ TRÊN TẬP MỜ VIỄN CẢNH

3.1. Thuật toán phân cụm mờ tự động xác định số cụm

3.1.1. Ý Tưởng thuật toán

Trong phần này, luận án đã đề xuất thiết kế một phương thức

lai giữa thuật toán tối ưu hóa bầy đàn PSO và FC-PFS, được đặt tên

là AFC-PFS. Ở đó các giá trị ngưỡng, số cụm, tâm cụm tương ứng và

ma trận độ thuộc được đóng gói và tối ưu bởi chiến lược của thuật

toán PSO. Thuật toán mới AFC-PFS sử dụng lược đồ tối ưu PSO,

mỗi cá thể hay mỗi phương án trong PSO khởi tạo ngẫu nhiên giá trị

các tham số và sau đó lặp giảm số lượng cụm cho đến khi chỉ số chất

lượng cụm Picture Composite Cardinality ( ) liên quan đến số

lượng các cụm trong phạm vi chấp nhận được theo một ngưỡng .

Số lượng các cụm đã đạt được bây giờ được coi là một giá trị tối ưu

trong sự kết hợp với các giá trị hiện tại của các tham số của

( ( ), ( ), ( )và ). Để đánh giá độ tốt của mỗi phương án, giá trị

fitness của PSO được tính bằng giá trị Alternative Silhouette

( ).

3.1.2. Chi tiết thuật toán

Khởi tạo ban đầu số lượng phương án của PSO là

{ }, ở đó mỗi phương án gồm các thành phần sau:

( ( ), ( ), ( )): là ma trận độ thuộc, trung lập và từ chối của

phương án .

( ): Các tâm cụm tương ứng với ( , , ).

: một ngưỡng để xác định số lượng các cụm của phương án

: vận tốc dich chuyển ngưỡng của phương án

: số lượng các cụm của phương án

Một phương án bắt đầu từ một số cụm nhất định được biểu thị

bằng , là căn bậc hai của số phần tử trong tập dữ liệu, và cố

gắng để thay đổi nó theo các giá trị hiện tại của ( ( ), ( ), ( )) và .

11

Để làm được điều này, giá trị được đề xuất và giá trị này càng

nhỏ thì chất lượng cụm càng tốt.

∑ ( ) , ( ), (13)

ở đó c là số cụm cho trước. Tiêu chí cho việc lựa chọn số lượng cụm

phụ thuộc vào ngưỡng của phương án. Khi tìm thấy số cụm tối ưu

cho phương án này, áp dụng FC-PFS để có được các giải pháp mới

( ( ), ( ), ( ), ( )). Một trong những chỉ số đánh giá ổn định nhất

cho việc phân cụm, được sử dụng để đo chất lượng cụm. Nếu

giải pháp đạt được các kết quả là tốt hơn so với những giải pháp

trước đó, các giải pháp ngày được ghi nhận là giải pháp tối ưu cục bộ

địa phương Pbest-( ( )

, ( )

, ( )

, ( )

) của phương án. Sau

đó, phương án được cập nhật bằng cách thay đổi ngưỡng như sau.

() ( ) ()

( ),

(14)

, ( ), (15)

ở đây , là các tham số PSO để cập nhật (một cách tổng quát

). Định nghĩa một giá trị mới, khi đó các giải pháp

khác nhau ( ( ), ( ), ( ), ) có thể nhận được kết quả tốt hơn so với

các giải pháp tối ưu cục bộ địa phương Pbest

( ( )

, ( )

, ( )

, ( )

). Sự cập nhật của tất cả các phương án

được tiếp tục lặp lại cho đến khi tất cả các bước lặp được thực hiện.

Các giải pháp cuối cùng cho kết quả số lượng các cụm là phù hợp

nhất, các tâm cụm và ma trận thuộc của nó được xác định từ tất cả

các phương án thông qua các giá trị tốt nhất của các giá trị cục bộ

từng phương án ( ) và tổng thể tất cả các phương án ( ).

Thuật toán AFC-PFS có những lợi thế như sau:

- Tổng kết hợp chiến lược PSO và các hoạt động chính của

FC-PFS nâng cao hiệu năng của thuật toán..

12

- AFC-PFS linh hoạt hơn trong việc áp dụng cho các phương

pháp phân cụm mờ khác bằng cách thay FC-PFS bằng các

thuật toán phân cụm mờ khác.

Tuy nhiên, mô hình đề xuất vẫn tồn tại một số hạn chế là thời

gian tính toán là khá lớn. Ngoài ra, số cụm trong mỗi phương án

được giảm từ một số cụm nhất định và không thể tăng lại được. Nói

cách khác, trường hợp này hiếm khi xảy ra vì số lượng các cụm thực

tế thường nhỏ hơn rất nhiều số phần tử của tập dữ liệu.

3.1.3. Thực nghiệm số

Ở phần này, thuật toán đề xuất AFC-PFS được cài đặt bên

cạnh thuật toán GA của phương pháp cắt tỉa, phương pháp không

tham số (NPM) của phương pháp quét và thuật toán CCE của phương

pháp tiền xử lý. Để kiểm tra sự tác động của việc sử dụng ASWC

trong việc đo chất lượng phân cụm, AFC-PFS được cài đặt với hai

biến thể sử dụng các chỉ số đánh giá khác nhau là WGLI và PBM. Các

kết quả thực nghiệm cho thấy thuật toán đề xuất cho số lượng cụm gần

với số lượng cụm mặc định của bộ dữ liệu. Đồng thời, thời gian chạy

của AFC-PFS thậm chí còn nhanh hơn một số thuật toán khác.

3.2. Thuật toán phân cụm mờ với dữ liệu phức tạp

3.2.1. Độ đo cho thuộc tính kiểu loại

Giả sử ( ) là khoảng cách của phẩn tử và trên

thuộc tính ( , , ). Nếu thuộc tính

là dữ liệu số, ( ) được tính dựa theo công thức tính khoảng

cách Euclid. Nếu dữ liệu là kiểu loại thì khoảng cách được tính bằng

phương trình (16).

( ) {

(16)

Dữ liệu đầu vào phải được chuẩn hoá trên đoạn [0, 1] với 0 là

khoảng cách tối thiểu giữa hai phần tử và 1 là khoảng cách lớn nhất

giữa 2 phần tử.

13

3.2.2. Thuật toán phân cụm với dữ liệu phức tạp (PFCA-CD)

Để phân vùng dữ liệu với kiểu kết hợp và cấu trúc khác biệt,

thuật toán FC-PFS được kết hợp với thuật toán PSO và được đặt tên

là PFCA-CD như sau: Giả sử, cho tập dữ liệu chứa dữ liệu kết hợp

số và kiểu loại có cấu trúc phức tạp và số các cụm . Thay vì sử dụng

thao tác lặp của FC-PFS, ta sử dụng bước lặp của PSO. Tập ban đầu

của PSO là { } mà ở đó mỗi phương án bao

gồm các thành phần sau:

( , , ): độ thuộc, độ trung lập và từ chối của các

phần tử.

( ,

, ): độ thuộc, độ trung lập và từ chối

của các phần tử trong có chất lượng cụm tốt nhất theo thứ tự.

and : tập các tâm cụm tương ứng với ( , , ) và

( ,

, ) theo thứ tự.

: giá trị chất lượng tốt nhất mà một phương án đạt được.

Một phương án bắt đầu từ một giá trị cho trước của

( , , ) và cố gắng thay đổi chúng để sao cho đạt được giá trị

tối ưu. Giá trị tối ưu được tính như sau:

∑ ∑ . ( )/

‖ ‖

∑ ∑ ( )

,

(17)

Quá trình này có thể được coi là sự kết hợp tốt nhất giữa giá trị

fitness và trạng thái hiện hành của các phương án. Nếu các thuật toán

cho kết quả là tốt hơn so với những thuật toán liên quan khác, các

giải pháp tối ưu địa phương Pbest-

( ,

, ,

) của các phương án được ghi lại.

Sau đó, các phương án được cập nhật giá trị. Trong việc cập nhật,

( , ) được tính theo phương trình (6-7) và (18-19) như dưới đây.

( ) ( ),

( , ),

(18)

14

( ) ( ),

( , ),

(19)

ở đó ( , , và ) là những giá trị tốt nhất toàn

cục. Tâm của cụm được chọn là những phần tử có độ thuộc tốt nhất

vào cụm j.

Việc cập nhật tất cả các phương án được tiếp tục đến khi đạt

được một số lần lặp nhất định hay giá trị tối ưu toàn cục không đổi.

Chi tiết thuật toán như sau:

I: Tập dữ liệu có số phần tử ( ) trong không gian chiều; Số

cụm ( ); ngưỡng , số mờ và số bước lặp

O: Ma trận , , và các tâm cụm ;

1: t = 0

2: ( ) ;

( ) ; ( )

( , ) thỏa mãn (2)

3: Repeat

4: t = t + 1

5: For each phương án

6: Chọn tâm ( ) ( )

7: Tính toán ( ) ( ; ) bằng công thức (18)

8: Tính toán ( ) ( ; ) bằng công thức (19)

9: Tính toán ( )

( ; ) bằng công thức (5)

10: Tính toán giá trị fitness bằng công thức (17)

11: Cập nhật giá trị Pbest

12: Cập nhật giá trị Gbest

13: End

14: Until giá trị Gbest không đổi hoặc số lần lặp vượt quá

maxSteps

15: Output ( , , , ) = ( , , , )

Phương pháp đề xuất có một số ưu điểm là sử dụng nhiều tâm

cụm cho mỗi cụm do đó mỗi cụm với các phần tử dữ liệu phân tán

15

trong cấu trúc không phải hình cầu và khác biệt có thể sẽ dễ dàng

biểu diễn qua các tâm cụm này. Hơn nữa, PFCA-CD với chiến lược

PSO có thể làm nhanh quá trình hội tụ, đồng thời sử dụng một phép

đo mới cho các giá trị thuộc tính phân loại phù hợp trong việc tính

toán khoảng cách giữa hai đối tượng.

Tuy nhiên, phương pháp này vẫn có nhược điểm là PFCA-CD

có thể cho kết quả tốt, nhưng không chắc là tốt nhất và thời gian tính

toán vẫn khá cao.

3.2.3. Thực nghiệm số

Thuật toán đề xuất PFCA-CD được cài đặt cùng các thuật toán

khác như DifFuzzy [13] và Dissimilarity [16]. Thực nghiệm cho thấy

thuật toán PFCA-CD có chất lượng phân cụm tốt hơn với trên chỉ số

đánh giá so sánh với những thuật toán khác. Trong hầu hết trường

hợp, thuật toán được đề xuất có ít nhất một chỉ số đánh giá có giá trị

tốt nhất.


Chương này trình bày hai cải tiến của FC-PFS là thuật toán tự

động xác định số cụm AFC-PFS và phân cụm mờ cho dữ liệu phức

tạp PFCA-CD. Các cải tiến này góp phần giải quyết các hạn chế của

FC-PFS và các thuật toán phân cụm mờ khác trong việc tự động xác

định số cụm và xử lý với dữ liệu phức tạp cả về kiểu loại lẫn cấu trúc.

16

CHƢƠNG 4. ỨNG DỤNG CỦA THUẬT TOÁN PHÂN CỤM

TRÊN TẬP MỜ VIỄN CẢNH

4.1. Phƣơng pháp PFC-STAR

Các chuỗi hình ảnh đầu vào của thuật toán PFC-STAR trước

tiên được xử lý bằng thuật toán PFC và biến đổi rời rạc Fourier

(DFT). FC-PFS được sử dụng để chia tất cả các điểm ảnh trong

những hình ảnh này thành các cụm và đánh dấu chúng bằng các màu

khác nhau. DFT-Filter được sử dụng để loại bỏ các vùng không dự

đoán được trong các hình ảnh và thay thế chúng thành miền Fourier.

Tiếp theo, kỹ thuật STAR được sử dụng để dự đoán kết quả hình ảnh

từ tất cả ảnh trong miền Fourier và trong các cụm điểm ảnh. Điều này

nhằm mục đích tìm ra trọng số cho mỗi cụm điểm ảnh trong mỗi ảnh

để xác định hình ảnh dự đoán. Cuối cùng, phương pháp lọc Adaptive

Median Filtering sử dụng để lọc nhiễu ảnh đầu ra. Để nâng cao độ

chính xác trong hình ảnh dự đoán, kỹ thuật STAR được sử dụng hai

lần để xác định và huấn luyện trọng số. ảnh đầu tiên được sử

dụng như đầu vào của STAR để tính toán trọng số.

PFC-STAR vẫn có một số hạn chế. Đầu tiên, việc sử dụng kỹ

thuật STAR có thể dẫn đến kết quả đầu ra tốt với dữ liệu này nhưng

không tốt cho tập dữ liệu khác. Thứ hai, PFC-STAR sử dụng biến đổi

DFT cho việc tiền xử lý dữ liệu và biến đổi ngược DFT để tạo đầu ra.

Thời gian thực thi các thủ tục này thường lớn.

4.2. Phƣơng pháp PFC-PFR

4.2.1. Số mờ viễn cảnh tam giác

Các luật mờ viễn cảnh được phát triển dựa trên luật mờ IF-

THEN được đề xuất bởi Zadeh [70]. Số mờ hình tam giác (TPFN)

cho các luật mờ viễn cảnh được mô tả bởi năm số thực ( )

thỏa mãn ( ) và hai hàm tam giác như trong

phương trình (20-21) và hình 4 như sau.

17

{

, (20)

{

. (21)

Tích hợp (20-21) với (5) và biểu thị , các giá trị độ

trung lập và độ từ chối được tính trong phương trình (22-23).

( ( ) )

, (22)

( ) ( ( ) )

. (23)

( ) là giá trị giải mờ của TPFN và được tính trong phương

trình (24).

( )

∑

, (24)

ở đó , , là trọng số giải mờ của TPFN.

4.2.2. Số mờ viễn cảnh hình thang

Ngoài số mờ tam viễn cảnh giác được trình bày ở trên, luận án

cũng trình bày số mờ viễn cảnh hình thang (TpPFN) cho luật mờ viễn

cảnh. TpPFN được biểu diễn bởi sáu số thực ( ) với

( ) và hai hàm hình thang được thể hiện

trong các phương trình (25-26) như sau:

{

, (25)

18

{

. (26)

Đặt kết hợp với phương trình (5), giá trị độ trung

lập và độ từ chối được tính như trong công thức (23-24).

DEF(A) là giá trị giải mờ của TpPFN A được tính như công

thức 27

( )

∑

. (27)

ở đó , , là trọng số giải mờ của TpPFN.

4.2.3. Chi ti t thuật toán

Thuật toán PFC-PFR gồm có bảy bước là: tiền xử lý, phân cụm

dữ liệu, sinh luật mờ, nội suy đầu ra, huấn luyện tham số giải mờ và

dự đoán ảnh đầu ra. Chi tiết các bước được mô tả như sau:

Bƣớc 1: mỗi phần tử trong ma trận sai khác được tính theo

công thức (28) dựa trên tỷ lệ khác nhau ( ), của chuỗi

thời gian thứ của chuỗi đầu vào ( ) tại thời điểm , ở đó

( ) ( ) ( )

( ) . (28)

Các tỷ lệ khác * ( ) ( ) ( )+ của chuỗi thời gian

vào * ( ) ( ) ( )+, tại thời điểm được xác

định dựa trên (130). N mẫu huấn luyện * +, ở đó được

biểu diễn bởi * ( ) ( ) ( ) ( )+, được xây

dựng lại. Biểu diễn

{ ( )

( )

( )

} * ( ) ( ) ( ) ( )+, ở đó

( )

( ) là đầu vào (đầu ra) thứ của , .

Bƣớc 2: Thuật toán FC-PFS được sử dụng để phân vùng mẫu

huấn luyên vào một cụm tương ứng ( ) * +. Tâm của

19

cụm , độ thuộc , độ trung lập và độ từ chối của ,

, .

Bƣớc 3: Các luật mờ viễn cảnh sử dụng TPFN (TpPFN) được

tạo ra dựa trên các cụm* +, ở đó, luật tương ứng ,

được trình bày như sau.

Luật j: nếu và và ... và thì

Ở đó luật là luật mờ tương ứng với cụm , là biến tiền đề

thứ , là tập mờ tiền đề thứ của luật , là biến hệ quả, là

tập mờ hệ quả thứ của luật , , , và một bộ số

thực ( ) của TPFN hay ( ) của TpPFN

với

( ), bên cạnh độ thuộc, thì độ trung lập và độ từ

chối cũng đóng một vai trò quan trọng trong việc xác định các điểm

ranh giới phù hợp đại diện cho các luật. Do đó, FC-PFS cho ta thêm

thông tin và định hướng PFR để chọn các điểm thích hợp hơn nhằm

tạo ra các luật tốt hơn so với các thuật toán phân cụm khác như FCM.

Ở bước này, có hai tùy chọn với số mờ viễn cảnh tam giác và số mờ

viễn cảnh hình thang như sau:

a. Sử dụng số mờ viễn cảnh tam giác:

Các giá trị ( ) của TPFN và được tính như

sau:

( ),

, (29)

( ),

, (30)

( )

, với

( ), , với

( ), (31)

∑

( )

( )

∑

( )

, ∑

( )

∑

( )

, (32)

20

∑

( )

( )

∑

( )

∑

( )

∑

( )

. (33)

ở đó ( )

là đầu vào thứ của mẫu huấn luyện , ,

. là đầu ra mong muốn của và . Dựa trên

các phương trình (29-33), TPFN của các luật mờ được xây dựng.

b. Sử dụng số mờ viễn cảnh hình thang:

Các số thực ( ) của TpPFN và được tính

trong công thức (34-39) với

( ).

( ),

, (34)

( ),

, (35)

.

( )

( )/

. ( )

( )

/, (36)

. ( )

( )

/, . ( )

( )

/, với

( ), ( )

là tâm của cụm với thành phần thứ

.

(37)

∑

( )

( )

∑

( )

,

∑

( )

∑

( )

,

(38)

∑

( )

( )

∑

( )

,

∑

( )

∑

( )

.

(39)

21

ở đó ( )

là đầu vào thứ của mẫu huấn luyện , ,

. là đầu ra mong muốn của và . Dựa theo

các công thức (33–39), TpPFN của các luật mờ viễn cảnh được tạo ra.

Bƣớc 4: Nếu một số luật mờ viễn cảnh được kích hoạt bởi các

đầu vào thứ của mẫu có nghĩa là .

( )/ , thì

tính đầu ra theo công thức (40) và di chuyển đến bước 6. Nếu

không thì đi đến bước 5.

∑ .

( )/

( )

∑ .

( )

/

, (40)

.

( )/ biểu thị là giá trị độ thuộc của đầu vào

( ) thuộc tập mờ

tam giác viễn cảnh , và . Nó được tính

toán dựa trên hàm mờ viễn cảnh tam giác với biểu diễn số lượng

các luật mờ viễn cảnh được kích hoạt và ( ) là giá trị giải mờ

của tập mờ viễn cảnh kết quả của luật mờ viễn cảnh , ,

.

Bƣớc 5: Nếu không tồn tại bất kỳ luật mờ viễn cảnh đang hoạt

động nào, tính trọng số của của luật với các quan sát đầu vào

,

,..., theo phương trình (41) và tính toán đầu ra

theo phương trình (42). là vector đầu vào{

( )

( )

( )}, là

vector của các giá trị giải mờ của tập luật mờ -

{ ( ) ( ) ( )}. ‖ ‖ là khoảng cách

Euclide giữa các vectơ và . Ràng buộc của các trọng số là:

, và ∑ . ( ) là giá trị giải mờ của .

∑ (‖ ‖‖ ‖

)

(41)

∑ ( )

, (42)

22

Bƣớc 6: Để có được dự đoán hình ảnh tốt, thuật toán PSO

được sử dụng để xác định các tham số thích hợp cho hàm giải mờ.

Theo công thức (24) cho TPFN hoặc (27) cho TpPFN, thuật toán sẽ

huấn luyện các tham số trong công thức này. Quá trình huấn luyện

tham số giải mờ sử dụng hai ma trận sai khác ( ) và ( )

với vai trò kiểm tra mẫu thử và mẫu đầu vào ( ). Thuật toán PSO

được sử dụng để tối ưu hóa các tham số này.

Bƣớc 7: Cuối cùng, giá trị dự báo ( )tại thời gian

được tính toán dựa trên tỷ lệ biến đổi , trong đó ( ) là giá trị

thực tế tại thời điểm trong phương trình (146).

( ) ( ) ( ). (43)

Phương pháp PFC-PFR có một số lợi thế như sử dụng FC-PFS

để phân vùng các pixel khác nhau trong hình ảnh giúp quy trình làm

việc chính xác hơn, sử dụng các luật mờ viễn cảnh nội suy có thể

giúp các thuật toán tăng độ chính xác. Việc sử dụng huấn luyện tham

số giải mờ với thuật toán PSO đã cải thiện độ chính xác dự đoán của

các hình ảnh đầu ra. Phương pháp cho kết quả dự đoán hình ảnh

chính xác hơn so STAR tuy nhiên thời gian tính toán vấn khá cao.

4.3. Kết quả thực nghiệm

Các thuật toán đã được cài đặt trong thực nghiệm sau:

Các phương pháp PFC- STAR, PFC-PFR áp dụng luật mờ

viễn cảnh tam giác và PFC-PFR áp dụng luật mờ viễn cảnh

hình thang.

PFC-STAR* và PFC-PFR*: các phương pháp PFC-STAR và

PFC-PFR mà không cần huấn luyện.

FCM-STAR là phương pháp Shukla, kishtawal & Pal (2014).

FCM-FR: kết hợp fuzzy C-Means (FCM) và luật mờ thường

(FR).

Phương pháp suy diễn mờ (FIR).

ANN sử dụng mạng nơ ron nhân tạo.

23

Hai phương pháp đề xuất (PFC-PFR và PFC- STAR) có những

lợi thế đáng kể so với những thuật toán khác. Các phương pháp đề

xuất không cho kết quả tốt nhất ở ảnh dự đoán đầu tiên nhưng lại

hiệu quả cho các ảnh dự đoán tiếp theo.


Trong chương này, hai phương pháp dự báo lai mới dựa trên

ảnh mây vệ tinh cho bài toán dự báo thời tiết ngắn hạn được đề xuất

là PFC-STAR và PFC-PFR. Phương pháp PFC-PFR là phương pháp

mới tích hợp FC-PFS và quy tắc sinh luật mờ với hai biến thể là luật

mờ viễn cảnh tam giác và hình thang. Cả hai thuật toán đề xuất sử

dụng thuật toán huấn luyện để nâng cao độ chính xác dự báo. Đánh

giá thử nghiệm trên các chuỗi hình ảnh vệ tinh cho thấy các phương

pháp đề xuất cho chất lượng tốt hơn so với những người có liên quan.

KẾT LUẬN

Luận án đã đạt được một số kết quả đóng góp như sau:

- Đề xuất một thuật toán phân cụm mờ mới trên tập mờ viễn

cảnh là FC-PFS. Đồng thời, khảo sát tính chất hội tụ và

thực nghiệm kiểm chứng trên bộ dữ liệu chuẩn UCI cho

thấy tính hiệu quả của thuật toán. Đề xuất về thuật toán

mới này đã được công bố [CT1-CT2].

- Cải tiến thuật toán FC-PFS cho bài toán phân cụm mờ tự

động xác định số cụm và bài toán xử lý dữ liệu phức tạp.

Đây là một thuật toán mới lai ghép giữa FC-PFS và thuật

toán tối ưu bầy đàn PSO. Thực nghiệm kiểm chứng cho

thây thuật toán cho kết quả tốt hơn các thuật toán khác liên

quan. Kết quả nghiên cứu này được công bố trong [CT3-

CT4].

- Ứng dụng FC-PFS vào bài toán dự báo thời tiết ngắn hạn

dựa trên ảnh mây vệ tinh. Luận án đã đưa ra hai phương

pháp kết hợp FC-PFS với STAR và kết hợp với luật mờ

24

viễn cảnh. Luật mờ viễn cảnh là một luật mờ mới được

trình bày trong luận án được sinh ra bằng các kết quả FC-

PFS, dựa trên số mờ tam giác hay hình thang để suy luận

ra kết quả đầu ra dự báo. Các thực nghiệm trên các ảnh

mây vệ tinh cho thấy tính hiệu quả của phương pháp này.

Kết quả nghiên cứu được công bố tại [CT5].

Bên cạnh các kết quả nghiên cứu đã đạt được, các nghiên cứu

trong luận án vẫn còn tồn tại một số hạn chế như:

- Do thuật toán phân cụm mờ trên tập mờ viễn cảnh có

nhiều tham số trong quá trình tính toán, do đó cần tài

nguyên bộ nhớ rất lớn.

- Do thuật toán phân cụm mờ trên tập mờ viễn cảnh là thuật

toán lặp nên cần khá nhiều thời gian để tính toán.

- Bài toán dự báo thời tiết ngắn hạn, luận án mới chỉ đưa ra

cách tiếp cận dựa trên ảnh mây về tinh mà chưa xét đến

các yếu tốt khác của thời tiết như nhiệt độ, tốc độ gió, độ

ẩm, … dẫn đến các kết quả dự báo chưa tốt.

Hướng phát triển tiếp theo của các nghiên cứu trong luận án

này sẽ tập trung vào một số điểm sau:

- Cải tiến các thuật toán đã có để giảm thiểu bộ nhớ sử dụng,

đồng thời tăng tốc độ tính toán như áp dụng tính toán trên

các mô hình song song, các mô hình tính toán phân tán để

đạt được hiệu quả cao nhất.

- Kết hợp thêm các yếu tố về thời tiết như nhiệt độ, độ ẩm,

hướng gió, … cho bài toán dự báo thời tiết ngắn hạn để có

được dự báo chính xác hơn.

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ

ĐÃ CÔNG BỐ

[CT1]. Pham Huy Thong, Le Hoang Son (2016), “Picture fuzzy

clustering: a new computational intelligence method,” Soft

Computing 20(9), 3549-3562. (SCIE, 2018, IF= 2.784, Springer)

[CT2]. Pham Thi Minh Phuong, Pham Huy Thong, Le Hoang Son

(2018), “Theoretical analysis of picture fuzzy clustering:

Convergence and property”, Journal of Computer Science and

Cybernetics 34(1), 17-32.

[CT3]. Pham Huy Thong, Le Hoang Son (2016), “A novel

automatic picture fuzzy clustering method based on particle swarm

optimization and picture composite cardinality”, Knowledge-Based

Systems 109, 48-60. (SCI, 2018, IF=5.101, Elservier)

[CT4]. Pham Huy Thong, Le Hoang Son (2016), “Picture fuzzy

clustering for complex data”, Engineering Applications of Artificial

Intelligence 56, 121-130. (SCIE, 2018, IF=3.526, Elservier)

[CT5]. Le Hoang Son, Pham Huy Thong (2017), “Some novel

hybrid forecast methods based on picture fuzzy clustering for

weather nowcasting from satellite image sequences”, Applied

Intelligence 46(1), 1-15. (SCIE, 2018, IF= 2.882, Springer)

PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÂN CỤM MỜ TRÊN … thao tom tat Pham Huy Thong.pdfthống, ở đó vẫn có những giới hạn về độ thuộc, sự do dự và

Documents