Document /categorization classification

DOCUMENT /CATEGORIZATION CLASSIFICATION

NỘI DUNG Khái quát về Document/ categorization classification Các hướng nghiên cứu. Xây dựng hệ thống phân loại tài liệu và các vấn đề

liên quan. Ý tưởng các thuật toán trong phân loại tài liệu

KNN (K- Nearest neighbor). Naïve Bayes (NB) Support Vector Machine (SVM). Cây quyết định (Decision Tree). Support Vector Machines Nearest Neighbor (SVM-

NN). Bài toán phân chia đa lớp (Multi Class) và các chiến

lược.

KHÁI NIỆM VỀ DOCUMENT/ CATEGORIZATION CLASSIFICATION

Phân loại (phân lớp )văn bản là công việc phân tích nội dung của văn bản và sau đó ra quyết định (hay dự đoán) văn bản này thuộc nhóm nào trong các nhóm văn bản đã cho trước.

Gồm hai giai đoạn:Học(xây dựng mô hình): rút trích đặc trưng

từ các tài liệu đã được xác định lớp.Phân lớp: với tài liệu mới (chưa xác định lớp), so

sánh với đặc trưng của từng lớp và dự đoán tài liệu này vào lớp gần nhất.

CÁC HƯỚNG TIẾP CẬN BÀI TOÁN CLASSIFICATION

Phân lớp văn bản dựa trên cách tiếp cận hệ chuyên gia

Phân lớp văn bản dựa trên cách tiếp cận máy học

PHÂN LỚP VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN HỆ CHUYÊN GIA

Hệ chuyên gia, còn gọi là hệ thống dựa tri trức, là một chương trình máy tính chứa một số tri thức đặc thù của một hoặc nhiều chuyên gia con người về một chủ đề cụ thể nào đó. …. Đây là một hệ thống sử dụng các khả năng lập luận để đạt tới các kết luận. (Wiki)

Biểu diễn chung dạng : If (DNF formula) then (category). Công thức DNF (“Disjunctive Normal Form”) là hợp của

các mệnh đề liên kếtVí dụ:

If ((“lúa mì” & “nông trại”) or (“lúa mì” & “hàng hóa”) or (“thúng để đong lúa mì” & “hàng xuất khẩu”) or (“lúa mì” & “hàng tấn”) or (“lúa mì” & “mùa đông” & ¬ “sự ôn hòa”)) then “lúa mì” else ¬ “lúa mì”

PHÂN LỚP VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN MÁY HỌC

Máy học (machine learning) : … phát triển các kĩ thuật cho phép các máy tính có thể "học“ …bằng việc phân tích các tập ,dữ liệu . (Wiki)

Xây dựng tự động một phân lớp cho tập tài liệu bằng việc quan sát các đặc trưng của tập hợp các tài liệu đã được phân bằng tay hay bởi chuyên gia về lĩnh vực từ đó, quá trình qui nạp thu lượm các đặc trưng để phân lớp một tài liệu mới.Trong kỹ thuật máy học, bài toán phân lớp là hoạt động học có giám sát, quá trình học được “giám sát” bởi tri thức của các phân lớp và của các mẫu huấn luyện thuộc chúng.

HỆ THỐNG PHÂN LOẠI VĂN BẢN VÀ CÁC VẤN ĐỀ LIÊN QUAN.

Biểu Diễn Tài liệu Bộ phân loại Bộ đánh giáVăn bản

CÁC VẤN ĐỀ MÀ HỆ THỐNG PHÂN LOẠI CẦN PHẢI QUAN TÂM VÀ GIẢI QUYẾT

Độ chính xác: Tỉ lệ càng cao thì hệ thống sẽ được đánh giá là tốt .

Tốc độ . Dễ hiểu: Một hệ thống phân loại dễ hiểu sẽ tạo cho

người sử dụng tin tưởng hơn vào hệ thống, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quả của một luật được đưa ra bởi hệ thống.

Thời gian để học:

TIẾN TRÌNH PHÂN LOẠI VĂN BẢN

Tiền xử lý số liệu Tách từ Xác định đặc trưngVăn bản Text thuần túy Từ đã được qua xử lý

Vec

to h

óa

Bộ phân loạiVăn Bản Được phân loại

Hệ Thống Phân loại văn bản

www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html

Ví dụ về quá trình xử lý văn bản trong Hệ Thống Phân loại văn bản

TIỀN XỬ LÝ SỐ LIỆUMục đích: xử lý tương đối sạch dữ liệu đọc vàoCách thực hiện: Loại bỏ các khoảng trắng nhiều hơn 1 khoảng

trắng Các dấu xuống dòng Cách dòng trống Các ký tự lạ ……

TÁCH TỪ Tách lọc (Filtration) : quá trình của sự quyết

định những từ nào nên được sử dụng để biểu diễn cho các tài liệu.

Stemming (gốc từ) : Tìm gốc từ ví dụ "walks", "walking" và "walker" được giảm lại thành "walk"

Loại bỏ các từ stopword : danh mục các từ không ảnh hưởng đến nội dung văn bản

XÁC ĐINH TRỌNG SỐ CHO TỪ Ứng với mỗi thuật toán áp dụng trong hệ

thống phân lớp mà ta đi xác định những trọng số của từ trong văn bản.

Trong bước này thường sử dụng tf (Term Frequency ) và df (Document Frequency) để thực hiện .

SỬ DỤNG THUẬT TOÁN ĐỂ PHÂN LỚP Dùng thuật toán mà hệ thống phân loại sử

dụng để phân loại dữ liệu.

CÁC THUẬT TOÁN PHÂN LỚPKNN (K- Nearest neighbor).Naïve Bayes (NB)Support Vector Machine (SVM).Cây quyết định (Decision Tree).Support Vector Machines

Nearest Neighbor (SVM-NN).

KNN (K- Nearest neighbor).

Ý tưởng chính của thuật :là so sánh độ phù hợp của văn bản d với từng nhóm chủ đề, dựa trên k văn bản mẫu trong tập huấn luyện mà có độ tương tự với văn bản d là lớn nhất

Thực hiện:- Tính khoảng (cosine)cách của văn bản cần phân lớp

với các văn bản trong tập giữ liệu mẫu.- Lấy k văn bản gần nhất với văn bản cần phân loại.- Dựa vào k văn bản mẫu này đánh trọng số cho chủ

đề .Chủ đề của các văn bản là chủ đề có trọng số lớn nhất.

“Gần “ở đây được hiểu là độ tương tự giữa các văn bản.

Example of k-NN classification. The test sample (green circle) should be classified either to the first class of blue squares or to the second class of red triangles. If k = 3 it is classified to the second class because there are 2 triangles and only 1 square inside the inner circle. If k = 5 it is classified to first class (3 squares vs. 2 triangles inside the outer circle).

Naïve Bayes (NB)

Ý tưởng thuật toán: là sử dụng xác suất có điều kiện giữa từ và chủ đề để dự đoán xác suất chủ đề của một văn bản cần phân loại.

Cách thực hiện:-Từ tập mẫu xác định ngưỡng xác xuất của

một văn bản thuộc về một chủ đề đã định nghĩa.

-Văn bản cần phân loại vào hệ thống sẽ được hệ thống tính xác suất ,nếu xác suất này thuộc vào một ngưỡng nào đó thì thuộc vào chủ đề.

Support Vector Machine (SVM).

Cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt

http://en.wikipedia.org/wiki/Support_vector_machine

Support Vector Machines Nearest Neighbor (SVM-NN).

Là một thuật toán phân lớp cải tiến gần đây nhất của phương pháp phân lớp SVM. SVM-NN là một kỹ thuật phân loại văn bản máy học sử dụng kết hợp cách tiếp cận K-láng giềng gần nhất (K-NN) với những luật ra quyết định dựa trên SVM .

Thực hiện:- Cho một mẫu để phân loại, thuật toán xác định k

mẫu gần nhất trong các mẫu dữ liệu của tập dữ liệu huấn luyện.

- Một phân loại SVM được huấn luyện trên những mẫu này.

- Sau đó, các bộ phân loại SVM được huấn luyện sẽ được sử dụng để phân loại các mẫu chưa biết.

PHÂN ĐA LỚPÝ tưởng của bài toán phân lớp đa lớp là

chuyển về bài toán phân lớp hai lớp bằng cách xây dựng nhiều bộ phân lớp hai lớp để giải quyết.

Trong hình ta thấy chiến lược OAR (hình bên trái)- OAO (hình bên phải) phải xây dựng siêu phẳng để tách lớp đánh dấu “o” ra khỏi tất cả các lớp khác.

CHIẾN LƯỢC ONE-AGAINST-ONE Ta sử dụng (n-1) bộ

phân lớp đối với n lớp. Bài toán phân lớp n lớp được chuyển thành n bài toán phân lớp hai lớp.

Nhược điểm của chiến lược OAR là ta phải xây dựng một siêu phẳng để tách một lớp ra khỏi các lớp còn lại, việc này đòi hỏi sự phức tạp và có thể không chính xác

Công nghệ, Giáo dục, Thể thao, Y tế

Bộ phân lớp

Công nghệ

Giáo dục, Thể thao, Y tế

Bộ phân lớp

Giáo dục Thể thao, Y tế

Bộ phân lớp

Thể thao Y tế

+1

-1

+1

+1

-1

-1

ONE-AGAINST-REST (OAR) Ta sử dụng n(n-1)/2

bộ phân lớp hai lớp được xây dựng bằng cách bắt cặp từng hai lớp một.

Công nghệ

Y tế

Giáo dục Bộ phân lớp

Công nghệ-Giáo dục

Công nghệ

Bộ phân lớp

Công nghệ-Thể Thao

Thể thao

Công nghệ

Giáo dục Thể thao

Giáo dục Y tế

Thể thao Y tế

Bộ phân lớp

Công nghệ-Y tế

Bộ phân lớp

Giáo dục-Thể Thao

Bộ phân lớp

Giáo dục–Y tế

Bộ phân lớp

Thể Thao-Y tế

Document /categorization classification

Documents