KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP

Nguyễn Thị Thúy Loan, Trần Thị Minh Thúy, Giang Hào CônDOI: 10.15625/vap.2016.00030

Abstract


Phân lớp dựa vào luật phân lớp kết hợp đã được chứng minh là tốt hơn các phương pháp phân lớp dựa vào luật hiện có như cây quyết định, ILA, v.v. Tuy nhiên, do dựa vào khai thác luật kết hợp nên chỉ những luật phổ biến (có độ hỗ trợ cao) được khai thác. Trong các cơ sở dữ liệu (CSDL) mất cân bằng về lớp, mặc dù các lớp thiểu số cũng đóng vai trò quan trọng nhưng chúng sẽ không được khai thác khi dựa vào luật phân lớp kết hợp. Trong bài báo này, chúng tôi đề xuất một phương pháp biến đổi CSDL sao cho sự phân bố các lớp được cân bằng, sau đó khai thác luật phân lớp kết hợp dựa trên tập dữ liệu đã biến đổi. Để biến đổi dữ liệu, chúng tôi chia tập dữ liệu thành m tập con, mỗi tập con tương ứng với một giá trị của thuộc tính lớp. Với mỗi tập dữ liệu, chúng tôi sử dụng K-means để gom chúng thành k nhóm (k chính là số dòng dữ liệu của tập dữ liệu có ít dòng nhất). Với mỗi nhóm, chúng tôi chọn dòng đại diện chính là dòng có khoảng cách gần với trọng tâm nhất. Sau khi gom nhóm, chúng tôi tập hợp dữ liệu lại và sử dụng CAR-Miner để khai thác luật phân lớp. Kết quả thực nghiệm cho thấy phương pháp của chúng tôi thường có độ chính xác cao hơn so với phương pháp khai thác luật phân lớp từ toàn bộ cơ sở dữ liệu.

Keywords


Khai thác luật phân lớp kết hợp, gom nhóm, cơ sở dữ liệu mất cân bằng về lớp, độ chính xácCopyright (c) 2017 PROCEEDING of Publishing House for Science and TechnologyPROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn