LỰA CHỌN THUỘC TÍNH THÔNG QUA GOM CỤM SỬ DỤNG MỘT BIẾN THỂ CỦA THÔNG TIN

Phạm Công Xuyên, Nguyễn Thanh Tùng



DOI: 10.15625/vap.2017.00043

Abstract


Lựa chọn thuộc tính là vấn đề rất quan trọng trong phân lớp và gom cụm dữ liệu và rất khó giải quyết khi số lượng các thuộc tính trong tập dữ liệu huấn luyện là rất lớn.
Bài báo này trình bày một phương pháp lựa chọn thuộc tính thông qua gom cụm sử dụng một metric đặc biệt, đó là một biến thể của thông tin trong lý thuyết thông tin, và thuật toán k-medoids. Khi các thuộc tính đã được gom thành các cụm, các thuộc tính trong cùng một cụm sẽ tương tự nhau, một thuộc tính của một cụm có thể đại diện cho các thuộc tính khác trong cụm; tập các thuộc tính đại diện của các cụm có thể được lấy làm tập thuộc tính rút gọn thay cho tập tất cả các thuộc tính có trong tập dữ liệu ban đầu để thực hiện nhiệm vụ phân lớp các đối tượng. Thuật toán lựa chọn thuộc tính theo phương pháp đề xuất cũng được xây dựng và cài đặt. Kết quả thực nghiệm cho thấy phương pháp đề xuất có khả năng lựa chọn thuộc tính phân lớp với độ chính xác khá cao, khi số k cụm cần gom được lựa chọn một cách thích hợp. Ngoài ra, phương pháp đề xuất có những ưu điểm quan trọng, đó là giúp người sử dụng có thể hiểu được cấu trúc của tập dữ liệu cần phân tích và mức độ quan trọng tương đối giữa các thuộc tính.

Keywords


Lựa chọn thuộc tính, Gom cụm thuộc tính, Phân lớp, k-medoids, Biến thể của thông tin



Copyright (c) 2018 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn