MÔ HÌNH MỚI TRÊN CÂY NÉN CHO KHAI PHÁ TẬP MỤC LỢI ÍCH CAO

Đậu Hải Phong, Đoàn Văn Ban, Đỗ Thị Mai Hương



DOI: 10.15625/vap.2015.000170

Abstract


Hiện nay, một trong những vấn đề được quan tâm trong khai phá dữ liệu là tìm kiếm tập lợi ích cao từ cơ sở dữ liệu lớn. Trong kỹ thuật tìm kiếm tập lợi ích cao thì cả giá trị lợi ích và số lượng khác nhau của từng phần tử trong giao dịch đều được xem xét. Một vấn đề khó khăn trong kỹ thuật này là số lượng các tập các ứng viên được sinh ra là rất lớn vì tập lợi ích cao không có tính chất đóng. Hầu hết các thuật toán khai phá tập lợi ích cao như: UP-Growth, Udepth, Two-Phase, PB, CTU-PRO,… đều sử dụng mô hình TWU (Transactions Weight Utility) để tỉa tập ứng viên. Trong bài báo này chúng tôi đề xuất mô hình CWU (Candidate Weight Utility) trên cây tiền tố nén mẫu lợi ích. Xây dựng thuật toán CTU-PRO+ dựa trên thuật toán CTU-PRO và sử dụng mô hình chúng tôi đề xuất CWU. Kết quả thử nghiệm thuật toán CTU-PRO+ cho thấy thời gian thực hiện với các thuật toán Two-Phase, CTU-PRO cho kết quả tốt hơn..

Keywords


Khai phá dữ liệu, tập lợi ích, tập phổ biến, CWU, TWU



Copyright (c) 2016 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn