THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC

Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh



DOI: 10.15625/vap.2015.000208

Abstract


Khai thác tập phổ biến để tìm mối quan hệ giữa các item (mục) trong cơ sở dữ liệu (CSDL) là bài toán quan trọng trong khai thác dữ liệu. Bên cạnh khai thác tập phổ biến từ các CSDL truyền thống, khai thác tập phổ biến trên CSDL trọng số và CSDL số lượng đã nhận được nhiều quan tâm từ các nhóm nghiên cứu. Tuy nhiên, các nghiên cứu này mới chỉ khai thác trên các CSDL mà các mục không có mối quan hệ nào với nhau. Trong bài báo này, chúng tôi đề xuất bài toán khai thác tập phổ biến trên CSDL số lượng có sự phân cấp item, đồng thời đề xuất thuật toán để giải quyết bài toán này và áp dụng kĩ thuật diffset hai cấu trúc MByS, MBiS trong lưu trữ tidset của các itemset. Kết quả thực nghiệm cho thấy thuật toán sử dụng cấu trúc MBiS hiệu quả nhất về mặt thời gian xử lý.

Keywords


CSDL số lượng, CSDL có sự phân cấp mục, tập phổ biến, itemsets



Copyright (c) 2016 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn