CÁCH TIẾP CẬN KỸ THUẬT KẾT HỢP LUẬT KHÔNG GIAN VÀ THỜI GIAN ỨNG DỤNG CHO BÀI TOÁN DỰ BÁO TRÊN BỘ DỮ LIỆU LỚN

Nguyễn Văn Thiện, Phạm Văn Hải



DOI: 10.15625/vap.2015.000137

Abstract


Bài báo này trình bày hướng tiếp cận cho việc giải quyết vấn đề hiệu năng cho việc khai phá bộ dữ liệu có đặc tính không gian – thời gian, qua đó tìm ra những quy luật kết hợp phổ biến sinh ra từ bộ dữ liệu. Trong các kỹ thuật sinh luật truyền thống dựa trên dữ liệu, khai phá dữ liệu từ các giao dịch được thực hiện độc lập nhau. Khi sử dụng thuật toán khai phá thông thường như Apriori hay Extend-Apriori thì chi phí tính toán tập các phần tử phổ biến, trong đó việc sinh tập các ứng viên, chi phí thời gian thực hiện lớn do quét cơ sở dữ liệu nhiều lần. Bên cạnh đó, việc sinh luật không gian – thời gian phải dựa trên sự phụ thuộc lẫn nhau giữa các giao dịch, nhằm thể hiện được mức độ liên quan của các phần tử trong một khoảng không – thời gian nào đó. Chúng tôi sử dụng một cửa sổ trượt giúp chuyển các giao dịch độc lập vào trong cùng một giao dịch mới được gọi là liên giao dịch. Sau đó tiến hành áp dụng một kỹ thuật khai phá mới mà chúng tôi đề xuất cho việc khai phá. Nhằm thể hiện kết quả thực nghiệm của thuật toán đề xuất chúng tôi chạy trên bộ dữ liệu lớn về thời tiết, đây là loại dữ liệu mang tính chất không gian và thời gian, từ bộ dữ liệu này chúng tôi tìm ra một cách hiệu quả các quy luật phổ biến ứng dụng cho các lĩnh vực dự báo thời tiết và biến đổi khí hậu, giảm đáng kể chi phí thời so sánh với thuật toán Apriori.

Keywords


Liên giao dịch, cây phần tử, tập phổ biến, tập phổ biến tối đa



Copyright (c) 2016 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn