CÁCH TIẾP CẬN KỸ THUẬT KẾT HỢP LUẬT KHÔNG GIAN VÀ THỜI GIAN ỨNG DỤNG CHO BÀI TOÁN DỰ BÁO TRÊN BỘ DỮ LIỆU LỚN
DOI: 10.15625/vap.2015.000137
Abstract
Bài báo này trình bày hướng tiếp cận cho việc giải quyết vấn đề hiệu năng cho việc khai phá bộ dữ liệu có đặc tính không gian – thời gian, qua đó tìm ra những quy luật kết hợp phổ biến sinh ra từ bộ dữ liệu. Trong các kỹ thuật sinh luật truyền thống dựa trên dữ liệu, khai phá dữ liệu từ các giao dịch được thực hiện độc lập nhau. Khi sử dụng thuật toán khai phá thông thường như Apriori hay Extend-Apriori thì chi phí tính toán tập các phần tử phổ biến, trong đó việc sinh tập các ứng viên, chi phí thời gian thực hiện lớn do quét cơ sở dữ liệu nhiều lần. Bên cạnh đó, việc sinh luật không gian – thời gian phải dựa trên sự phụ thuộc lẫn nhau giữa các giao dịch, nhằm thể hiện được mức độ liên quan của các phần tử trong một khoảng không – thời gian nào đó. Chúng tôi sử dụng một cửa sổ trượt giúp chuyển các giao dịch độc lập vào trong cùng một giao dịch mới được gọi là liên giao dịch. Sau đó tiến hành áp dụng một kỹ thuật khai phá mới mà chúng tôi đề xuất cho việc khai phá. Nhằm thể hiện kết quả thực nghiệm của thuật toán đề xuất chúng tôi chạy trên bộ dữ liệu lớn về thời tiết, đây là loại dữ liệu mang tính chất không gian và thời gian, từ bộ dữ liệu này chúng tôi tìm ra một cách hiệu quả các quy luật phổ biến ứng dụng cho các lĩnh vực dự báo thời tiết và biến đổi khí hậu, giảm đáng kể chi phí thời so sánh với thuật toán Apriori.
Keywords
Liên giao dịch, cây phần tử, tập phổ biến, tập phổ biến tối đa
Full Text:
PDF (Tiếng Việt)Copyright (c) 2016 PROCEEDING of Publishing House for Science and Technology
PROCEEDING
PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY
Website: http://vap.ac.vn
Contact: nxb@vap.ac.vn