GIẢI THUẬT RỪNG NGẪU NHIÊN VỚI LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP

Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hoà, Nguyễn Minh Trung



DOI: 10.15625/vap.2015.000160

Abstract


Trong bài viết này, chúng tôi đề xuất sử dụng luật gán nhãn cục bộ trong giải thuật rừng ngẫu nhiên để nâng cao hiệu quả phân lớp. Giải thuật rừng ngẫu nhiên của Breiman đề xuất là giải thuật phân lớp chính xác khi so sánh với các giải thuật học có giám sát hiện nay. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngẫu nhiên giảm hiệu quả. Để cải thiện kết quả dự báo của rừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gán nhãn cục bộ, k láng giềng. Kết quả thử nghiệm trên các tập dữ liệu gen từ website datam.i2r.a-star.edu.sg/datasets/krbd cho thấy rằng giải thuật rừng ngẫu nhiên sử dụng luật gán nhãn cục bộ do chúng tôi đề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định C4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy.

Keywords


Rừng ngẫu nhiên, cây quyết định, luật gán nhãn, luật cục bộ, k láng giềng, phân lớp dữ liệu nhiều chiều



Copyright (c) 2016 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn