CẢI TIẾN PHƯƠNG PHÁP RỪNG NGẪU NHIÊN CÓ ĐIỀU HƯỚNG ĐỂ ÁP DỤNG CHO DỮ LIỆU SNP
DOI: 10.15625/vap.2015.000141
Abstract
Rừng ngẫu nhiên có hiệu quả với dữ liệu có số chiều vừa phải, khi số chiều lớn hơn thì vẫn hạn chế. Deng và Runger đã đề xuất phương pháp rừng ngẫu nhiên có điều hướng (GRRF, Pattern Recognition-2013) ưu tiên để chọn đặc trưng, tuy nhiên vẫn kém hiệu quả với các tập dữ liệu có số chiều rất lớn mà số mẫu ít, chẳng hạn dữ liệu đa hình đơn nucleotide SNP (Single Nucleotide Polymorphism) trên quy mô toàn bộ hệ gien. Trong bài báo này, chúng tôi đề xuất phương pháp đánh trọng số đặc trưng mới thay cho cách đánh trọng số của GRRF. Kết quả thực nghiệm trên 2 tập dữ liệu Parkinson (408.803 SNPs) và Alzheimer (380.157 SNPs) cho thấy phương pháp cải tiến này có hiệu quả hơn hẳn GRRF và các phương pháp hiện thời.
Keywords
Dữ liệu chiều cao, máy học, khai phá dữ liệu, rừng ngẫu nhiên
Full Text:
PDF (Tiếng Việt)Copyright (c) 2016 PROCEEDING of Publishing House for Science and Technology
PROCEEDING
PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY
Website: http://vap.ac.vn
Contact: nxb@vap.ac.vn