PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH CHỦ ĐỂ

Bùi Khánh Linh, Nguyễn Thị Thu Hà, Nguyễn Thị Ngọc Tú, Đào Thanh Tĩnh



DOI: 10.15625/vap.2016.00065

Abstract


Trong bài báo này, chúng tôi đề xuất một giải pháp mới trong xử lý tiếng Việt bằng cách xây dựng mô hình chủ đề tiếng Việt. Phương pháp này sử dụng cách thức tìm một từ lõi và phát triển để tự sinh ra các từ khác trong chủ đề dựa trên Naive Bayes. Dựa trên tập dữ liệu huấn luyện, chúng tôi tính toán xác suất của các từ trong mô hình chủ đề tiếng Việt. Kết quả thực nghiệm cho thấy rằng, phương pháp của chúng tôi đề xuất có hiệu quả trong việc phân loại các văn bản tiếng Việt theo nhiều lớp chủ đề nhỏ hơn. Đồng thời, có độ chính xác khá cao và thời gian xử lý phân loại nhanh hơn so với các phương pháp đã được đề xuất trước đó.

Keywords


Mô hình chủ đề, tiếng Việt, khai phá văn bản, từ lõi, Naive Bayes



Copyright (c) 2017 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn