SỰ ẢNH HƯỞNG CỦA PHƯƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT

Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Phạm Thế Phi, Đỗ Thanh Nghị



DOI: 10.15625/vap.2016.00084

Abstract


Tách từ là một bước quan trọng không thể thiếu trong xử lý ngôn ngữ tự nhiên, nhằm xác định được ranh giới các từ có trong văn bản. Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết). Điều này gây khó khăn cho việc tách từ tự động một cách chính xác, ảnh hưởng đến kết quả của các bài toán phân tích dữ liệu văn bản như: gom nhóm, phân lớp văn bản. Hai tiếp cận chính để tách từ là dựa trên từ điển và thống kê (hoặc kết hợp hai tiếp cận). Trong bài toán phân lớp văn bản, tách từ mới chỉ là bước tiền xử lý và biểu diễn dữ liệu. Bước kế tiếp là sử dụng một mô hình máy học để huấn luyện bộ phân lớp. Đối với một số mô hình máy học như máy học véc-tơ hỗ trợ (SVM), phân tích thành phần chính, phân tích tương ứng, các từ ghép có thể được phát hiện dựa vào sự đồng xuất hiện của các âm tiết mà không cần đến một bước tách từ chính xác. Trong bài báo này, chúng tôi nghiên cứu so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt, để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6,000 văn bản thuộc 10 chủ đề và tập dữ liệu 105,293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt.

Keywords


Tách từ, phương pháp tách từ tiếng Việt, xử lý ngôn ngữ tự nhiên, phân lớp văn bản



Copyright (c) 2017 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn