SO SÁNH MỘT SỐ BỘ PHÂN LỚP DÙNG CHO NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT

Nguyễn Hồng Quang, Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng



DOI: 10.15625/vap.2016.00083

Abstract


Tiếng Việt là ngôn ngữ có thanh điệu và có nhiều phương ngữ khác nhau. Ảnh hưởng của yếu tố phương ngữ tới các hệ thống nhận dạng tự động tiếng Việt nói là đáng kể. Có nhiều phương pháp khác nhau đã được nghiên cứu và áp dụng cho nhận dạng phương ngữ như GMM, SVM... Bài báo trình bày kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng công cụ Weka là tập hợp các thuật giải học máy dùng cho khai phá dữ liệu. Ngữ liệu dùng cho nhận dạng là các giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại diện cho phương ngữ của ba miền Bắc, Trung, Nam. Các bộ phân lớp SMO, lBK, Jrip, MultilayerPerceptron và PART đã được dùng cho thử nghiệm nhận dạng phương ngữ tiếng Việt. Kết quả thử nghiệm cho thấy tỷ lệ nhận dạng trung bình phương ngữ tiếng Việt cao nhất là 99,5% khi sử dụng bộ phân lớp MultilayerPerceptron. Việc đánh giá ảnh hưởng của tần số cơ bản đến hiệu năng nhận dạng cũng được thực hiện. Chỉ riêng thông tin tần số cơ bản đã cho phép kết quả nhận dạng phương ngữ đạt được 52,2%.

Keywords


SVM, nhận dạng phương ngữ, tiếng Việt, Weka, SMO, lBK, Jrip, multilayer perceptron, PART, tần số cơ bản



Copyright (c) 2017 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn