PHÂN LOẠI CÂU HỎI TIẾNG VIỆT ỨNG DỤNG CHO HỆ THỐNG HỎI ĐÁP MỞ

Lê Thị Thanh Thuỳ, Nguyễn Văn Kiệt, Nguyễn Lưu Thuỳ NgânDOI: 10.15625/vap.2017.00088

Abstract


Phân loại câu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp, đặc biệt là hệ thống hỏi đáp mở (Open-domain question answering system). Phân loại câu hỏi giúp xác định đối tượng cần tìm kiếm và phạm vi kiến thức của câu trả lời. Do đó độ chính xác của bộ phân loại câu hỏi ảnh hưởng nhiều đến chất lượng của một hệ thống hỏi đáp mở. Trong bài báo này, chúng tôi trình bày phương pháp phân loại câu hỏi tiếng Việt sử dụng kết hợp các phương pháp túi từ, từ khóa và quan hệ phụ thuộc. Chúng tôi tiến hành thử nghiệm phương pháp trên 2 bộ câu hỏi: bộ câu hỏi TREC tiếng Việt và bộ câu hỏi do chúng tôi tự xây dựng. Kết quả thử nghiệm cho ra hệ thống phân loại câu hỏi có độ chính xác ở lớp thô(Coarse) là 85.4% và lớp mịn(Fine-Grained) là 70.2%. Hệ thống cũng xây dựng được bộ dữ liệu được đặt tên là UIT-OQA. Bộ dữ liệu gồm 1,416 câu hỏi phù hợp với các nghiên cứu về phân loại câu hỏi và hệ thống hỏi đáp trên ngôn ngữ Tiếng Việt.

Keywords


Open-domainquestion answering, hệ thống hỏi đáp mở, quan hệ phụ thuộc, túi từCopyright (c) 2019 PROCEEDING of Publishing House for Science and TechnologyPROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn