VNMATHSEARCH - HỆ THỐNG TÌM KIẾM CÁC TÀI LIỆU TOÁN HỌC BẰNG TIẾNG VIỆT

Cao Xuân Tuấn, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà, Võ Trung Hùng



DOI: 10.15625/vap.2015.000218

Abstract


Bài báo này giới thiệu kết quả nghiên cứu xây dựng một hệ thống phục vụ tìm kiếm các tài liệu toán học viết bằng tiếng Việt. Hệ thống bao gồm 2 phần mềm chính đó là tạo chỉ mục và tìm kiếm. Chúng tôi đã đề xuất 2 mô hình tổng quát cho 2 phần mềm này. Với phần tạo chỉ mục, đầu vào là các tập tin dưới định dạng PDF hoặc XHTML và đầu ra là tập tin chỉ mục. Với phần tìm kiếm, người sử dụng có thể gõ vào truy vấn bằng từ khóa hoặc công thức bất kỳ và hệ thống trả về các tài liệu có chứa từ khóa hoặc công thức đó. Để xây dựng hệ thống, chúng tôi đã đề xuất các giải pháp để chuyển đổi định dạng công thức toán học, chuẩn hóa công thức toán học trong MathML, phân tích cú pháp và tạo chỉ mục, tích hợp công cụ gõ công thức toán học vào khung tìm kiếm, xếp hạng kết quả tìm kiếm,… Chúng tôi đã xây dựng và thử nghiệm hệ thống này với hơn 5000 tài liệu toán học viết bằng tiếng Việt, kết quả tìm kiếm cơ bản đáp ứng nhu cầu người dùng cả về độ chính xác lẫn tốc độ tìm kiếm.

Keywords


tìm kiếm, chỉ mục, xếp hạng, toán học



Copyright (c) 2016 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn