CHUYỂN ĐỔI CÂU ĐƠN TIẾNG VIỆT SANG BIỂU THỨC UNL

Phan Thị Lệ Thuyền, Võ Trung Hùng



DOI: 10.15625/vap.2016.00011

Abstract


UNL (Universal Networking Language) là một ngôn ngữ nhân tạo và có thể diễn đạt các nội dung trong ngôn ngữ tự nhiên theo cách thức của nó. UNL là cơ sở để phát triển các phần mềm dịch tự động đa ngữ thông qua ngôn ngữ trục (trường hợp này là ngôn ngữ UNL). UNL mở ra khả người sử dụng có thể truy cập thông tin trên mạng Internet mà không bị rào cản về ngôn ngữ. UNL đã được nghiên cứu và ứng dụng cho 48 ngôn ngữ khác nhau. Hệ thống UNL bao gồm hai thành phần chính là mã hóa (EnCoverter) và giải mã (DeConverter). Mã hóa là quá trình chuyển đổi một văn bản từ ngôn ngữ nguồn (ví dụ tiếng Anh, tiếng Việt,...) sang một văn bản viết bằng ngôn ngữ UNL và giải mã là quá trình chuyển đổi ngược lại (từ văn bản viết trong ngôn ngữ UNL sang ngôn ngữ đích). Hiện nay, hệ thống UNL cho tiếng Việt chưa được phát triển. Trong bài báo này, chúng tôi trình bày kết quả nghiên cứu về phương pháp mã hóa một câu đơn tiếng Việt sang biểu thức UNL tương ứng. Để thực hiện việc chuyển đổi, chúng ta phải xây dựng từ điển Việt – UNL, các luật (quy tắc ngữ pháp) và phần mềm để chuyển đổi. Đặc biệt, chúng tôi đã đề xuất một thuật toán sử dụng các luật trong tập luật mã hóa để tạo ra các thuộc tính tương ứng của UNL và giải quyết các mối quan hệ khác khi chuyển đổi. Kết quả đạt được là chúng tôi đã xây dựng công cụ EnCoVie thực hiện chức năng mã hóa cho một số trường hợp của câu đơn tiếng Việt.

Keywords


Dịch máy, ngôn ngữ mạng dùng chung, dịch liên ngôn ngữ, xử lý ngôn ngữ tự nhiên, mã hóa



Copyright (c) 2017 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn