XÂY DỰNG WORDNET CHO TIẾNG VIỆT

Lâm Nhựt Khang, Nguyễn Huỳnh Hữu Đức, Võ Lê Minh TrungDOI: 10.15625/vap.2017.000118

Abstract


Cơ sở dữ liệu từ vựng hay mạng từ (WordNet) là nguồn tài nguyên từ vựng được sử dụng phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên như tóm tắt văn bản, rút trích thông tin và máy dịch. Bài báo trình bày phương pháp xây dựng WordNet cho tiếng Việt (VWN). Mục tiêu của nghiên cứu là xây dựng VWN có cùng cấu trúc với Princeton WordNet (PWN). Đầu tiên, các synset trong PWN được dịch về tiếng Việt để tạo ra các ứng viên tiềm năng (candidates). Một phương pháp ranking được sử dụng để loại bỏ các mục dịch không chính xác. Nhằm tăng độ bao phủ (coverage) về số lượng các synset trong VWN so với PWN, WordNet có cùng cấu trúc với PWN ở các ngôn ngữ khác nhau sẽ được sử dụng. Cuối cùng, mối quan hệ giữa các synset trong VWN được thiết lập dựa trên các mối quan hệ của synset trong PWN. VWN hiện tại chứa 78.285 synset (tỷ lệ bao phủ của synset là 66,54%) và 80.413 mối quan hệ ngữ nghĩa.

Keywords


WordNet, mạng từ, synset, quan hệ ngữ nghĩaCopyright (c) 2019 PROCEEDING of Publishing House for Science and TechnologyPROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn