XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƯƠNG PHÁP ÁNH XẠ TRUNG GIAN

Khang Nhứt LâmDOI: 10.15625/vap.2016.000105

Abstract


Để xây dựng một từ điển mới từ một ngôn ngữ nguồn A sang một ngôn ngữ đích C, ký hiệu là Dict(A,C), các phương pháp hiện tại cần nhiều nguồn tài nguyên có sẵn như các tự điển trung gian hoặc một lượng lớn tài liệu văn bản ở ngôn ngữ A, C và ở một hoặc nhiều ngôn ngữ trung gian B. Tuy nhiên, không phải ngôn ngữ nào cũng có các nguồn tài nguyên sẵn có như vậy, đặc biệt là các ngôn ngữ ít tài nguyên hoặc ngôn ngữ “nguy cấp” được UNESCO thống kê. Bài báo này trình bày phương pháp làm tăng số lượng entry trong từ điển sẵn có và xây dựng một từ điển mới Dict(A,C) bằng phương pháp ánh xạ trung gian từ 2 tự điển sẵn có Dict(A,B) và Dict(B,C) với B là một ngôn ngữ phổ biến. Cụ thể hơn, chúng tôi sử dụng tiếng Anh như một ngôn ngữ trung gian để thực hiện việc ánh xạ ngữ nghĩa các từ vựng ở ngôn ngữ A sang ngôn ngữ C. Để loại bỏ các mục dịch không chính xác, chúng tôi sử dụng phương pháp tính trọng số. Nếu một mục dịch có trọng lượng lớn hơn một ngưỡng δ, nó được xem như là mục dịch tốt và sẽ được thêm vào tự điển mới Dict(A,C). Nghiên cứu của chúng tôi không chỉ giúp giảm đáng kể chi phí xây dựng các tự điển mới, mà nó còn góp phần hỗ trợ các cộng đồng sử dụng ngôn ngữ không có nhiều nguồn tài nguyên từ vựng.

Keywords


Tự điển, ánh xạ trung gian, mục dịch, ngôn ngữ nguy cấpCopyright (c) 2017 PROCEEDING of Publishing House for Science and TechnologyPROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn