MỘT CÁCH TIẾP CẬN MỚI ĐỂ PHÁT HIỆN SỰ GIỐNG NHAU CỦA VĂN BẢN DỰA TRÊN PHÉP BIẾN ĐỔI WAVELET RỜI RẠC

Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh, Nguyễn Văn Hiếu, Đặng Thiên Bình, Võ Trung Hùng



DOI: 10.15625/vap.2017.00057

Abstract


Trong bài báo này, chúng tôi đề xuất một cách tiếp cận mới nhằm phát hiện sự giống nhau giữa các văn bản dựa trên phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT). Cụ thể là, các tài liệu gốc sẵn có được chuyển thành một tập các chuỗi số thực được gọi là các DNA (DeoxyriboNucleic Acid) nguồn thông qua DWT. Để kiểm tra sự giống nhau của một văn bản bất kỳ, chúng tôi cũng sử dụng DWT để tạo ra các DNA cho chính văn bản đó và tính toán khoảng cách Euclid nhỏ nhất từ các DNA này đến các DNA nguồn. Cuối cùng, bằng cách so sánh với một mức ngưỡng, các giá trị về khoảng cách sẽ cho biết đoạn văn bản được kiểm tra có giống với một văn bản nguồn nào đó hay không. Kết quả thực nghiệm chứng minh thuật toán do chúng tôi đề xuất đem lại hiệu quả cao trong phát hiện sự giống nhau của văn bản bằng cách thử nghiệm trên một bộ dữ liệu chuẩn tại Hội nghị quốc tế thường niên về phát hiện đạo văn (Plagiarism Analysis, Authorship Identification, and Near-Duplicate detection - PAN).

Keywords


Text Similarity, Discrete Wavelet Transformation, Text analysis, Data mining



Copyright (c) 2018 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn