ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA CỦA CÁC BÀI VIẾT TRÊN MẠNG XÃ HỘI DỰA THEO WIKIPEDIA

Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế



DOI: 10.15625/vap.2017.00021

Abstract


Các bài viết ở các dạng như Blog, tags, các trang chia sẻ nội dung,... được đăng trên các mạng xã hội là nguồn tài nguyên vô giá thu hút nhiều nghiên cứu và khám phá quan tâm, sở thích của người dùng cho phát triển các ứng dụng trong sản xuất kinh doanh, hoạt động chính trị, giáo dục, thương mại điện tử, tư vấn bạn đọc, tư vấn dịch vụ,….. Các nghiên cứu đa phần tập trung vào việc phân loại các bài viết, tìm kiếm hoặc trích chọn đặc trưng các bài viết dựa trên các đoạn văn bản, các mô tả ngắn nào đó để từ đó có thể phân loại người sử dụng. Một trong những cơ sở cho việc phân loại như vậy, là vấn đề ước lượng độ tương đồng của những bài viết này. Hầu hết các nghiên cứu hiện nay chú trọng tính toán độ tương đồng chỉ dựa vào một đặc trưng nào đó như nội dung hay tags,… hơn là xem xét nhiều khía cạnh liên quan. Mục đích của bài báo này trước hết đề xuất mô hình “bài viết” trên mạng xã hội dựa trên một số đặc trưng như tiêu đề, chủ đề, các đánh dấu và nội dung của bài viết. Sau đó, chúng tôi trình bày một độ đo tích hợp để ước lượng độ tương đồng giữa các bài viết theo ngữ nghĩa dựa trên thư viện bách khoa toàn thư Wikipedia. Kết quả thử nghiệm của chúng tôi đã chỉ ra rằng, việc ước lượng tương đồng tích hợp trên nhiều thuộc tính được đánh giá là tốt hơn so với ước lượng cho từng đặc trưng riêng của các bài viết trên mạng xã hội.

Keywords


Mạng xã hội, bài viết, mô hình, độ tương đồng, ngữ nghĩa



Copyright (c) 2018 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn