MÔ HÌNH ƯỚC LƯỢNG ĐỘ TƯỢNG TỰ GIỮA CÁC BÀI VIẾT TRÊN CÁC CỔNG THÔNG TIN GIẢI TRÍ

Nguyễn Thị Hội, Trần Đình Quế, Đàm Gia Mạnh, Nguyễn Mạnh Hùng



DOI: 10.15625/vap.2016.00043

Abstract


Ngày nay, với sự bùng nổ của các cổng thông tin cũng như các phương tiện giải trí và các mạng xã hội, mỗi giây, mỗi phút có rất rất nhiều các bài viết được đăng trên các phương tiện này. Nhiều nhà nghiên cứu và quan tâm đến các phương tiện truyền thông xã hội đã đưa ra một số cách thức để lọc, phân loại, tìm kiếm hoặc đưa ra các bài viết tương tự nhau dựa trên các đoạn văn bản, các mô tả ngắn hoặc một thuộc tính nào đó của bài viết,… Vấn đề đặt ra là làm thế nào để ước lượng được độ tương tự giữa các bài viết được đăng trên các cổng thông tin giải trí đó? Hay làm thế nào để phát hiện được bài viết đang xem xét có độ tương tự cao nhất với một hoặc một số bài viết đã đăng trên các cổng thông tin giải trí đó. Để giải quyết vấn đề này, trong bài viết này chúng tôi đề xuất hai vấn đề: Thứ nhất là mô hình hóa các bài viết được đăng trên một số cổng thông tin giải trí phổ biến hiện nay dựa trên một số thuộc tính của chúng như: tiêu đề bài viết, chủ đề bài viết, các đánh dấu của bài viết, và nội dung của bài viết…; Thứ hai là đề xuất một mô hình ước lượng độ tương tự giữa các bài viết trên các cổng thông tin giải trí dựa trên các thuộc tính đã được mô hình hóa ở theo mô hình đã đề xuất. Cuối cùng chúng tôi thảo luận một số giới hạn của mô hình và các hướng nghiên cứu tiếp theo.

Keywords


Độ tương tự, bài viết tương tự, phương tiện truyền thông, độ đo tương tự, cổng thông tin giải trí



Copyright (c) 2017 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn