MÔ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TOÀN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN

Nguyễn Hùng Dũng, Trương Xuân Việt, Trương Quốc Định, Nguyễn Hoàng Việt



DOI: 10.15625/vap.2016.00041

Abstract


Mục tiêu của bài viết là đề xuất mô hình mới cho phép quản lý tập dữ liệu lớn phi cấu trúc, tồn tại dưới dạng các tập tin văn bản, bảng tính. Mô hình đề xuất dựa trên một tập các công nghệ nguồn mở của Big Data theo hướng tích hợp dịch vụ và chuẩn hóa dữ liệu nối kết, bao gồm : (1) HDFS (Hadoop Distributed File System) của Hadoop dùng trong quản lý tập tin, (2) Lucene để lập chỉ mục nghịch đảo (Inverted Index) cho văn bản tiếng Việt, Apache Solr hỗ trợ cơ chế quản lý chỉ mục nghịch đảo, tìm kiếm toàn văn và một số chức năng tìm kiếm nâng cao và (3) Bộ trực quan hóa dữ liệu dựa trên Banana. Kết quả thực nghiệm được thực hiện trên tập dữ liệu tất cả các bài báo khoa học đăng trên Tạp chí Khoa học trường Đại học Cần Thơ từ năm 2011 đến 2015.

Keywords


Big Data, Distributed File System, Inverted Index, Full-text Search, Solr, Lucene



Copyright (c) 2017 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn