SỬ DỤNG DEEP NEURAL NETWORKS BIỂU DIỄN CÁC THUỘC TÍNH CHO BÀI TOÁN PHÁT HIỆN CẢNH BẠO LỰC TRONG VIDEO

Đỗ Văn Tiến, Lâm Quang Vũ, Phan Lê Sang, Ngô Đức Thành, Lê Đình Duy, Dương Anh Đức



DOI: 10.15625/vap.2016.00085

Abstract


Deep Neural Networks (DNN) là một thuật toán máy học trong đó sử dụng mạng neural nhân tạo (Artificial Neural Networks) nhiều tầng để học, biểu diễn mô hình đối tượng. Với rất nhiều kết quả vượt trội so với các phương pháp trước đó, DNN đang được cộng đồng nghiên cứu thế giới sử dụng trong nhiều lĩnh vực như xử lý ảnh, xử lý âm thanh, xử lý ngôn ngữ tự nhiên...
Trong bài báo này, chúng tôi đề xuất sử dụng DNN để biểu diễn các thuộc tính của khái niệm bạo lực như cảnh chứa máu, vũ khí, rượt đuổi xe, đánh nhau, cảnh chết chóc được sử dụng cho bài toán phát hiện cảnh bạo lực trong video (Violent Screne Detection -VSD). Đây là bài toán có tính thực tiễn và ứng dụng cao làm tiền đề để xây dựng các công cụ phân tích và kiểm duyệt nội dung video trên các kênh thông tin đa phương tiện trước khi tới người xem. Để đánh giá phương pháp đề xuất, chúng tôi xây dựng hệ thống trong đó sử dụng một số mô hình DNN phổ biến như Alexnet, UvANet, VGG để đánh giá độ chính xác trên tập dữ liệu chuẩn VSD 2014. Kết quả thực nghiệm cho thấy, độ chính xác khi sử dụng DNN là 48,12% cao hơn so với phương pháp tốt nhất không sử dụng DNN 13%. Bên cạnh đó, bằng việc phân tích kết quả thực nghiệm chúng tôi sẽ đưa ra một số nhận xét trong việc lựa chọn thông tin từ các tầng phù hợp trong mô hình DNN cũng như cách thức biểu diễn video làm cơ sở cho các nhóm nghiên cứu có quan tâm đến bài toán này.

Keywords


Violent scences detection, deep neural network, mid level feature



Copyright (c) 2017 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn