ĐIỀU KHIỂN ROBOT PIONEER P3-DX BẰNG TIẾNG NÓI VỚI ĐẶC TRƯNG MFCC VÀ GIẢI THUẬT NAÏVE BAYES NEAREST NEIGHBORS

Mã Trường Thành, Đỗ Thanh Nghị, Phạm Nguyên Khang, Châu Ngân Khánh



DOI: 10.15625/vap.2015.000152

Abstract


Trong bài báo này, chúng tôi trình bày ý tưởng điều khiển robot Pioneer P3-DX bằng tiếng nói theo thời gian thực với giải thuật Naïve Bayes Nearest Neighbor (NBNN) sử dụng đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient). Tập dữ liệu cho quá trình huấn luyện và nhận dạng là các mẫu tiếng nói tương ứng với các lệnh điều khiển robot được thu âm từ 20 người đọc khác nhau. Bước xử lý tiếp theo là thực hiện rút trích 39 đặc trưng MFCC từ mỗi mẫu âm thanh của tập dữ liệu thu được. Chúng tôi đề xuất sử dụng giải thuật máy học NBNN để nhận dạng trực tiếp các tiếng nói là các lệnh điều khiển hoạt động robot từ các đặc trưng MFCC tương ứng không cần bất kỳ thao tác xử lý trung gian nào khác. Kết quả thực nghiệm cho thấy rằng phương pháp đề xuất (NBNN sử dụng đặc trưng MFCC) có thể nhận dạng chính xác tiếng nói là các lệnh điều khiển robot, đáp ứng thời gian thực. Giải thuật NBNN cho độ chính xác trong nhận dạng là 98.5%, cao hơn khi so sánh với giải thuật (Support vector machines - máy học véctơ hỗ trợ) SVM và mô hình túi từ với độ chính xác tương ứng là 97.14%, giải thuật (Dynamic time warping – xoắn thời gian động) DTW có độ chính xác tương ứng là 98.4%, và (Hidden Markov model - mô hình Markov ẩn) HMM có độ chính xác là 97.8%. Hơn nữa, phương pháp NBNN sử dụng MFCC đơn giản và có thời gian thực hiện nhanh hơn, đáp ứng được yêu cầu điều khiển robot thời gian thực.

Keywords


Nhận dạng âm thanh, Đặc trưng MFCC, Naive Bayes Nearest Neighbor, Điều khiển robot Pioneer P3-DX



Copyright (c) 2016 PROCEEDING of Publishing House for Science and Technology



PROCEEDING

PUBLISHING HOUSE FOR SCIENCE AND TECHNOLOGY

Website: http://vap.ac.vn

Contact: nxb@vap.ac.vn