Hoàng Trang*, Phạm Đăng Lâm, Trần Văn Hoàng
*Tác giả chính: Email: hoangtrang@hcmut.edu.vn
Trường Đại học Bách khoa, Đại học Quốc gia TP Hồ Chí Minh
Ngày nhận bài: 19/03/2015; ngày chuyển phản biện: 25/03/2015; ngày nhận phản biện: 21/04/2015; ngày chấp nhận đăng: 26/04/2015
Tóm tắt:
Nhận dạng tiếng nói đã được nghiên cứu từ hơn 60 năm qua. Những nỗ lực đầu tiên được thực hiện từ những năm 50 đến đầu những năm 70 của thế kỷ trước, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng phát âm rời rạc trong môi trường nhiễu thấp, chủ yếu là các hệ thống với bộ từ vựng nhỏ (10-100 từ), trong trường hợp người nói cũng là người huấn luyện. Ngày nay, các hệ thống nhận dạng với số từ vựng lớn được xây dựng trên nền tảng hệ thống máy tính với tốc độ xử lý cao. Khi mật độ tích hợp vi mạch tăng, việc tiếp cận ứng dụng nhận dạng trên phần cứng hay các thiết bị cầm tay trở nên khả thi. Trong nghiên cứu này, nhóm tác giả trình bày một kiến trúc vi mạch được thiết kế theo quy trình ASIC, trên nền công nghệ 130 nm TSMC, ứng dụng trong nhận dạng giọng nói tiếng Việt, để đáp ứng yêu cầu khắt khe về hiệu năng nhận dạng và tính thời gian thực trong các ứng dụng thực tế.