Kiến trúc vi mạch cho nhận dạng tiếng nói tiếng Việt thiết kế theo quy trình ASIC, trên nền công nghệ 130 nm TSMC

Hoàng Trang^*, Phạm Đăng Lâm, Trần Văn Hoàng

^*Tác giả chính: Email: hoangtrang@hcmut.edu.vn

Trường Đại học Bách khoa, Đại học Quốc gia TP Hồ Chí Minh

Ngày nhận bài: 19/03/2015; ngày chuyển phản biện: 25/03/2015; ngày nhận phản biện: 21/04/2015; ngày chấp nhận đăng: 26/04/2015

Tóm tắt:

Nhận dạng tiếng nói đã được nghiên cứu từ hơn 60 năm qua. Những nỗ lực đầu tiên được thực hiện từ những năm 50 đến đầu những năm 70 của thế kỷ trước, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng phát âm rời rạc trong môi trường nhiễu thấp, chủ yếu là các hệ thống với bộ từ vựng nhỏ (10-100 từ), trong trường hợp người nói cũng là người huấn luyện. Ngày nay, các hệ thống nhận dạng với số từ vựng lớn được xây dựng trên nền tảng hệ thống máy tính với tốc độ xử lý cao. Khi mật độ tích hợp vi mạch tăng, việc tiếp cận ứng dụng nhận dạng trên phần cứng hay các thiết bị cầm tay trở nên khả thi. Trong nghiên cứu này, nhóm tác giả trình bày một kiến trúc vi mạch được thiết kế theo quy trình ASIC, trên nền công nghệ 130 nm TSMC, ứng dụng trong nhận dạng giọng nói tiếng Việt, để đáp ứng yêu cầu khắt khe về hiệu năng nhận dạng và tính thời gian thực trong các ứng dụng thực tế.

Từ khóa:

dãy cổng lập trình được (FPGA), hàm phân bố xác suất Gauss, hệ thống nhận dạng giọng nói tự động (ASR), mô hình Markov ẩn (HMM), trích đặc trưng thang tần số mel (MFCC).

Chỉ số phân loại:

1.2

An ASIC based architecture for Vietnamese speech recognition on the basic of 130 nm TSMC technology

Received: 19 March 2015; accepted: 26 April 2015

Abstract:

Speech recognition has been researched over sixty years. The first researches were conducted from the 1950s till the early 1970s, some complete recognition systems were developed to recognise incoherent pronounciation in low noise conditions and only adapted to small word libraries (10-100 words) which belong to the trainers as well as the recognition persons. Today, the recognition systems adapting to the large word library are built based on computer system with high performance. Moreover, when integrated density is enhanced, the access to the hardware or handset applying recognition technology becomes feasible. In this work, an ASIC based architecture for Vietnamese speech recognition on the basis of 130 nm TSMC technology is illustrated to meet the real time requirements as well as confirm the highly effective performance.

Keywords:

auto speech recognition (ASR), field-programmable gate array (FPGA), Gaussian probability distribution, hidden Markov model (HMM), mel-frequency cepstral coefficient (MFCC).

Classification number:

1.2

Lượt dowload: 452 Lượt xem: 948

Các tin mới

Các tin đã đưa

Đánh giá

(Di chuột vào ngôi sao để chọn điểm)

Chấm điểm