Nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA

Thứ bẩy, 01/12/2012 14:14 GMT+7
Hiện nay, việc sử dụng các thiết bị điều khiển không tiếp xúc đang là xu hướng mới, đặc biệt là điều khiển bằng tiếng nói nhờ vào công nghệ nhận dạng tiếng nói. Trên thế giới có nhiều phần mềm nhận dạng tiếng nói được xây dựng và khai thác ứng dụng...

Vì vậy, để có thể ứng dụng nhiều trong thực tế, hướng tiếp cận hợp lý là xây dựng thành công các giải thuật này trên vi mạch, dựa vào khả năng xử lý song song nhiều luồng dữ liệu để rút ngắn thời gian xử lý. Tuy nhiên, vì các giải thuật nhận dạng là rất phức tạp với nhiều luồng dữ liệu, đòi hỏi các kỹ thuật đồng bộ có độ chính xác nghiêm ngặt trong vi mạch. Hơn nữa, việc “vi mạch hóa” các giải thuật này là một thách thức rất lớn mà chưa có một công trình nào trên thế giới đã công bố là giải quyết trọn vẹn. Với Việt Nam, khó khăn trong việc “vi mạch hóa” các giải thuật nhận dạng ngôn ngữ tiếng Việt được nhân lên gấp bội do tiếng Việt là ngôn ngữ đơn âm, có dấu..., do vậy, ngay cả các giải thuật phần mềm cũng chưa tìm được giải thuật hiệu quả.

Năm 2012, được sự hỗ trợ của Bộ Khoa học và Công nghệ thông qua đề tài nghiên cứu tiềm năng “Thiết kế chip nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA”, TS. Hoàng Trang và nhóm nghiên cứu trẻ của trường Đại học Bách khoa - Đại học Quốc gia TP.Hồ Chí Minh đã có cơ hội để thử sức nghiên cứu xây dựng một số cấu trúc vi mạch nhận dạng tiếng nói tiếng Việt.

Sau gần một năm nghiên cứu, nhóm nghiên cứu đã gặt hái được một số kết quả bước đầu. Nhóm đã có được cấu trúc vi mạch trên nền FPGA nhận dạng tiếng nói tiếng Việt, bước đầu nhận dạng được chữ số từ 0-9 và khoảng 20 từ đơn âm khác như “trái”, “phải”, “lên”, “xuống”... với tốc độ xử lý nhanh hơn so với các vi mạch cùng tính năng đã được nghiên cứu để nhận dạng tiếng Anh. Ngoài ra, nhóm cũng đã phát triển một số cấu trúc vi mạch để xử lý được một số các câu ngắn ứng dụng cho điều khiển thiết bị điện tử trong nhà như điều hòa, đèn chiếu sáng, bình nóng lạnh... Đặc biệt, các cấu trúc vi mạch nhận dạng tiếng nói trên có độ chính xác cao khi thử nghiệm trong nhiều môi trường khác nhau, có thể đạt nhận dạng chính xác tối thiểu 80% khi so sánh với giải thuật phần mềm tương tự chạy trên máy tính.

Trên cơ sở kết quả đạt được, nhóm thực hiện đề tài đang hướng tới việc cho ra đời một sản phẩm Chíp nhận dạng tiếng nói tiếng Việt đầu tiên với công nghệ 65 nm và nghiên cứu hoàn thiện sản phẩm dành cho các ứng dụng thiết bị đầu cuối trợ giúp người khiếm thính.


Robot được điều khiển bằng giọng nói dùng cấu trúc vi mạch

Mặc dù, đây mới chỉ nghiên cứu đầu tiên với kết quả còn khiêm tốn nhưng chúng ta có thể hy vọng trong tương lai không xa sẽ có nhiều thiết bị đầu cuối sử dụng Chíp nhận dạng tiếng nói tiếng Việt do chính các nhà khoa học trẻ Việt Nam nghiên cứu chế tạo.

Đánh giá

(Di chuột vào ngôi sao để chọn điểm)
   capcha_img