Công nghệ nhận dạng giọng nói của IBM đang dần ngang bằng với con người.

10-03-2017

Công nghệ nhận dạng giọng nói của IBM đã đạt được tỷ lệ lỗi từ 5,5%, gần ngang bằng với con người.

Thế giới công nghệ đã trải qua nhiều năm cố gắng để tạo ra phần mềm nhận dạng giọng nói có thể lắng nghe như con người. Hiện tại, IBM đã đạt được tỷ lệ lỗi từ 5,5 vượt qua kỷ lục 6,9 % trước đó – đây xứng đáng là một cột mốc đáng ghi nhận trong ngành công nghệ này, cuối cùng chúng ta có thể cải thiện khả năng lắng nghe của các trợ lý giọng nói như Siri và Alexa.

Microsoft tuyên bố đạt tỷ lệ lỗi 5,9% vào tháng 10 năm ngoái bằng cách sử dụng các mô hình ngôn ngữ thần kinh giống như các đám mây được liên kết bởi những từ ngữ. Vào thời điểm đó, công ty này tin rằng 5,9% gần như tương đương với con người. Tuy nhiên, IBM cho rằng mức độ tương đương với con người thấp hơn như thế, nó ở mức 5,1% và tới giờ chưa có công ty nào đạt được.

IBM đạt được mốc 5,5% bằng cách kết hợp bộ nhớ được gọi là bộ nhớ dài - ngắn hạn, một mạng nơ ron nhân tạo, và các mô hình ngôn ngữ WaveNet với ba mô hình âm thanh mạnh mẽ. Sau đó nó được đo bằng bộ phần mềm "SWITCHBOARD", một bộ sưu tập các cuộc đối thoại trên điện thoại được dung để làm chuẩn cho phần mềm nhận dạng giọng nói trong nhiều thập kỷ.

Julia Hirschberg, giáo sư và chủ tịch khoa Khoa học Máy tính của Đại học Columbia, cho biết: "Khả năng nhận dạng tiếng nói giống như con người là một thách thức vì những cuộc hội thoại của con người, đặc biệt là trong cuộc hội thoại tự phát, rất phức tạp". IBM cũng cho biết: "Rất khó để xác định khả năng của con người, vì con người cũng khác nhau về khả năng hiểu được lời nói của người khác."

Kim Cúc