Hệ thống giúp nhận diện giọng nói của con người có thể được phát triển trong tương lai gần

Hệ thống giúp nhận diện giọng nói của con người có thể được phát triển trong tương lai gần

Càng hiểu về cách thức con người nhận diện các giọng nói khác nhau thì việc thiết kế phần mềm nhận diện giọng nói càng trở nên dễ dàng chừng đó. Nếu điện thoại reo lên và bạn liền trả lời mà không cần nhìn xem người gọi là ai, khả năng cao là bạn biết người gọi là mẹ bạn ngay trước khi bà ấy nói: “Chào con gái”. Thậm chí bạn có thể biết được ngày là bà ấy đang vui, buồn, tức giận hay phiền muộn.

Con người có bản năng nhận diện người khác thông qua giọng nói. Một nghiên cứu công bố trên Tạp chí của Hiệp hội Âm học Hoa Kỳ gần đây đã có câu trả lời cho câu hỏi này. Kết quả thu được sẽ thúc đẩy việc thiết kế phần mềm nhận diện giọng nói trở nên hiệu quả hơn trong tương lai.

Sự phức tạp của giọng nói

“Hệ thống thính giác của máy tính thực sự gặp rắc rối với việc nhận diện có bao nhiêu âm thanh, chúng là những âm thanh gì và ở đâu”, theo Tylor Perrachione, nhà thần kinh học kiêm nhà ngôn ngữ học tại đại học Boston. Ngày nay, Facebook không gặp nhiều khó khăn trong việc nhận diện khuôn mặt, dù được chụp dưới góc máy ra sao hay điều kiện ánh sáng khác nhau thế nào. So ra thì phần mềm nhận diện giọng nói hiện nay bị giới hạn hơn nhiều, theo Perrachione, và điều đó có thể liên quan đến sự thiếu hiểu biết của chúng ta về cách mà con người có thể nhận diện được giọng nói.

“Mỗi người chúng ta sở hữu nhiều kiểu giọng nói khác nhau”, Neeraj Sharma, nhà tâm lý học từ đại học Carnegie Mellon ở Pittsburgh đồng thời là trưởng nhóm thực hiện thí nghiệm gần đây cho biết. “Khi bạn lắng tai nghe một cuộc hội thoại, các kiểu giọng nói khác nhau liên tục chuyển đổi trong não của bạn nên bạn mới có thể hiểu ý của từng người một”.

Con người hình thành các giọng nói kiểu mẫu trong bộ não khi họ tiếp xúc với nhiều giọng nói khác nhau, sau đó để ý sự khác biệt về đặc tính âm thanh như ngữ điệu hay âm sắc. Nhờ chuyển đổi và thích nghi một cách tự nhiên giữa các kiểu âm thanh khác nhau dựa vào việc xác định ai đang nói, con người học được cách nhận biết và hiểu được người đối diện đang nói gì.

“Hiện tại, hệ thống nhận dạng giọng nói không tập trung vào người phát ngôn – chúng đơn giản là chỉ sử dụng cùng một kiểu giọng nói cứng nhắc để phân tích mọi thứ”, Sharma cho biết. “Chẳng hạn như, khi bạn nói chuyện với Alexa, nó sẽ dùng đúng một kiểu âm thanh để phân tích giọng nói của cả tôi và bạn”.

Hệ thống giúp nhận diện giọng nói của con người có thể được phát triển trong tương lai gần

Ví dụ như bạn có chất giọng khá dày của người Alabamian, thì khả năng là Alexa sẽ nghĩ bạn đang cố nói từ “không thể” nhưng lại nói nhầm thành từ “cây mía”.

“Nếu chúng ta hiểu được cách con người sử dụng mô hình giọng nói dựa vào người nói, thì có lẽ chúng ta có thể dạy một cái máy làm điều tương tự”, Sharma nói.

Nghe và nói “khi nào”

Trong một nghiên cứu gần đây, Sharma cùng các cộng sự đã xây dựng một thí nghiệm, trong đó một nhóm tình nguyện viên được cho nghe các mẫu âm thanh thay phiên nhau phát ra từ hai giọng nói tương đồng, và được yêu cầu xác định chính xác thời điểm âm thanh chuyển từ người nói đầu tiên sang người thứ hai.

Điều này cho phép các nhà nghiên cứu phát hiện ra mối quan hệ giữa các đặc tính âm thanh nhất định và thời điểm mà anh ta phản ứng với sự thay đổi giọng nói, cũng như tỷ lệ đưa ra đáp án sai của nhóm tình nguyện viên. Sau đó các nhà khoa học bắt đầu tìm hiểu dấu hiệu nào giúp nhóm tình nguyện viên chỉ cần nghe thấy là biết được giọng nói đã đổi từ người này sang người khác.

“Hiện tại, không có nhiều thí nghiệm cho phép chúng tôi nghiên cứu việc nhận diện giọng nói cũng như danh tính của người nói. Vì vậy, thí nghiệm lần này thật sự khá khéo léo”, Perrachione cho biết. Khi các nhà nghiên cứu thực hiện thí nghiệm tương tự đối với nhiều loại phần mềm nhận diện giọng nói hiện đại bậc nhất, bao gồm cả phần mềm đã tung ra thị trường của IBM – họ đã phát hiện ra sự nhất quán trong lúc thực hiện thí nghiệm của những tình nguyện viên, tốt hơn hẳn so với tất cả các phần mềm đã thử nghiệm”.

Sharma nói rằng họ đang lên kế hoạch nghiên cứu hoạt động não bộ của những người đã nghe nhiều kiểu giọng nói khác nhau bằng cách sử dụng máy ghi điện não, hay còn gọi là EEG, một phương pháp không xâm lấn để kiểm soát hoạt động của não bộ. “Điều đó có thể giúp chúng tôi nghiên cứu sâu hơn về cách não bộ phản ứng khi có sự thay đổi giọng nói”.

Nguồn: https://bit.ly/2wzBgZX

Leave a Reply

%d bloggers like this: