IBM 語音識別新方向：仿生蝙蝠耳能用聲納精準“聆聽”

作者：時間：2016-12-28 來源：雷鋒網

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　蝙蝠使用生物聲吶，為夜晚在叢林中飛行導航。他們的超聲波脈沖，可以比人造聲吶裝置更精確地對聲音進行定位。為復制、駕馭這種能力，IBM 學院獎獲得者 Rolf Müller 教授協同他在弗吉尼亞理工學院(Virginia Tech)的團隊，設計了一種人造蝙蝠耳。

本文引用地址：http://www.j9360.com/article/201612/342194.htm

　　Rolf Müller 的研究引起了 IBM 的注意。IBM 專家韓金萍(音譯)的神經計算團隊，和 IBM Watson 語音專家崔曉東(音譯)和他的同事，看到了 Müller 教授人造“動態外耳”(dynamic peripheral，蝙蝠可轉動的外耳使它們的生物聲吶更加準確)的潛力，并希望借此提高人類語音理解的能力。他們把 Müller 的博士生 Anupam Gupta 納入團隊，一同他們探索人造蝙蝠仿生耳在語音處理的應用。

　　他們發現，這些仿生耳不僅是很有效的聲吶裝置，對語音識別同樣能起到作用。

　　模仿菊頭蝠的人造耳

　　研究團隊根據蝙蝠改變耳朵形狀的能力，仿制了一個動態接收系統。它能提高自動語音識別系統(ASR)的精確度，還能更準確地對談話者定位。韓金萍將在他們的論文《受菊頭蝠啟發的接收動力學把動態特點加入語音信號》，及本周美國聲學協會第 172 屆會議上展示了這一發現。

　　這些動態系統有潛力發展成讓使用者“像蝙蝠那樣聆聽”的語音接收設備。這會改進現有的助聽器和指向性傳聲器。并可應用于任何需要對聲音來源進行定位、理解的場景。

　　設想你身處一個忙碌、吵鬧的集市。聽清楚你旁邊的人在說什么都可能是一項挑戰。有了這項技術，同伴的聲音就能被一個可變形的助聽器識別，然后翻譯成你能聽懂的話。它還可以過濾掉鬧市的雜音，和其他人嗡嗡的說話聲。

　　仿生蝙蝠耳的生物聲吶算法

　　蝙蝠的超聲波具有 10 – 200 kHz 的頻率，而人耳只能識別 20 Hz – 20 kHz 的聲音。因此對我們來說它聲調太高，大多數是聽不到的。為了駕馭蝙蝠的生物聲吶頻率和精度，Gupta 加入韓金萍團隊編寫能夠把語音訊號轉化為超聲波脈沖的代碼——然后再把超聲波轉化為我們能夠聽到的正常語言。

　　這首先需要建立一個數據庫。為了盡可能地簡化，韓金萍團隊使用了卡內基梅隆大學開源數據庫中，11 個美式英語朗讀者的英語字母和數字的發音。

　　舉例子，以字母“A” 或者數字“1”形式出現的數據，被麥克風接收，然后轉化為超聲波信號。超聲波揚聲器播放該信號。隨后，具有“動態外耳”的人造蝙蝠耳接收信號。最后，軟件把超聲波信號轉化為原始數據——字母“A” 或者數字“1”。

　　現實(鬧市)中的人造耳朵

　　雖然只包含字母和數字的聲音信號數據庫有較大限制，但通過分析它，韓金萍團隊表示人造耳用“動態、方向性的的時間頻率模型”豐富了語音信號。下一步，研究人員把人造耳處理后的聲音與原始語音進行對比，來衡量人造耳的精度。因此，他們把原始語音數據和經人造耳處理的聲音數據，放入分類器( classifier )中進行識別。67% 的語音信號能被成功識別出來。而在沒有動態外耳的對照組中，只有 35% 的聲音數據被識別。

　　有了更多的可用分析數據后，研究員們將著手用行業基準來對該系統進行測試，并開發仿生學習算法。再或者，將來他們可能會開發一個“聆聽” app，把智能手機麥克風變成接入物聯網的指向性麥克風，來幫助使用者選擇現實中他想要聽到的聲音。IBM 研究人員認為，實現它并不是太遙遠。

a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

新聞中心

IBM 語音識別新方向：仿生蝙蝠耳能用聲納精準“聆聽”

評論

相關推薦

技術專區