仿生系列3--機器人的聽力系統
我們的耳朵是一個高度復雜的系統,同時也是一個高精度的測量“儀器”。普通人的每只耳朵都有約15 500個毛細胞,可以分辨出400 000余種音調。經過專門訓練的人甚至可以直接判斷他所聽到聲音的音調值。但是,人類的聽覺有一定的頻率范圍限制。舉例來說,在水下負責錄制鯨詠(又名鯨歌)的潛水員需要佩戴專業的擴音收音裝置,因為鯨詠的頻率最高可達280KHz,而人類可以聽見的頻率范圍是16Hz~20KHz。雖然專業的擴音收音裝置可以錄制到更廣的聲音頻率范圍,但是只有人類可以專注于某種特定的聲音,并且準確定位聲音的來源。
耳朵:立體聲定位
無論聲音來自前面、后面,還是側面,雙耳都可以迅速定位其來源和距離。人耳的兩種關鍵能力正在被科學家們遷移到機器人身上,一種是對于耳間時間差(Interaural Time Difference,ITD)的處理,一種是對于耳間聲壓差(Interaural Intensity Difference,IID)的處理。由于人的雙耳分布在頭部兩側,所以頭部在聲音傳遞的過程中形成了天然的障礙。因此兩只耳朵會獲得不同的聲壓,而且大部分聲音不會同時進入雙耳,例如來自左側的聲音會先進入左耳,然后繼續以
柏林洪堡大學神經機器人實驗室主任Manfred Hild博士對CHIP雜志表示:“人的立體聲聽覺也受到耳朵肌肉和肩膀的影響。科學家們已經有意識地將人耳的完整結構運用于人工智能系統。”因此,很多機器人的頭部設計與人的大小和形狀相當,盡可能地以人類的方式利用頭部兩側的麥克風獲取立體聲信號。
當機器人身處預先專門準備好的測試環境中時,可以利用立體聲定位功能,像人一樣快速定位聲源。但是,當機器人身處同人一樣的真實日常生活環境中時,聲源定位就不是一件簡單的事情了。機器人與人類最關鍵的區別就是缺乏環境適應和理解能力。一個我們熟知的現象就是雞尾酒效應:當許多人在聚會場所聊天,同時還伴隨著從音響中散播出來的背景音樂的時候,人類依然可以僅專注于某一個對話。但是這種場合對于機器而言就是難以逾越的挑戰了。由于機器人無法確定哪個聲源是真正需要關注的而無法快速過濾掉所有無關的頻率,所以此時的環境里只有一種不可識別的聲音——噪音。
人工智能:聽覺的妥協
科學家們根據應用需求的不同,使用了很多巧妙的方法使機器人獲得更好的聽覺表現。其中,很多人工智能研究中使用到的成熟方法,已經成功轉換為市場上的可行解決方案。有幾項優秀的音頻過濾方案已經開始在移動終端設備、車載免提裝置和遠程會議系統上嶄露頭角。但是柏林洪堡大學的機器人專家Hild告訴我們:“目前來看效果并非總是令人滿意,例如汽車發動機的聲音會干擾到車廂內的整個聲音頻帶,所以無法通過頻率過濾技術簡單地將其消除掉,必須配合聲源定位技術才可以更好地工作。”
最新解決方案就是使用盲信號分離(Blind Signal Separation)技術,制造商采用多個分散放置的麥克風協助錄制令人煩惱的噪音,然后將其過濾掉,只留下司機的聲音。智能手機制造商也使用這個原理,通過機身背部的麥克風與機身正面的麥克風配合過濾掉雜音。慕尼黑科技大學仿生學教授Hemmert說:“我們目前的研究遇到了瓶頸,雖然新的解決方案取得了很大的進步,但是距離真正突破性的進展,還有很長的路要走。”其實,最關鍵的原因是日常生活中的噪音幾乎是無規律的,而通過人工智能實現的機器耳朵無法適應不同的情景。
對于語音識別程序而言,這個過程并沒有什么障礙,通常只要將麥克風至于嘴下即可,此時系統可以識別最大的聲源。但是語音識別程序,尤其是非特定語音識別系統,比如導航系統面臨著另一個很有難度的問題,就是它們需要識別講話者的嗓音,保證輸入的準確度,然后結合龐大的語義數據庫和糾錯能力,將語音轉換為可理解的文字。
結論
Hild對目前的進展并不樂觀,他說:“我們必須回頭審視過去的發展歷程,理解只有機器人可以并行處理所有信號數據,并根據這些數據進行綜合判斷的時候才可能取得重大的突破。”其實,即使這樣也遠遠不夠,因為我們并非僅通過耳朵聽聲音,還會通過眼睛定位對話者、移動自己的頭部找到最好的試聽位置。因此人工智能機器人必須將動力系統、聲音信號和視覺信號結合起來,才能有機會擁有人類這樣敏銳的耳朵。
最新消息
然而,據最新消息,由日本研制的“聽力理解分析機器人HEARBO”已經很好地突破了技術瓶頸,據稱該機器人能同時區分出四種不同類型的聲音,并作分析。舉個例子:當4個人同時說話,機器人通過分析音頻,能區分出哪個聲音來源于哪個人;3個人在玩石頭,剪刀,布的游戲,當3個人同時說話,機器人則可以判斷出贏家是誰。
可見,仿生機器人技術已經越來越先進,但離我們的預期效果還差很遠,相信在不久的將來,智能機器人能夠達到電影中《我,機器人》那樣智能,并且能和人類并肩作戰。