歡迎星標 果殼硬科技
張捷 中國科技大學科技商學院講席教授、美國國家工程院院士
近日,中國科技大學科技商學院講席教授、美國國家工程院院士張捷出席2024亞布力中國企業家論壇第十屆創新年會并發表開幕演講。
張捷認為,“非語音智能聽覺”正成為一個全新的產業化賽道,其應用場景已遍布交通、安防、新能源等各個領域,在國內可應用于多個萬億市場。
以下為發言全文(有刪節):
今天我要講的是“非語音智能聽覺”的基礎科學問題及其產業化問題。
中國有句古話叫“眼觀六路,耳聽八方”,說的就是人類的感知能力,而智能的感知就應該包括智能視覺與智能聽覺。
此前的人工智能只有“眼睛”和語音對話,卻沒有能聽環境的“耳朵”,感知系統并不完善。
舉個例子,現在的機器人在聲音感知上,主要依賴與人對話的“語音”進行辨識,但你要是給它鼓個掌,它就聽不懂了。
在視覺領域,國內外的獨角獸企業和上市公司很多,賽道擁擠;而在非語音智能聽覺領域,一切才剛剛起步。
非語音智能聽覺基于物理學和大數據,模仿人類用耳朵去“聽”。我們希望它在1-2秒內就能迅速做出反應,否則就稱不上“智能”。
除了能監測到城市活動、交通活動、爆炸聲等聲音,智能聽覺還能感知到人的耳朵聽不見的聲波和彈性波。比如,在腳上安裝上感應器,機器人就能快速感知到一公里以外發生的車禍。所謂人工智能的“聽覺”,就是基于聲音和振動信號,彌補機器人缺失的感知能力。
非語音智能聽覺主要是建立基于物理學的多模態大模型,我們不僅要知道聲源在哪里,還要知道其他的物理屬性,進而掌握更多的聲源特征。對于真實場景下空氣里傳播的聲音數據、地下的振動數據、視頻數據等,我們設計模型,訓練學習它們之間的關系。
一個事件的多種數據,可以采用傳統的人工智能信號處理方法做預處理,但進一步的事件檢測以及各種特性分析就涉及到物理學知識。這是非語音智能大模型的不同之處,它同時基于大數據和物理學。
比如,一個人轉過頭,看到背后有個小孩在跑。經過訓練以后,我們掌握了小孩跑的場景與其聲音振動的關系,然后背對著小孩,從聲音震動也能夠預測出跑動小孩的位置與速度等物理參數。
這個大模型不僅能輸出很多參數,知道信號源的位置,當它在移動時,它的移動速度、形狀、大小、尺寸及信號源和傳感器之間的介質可能也在變化,而這些變化,新的大模型都能感應出來。
基于物理學和數據的大模型,憑借聲音和振動,能讓人即便閉上眼睛,也能聽出背后的世界在干什么。這也是我們現在的機器人要補足的東西。我們做聽覺的目的不是要取代視覺,而是希望大模型能像人一樣,同時具備“視”與“聽”,為更多領域創造更多價值。
以真實的交通場景錄像為例。汽車在行走,我們一邊錄著像,同時在路邊放著地震儀和聲音監測設備。監測到聲音的信號,以及波在地下傳播的信號,大模型就開始學習它們之間的關系。掌握了這些關系以后,即便沒有錄像,也可以聽出路面上的車型大小、車的行駛車道、行駛速度甚至車重,就連路面下的裂縫與結構變化也能聽得出來。
20HZ-2000HZ是可聽見的聲波,聽不見的次聲波含有更多的信息,而且衰減非常慢,所以傳播得非常遠,幾公里外都可以聽到。聲波是在空氣和液體里傳播的波,彈性波是在實體里傳播的波,非語音聽覺感知的范圍就是在記錄聲波和彈性波。彈性波在地下的介質里也會傳播得非常快,而且衰減慢,這樣一來,它就有大量源的信息。
簡單來說,當一個設備可以接收聲波和彈性波的信號,將兩者結合起來,它就會很有特點。比如,說話的聲音在20米以外,就衰減沒了;而跑步的振動,在一百多米甚至到兩百米都可能監測到地動。
科學的基礎涉及到地震學,地震學有140年歷史。如果空氣中有一個源產生振動,在空氣里接收的是聲波,到地下就變成地震波。
地震波是由地震震源向四處傳播的振動,指從震源產生向四周輻射的彈性波。按傳播方式可分為縱波(P波)、橫波(S波)(縱波和橫波均屬于體波)和面波(L波)三種類型。P波就是振動的方向和傳播的方向一致;S波就是振動方向和傳播方向垂直往前走;面波沿著地表振動,它還包括勒夫波、瑞利波等。
這些波完全可以被記錄到,我們再對它們進行分解,就可以推斷波源、車型大小、行駛情況等多個物理信息。
過去地震儀研究的是3-8級地震,因為這是人體可感知的。近些年,為了預測地震,大家開始研究0-3級地震。由于石油產業是用地震的方法找石油(已有70多年歷史),石油勘探工業又把震級的下限推到了-5級。
-3級地震,類似于桌上的茶杯掉到大理石的地上摔碎了,在200米外,能接收到它的聲音和振動信號。
-5級地震,類似于將一根鉛筆掰斷,產生的聲音和振動在200米外也能監測到。
工業上的頁巖氣在-2級到-5級的范圍內,可以監測注水壓力、找到石油,這在工業應用上已經非常成熟。
但在-5級到-1級這一領域,振動量的級別非常多,包括汽車、飛機等各種生活場景。如果能夠完成對該領域關于“振動”的解析,那么它的應用范圍就會更廣。過去這一想法不太可能實現,但現在隨著人工智能的出現,大模型可以對聲音進行全自動的解析。
說到關鍵性的科學技術問題,這些年我們團隊一直在解決“聲音”和“振動”的問題。比如,去噪、事件檢測、相位拾取等,利用地動儀記錄聲音(壓力波)和振動(彈性波)信號,并通過5G實時傳輸,再應用人工智能實時處理與解釋數據。
歐洲在疫情期間,就通過地動儀來監測疫情期間的封城情況、城市的活動情況等。最近,歐洲的足球賽也是用地動儀來監測觀眾在場館里的振動情況,避免共振情況。
機器人非語音智能聽覺,在居家、交通、公共場所、工作場所都有很多應用場景。在居家方面,它可以監測老人的身體健康與風險,可以預測電梯運行風險。在交通領域,它可以實現全程交通數字化,揭示每日道路下的構造變化,提示橋梁的振動發生變化。
以交通場景為例,現有的交通領域有攝像頭、毫米波雷達等,但它面臨的困境就是,安裝視頻雷達設施成本昂貴,攝像頭便宜,但龍門架要求的質量非常高,要經得起八級大風、八級地震,成本動輒上百萬,所以不能安裝很多。當視覺覆蓋不夠,盲區就多;然而當視覺覆蓋足夠多,要是數據量太大,實施智能化又比較難。檢測路下結構難以智能化;設備繁多,難以配套運行。這是中國目前智慧交通的痛點。
針對上述痛點,我們提出方案:采取智能聽覺大模型,用地動儀進行5G傳輸、遠程計算,就可以監測車流、車速、車重、路面、路下,還能監測行人、拋物、驟停、爆胎等行為。
這是在合肥的一條高速公路上監測到的畫面,左邊的每一條線就是每一個車行進產生的振動數據,從線上我們可以解譯出它行駛在第幾車道,車型車速、異常駕駛行為,以及重量等信息。
交通領域進行數字化以后,我們通過振動就能夠量化車輛違規、異常行駛、交通事故及高風險事件。右側下圖是交通部門在做實驗,把安全錐往地下扔,模擬車輛拋灑物,記錄這個行為所產生的振動。
再從路面來看,在下雨結冰的路況下,輪胎和地面接觸的聲音發生了變化。這是2023年12月的交通實測結果,縱軸表示沿著公路布設的地動儀位置,橫軸表示時間。一旦開始下雨打滑,畫面就會出現黃色,冰雪融化的時候,畫面出現的黃色比較多,意味著此時路面容易產生較大的輪胎打滑風險。大模型還能量化路面結冰對行車的影響。比如,我們在哈爾濱的冬夜里潑水,測試結冰過程中,行車振動的變化,量化車輪打滑的風險。
如果在開車行駛的路面前方,地面出現裂縫或者坑坑洼洼,那么在振動上就會接收到非常明顯的信號。公路下面看不見的結構變化,也可以通過靈敏的地動儀進行監測。以車作為信號,地動儀可以用地球物理學的方法,實時反推地下結構的變化。
我們再看上圖。合肥下了一場大雨之后,路下十米深的地方出現了地下積水,我們通過聲音和振動就能聽出來車的動靜不一樣,及時預測塌陷等情況,及時預報各種險情。
在廣州白云機場,我們主要監測商用機場的飛機起飛和降落,這是全球商用機場第一次采用地動監測技術。有時,小飛機的降落相當于地震,大飛機的聲音反而很小聲,這取決于飛行員操縱飛機降落的水平,我們可以量化其中的參數。
同時,根據上圖藍顏色跑道下的構造,可以實時監測跑道下面發生什么結構變化,如果發現積水和塌陷風險,就可以提前預警。
研發與應用智能聽覺的產業正在形成,我們在深圳創立的八方地動公司,也是全球第一家進入該領域的企業。
當前,智能視覺已經擴展至紫外線、X光等不可見光的領域,智能聽覺也從語音擴展至非語音領域,甚至擴展到人類聽不見的聲音及振動的范圍。
與其他大模型相比,智能聽覺基于物理學,所以我們團隊中物理學家很多。很多人說,既然你能做出“智能聽覺”,那就不需要“智能視覺”了,其實不然。過去,人工智能只是憑著眼睛去做判斷和識別,還沒有“耳朵”去“聽到”外在的聲音,所以我們是在給機器人補充“耳朵”。
試想一下,一個人聾了不好,瞎了也不完整,所以,只有視覺和聽覺相互協作、相互結合,人工智能才能擁有更高效率、更完整的感知能力。
目前,“非語音智能聽覺”正成為一個全新的產業化賽道,在國內可應用于多個萬億市場,其應用場景已遍布交通、安防、新能源等各個領域,未來可期。
張捷 | 作者
許加林 | 責編
王紫薇 | 排版
亞布力企業家論壇CEF | 來源
如果你是投資人、創業團隊成員或科研工作者,對果殼硬科技組織的閉門會或其它科創服務活動感興趣,歡迎掃描下方二維碼,或在微信公眾號后臺回復“企業微信”添加我們的活動服務助手,我們將通過該渠道組織活動——
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.