![]()
想象一下,如果你因為嚴重的疾病或者事故,失去了說話的能力,但你腦袋里依然有著想要表達的內容。
我們都知道,交流是人與人之間非常重要的方式之一,它不僅僅是傳遞信息,更是維持情感聯系的紐帶。如果因為癱瘓或其他神經系統疾病失去了說話能力,很多人會覺得非常孤獨和沮喪。現在,腦機接口技術(BCI)給這些人帶來了一線希望。
不過,目前的腦機接口技術主要依賴于“語音合成”,即通過大腦的信號生成可聽見的聲音。但這些技術往往面臨著一些問題:比如語音的生成速度較慢,發出的聲音聽起來不自然,或者無法實時同步。更嚴重的是,一些患者根本無法發出正常的聲音信號,因為他們的言語器官已經完全失能。那么,能不能讓這些患者通過大腦信號直接控制計算機,從而生成流暢的、自然的語音?這個問題一直困擾著科學家們。
為了實現這一目標,今天介紹一項創新的研究成果:一種“流式腦-語音神經假體系統”。簡單來說,這項技術可以讀取患者的大腦信號,并即時將其轉化為語音。更令人興奮的是,這項技術不需要患者發出任何聲音,只要他們通過“大腦控制”來“想象”發聲,系統就能夠將這些意圖轉化為聲音。這樣一來,患者就能用更加自然的方式與他人進行交流,而不是依賴于傳統的拼字板或眼動儀等輔助設備。
01研究方法分析RESEARCH METHODS
那么,這項技術是如何實現的呢?
首先,它需要通過在患者的大腦中植入一種名為“ECoG”的電極陣列。ECoG是“腦皮層電圖”的縮寫,它能在大腦皮層表面捕捉到大腦活動的電信號。每個電極就像一個“小耳朵”,用來聆聽大腦不同區域發出的信號。對于失語癥患者來說,他們的腦電信號可能會比正常人更加復雜,尤其是在他們沒有說話的情況下,仍然會有大腦活動,這些活動正是他們“想要說話”的信號。
研究人員選擇了一個47歲的女性患者,她因為腦干中風導致全身癱瘓,無法說話。患者的腦電圖通過ECoG陣列采集,記錄下她在“嘗試發音”時的大腦信號。值得注意的是,這些信號并不是通過口腔發音來產生的,而是通過“模仿”說話,即用大腦控制嘴巴和舌頭的動作來“想象”說話。通過這種方式,雖然患者沒有發出任何聲音,但大腦的控制信號依然能夠被記錄下來。
接下來,研究人員使用了一個非常強大的深度學習模型——遞歸神經網絡(RNN-T),這種模型擅長處理時間序列數據,并能夠從大腦信號中“解碼”出意圖的文本或語音。通過實時地解析這些大腦信號,系統能夠在短短的80毫秒內生成相應的語音或文字,而不需要等待患者完成整個句子的“發音”。這個系統的關鍵是能夠做到“流式解碼”,也就是說,當患者腦中產生說話意圖時,系統就可以立刻開始生成語音,而不是等待到發音完成后再生成聲音。
![]()
一種自然流動的無聲語言神經假體概述
02研究結果分析RESEARCH RESULT
2.1 流暢的語音合成
經過多次實驗和優化,這個系統成功地實現了流暢的語音合成。患者在進行無聲發音的同時,系統就能夠同步生成相應的語音,并通過揚聲器播放出來。通過這種技術,患者可以在和他人對話時,像正常人一樣流暢地表達自己的想法。研究人員發現,系統能夠以每分鐘47.5個詞的速度生成語音,遠遠超過了傳統腦機接口系統的30個詞/分鐘。而且,這個系統的延遲非常低,從患者想要說話到語音輸出的時間只需要1.12秒,這意味著對話的流暢度得到了大幅提升。
![]()
在線連續流式同步語音合成和文本解碼來自神經活動
2.2 更高的交流速度
相比于過去的腦機接口技術,這個新系統在語音合成的速度和流暢度上有了顯著提升。傳統的腦機接口需要等待患者完成一整個句子的發音后,才開始合成語音,而這個系統能夠在患者發音的過程中實時生成語音。這種技術的突破,使得患者能夠更快、更自然地參與到對話中,而不需要等待很長時間,避免了以往因語音延遲導致的尷尬和誤解。
![]()
1024個單詞的通用集的示例流媒體語音合成轉錄
2.3 語音和文本同步
值得一提的是,這個系統不僅能夠合成語音,還能實時解碼文本。每當系統解碼出一個新的詞或短語時,它不僅會通過揚聲器播放出來,還會將相應的文本顯示在屏幕上。這使得患者可以在交流時同時看到自己說的內容,進一步提高了溝通的準確性和清晰度。
![]()
離線長時連續語音解碼,帶有隱式語音檢測
2.4 系統的普遍適應性
此外,這個系統還表現出了極強的普適性。研究人員嘗試將該系統應用到其他的腦-語音接口中,例如通過記錄大腦其他區域的信號或通過表面肌電圖(EMG)來捕捉發音信號。無論是哪種記錄方式,系統都能成功解碼大腦信號,并生成相應的語音或文本輸出。這一結果表明,這項技術不僅適用于ECoG陣列,還可以推廣到其他類型的腦-語音接口系統,具有廣泛的應用前景。
![]()
語音合成在無聲語音接口上的泛化
2.5 高度個性化的語音
對于失語癥患者來說,恢復個性化的聲音尤為重要。研究人員使用了患者失去語音能力之前的錄音數據,通過語音轉換技術(Voice Conversion)將系統生成的語音“個性化”,讓其聽起來像患者自己原本的聲音,而不是機器合成的冷冰冰的聲音。這種個性化的語音恢復大大提高了患者的自我認同感和生活質量。
![]()
模型生成的聽覺反饋不會干擾發音驅動的語音解碼
03研究結論RESEARCH CONCLUSION
這項研究展示了一種全新的技術:流式腦-語音神經假體。通過實時解碼大腦活動并合成自然流暢的語音,這項技術成功地恢復了失語癥患者的交流能力。與現有的腦機接口技術相比,這個系統不僅在語音合成的速度和流暢度上有了顯著提升,還能夠在沒有發聲的情況下,通過“大腦控制”生成語音,極大地提高了患者的交流體驗。
這項技術為那些因神經損傷或疾病而失去言語能力的患者帶來了希望,它使得患者能夠更加自然、快速地與他人交流,恢復自我表達的能力。未來,隨著技術的進一步優化和應用,這種腦-語音神經假體有可能成為一種常規的臨床治療工具,幫助更多的失語癥患者恢復他們的語言能力。
04未來展望FUTURE RPROSPECT
盡管該技術已經取得了顯著的成果,但仍然存在一些挑戰。首先,目前的系統仍然依賴于較為復雜的設備和訓練過程,如何降低成本、簡化操作,讓更多患者能夠使用這項技術,是未來需要解決的問題。其次,雖然該系統已能應對已知句子的生成,但如何提高對未知詞匯或自由表達的理解和生成能力,也是一個研究方向。
總的來說,這項技術為腦機接口領域帶來了巨大的進步,它不僅僅局限于恢復語言交流,還為未來更多類型的神經假體系統的研發提供了寶貴的經驗和思路。在未來的日子里,我們有理由相信,腦-語音神經假體將成為改變失語癥患者生活的關鍵技術之一。
來源 | 腦機接口社區·
浙大科技園啟真腦機智能產業化基地是在浙大控股集團領導下,由浙江大學科技園發展有限公司與杭州未來科技城管委會共建,圍繞腦機智能產業主體,輻射腦機+生命健康、腦機+智能制造、腦機+新一代信息技術、腦機+新材料等領域的專業化特色產業基地,由杭州啟真未來科技發展有限公司負責全面運營。
基地依托浙江大學在腦機智能方面的學科優勢,以腦機智能作為核心科技支撐,貫徹浙江大學國家大學科技園“有組織科技成果轉化、有靶向科技企業孵化、有體系未來產業培育”的服務體系,致力于打造腦機智能領域具備成果顯示度、區域影響力的產業化高地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.