无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Thinking Machines 剛發的「邊聽邊說」,讓我想到了幾個月前的面壁智能

0
分享至

邊聽邊說

OpenAI 前 CTO Mira Murati 和前應用研究負責人翁荔(Lilian Weng)創立的 Thinking Machines Lab,也就是 TML,剛剛發布了一個叫「Interaction Models」的研究

這東西的核心能力,是讓 AI 能一邊聽你說話、一邊看周圍環境、一邊回應你。TML 種子輪融資 20 億美元,估值 120 億,這是他們創立一年多來第一次公布核心技術方向,下面這個是發布視頻

看完 TML 的發布,我想到了兩個東西:

  • OpenAI 的 Realtime API,這應該是最早落地邊聽邊說的,不過沒有多模態能力:

  • 還有一個就是面壁智能今年 2 月開源了 MiniCPM-o 4.5:

今天的故事由此展開,聚焦于 TML-Interaction 和 MiniCPM-o 這倆系列的技術技術、思路的異同,大家是怎么做的:

→ TML 發布 TML-Interaction-Small,276B 參數,12B 激活,200ms 微回合設計

→ 面壁 2 月開源 MiniCPM-o 4.5,9B 參數,1.0s 時間片段,可在 12GB RAM 設備上運行

→ 兩家核心洞察一致:交互瓶頸在范式層面,傳統的 VAD 應該被模型自身替代

→ 技術路徑有分歧:時間粒度、編碼器策略、模型架構各走各的

TML 發了什么

Thinking Machines Lab 這次的模型叫 TML-Interaction-Small,276B 參數的混合專家架構(參數很多但每次只激活其中 12B),搭配一個異步運行的「背景模型」使用。

注意,這里是兩套模型:交互模型負責實時對話,始終在線。背景模型負責工具調用、網頁搜索這類需要時間的重活,做完把結果回傳給交互模型

翁荔在 Demo 視頻里出鏡,也是她的首次產品演示。在視頻里,她要求模型在她講故事時,每聽到一個動物名字就計數一次。她中間喝水、停頓思考,模型都沒有打斷。最后給出了正確答案:鹿一次、綿羊一次、郊狼一次、卡皮巴拉一次


TML Demo:Introducing Interaction Models

Benchmark 方面,TML 用了 FD-bench,一個專門測交互質量的基準。輪次切換延遲 0.40 秒,GPT-realtime-2.0 是 1.18 秒,Gemini-3.1-flash-live 是 0.57 秒。交互質量評分 77.8,GPT 兩個版本分別 46.8 和 47.8

TML 還自己造了兩個 benchmark:TimeSpeak 和 CueSpeak

TimeSpeak 測模型能不能在指定時間主動開口,比如「每 4 秒提醒我呼吸一次」;CueSpeak 測模型能不能在正確時刻回應,比如「聽到外語就糾正發音」

對于這倆 bench,現有模型幾乎為零,GPT-realtime-2.0 分別得了 4.3 和 2.9,TML 得了 64.7 和 81.7


TML 在智能和交互兩個維度上的位置

然后...這個模型目前只是放了個視頻,還沒有正式開放,預計公開發布會安排在今年晚些時候

VAD 該退休了

現在的 AI 通話,主流是怎么做的呢?其實流程跟用對講機差不多:你說完,等一下,AI 回應。AI 說完,你再說...一輪一輪,循環往復

控制這個節奏的組件叫 VAD(Voice Activity Detection,語音活動檢測),負責判斷你有沒有在說話。你停頓超過大約半秒,它就認定你說完了,觸發 AI 回復。TML 在博客里是這樣描述的:這個組件比模型本身笨得多,但它在主導整個對話節奏

人說話會停頓、會思考、會猶豫,但是呢... VAD 分不清「在想」和「說完了」,所以 AI 經常在你思考的時候搶話...講道理,這個很煩...

于是,讓模型自己學會判斷什么時候該說、什么時候該聽這件事就變得無比重要,并且得把 VAD 從系統里拿掉

TML 的做法是把時間切成 200ms 一個片段,叫「微回合」(micro-turn)。每個片段里模型先處理剛收到的輸入,再決定是否輸出。200ms 刷新一次感知,沒有人工設定的輪次邊界


上面是人感受到的(同時),下面是模型看到的(交替)

而在面壁這一側,框架叫 Omni-Flow,思路類似:把連續的音視頻流切成時間片段,在共享時間軸上對齊

面壁的方案

面壁在 2 月 3 日開源了 MiniCPM-o 4.5,2 月 6 日放出了可本地部署的實時 Web Demo,也發了技術報告,其實之前有比較詳細的解讀:

MiniCPM-o 4.5 是 9B 參數的端到端全模態模型,從編碼到解碼全部打通:視覺用 SigLIP ViT(0.4B),音頻用 Whisper Medium(0.3B),語言模型用 Qwen3-8B,語音解碼用一個 0.3B 的輕量解碼器。所有組件通過 token 級的隱狀態連接,可以端到端聯合訓練


9B 參數,從編碼器到語音解碼器一路連到底

Omni-Flow 把交互過程切成以秒為單位的時間窗口。每個窗口內,模型先接收新的視覺和音頻信號,再預測一個控制 token:「聽」還是「說」。如果是「說」,再生成具體內容

面壁對 Omni-Flow 做了消融實驗。時間窗口從 1.0 秒、0.2 秒到 0.1 秒都測了,1.0 秒效果最好。窗口太短,模型在每個片段內拿到的信息不夠做穩定決策

面壁還處理了一個問題:模型生成文本很快,但把文本念出來需要時間。如果不做對齊,模型說出來的內容會滯后于當前語境。他們的 TAIL 技術讓模型自適應控制每個窗口的文本量,保持語音和實時語境同步

部署方面,面壁開發了 llama.cpp-omni 推理框架,MiniCPM-o 4.5 在 RTX 4090 上的實時因子是 0.21,內存占用低于 12GB。模型權重和代碼公開在 Hugging Face 和 GitHub


MiniCPM-o 4.5 邊看邊聽邊說的實時交互

兩家的技術分歧

兩家對「為什么做」的判斷幾乎一致,在「怎么做」上走了不同的路

時間粒度:TML 選了 200ms,面壁選了 1.0s。 TML 的邏輯是粒度越細感知越快。面壁的消融實驗給出了不同結論:0.2 秒的窗口里信息太少,模型決策不穩定。兩家都沒有公開對方粒度下的測試數據

編碼器策略上,TML 不用 Whisper 這類獨立編碼器,直接把原始音頻信號通過輕量嵌入層送進 transformer,從頭聯合訓練。TML 在博客里引用了 Rich Sutton 的 Bitter Lesson:通用的學習能力最終會超過手工設計的組件。面壁保留了 Whisper Medium 和 SigLIP ViT

模型架構上,TML 拆成交互模型和背景模型兩個,面壁用一個 9B 的統一模型覆蓋全部

「是否說話」的判斷方式也不同。TML 讓模型隱式學會,而面壁用顯式的 Listen-Speak 控制 token,先預測「聽還是說」,再預測內容。面壁的消融顯示拆開效果更好

部署目標上,TML 面向云端,面壁面向端側

此外,TML 的博客里有一個細節。他們引用了 Anthropic 一份 model card 里的話:用戶以同步的、手在鍵盤上的方式使用模型時,收益并不明顯

邊聽邊說這件事,TML 和面壁給出了各自的解法

以上

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
歷史罕見信號全部重合!這次不是回調,是全球性大危機要來了

歷史罕見信號全部重合!這次不是回調,是全球性大危機要來了

流蘇晚晴
2026-06-11 14:24:06
世上無密不透風墻!向太曝光劉亦菲陳金飛關系,單身媽媽一生未嫁

世上無密不透風墻!向太曝光劉亦菲陳金飛關系,單身媽媽一生未嫁

情感大頭說說
2026-06-11 19:40:16
一夫一妻制讓男性陰莖骨退化,還會導致智力下降?

一夫一妻制讓男性陰莖骨退化,還會導致智力下降?

宇宙時空
2026-06-07 18:00:16
造孽!華人女子強奸親生兒,全意震驚!

造孽!華人女子強奸親生兒,全意震驚!

以希臘之名
2026-06-04 21:41:54
有一種回報率很高的教育方式:大量記錄你的孩子

有一種回報率很高的教育方式:大量記錄你的孩子

男孩派
2026-05-21 09:12:30
華東理工大學原副校長李劍調任江南大學校長

華東理工大學原副校長李劍調任江南大學校長

澎湃新聞
2026-06-12 17:10:28
蔚來李斌再談電車減重:每公斤成本約千元,樂道和特斯拉敢在配置上做取舍

蔚來李斌再談電車減重:每公斤成本約千元,樂道和特斯拉敢在配置上做取舍

金融界
2026-06-12 18:25:17
為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

另子維愛讀史
2026-06-02 10:51:07
馬霍姆斯續約:北美首位五億合同先生誕生

馬霍姆斯續約:北美首位五億合同先生誕生

熱血體育社
2026-06-12 01:56:34
朱芳雨親自要人!廣東隊可能“1換1”報價新疆,交易鋒線老將?

朱芳雨親自要人!廣東隊可能“1換1”報價新疆,交易鋒線老將?

緋雨兒
2026-06-12 13:42:27
養路費改革:油價降0.8元/升,新能源車0.12元/公里,誰受益?

養路費改革:油價降0.8元/升,新能源車0.12元/公里,誰受益?

娛樂圈的筆娛君
2026-06-12 08:51:16
她的豐腴,是你只敢隔著屏幕看的喜歡

她的豐腴,是你只敢隔著屏幕看的喜歡

飛娛日記
2026-05-09 08:15:51
上海男籃200萬美元續約古德溫 懷特塞德新簽約,盧偉愛將赴美特訓

上海男籃200萬美元續約古德溫 懷特塞德新簽約,盧偉愛將赴美特訓

中國籃壇快訊
2026-06-12 15:16:04
隨著葡萄牙6-1大勝,日本1-0,土倫杯最新排名出爐!葡萄牙第1

隨著葡萄牙6-1大勝,日本1-0,土倫杯最新排名出爐!葡萄牙第1

薇說體育
2026-06-12 10:59:42
標普500期貨漲幅擴大至0.7%,納斯達克指數期貨上漲0.6%

標普500期貨漲幅擴大至0.7%,納斯達克指數期貨上漲0.6%

每日經濟新聞
2026-06-12 17:43:04
賴昌星的“紅樓”有多厲害?官員坦白:享受全套服務,沒人能把持

賴昌星的“紅樓”有多厲害?官員坦白:享受全套服務,沒人能把持

流史歲月
2026-06-12 11:04:38
廣東學生也沒吃出來原來是鴨腿

廣東學生也沒吃出來原來是鴨腿

可愛小菜
2026-06-12 19:33:39
6月12日俄烏:布羅夫迪誓言孤立克里米亞,烏再尋求200億美元援助

6月12日俄烏:布羅夫迪誓言孤立克里米亞,烏再尋求200億美元援助

山河路口
2026-06-12 17:54:21
央視突襲!每天入口吃食,竟是化工廢桶加爛拖鞋做的,官方已出手

央視突襲!每天入口吃食,竟是化工廢桶加爛拖鞋做的,官方已出手

無情有思ss
2026-06-12 00:05:26
品茶:從苦澀到回甘,是茶也是人生

品茶:從苦澀到回甘,是茶也是人生

疾跑的小蝸牛
2026-06-12 20:59:39
2026-06-13 01:03:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
466文章數 53關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

藝術
手機
本地
家居
公開課

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

本地新聞

AK劉彰邂逅河北南大港濕地

家居要聞

空間微調 移形換境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版