![]()
智東西
作者 王涵
編輯 心緣
智東西5月12日報道,今日凌晨,前OpenAI CTO米拉·穆拉蒂(Mira Murati)聯(lián)合創(chuàng)辦的AI獨(dú)角獸Thinking Machines Lab發(fā)布新型交互語音模型研究版TML-Interaction-Small,該模型可以持續(xù)接收音頻、視頻和文本信息實(shí)時思考,與用戶像聊天一樣及時反饋。
![]()
該模型系統(tǒng)由一個276B的交互模型以及一個負(fù)責(zé)持續(xù)推理、工具使用和長周期任務(wù)的異步后臺模型組成。
Thinking Machines Lab聯(lián)合創(chuàng)始人翁荔親自演示該模型的語音交互能力,該模型可以做到:
1、無縫對話管理
模型能隱式追蹤說話者是在思考、停頓、自我糾正還是邀請回應(yīng),無需單獨(dú)的對話管理模塊。
2、語言和視覺上的插話
模型會根據(jù)上下文需要隨時插入互動。
3、同時發(fā)聲
用戶和模型可以同時說話(例如實(shí)時翻譯)。
4、時間感知
模型能直接感知時間的流逝。
5、同步工具調(diào)用、搜索與生成式UI
在說話和聆聽用戶的同時,模型可以并行進(jìn)行搜索、瀏覽網(wǎng)頁或生成UI,并根據(jù)需要將結(jié)果自然融入對話。
在較長的真實(shí)會話中,模型與用戶的對話連續(xù)發(fā)生,更像是與用戶協(xié)作而非僅是“提示”。
在基準(zhǔn)測試上中,TML-Interaction-Small在智能與交互質(zhì)量的對比中,其交互質(zhì)量遠(yuǎn)超Gemini-3.1-flash-live-preview (minimal)等一眾模型,智能則僅次于GPT-realtime-2.0 (xhigh)。
![]()
在響應(yīng)速度對比上,TML-Interaction-Small的響應(yīng)時間最短,超越GPT-realtime-2.0、GPT-realtime-1.5以及Gemini-3.1-flash-live-preview。
![]()
模型一經(jīng)發(fā)出,就獲得了不少網(wǎng)友的支持與好評。
![]()
知名科技KOL Daniel評論稱“天吶,他們做出了Her。”Her是一部2013年上映的的AI題材電影,男主購買了一套高度智能的AI操作系統(tǒng),而這個系統(tǒng)逐漸發(fā)展出具有情感、幽默感和自主意識的人格。
![]()
在X擔(dān)任高級軟件工程師的Raimo Tuisku認(rèn)為實(shí)時交互能力能夠?qū)I的體驗推向更接近人類所感知的智能。
![]()
但也有網(wǎng)友提出了質(zhì)疑。
這位網(wǎng)友提出:“實(shí)時交互模型面臨的隱私挑戰(zhàn)在于:設(shè)備無法可靠區(qū)分孩子靠近時的無意背景音和有意輸入,而不同標(biāo)注者的合理判斷差異常被誤讀為數(shù)據(jù)噪聲,而非測量缺陷。實(shí)時交互模型非但沒有緩解這一問題,還讓這個問題更棘手了。”
![]()
Thinking Machines Lab是由前OpenAI CTO米拉·穆拉蒂(Mira Murati)聯(lián)合創(chuàng)辦的AI初創(chuàng)公司,于2025年2月正式成立于美國舊金山。
Thinking Machines Lab創(chuàng)立初期就從OpenAI、Meta等公司挖來了約30名核心研究員和工程師,其聯(lián)合創(chuàng)始人團(tuán)隊成員有:OpenAI聯(lián)合創(chuàng)始人John Schulman;前OpenAI后訓(xùn)練負(fù)責(zé)人Barret Zoph;前OpenAI VP翁荔;前OpenAI研究員Luke Metz與Andrew Tulloch。PyTorch核心人物Soumith Chintala后來也加入并擔(dān)任CTO。
融資方面,2025年7月,Thinking Machines Lab完成由a16z領(lǐng)投的20億美元(約合人民幣135.9億元)種子輪融資,投資方還包括NVIDIA、AMD、Cisco、ServiceNow等,融資后估值達(dá)到120億美元(約合人民幣815.4億元),該輪融資被認(rèn)為是硅谷歷史上最大的Seed輪之一。
2025年底,Thinking Machines Lab被曝正在尋求新一輪融資,目標(biāo)估值已被推高至約500億美元(約合人民幣3397.5億元)。今年3月,其還與英偉達(dá)達(dá)成大規(guī)模算力合作,獲得至少1GW級別的Vera Rubin GPU資源。
一、流式交互SOTA,主動視覺超越現(xiàn)有模型
在流式基準(zhǔn)測試FD-bench V1、FD-bench V1.5、FD-bench V3中,TML-Interaction-Small的得分超過了同類型的GPT-realtime-2.0(minimal)等Instant模型與思考模型如GPT-realtime-2.0(xhigh)與Gemini-3.1-flash-live(high)。
但在輪次式基準(zhǔn)測試Audio MultiChallenge、BigBench Audio、BigBench Audio與IFEval中,TML-Interaction-Small的得分僅次于GPT-realtime-2.0(xhigh)。
![]()
Thinking Machines Lab(后簡稱TML)團(tuán)隊內(nèi)部創(chuàng)建的的主動音頻基準(zhǔn)測試TimeSpeak、CueSpeak以及視覺主動性基準(zhǔn)測試RepCount-A、ProactiveVideoQA與Charades中,TML-Interaction-Small的表現(xiàn)遠(yuǎn)超其他現(xiàn)有模型,其他模型要么保持沉默,要么給出錯誤答案。
![]()
在這個案例中,測試者讓模型識別其伸出了幾根手指并實(shí)時播報。可以看到TML-Interaction-Small可以很精準(zhǔn)地數(shù)出手指的數(shù)量并且瞬時播報,幾乎沒有響應(yīng)時間。
TML-Interaction-Small還可以計算時間的流逝,例如,測試者讓其倒數(shù)30秒,并每十秒播報一次。TML-Interaction-Small沒有受到測試者演講內(nèi)容的影響,認(rèn)真執(zhí)行倒數(shù)計時的任務(wù),時間把握也很精確。
二、200ms并發(fā)處理,后臺異步深度推理,口語化安全拒答
TML-Interaction-Small是原生適應(yīng)雙向連續(xù)交互的模型,它能夠在同一持續(xù)循環(huán)中,跨音頻、視頻和文本同時進(jìn)行感知與回應(yīng)。整個系統(tǒng)圍繞兩個核心理念進(jìn)行架構(gòu):一個具備時間感知能力、維持實(shí)時在場的交互模型,以及一個負(fù)責(zé)持續(xù)推理、工具使用和長周期任務(wù)的異步后臺模型。
![]()
![]()
輪次式模型看到的是交替的token序列。而具備時間感知能力的交互模型看到的則是連續(xù)的微輪次流,因此靜默、重疊發(fā)聲和打斷都會保留在模型的上下文中。
當(dāng)某項任務(wù)所需的深度推理無法瞬時完成時,交互模型會將任務(wù)委托給異步運(yùn)行的后臺模型。在整個過程中,交互模型始終保持在場并在后臺結(jié)果產(chǎn)生時將其無縫融入對話。
這種分工讓用戶能夠同時受益于高響應(yīng)速度與最大限度的智能:既擁有非推理模型的響應(yīng)延遲,又能獲得推理模型的規(guī)劃、工具使用和智能體工作流能力。需要注意的是,后臺模型與交互模型本身都具備智能。
![]()
TML團(tuán)隊從連續(xù)的實(shí)時音頻和視頻出發(fā),他們設(shè)計了:
1、時間對齊的微輪次
持續(xù)交替處理200毫秒的輸入與生成200毫秒的輸出。通過這種設(shè)計,模型必須遵守的人為輪次邊界將不存在。
![]()
2、無編碼器的早期融合
TML團(tuán)隊選擇以dMel的形式接收音頻信號,并通過一個輕量級的嵌入層進(jìn)行轉(zhuǎn)換。圖像被分割成40×40的圖塊,并由hMLP進(jìn)行編碼。在音頻解碼方面,其使用了一個flow head。所有組件均與Transformer一起從零開始聯(lián)合訓(xùn)練。
![]()
3、推理優(yōu)化
在推理時,客戶端可以將每個200毫秒塊作為一個獨(dú)立的請求發(fā)送,而推理服務(wù)器則將這些塊追加到GPU內(nèi)存中的一個持久化序列中。此外,TML團(tuán)隊還在MoE(混合專家)內(nèi)核中采用了gather+gemv策略,優(yōu)化了雙向服務(wù)中遇到的延遲和計算形態(tài)。
4、訓(xùn)練器-采樣器對齊
在訓(xùn)練穩(wěn)定性和系統(tǒng)各組件調(diào)試方面,TML團(tuán)隊采用訓(xùn)練器-采樣器對齊方法,實(shí)現(xiàn)了批處理不變的內(nèi)核,端到端性能開銷<5%。
5、交互模型與后臺模型之間的協(xié)調(diào)
當(dāng)交互模型進(jìn)行任務(wù)委派時,它會發(fā)送一個豐富的上下文包,包含完整的對話內(nèi)容。后臺模型產(chǎn)生結(jié)果時會將其流式返回,而交互模型則會根據(jù)用戶當(dāng)前正在做的事情,在合適的時機(jī)將這些更新交織進(jìn)對話中。
在安全方面,為了使拒答在語音中更自然口語化,TML團(tuán)隊使用文本轉(zhuǎn)語音模型生成拒答和過度拒答的訓(xùn)練數(shù)據(jù),覆蓋一系列被禁止的話題范圍,并將拒答邊界校準(zhǔn)為傾向于自然措辭但同樣堅定的拒答方式。為了提升在extended語音對話中的魯棒性,TML團(tuán)隊使用自動化紅隊測試工具生成了多輪拒答數(shù)據(jù),同時在行為上保持與模型基于文本的拒答高度一致。
結(jié)語:AI開始具備真人感
就TML-Interaction-Small的表現(xiàn)來看,AI已經(jīng)開始具備“真人感”。它能聽、能看、能等待、能打斷、能并行思考。
交互模型就像一個能一直和你同時說話、同時聽你說話的人,而這種實(shí)時性是AI與物理世界交互所必需的。從落地角度來看,TML-Interaction-Small將給機(jī)器人、自動駕駛等物理交互領(lǐng)域帶來突破。
當(dāng)然,TML-Interaction-Small也并不完美,在技術(shù)博客的最后,TML團(tuán)隊提出該模型在長會話上下文管理、低延遲部署的網(wǎng)絡(luò)依賴性、實(shí)時交互的對齊與安全、模型規(guī)模擴(kuò)展的延遲瓶頸,以及后臺代理與交互模型協(xié)同等五個方面仍有待突破的空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.