沖刺3400億估值，翁荔親自出鏡，交出一款更像人的大模型

2026-05-12 15:33:00　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯心緣

智東西5月12日報道，今日凌晨，前OpenAI CTO米拉·穆拉蒂（Mira Murati）聯(lián)合創(chuàng)辦的AI獨(dú)角獸Thinking Machines Lab發(fā)布新型交互語音模型研究版TML-Interaction-Small，該模型可以持續(xù)接收音頻、視頻和文本信息實(shí)時思考，與用戶像聊天一樣及時反饋。

該模型系統(tǒng)由一個276B的交互模型以及一個負(fù)責(zé)持續(xù)推理、工具使用和長周期任務(wù)的異步后臺模型組成。

Thinking Machines Lab聯(lián)合創(chuàng)始人翁荔親自演示該模型的語音交互能力，該模型可以做到：

1、無縫對話管理

模型能隱式追蹤說話者是在思考、停頓、自我糾正還是邀請回應(yīng)，無需單獨(dú)的對話管理模塊。

2、語言和視覺上的插話

模型會根據(jù)上下文需要隨時插入互動。

3、同時發(fā)聲

用戶和模型可以同時說話（例如實(shí)時翻譯）。

4、時間感知

模型能直接感知時間的流逝。

5、同步工具調(diào)用、搜索與生成式UI

在說話和聆聽用戶的同時，模型可以并行進(jìn)行搜索、瀏覽網(wǎng)頁或生成UI，并根據(jù)需要將結(jié)果自然融入對話。

在較長的真實(shí)會話中，模型與用戶的對話連續(xù)發(fā)生，更像是與用戶協(xié)作而非僅是“提示”。

在基準(zhǔn)測試上中，TML-Interaction-Small在智能與交互質(zhì)量的對比中，其交互質(zhì)量遠(yuǎn)超Gemini-3.1-flash-live-preview (minimal)等一眾模型，智能則僅次于GPT-realtime-2.0 (xhigh)。

在響應(yīng)速度對比上，TML-Interaction-Small的響應(yīng)時間最短，超越GPT-realtime-2.0、GPT-realtime-1.5以及Gemini-3.1-flash-live-preview。

模型一經(jīng)發(fā)出，就獲得了不少網(wǎng)友的支持與好評。

知名科技KOL Daniel評論稱“天吶，他們做出了Her。”Her是一部2013年上映的的AI題材電影，男主購買了一套高度智能的AI操作系統(tǒng)，而這個系統(tǒng)逐漸發(fā)展出具有情感、幽默感和自主意識的人格。

在X擔(dān)任高級軟件工程師的Raimo Tuisku認(rèn)為實(shí)時交互能力能夠?qū)I的體驗推向更接近人類所感知的智能。

但也有網(wǎng)友提出了質(zhì)疑。

這位網(wǎng)友提出：“實(shí)時交互模型面臨的隱私挑戰(zhàn)在于：設(shè)備無法可靠區(qū)分孩子靠近時的無意背景音和有意輸入，而不同標(biāo)注者的合理判斷差異常被誤讀為數(shù)據(jù)噪聲，而非測量缺陷。實(shí)時交互模型非但沒有緩解這一問題，還讓這個問題更棘手了。”

Thinking Machines Lab是由前OpenAI CTO米拉·穆拉蒂（Mira Murati）聯(lián)合創(chuàng)辦的AI初創(chuàng)公司，于2025年2月正式成立于美國舊金山。

Thinking Machines Lab創(chuàng)立初期就從OpenAI、Meta等公司挖來了約30名核心研究員和工程師，其聯(lián)合創(chuàng)始人團(tuán)隊成員有：OpenAI聯(lián)合創(chuàng)始人John Schulman；前OpenAI后訓(xùn)練負(fù)責(zé)人Barret Zoph；前OpenAI VP翁荔；前OpenAI研究員Luke Metz與Andrew Tulloch。PyTorch核心人物Soumith Chintala后來也加入并擔(dān)任CTO。

融資方面，2025年7月，Thinking Machines Lab完成由a16z領(lǐng)投的20億美元（約合人民幣135.9億元）種子輪融資，投資方還包括NVIDIA、AMD、Cisco、ServiceNow等，融資后估值達(dá)到120億美元（約合人民幣815.4億元），該輪融資被認(rèn)為是硅谷歷史上最大的Seed輪之一。

2025年底，Thinking Machines Lab被曝正在尋求新一輪融資，目標(biāo)估值已被推高至約500億美元（約合人民幣3397.5億元）。今年3月，其還與英偉達(dá)達(dá)成大規(guī)模算力合作，獲得至少1GW級別的Vera Rubin GPU資源。

一、流式交互SOTA，主動視覺超越現(xiàn)有模型

在流式基準(zhǔn)測試FD-bench V1、FD-bench V1.5、FD-bench V3中，TML-Interaction-Small的得分超過了同類型的GPT-realtime-2.0(minimal)等Instant模型與思考模型如GPT-realtime-2.0(xhigh)與Gemini-3.1-flash-live(high)。

但在輪次式基準(zhǔn)測試Audio MultiChallenge、BigBench Audio、BigBench Audio與IFEval中，TML-Interaction-Small的得分僅次于GPT-realtime-2.0(xhigh)。

Thinking Machines Lab（后簡稱TML）團(tuán)隊內(nèi)部創(chuàng)建的的主動音頻基準(zhǔn)測試TimeSpeak、CueSpeak以及視覺主動性基準(zhǔn)測試RepCount-A、ProactiveVideoQA與Charades中，TML-Interaction-Small的表現(xiàn)遠(yuǎn)超其他現(xiàn)有模型，其他模型要么保持沉默，要么給出錯誤答案。

在這個案例中，測試者讓模型識別其伸出了幾根手指并實(shí)時播報。可以看到TML-Interaction-Small可以很精準(zhǔn)地數(shù)出手指的數(shù)量并且瞬時播報，幾乎沒有響應(yīng)時間。

TML-Interaction-Small還可以計算時間的流逝，例如，測試者讓其倒數(shù)30秒，并每十秒播報一次。TML-Interaction-Small沒有受到測試者演講內(nèi)容的影響，認(rèn)真執(zhí)行倒數(shù)計時的任務(wù)，時間把握也很精確。

二、200ms并發(fā)處理，后臺異步深度推理，口語化安全拒答

TML-Interaction-Small是原生適應(yīng)雙向連續(xù)交互的模型，它能夠在同一持續(xù)循環(huán)中，跨音頻、視頻和文本同時進(jìn)行感知與回應(yīng)。整個系統(tǒng)圍繞兩個核心理念進(jìn)行架構(gòu)：一個具備時間感知能力、維持實(shí)時在場的交互模型，以及一個負(fù)責(zé)持續(xù)推理、工具使用和長周期任務(wù)的異步后臺模型。

輪次式模型看到的是交替的token序列。而具備時間感知能力的交互模型看到的則是連續(xù)的微輪次流，因此靜默、重疊發(fā)聲和打斷都會保留在模型的上下文中。

當(dāng)某項任務(wù)所需的深度推理無法瞬時完成時，交互模型會將任務(wù)委托給異步運(yùn)行的后臺模型。在整個過程中，交互模型始終保持在場并在后臺結(jié)果產(chǎn)生時將其無縫融入對話。

這種分工讓用戶能夠同時受益于高響應(yīng)速度與最大限度的智能：既擁有非推理模型的響應(yīng)延遲，又能獲得推理模型的規(guī)劃、工具使用和智能體工作流能力。需要注意的是，后臺模型與交互模型本身都具備智能。

TML團(tuán)隊從連續(xù)的實(shí)時音頻和視頻出發(fā)，他們設(shè)計了：

1、時間對齊的微輪次

持續(xù)交替處理200毫秒的輸入與生成200毫秒的輸出。通過這種設(shè)計，模型必須遵守的人為輪次邊界將不存在。

2、無編碼器的早期融合

TML團(tuán)隊選擇以dMel的形式接收音頻信號，并通過一個輕量級的嵌入層進(jìn)行轉(zhuǎn)換。圖像被分割成40×40的圖塊，并由hMLP進(jìn)行編碼。在音頻解碼方面，其使用了一個flow head。所有組件均與Transformer一起從零開始聯(lián)合訓(xùn)練。

3、推理優(yōu)化

在推理時，客戶端可以將每個200毫秒塊作為一個獨(dú)立的請求發(fā)送，而推理服務(wù)器則將這些塊追加到GPU內(nèi)存中的一個持久化序列中。此外，TML團(tuán)隊還在MoE（混合專家）內(nèi)核中采用了gather+gemv策略，優(yōu)化了雙向服務(wù)中遇到的延遲和計算形態(tài)。

4、訓(xùn)練器-采樣器對齊

在訓(xùn)練穩(wěn)定性和系統(tǒng)各組件調(diào)試方面，TML團(tuán)隊采用訓(xùn)練器-采樣器對齊方法，實(shí)現(xiàn)了批處理不變的內(nèi)核，端到端性能開銷<5%。

5、交互模型與后臺模型之間的協(xié)調(diào)

當(dāng)交互模型進(jìn)行任務(wù)委派時，它會發(fā)送一個豐富的上下文包，包含完整的對話內(nèi)容。后臺模型產(chǎn)生結(jié)果時會將其流式返回，而交互模型則會根據(jù)用戶當(dāng)前正在做的事情，在合適的時機(jī)將這些更新交織進(jìn)對話中。

在安全方面，為了使拒答在語音中更自然口語化，TML團(tuán)隊使用文本轉(zhuǎn)語音模型生成拒答和過度拒答的訓(xùn)練數(shù)據(jù)，覆蓋一系列被禁止的話題范圍，并將拒答邊界校準(zhǔn)為傾向于自然措辭但同樣堅定的拒答方式。為了提升在extended語音對話中的魯棒性，TML團(tuán)隊使用自動化紅隊測試工具生成了多輪拒答數(shù)據(jù)，同時在行為上保持與模型基于文本的拒答高度一致。

結(jié)語：AI開始具備真人感

就TML-Interaction-Small的表現(xiàn)來看，AI已經(jīng)開始具備“真人感”。它能聽、能看、能等待、能打斷、能并行思考。

交互模型就像一個能一直和你同時說話、同時聽你說話的人，而這種實(shí)時性是AI與物理世界交互所必需的。從落地角度來看，TML-Interaction-Small將給機(jī)器人、自動駕駛等物理交互領(lǐng)域帶來突破。

當(dāng)然，TML-Interaction-Small也并不完美，在技術(shù)博客的最后，TML團(tuán)隊提出該模型在長會話上下文管理、低延遲部署的網(wǎng)絡(luò)依賴性、實(shí)時交互的對齊與安全、模型規(guī)模擴(kuò)展的延遲瓶頸，以及后臺代理與交互模型協(xié)同等五個方面仍有待突破的空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.