ChatGPT那一套要過時了？翁荔實測創(chuàng)業(yè)首個模型，回合制AI被“原生實時交互”秒了

2026-05-12 13:11:09　來源: AI前線

北京舉報

分享至

整理 | 華衛(wèi)

AI 是否正在結(jié)束“回合制”聊天的時代？

所有在工作或日常生活中經(jīng)常使用 AI 模型的人都知道，在文本、圖像、音頻和視頻等各種模態(tài)下，現(xiàn)在基本的交互模式仍然是一樣的：人類用戶先提供輸入，然后等待從幾毫秒到幾分鐘不等（在某些特別復(fù)雜的問題中，甚至需要數(shù)小時或數(shù)天），隨后 AI 模型再給出輸出。用 Thinking Machines 的話說，目前大多數(shù) AI 模型都是通過“外掛式”的方式來實現(xiàn)交互，將不同組件拼接在一起以模擬打斷、多模態(tài)或并發(fā)等能力。然而，這類手工構(gòu)建的系統(tǒng)終將被通用能力的進步所超越。

“如果 AI 真正要承擔(dān)那些需要自然交互的工作，它就必須超越這種「回合制」的交互方式。最終，它需要能夠更流暢、更自然地響應(yīng)人類輸入，甚至在處理下一次人類輸入（無論是文本還是其他形式）的同時就做出回應(yīng)。”這是 Thinking Machines 的觀點。去年，前 OpenAI 首席技術(shù)官 Mira Murati、前 OpenAI 研究員兼聯(lián)合創(chuàng)始人 John Schulman 等人創(chuàng)立了這家資金充足的 AI 初創(chuàng)公司，致力于讓先進 AI 系統(tǒng)“更易理解、更可定制，并具備更通用的能力”。

今天，Thinking Machines 宣布推出“交互模型”TML-Interaction-Small，將其稱為“首個同時具備強大智能 / 指令遵循能力與交互性的模型”。據(jù)介紹，這是一個擁有 2760 億參數(shù)的混合專家（MoE）模型，其中活躍參數(shù)為 120 億，可以持續(xù)接收音頻、視頻和文本輸入，并在實時中進行思考、響應(yīng)和行動，不依賴外部“腳手架”來實現(xiàn)交互能力。根據(jù)第三方基準(zhǔn)測試結(jié)果，這種方法在性能上取得了顯著提升，同時也降低了延遲。

不過，該模型目前尚未向公眾或企業(yè)開放，該公司在公告博客中表示：“在接下來的幾個月里，我們將開放一個有限的研究預(yù)覽以收集反饋，并計劃在今年晚些時候更廣泛發(fā)布?！?/p>

137 頁訓(xùn)練日志的交互模型

實力碾壓其他前沿模型

在研究預(yù)覽中，Thinking Machines 展示了 TML-Interaction-Small 模型在交互能力上的質(zhì)變，以及在智能與響應(yīng)速度之間達到的當(dāng)前最先進的綜合表現(xiàn)。

“整體體驗更像是在協(xié)作，而不是在‘下提示詞’?！毖菔疽曨l中，OpenAI 前應(yīng)用研究副總裁、Thinking Machines 聯(lián)合創(chuàng)始人翁荔出鏡展示了 TML-Interaction-Small 模型的無縫對話管理能力。該模型能夠隱式判斷說話者是在思考、讓出話語權(quán)、自我修正，還是在邀請回應(yīng)，無需單獨的對話管理模塊。

在 X 上，翁荔表示，“過去幾個月，我們玩得很開心，也有很多壓力，最終產(chǎn)出了 12 個版本（外加大量子版本）和 137 頁的訓(xùn)練日志。事實證明，人與人之間的協(xié)作對于提升人機協(xié)作非常重要?！?/p>

不僅如此，TML-Interaction-Small 模型還解鎖了一系列原本需要通過“外部腳手架”實現(xiàn)的能力，包括：

語言與視覺的即時插話：模型可以根據(jù)上下文在需要時主動插入，而不僅僅是在用戶說完之后才回應(yīng)。
同時語音（Simultaneous speech）：用戶與模型可以同時說話（例如實時翻譯）。
時間感知（Time-awareness）：模型對時間流逝具有直接的感知能力。
同時進行工具調(diào)用、搜索與生成式 UI：在與用戶對話（說與聽）的同時，模型可以并行執(zhí)行搜索、瀏覽網(wǎng)頁或生成界面，并將結(jié)果自然地融入對話之中。

為衡量交互質(zhì)量，該實驗室使用了 FD-bench，這是目前少數(shù)專門用于衡量交互性的基準(zhǔn)之一。為量化智能水平，他們使用 Audio MultiChallenge，這是一個常用的基準(zhǔn)，用于評估智能和指令遵循能力。結(jié)果顯示，TML-Interaction-Small 顯著優(yōu)于現(xiàn)有的實時系統(tǒng)，包括 Gemini-3.1-flash-live 和 GPT-realtime-2.0 minimal。

響應(yīng)速度：其輪次響應(yīng)延遲為 0.40 秒，而 Gemini-3.1-flash-live 為 0.57 秒，GPT-realtime-2.0 minimal 為 1.18 秒。
交互質(zhì)量：在 FD-bench V1.5 上，其得分為 77.8，幾乎是主要競爭對手的兩倍（GPT-realtime-2.0 minimal 為 46.8）。在 FD-bench v1.5 中，模型會接收預(yù)錄音頻，并需要在特定時刻作出響應(yīng)。該基準(zhǔn)從多個場景評估模型行為，包括用戶打斷、用戶回應(yīng)性反饋（backchannel）、與他人對話以及背景語音。

同時，該實驗室改造了 RepCount-A、ProactiveVideoQA 和 Charades 三個基準(zhǔn)來評估模型的視覺主動性。結(jié)果顯示，在 RepCount-A（視頻中物理動作計數(shù)）和 ProactiveVideoQA 等專項測試中，Thinking Machines 的模型能夠主動參與視覺環(huán)境，而其他前沿模型則保持沉默或給出錯誤答案，包括高推理模型。

Thinking Machines 認為，通過將“交互性”內(nèi)化為模型的一部分，模型規(guī)模的擴展將不僅讓其更聰明，也會讓它成為更高效的協(xié)作伙伴。此外，他們表示，雖然預(yù)計隨著模型規(guī)模的擴大，交互能力也會進一步提升，但目前更大規(guī)模的預(yù)訓(xùn)練模型在這一實時交互場景下仍然過于緩慢，無法投入使用?！敖衲晖硇r候，我們計劃發(fā)布更大規(guī)模的模型?！?/p>

從零開始訓(xùn)練，

200 毫秒為單位實時響應(yīng)

這次發(fā)布的核心，是 AI 在“時間感知”和“存在感”上的一次根本性轉(zhuǎn)變。當(dāng)前的前沿模型通常以單線程方式體驗現(xiàn)實。它們會等待用戶完成輸入后才開始處理，并且在生成回應(yīng)時，其“感知”是凍結(jié)的。在博客中，Thinking Machines 的研究人員將這種現(xiàn)狀描述為一種限制，它迫使人類不得不去“遷就”AI 接口，比如把問題寫得像郵件一樣，并將思考打包成一整塊再輸入。

為解決這種“協(xié)作瓶頸”，Thinking Machines 從零開始訓(xùn)練了這一交互模型，并放棄了標(biāo)準(zhǔn)的交替式 token 序列。取而代之的是，他們采用了一種多流（multi-stream）、微回合（micro-turn）的設(shè)計，可以以 200 毫秒為單位同時處理輸入和輸出，確保實時響應(yīng)能力。這種“全雙工”（full-duplex）架構(gòu)使模型能夠?qū)崟r地“聽、說、看”，從而在用戶說話時進行回應(yīng)性反饋（backchannel），或在捕捉到視覺線索時主動插話。例如，當(dāng)用戶在代碼片段中寫出 bug，或者有朋友進入視頻畫面時。

技術(shù)上，該模型采用了無編碼器的早期融合（encoder-free early fusion）。系統(tǒng)不再依賴像 Whisper 這樣龐大的獨立編碼器來處理音頻，而是通過一個輕量級嵌入層，直接接收原始音頻信號（以 dMel 表示）和圖像塊（40×40），并在 Transformer 架構(gòu)中從零開始聯(lián)合訓(xùn)練所有組件。

由于實時交互需要近乎即時的響應(yīng)速度，而這往往與深度推理能力存在沖突，該實驗室因還此設(shè)計了一種由兩部分組成的系統(tǒng)：

交互模型（Interaction Model）：始終與用戶保持持續(xù)交互，負責(zé)對話管理、存在感維持以及即時響應(yīng)。
后臺模型（Background Model）：作為一個異步代理，負責(zé)處理持續(xù)性推理、網(wǎng)頁瀏覽或復(fù)雜工具調(diào)用，并將結(jié)果流式傳回交互模型，由后者自然地融入對話中。

在整個過程中，交互模型始終保持在線，回答后續(xù)問題、接收新的輸入、維持對話上下文，并在后臺結(jié)果返回時將其整合進對話中。當(dāng)某個任務(wù)需要比即時響應(yīng)更深層的推理時，交互模型會將其委托給異步運行的后臺模型。這種分工讓用戶既能獲得高響應(yīng)速度，又能享受到完整的智能能力，包括推理模型的規(guī)劃能力、工具使用能力以及代理式工作流，同時又具備非“思考型”模型的低延遲響應(yīng)。

并且，這種架構(gòu)使 AI 能夠在執(zhí)行任務(wù)（如實時翻譯或生成 UI 圖表）的同時，繼續(xù)監(jiān)聽用戶反饋。這一功能在發(fā)布視頻中也得到了展示，模型在生成條形圖的同時，給出了類似人類反應(yīng)時間的多種提示反饋。需要注意的是，后臺模型和交互模型本身都具備智能能力。即使單獨使用，交互模型在交互性能和智能基準(zhǔn)測試上也具有很強的競爭力。

一旦開放，將為企業(yè)帶來巨大價值

如果 Thinking Machines 的交互模型向企業(yè)開放，很可能將從根本上改變企業(yè)將 AI 融入運營流程的方式。像 TML-Interaction-Small 這樣的原生交互模型，可以實現(xiàn)當(dāng)前標(biāo)準(zhǔn)多模態(tài)模型無法做到或極其脆弱的多種企業(yè)能力。

當(dāng)前的企業(yè) AI 必須完成一個“回合”后才能分析數(shù)據(jù)。而在制造業(yè)或?qū)嶒炇噎h(huán)境中，原生交互模型可以持續(xù)監(jiān)控視頻流，一旦檢測到安全違規(guī)或流程偏差，就能主動插入提醒，無需等待工作人員提出問題。該模型在 RepCount-A（精確計數(shù)重復(fù)動作）和 ProactiveVideoQA（隨著視覺證據(jù)出現(xiàn)即時回答問題）等視覺基準(zhǔn)中的表現(xiàn)，表明它可以作為高風(fēng)險物理任務(wù)的實時審計員。

在語音客服中，主要的摩擦來自于 2026 年標(biāo)準(zhǔn) API 常見的 1–2 秒“處理延遲”。Thinking Machines 的模型將輪次延遲降低至 0.40 秒，大致相當(dāng)于自然人類對話的速度。由于其原生支持同時語音處理，企業(yè)客服機器人可以在不打斷用戶的情況下，一邊傾聽客戶情緒，一邊提供“回應(yīng)性反饋”（例如“我明白”“嗯嗯”），并提供實時翻譯，使對話更像自然交流，而不是一段段割裂的錄音。

標(biāo)準(zhǔn)大模型缺乏“內(nèi)在時鐘”，只有在文本提示中提供時間信息時才“知道時間”。而交互模型天生具備時間感知能力，可以管理時間敏感流程，例如“每 4 分鐘提醒我檢查一次溫度”或“如果這個流程比上一次耗時更長就提醒我”。這對于工業(yè)維護和制藥研究尤為關(guān)鍵，因為時間是核心變量。

此前，Thinking Machines 表示，將在其發(fā)布中堅持“重要的開源組件”，以賦能研究社區(qū)。但目前，尚不清楚這些新的交互模型是否會遵循同樣的開源策略。

另值得一提的是，此次模型發(fā)布前，Meta 已從 Thinking Machines 挖走 7 名創(chuàng)始成員。據(jù)外媒報道，挖人前，Meta CEO 馬克·扎克伯格曾接觸 Mira Murati，試圖收購 Thinking Machines Lab，但被拒絕了。

不過，Thinking Machines 并非單向流失人才，公司也聘請了 PyTorch 創(chuàng)始人 Soumith Chintala 擔(dān)任 CTO，并引入 Neal Wu 等知名技術(shù)人才。有外媒報道稱，曾在 Meta 工作 8 年、負責(zé)多模態(tài)感知系統(tǒng)的 Weiyao Wang 也已加入該公司。目前，該公司的規(guī)模增長至約 130 人。

https://thinkingmachines.ai/blog/interaction-models/

聲明：本文為 AI 前線整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發(fā)體系不重構(gòu)，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來：世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構(gòu)。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.