Agent 的世界,四月還是山雨欲來。五月尚未結(jié)束,已然血雨腥風(fēng)。
整個行業(yè)的加速快到不講道理。Vibe Coding 已經(jīng)不再是新名詞,編程這條賽道也從未如此擁擠:Claude Code、Codex、Cursor 貼身肉搏,Trae、Qoder、CodeBuddy 殺成一團(tuán)。
黑話一個接一個流行起來,支配所有人的注意力。去年還是 skill(技能)的天下,如今 harness(腳手架)站上了王座。
熱詞之下,模型已經(jīng)卷到幾近一條平直的線:不同的基準(zhǔn)測試會給不同的答案,但總體來說,無論是 Opus、GPT,還是 Qwen、GLM、Kimi 和 MiniMax 們,無論是寫代碼還是執(zhí)行越來越復(fù)雜的任務(wù),都已不在話下。
模型之間仍然存在差距,但拉開模型公司之間真正差距的,早已不再是模型本身,而是套在外面的那層殼。
之前一份研究報告拆解了 Claude Code 泄露的代碼,發(fā)現(xiàn)真正屬于模型決策的代碼只有 1.6%,剩下 98.4%,全是管權(quán)限、管上下文、兜錯的 harness。
為了進(jìn)一步發(fā)揮模型的優(yōu)勢,全新一代的 agent 產(chǎn)品如排山倒海而來。Grok Build、Qoder 1.0、TRAE SOLO 紛紛推出。連一直以來低調(diào)沉默的 DeepSeek 都掛出多崗位招聘,組建 agent 開發(fā)隊伍。
早于業(yè)界布局 agent 的 MiniMax,在混戰(zhàn)中落下自己的子。桌面端產(chǎn)品先是在 5 月中推出主打全新多 agent 編排架構(gòu)的 Agent Team 功能。而隨著 M3 旗艦?zāi)P停琈iniMax 桌面端全面升級為 MiniMax Code,再次攪動了大廠、小龍云集的 agent 市場。
![]()
Agent Team 的內(nèi)核是一套 Leader-Worker-Verifier(領(lǐng)導(dǎo)-執(zhí)行-驗證)的「對抗式」架構(gòu)。負(fù)責(zé)干活和負(fù)責(zé)挑錯的職責(zé),被拆成不同的 agent,受到經(jīng)過代碼邏輯固化的狀態(tài)機(jī)去管理,彼此之間上下文隔離。
這味藥,治的是長程 agent 任務(wù)中那些出了名的頑疾:上下文污染、上下文焦慮、agent 之間的「共謀」。
有趣的是,正如前述 MiniMax 并沒有等 M3 發(fā)布,而是率先在 M2.7 上就將 Agent Team 推了出來。M2 這一代,被 MiniMax 稱為「大巧若拙」,模型和腳手架之間的共融共生已經(jīng)看到了黎明前的曙光。預(yù)料之中,M3 只會更強(qiáng)。
在訓(xùn)練 M3 的最關(guān)鍵時刻,APPSO 與 MiniMax Agent 研發(fā)工程師(周淳輔)做了一場對談。
我們聊了 Agent Team 的設(shè)計原則及其所體現(xiàn)的 MiniMax 認(rèn)知,探索了 Agent Team 的技術(shù)內(nèi)核,淺析其它玩家對于 agentic 模型如何約束與放任。
業(yè)界有一種觀點(diǎn)正盛:Anthropic 擁有最好的模型和最爛的工程。在擇因看來,Anthropic 骨子里不信任模型,預(yù)設(shè)模型會作弊、耍小聰明,于是到處加以約束。OpenAI 的 harness 核心卻是一個極簡的 agentic loop。
![]()
一個極簡框架養(yǎng)出了遵循度極好的模型,一個約束極強(qiáng)的框架卻養(yǎng)出了「黑天鵝」。MiniMax 做 agent 的思路,既將兩者融合,又不完全相同:要相信模型,給它和人一樣的操作權(quán)限,但也要在腳手架中加入合理的約束。
這些思路在業(yè)界獨(dú)樹一幟,但業(yè)界追趕新東西并將之確立為共識的節(jié)奏,早已快過于新思想誕生的速度。在 agent 上,MiniMax 沒有壁壘——沒有任何人有。擇因發(fā)給我一篇 71 頁的論文,告訴APPSO:
「關(guān)于 agent 的所有東西,都在這篇論文里了。如果一篇就能說清楚,還有什么壁壘?」
但 MiniMax 仍有絕活。
他們力求以最快的速度不斷向整個行業(yè)輸出新的認(rèn)知,做共識的領(lǐng)導(dǎo)者、執(zhí)行者、驗證者——這也是為什么 Agent Team 及其背后架構(gòu)沒等 M3,就公之于眾了。
究其根本,中國模型公司的「開源」玩法不會一直持續(xù)下去。
但這并不代表,優(yōu)秀的認(rèn)知不應(yīng)該及時與世界分享。
就像一個 agent 的工作會有它的停止條件,開發(fā) agent 的人們也有停止的那一刻。對于擇因,可能會是當(dāng) agent 可以實現(xiàn)真正的自進(jìn)化,并且在幾乎任何數(shù)字或物理世界的任務(wù)上效率和成本優(yōu)于人類。
從站在第一線的他的視角來看,我們離那個未來并不遙遠(yuǎn)。
以下是 APPSO與 MiniMax Agent 研發(fā)工程師擇因的對話。賣個關(guān)子: 在最后我們提出了一個開放性的問題,并獲得了意想不到的答案。
![]()
架構(gòu)即認(rèn)知
APPSO:Agent Team 為什么沒等 M3,直接在 M2.7 上就發(fā)布了?
擇因:不用非等到和新模型一起發(fā),是我們的意愿,也是自己的節(jié)奏,就是希望不停地把最新的認(rèn)知傳達(dá)給外界,這件事情很值得做。以及它在我們內(nèi)部已經(jīng)使用很久了,一個月的時間,我們覺得可以對外發(fā)布了。
APPSO:今天一切的周期都變得很快,一個月已經(jīng)很久了。
擇因:發(fā)布時我們模型還沒迭代,但是有一批核心用戶對我們的 agent 的運(yùn)行范式感興趣,所以我們提前發(fā)出去吸引他們。核心用戶的建設(shè)對我們來說非常必要。后面我們也會考慮把我們的 Agent Team 架構(gòu)開源出來。
APPSO:MiniMax Code 到目前為止的反饋如何?
擇因:這次把訂閱邏輯理順了,訂了 token plan 就能用 agent。一個多月下來,下載和訂閱量有一個比較可觀的增長。這其實很有意思,因為如果只是提供 API 的話,用戶用模型的門檻高,使用效果也不是最佳。MiniMax Code 能讓大家直接感受到模型的完全體,這也是我們一直以來的思路,這一次被驗證了,我覺得很好。在 M3 上只會更好。
用戶方面有個比較有意思的點(diǎn),因為我們是全模態(tài),發(fā)現(xiàn)很多用戶拿 Agent Team 去做長視頻生成,有古文愛好者用它來生成大量的詩朗誦音頻。這些偏 C 端、興趣向的使用案例,其實我們沒有預(yù)料。
很多用戶也告訴我們,當(dāng) Agent Team 被整個拉起來開始干活的感覺,給他們帶來很大情緒價值。
APPSO:真的像是有了幾個員工給自己打工的這種感覺?
擇因:對。總體上看最近兩個月的多 agent 產(chǎn)品,已經(jīng)是血雨腥風(fēng)。騰訊那個 (Marvis)「打工」感更強(qiáng)。很明顯,在 Agent Team 的共識和落地方面,大家跟的都很緊。
APPSO:你說有人用 MiniMax Code 做視頻,會不會以后可以不用專業(yè)視頻生成工具,不用懂腳本、分鏡、首尾幀,直接用 agent 調(diào)用全模態(tài)模型就能做視頻了?
擇因:首先明確一下,我說的是偏個人用戶、愛好的角度做視頻,我覺得是可行的。專業(yè)的視頻制作,其實讓一個 Agent Team 去做, 跑通打個樣可以,但如果真的投入工業(yè)生產(chǎn),還是需要分工。比如編導(dǎo)負(fù)責(zé) idea、分鏡、首尾幀這些關(guān)鍵的東西。給到另一幫人負(fù)責(zé)丟給海螺或 Seedance 抽卡。
但我認(rèn)為隨著模型能力提升,抽卡這部分的成本,以及后續(xù)剪輯的成本,會降得非常低。
我們調(diào)研了一下,發(fā)現(xiàn)今天讓剪輯師剪視頻其實比 AI 便宜。甚至市面上有一種服務(wù),他把抽卡和剪輯都打包了,但價格主要是抽卡的成本,剪輯反倒不花錢。實際上他們找了一堆大學(xué)生上課學(xué)剪輯,交學(xué)費(fèi),課程任務(wù)就是給我把視頻剪了。
APPSO:如果更強(qiáng)的模型出來,比如 M3,能比人工剪輯還便宜嗎?
擇因:我們的模型在能力上可以。但是你要算賬的話,還是我剛說的套路,人的成本也會越來越低。
APPSO:MiniMax Code 的 Agent Team 架構(gòu),也就是 Leader-Worker-Verifier,聽上去很合理,你們先做出來,然后 Claude Code 也跟進(jìn)了。
擇因:我們是從三月開始做的,一開始我和邊上同事討論,一個 agent,它一旦做錯了,在上一輪軌跡里面它永遠(yuǎn)會記得自己做錯了這件事。但轉(zhuǎn)念一想,它如果接下來按對的方向去做,其實這段做錯了的記憶它是完全不需要的,對不對?
基于這個想法,我們設(shè)計了這個新的架構(gòu):讓干活的和負(fù)責(zé)驗證的 agent 之間分開。驗證的時候要有打回的機(jī)制,并且要讓一個新的「腦子」去打回。
當(dāng)月我們就把這套架構(gòu)搭出來了,不過目前那個時候是主要內(nèi)部使用,大家用得非常不亦樂乎。
![]()
APPSO:你們內(nèi)部用的爽點(diǎn)具體是什么?是解決了之前的痛點(diǎn),還是效率高、更不容易出錯?
擇因:我舉個最簡單的例子,比如你睡覺前給它派個任務(wù),哪怕是極度復(fù)雜的工作,只要你卡控的夠嚴(yán)格,你的準(zhǔn)出標(biāo)準(zhǔn)可量化、可觀測,而不是模型自己覺得可以就可以了——只要你做好這些門禁,這群 worker 和 verifier 就能在你睡覺的時候一直跑,睡醒之后就干完了。
可以說三月開始,這種新的開發(fā)節(jié)奏、新工作方式,就在我們內(nèi)部出現(xiàn)了。
APPSO:這和傳統(tǒng)依賴提示詞的多 agent 編排的本質(zhì)區(qū)別是什么?
擇因:本質(zhì)區(qū)別是我們的 Agent Team 架構(gòu)做了一套復(fù)雜的自由度限制。
首先運(yùn)行層面它是一個狀態(tài)機(jī),是確定性的代碼,有嚴(yán)格的限制,它不能跳出這套規(guī)范,你可以把它理解為一個更嚴(yán)格的工作流 (workflow)。
在 agent 基建的層面,我們又給了極大的自由度。所有的 agent 之間都可以互相通訊,這和傳統(tǒng)的 agentic workflow,有方向的流程圖是完全不同的。當(dāng)然,以前的 workflow 里面也可以帶循環(huán),但是核心還是這步走完了下一步。
我舉個例子,比方說你用 agent 做開發(fā),環(huán)境里少了某個包導(dǎo)致開發(fā)受阻,過去的 workflow 上可能就卡住了,而我們的 worker 或 verifier 發(fā)現(xiàn)了之后,它可以通過多種健全的機(jī)制通知其它 agent 別踩坑。
再比如一個研究類的任務(wù),一開始的研究計劃需要 leader 做些初步研究,過去 leader 分配完任務(wù)就停止了。但在我們架構(gòu)下,如果用戶有新點(diǎn)子、補(bǔ)充想法可以直接說,leader 能隨時啟動、去打斷當(dāng)前的 agent team、加一個新編排進(jìn)去。Agent 工作流可以隨時調(diào)整,剩下的重活都交給模型就行了。
以及大家知道強(qiáng)化學(xué)習(xí)邏輯下會出現(xiàn)「上下文焦慮」,當(dāng)上下文過長模型就不想干活了——不干活就不犯錯嘛。而我們這套邏輯讓它更嚴(yán)格遵循編排,持續(xù)工作直到達(dá)到準(zhǔn)出標(biāo)準(zhǔn)。
APPSO:你們?nèi)绾巫屇P屯吹?agent 實現(xiàn)對抗,避免共謀?
擇因:答案很簡單,還是提示詞。2026 年的大多數(shù)模型遵循能力足夠強(qiáng),提示詞變得更可用。我們也會做一些提示詞上的「雕花」行為,更重要的是給模型可觀測的停止條件,讓 worker 和 verifier 分別管理一些事情,比如 worker 的停止條件就是把活干完了,verifier 的停止條件是在干完的活里找到 bug。
![]()
APPSO:我的使用體驗,有時候覺得可以交付了,但 agent 還在打過來打回去。你們怎么定義 agent 之間的對抗強(qiáng)度?太寬松肯定不好,太嚴(yán)格會無限循環(huán)。
擇因:我們不會假定所有的用戶生產(chǎn)場景,所以先把這套框架拋出來,用戶可以自己去定停止條件。至于怎么定,可以通過 Skill,讓 agent 根據(jù)用戶對停止條件的傾向主動總結(jié)成 skill,下次運(yùn)行任務(wù)就可以作為判斷標(biāo)準(zhǔn)。這個 skill 肯定是千人千面的,不是我們來概括。隨著用戶長期使用,Mavis 會越來越懂用戶。
我們在 M3 訓(xùn)練中也加入了類似數(shù)據(jù),讓模型具備主動性,去總結(jié)之前的軌跡,根據(jù)用戶的反饋去提煉 skill,讓工作更加可觀測。隨著模型能力提高,我們可以做得越來越多。
APPSO:MiniMax Code 的一大特點(diǎn)就是 agent 之間上下文隔離,很反直覺,你們是怎么想的?
擇因:agent 上下文分為三部分:用戶請求、環(huán)境里的生產(chǎn)資料、模型執(zhí)行軌跡。比如當(dāng) agent 執(zhí)行出了錯,會把犯的錯記下來,但這個記錄對另一個 agent 可能是有害的。當(dāng)上下文變得臃腫,這些軌跡一定會污染別的 agent。
長程 agent 任務(wù)跑出幾個小時后,幾乎全部的上下文都是執(zhí)行軌跡,所以我們要隔離這一部分上下文。做這個設(shè)計就是因為我們預(yù)期 agent 會運(yùn)行很久,既然大部分的信息都是不需要的,為什么不隔離?
APPSO:同時執(zhí)行幾個任務(wù),通過微信、飛書跟 MiniMax Code 查詢也不會「串臺」,這個體驗很獨(dú)特,是怎么做到的。
擇因:你可以理解為在 L-W-V 之外還有一個 IM agent。每個 agent 都有各自的啟停觸發(fā),IM agent 的啟動就是你給它發(fā)一條消息,它再去檢查正在工作的其它 agent。
我們還有一些更宏大的交互層面的想法,就是所有功能都可以通過說來實現(xiàn):目前的 agent 產(chǎn)品,比如 Cursor 還有代碼編輯界面;豆包或其它 agent 還有各種具體功能按鈕,比如新建任務(wù)、創(chuàng)建 skill、導(dǎo)入文件——我們覺得這些界面和按鈕,以后都可以消失,你想讓 agent 做什么只需要跟它說就行。
![]()
沒有壁壘,全是共識
APPSO:為什么 Anthropic 一天到晚說自己模型多危險,作弊、耍小聰明?是模型沒對齊好還是產(chǎn)品 harness 做的不夠 robust?
擇因:我覺得可能只是 Anthropic 在宣發(fā)上的傾向。從個人體感對比,GPT 5.5 明顯比 Anthropic 模型干活更徹底,更具有主動性,在真正生產(chǎn)上就是最好的 agentic 模型。它完全不繞彎子,不耍小聰明。
Claude Code 泄露過一版源代碼,Codex CLI 也是開源的,你會發(fā)現(xiàn)這兩家公司在 agent 產(chǎn)品上的傾向性完全不同。Anthropic 就是不信任模型的,他們就是假設(shè)模型會出各種問題,于是在各處增加約束。OpenAI 提出 harness 概念更早,你去看 Codex 其實就是一個循環(huán),非常極簡。
一個極簡的 agent 框架,馭遵循度極好的 GPT 5.5,實現(xiàn)目前最強(qiáng)的編碼和 agent 能力;層層約束的框架,用在 Opus 4.7 上,卻出現(xiàn)了黑天鵝效應(yīng),在超長任務(wù)中也會偷懶糊弄,這是我所看到的。
Agent 和模型是長短板的關(guān)系,你的 agent 足夠強(qiáng)大,可以榨干模型的能力;相反如果模型足夠強(qiáng)大,其實 agent 不需要特別復(fù)雜,就直接一個循環(huán),給它工具就能用了。
APPSO:新的Claude Code dynamic workflows 架構(gòu)出現(xiàn)了 verifier 的設(shè)計,以及官方描述把編排從模型上下文搬到可執(zhí)行代碼層面,跟你們的構(gòu)思「所見略同」。你覺得這種設(shè)計哲學(xué)的趨同,是 agent 工程的唯一解,還是階段性偶然?
擇因:目前階段是比較合理的解決方案。其實開發(fā) Agent 是一個比較神奇的過程,收益可能來自于模型能力變強(qiáng),而非你的框架變優(yōu)秀了;當(dāng)然,也有可能是你的框架比較先進(jìn),能讓模型完成之前無法完成的任務(wù)。目前大家采用 verifier 的方案,也是因為和這個階段模型的能力水平比較匹配。
相同點(diǎn)上,CC的這套 dynamic workflow 是讓 agent 自主決策如何編排一群 agent 運(yùn)行,這和我們的 Agent Team 設(shè)計思想一致。同時二者的載體都是文件,或者說 coding,模型通過文件的方式去編排一群 agent 運(yùn)行。
而不同點(diǎn),主要在實現(xiàn)方案和玩法:CC 是讓主 agent 編排完成后一次性并行執(zhí)行大量子 agent,能調(diào)度幾百次。但是它中途不會回頭,和用戶的互動主要是在遇到阻塞時候的詢問。
我們的 Agent Team 在主 agent 編排完成的情況下,用戶和主 agent 都能在執(zhí)行的任意時刻介入進(jìn)行調(diào)整,用戶對 agent 的運(yùn)行可觀測,可以隨時和具體的某個子 agent 聊天。同時能隨時停止和重新繼續(xù)。更強(qiáng)調(diào)人和 agent 用同種方式編排執(zhí)行。
能確信的是,即使工作形式上類似,實際上還是有很多細(xì)節(jié)不同,可能是完全兩種不同的東西。在 agent 時代,大家開發(fā)效率很高、迭代很快,但是決定勝負(fù)手的還是所有的細(xì)節(jié)。模型變快了,但我們得慢下來去知道所有的信息。
![]()
APPSO:你怎么看業(yè)內(nèi)有種說法,就是 Anthropic 研究極強(qiáng),模型很厲害,但他們的工程能力很差,甚至他們自己都說產(chǎn)品是 100% vibe coded。
擇因:可能他們內(nèi)部用的是好東西,只是沒把最好的版本給放出來,所以之前泄露的 Claude Code 代碼有很多非公開功能。
Harness 在四月份成為了共識,但我們也需要等會用 harness 的新模型出來,比如 M3,這樣的產(chǎn)品才是飽滿的。一個例子是去年 skill 提出時,當(dāng)時 Sonnet 4.5 使用 skill 的效果跟后來的 4.6 差距極大——所以,你需要一個懂 harness 的模型才能把它玩得轉(zhuǎn)。我覺得今天整個圈子共識形成得太快了,模型還沒有跟上。
APPSO:所以給模型自由度,它其實能做得很好;但如果用人認(rèn)為合理的架構(gòu)去框住它,效果不一定好?人類的組織架構(gòu)方式、對于該如何工作的想象力,是否制約了 agent?
擇因:也不一定,現(xiàn)在還為時尚早。多 agent 確實是最近的大熱點(diǎn),大家都在做各自的早期嘗試,包括我看到 Slock 那種把幾個 agent 拉到一個群聊里的組織方式,都很有意思。
MiniMax 的傾向是人和 agent 應(yīng)該擁有相同操作權(quán)限。在模型能力還沒有達(dá)到頂尖的前提下,加各種約束、用現(xiàn)有的組織架構(gòu)去編排它,肯定是為了讓它工作的更好。
這里面當(dāng)然有人性的考慮,你用人能理解的組織架構(gòu)去編排,看 agent 給你干活,確實給你帶來很強(qiáng)的情緒價值。但是從效率維度評價,就不一定合理。比如今天影視工業(yè)用人能理解的工作流去編排生成過程,比直接讓人剪貴得多。
APPSO:DeepSeek 最近在招人做 harness,做 agent 了,很明顯是發(fā)力了。你怎么看?
擇因:我覺得模型企業(yè)做 agent,肯定不是為了做而做。最根本的是 agent 能力跟模型能力實現(xiàn)百分百契合,甚至放大。模型在自己的 agent 里能遵循自己的 harness,用戶才能真正感受到模型的強(qiáng)大之處。
Agent 對于模型使用量也有好處。一個模型公司如果有了 agent,它的訂閱量就會乘以一個系數(shù);有模型但沒有 agent,模型使用量就要打折扣。我相信這個邏輯對于 DeepSeek 和其它發(fā)力 agent 的公司也是一樣。
APPSO:有個 OpenRouter 的數(shù)據(jù),Claude 80% 以上的 token 消費(fèi)用于編程和技術(shù)任務(wù),DeepSeek 主要是閑聊和角色扮演。
擇因:我覺得模型公司做 agent 會有許多的動機(jī),但最重要的之一,應(yīng)該是讓自己的模型在更嚴(yán)肅的場景里被用起來。
APPSO:之前你們說沒有做 Agent 的企業(yè)敢說自己有壁壘,現(xiàn)在呢?
擇因:大家越來越重視 agent,并且形成共識的速度會越來越快。Skill 用了半年,龍蝦一個半月,多 agent 也就一個月。
前幾天有篇華人團(tuán)隊發(fā)的論文寫得非常好。關(guān)于 agent 的一切,其實都在這 71 頁的論文里了,叫做 Agent Harness Engineering: a Survey——既然 agent 已經(jīng)能被一篇論文所概括了,你說有沒有壁壘?
![]()
APPSO:哪個 agent 對你帶來極大啟發(fā)?
擇因:OpenClaw,我覺得是對任何模型公司的 agent 團(tuán)隊的一次存在主義危機(jī)。為什么一個此前不在模型公司工作,不如模型團(tuán)隊更了解模型的個人,能做出一款世界上最多人用的 agent?
APPSO:你覺得 OpenClaw 哪做對了?
擇因:它很多東西做得很細(xì),就比如說連接飛書、微信,里面其實坑很多。它進(jìn)而影響了整個行業(yè)。甚至在 OpenClaw 出來之前,飛書團(tuán)隊還是以 MCP 這種古老方式維護(hù);OpenClaw 出來之后,飛書團(tuán)隊很快就推出了官方 CLI 和插件,這些接口和協(xié)議都是面向模型有好的,而且迭代很快。
APPSO:模型公司想要留在牌桌上的最關(guān)鍵因素是什么?
擇因:就我們自己來說,一開始就走在全模態(tài)路線上,有完整的自研模型,并把它們直接部署到我們自己的原生 agent產(chǎn)品、創(chuàng)作平臺、開放平臺中。這種復(fù)合優(yōu)勢會給模型公司帶來更多機(jī)會。
同時,為了不掉隊淘汰,可能拼的是組織效率更多一點(diǎn)。如果你的組織效率足夠高,大家有一個明確的目標(biāo),奔著這個目標(biāo)去執(zhí)行,這個公司其實就不會掉隊。
如果內(nèi)部組織上扛不住壓力了,做不出東西來,可能就會發(fā)現(xiàn)自己落后了、沒法跟上。
APPSO:你說共識會形成的越來越快。之前 MiniMax 的特色現(xiàn)在快變成全行業(yè)模板了,你們接下來怎么做差異化?
擇因:我覺得需要投入到細(xì)節(jié)上,雖然共識形成的很快,但誰能把相同的事情做透更重要。
APPSO:國產(chǎn)模型開源是否達(dá)到了目標(biāo)?你覺得今后前沿模型還會開源嗎?開源的紅利期是否已經(jīng)結(jié)束?
擇因:如果你的模型能力足夠強(qiáng),開源不開源取決于團(tuán)隊的偏好與意志。過去兩年里中國模型剛起步的時候,作為追隨者,開源的確能夠更好地體現(xiàn)價值。
我記得很多同行都公開或私底下表達(dá)過,如果有一天模型進(jìn)入價格戰(zhàn)階段,到時候開源的風(fēng)氣可能會有所消減。
全球來看,開源仍是中美之間的最大區(qū)別。即便今后權(quán)重、訓(xùn)練框架不開源,你仍然可以把你的創(chuàng)新成果通過論文開放給全世界,不一定非得是模型能力。
APPSO:你們怎么看大廠用賽馬甚至養(yǎng)蠱的方式做 agent 產(chǎn)品?
擇因:就像我剛才提到的,agent 為什么存在,其實很明確的兩個點(diǎn):一是讓模型以完全體形態(tài)呈現(xiàn),放大模型的能力,讓它被真正用起來,二是代表你這家公司對「模型該怎么用」做的探索。你的 agent 產(chǎn)品應(yīng)該能閉環(huán)到模型訓(xùn)練上。
如果你堆了大量的 agent 產(chǎn)品,里面有多少是和你的模型能力閉環(huán)的?有多少能反饋到自己的模型訓(xùn)練當(dāng)中?幾個agent 團(tuán)隊是在整搶資源還是朝著一個大的目標(biāo)?其實都是未知數(shù)。
總的來說,agent 產(chǎn)品要先能在內(nèi)部使用再推出去。我也看到,目前 B 端 agent 產(chǎn)品的收益更明確,效果更直接,所以不能否認(rèn)大廠在這方面的投入。
先交學(xué)費(fèi)再上班
APPSO:人們對于對話助理以及 agent,有很多長久的期待,《Her》里的薩曼莎、鋼鐵俠的賈維斯。幾十年前幻想出的東西今天還沒實現(xiàn),我們距離那樣的 agent 還有多遠(yuǎn)?
擇因:我覺得其實不遠(yuǎn)。《Her》是聊天陪伴為主,我印象比較深的是和主角一起打游戲,也就是軟件打通的層面,現(xiàn)在做的已經(jīng)不錯了;賈維斯的話,其實和現(xiàn)實世界連接更加緊密。這會有點(diǎn)難,但我很樂觀,因為我覺得物理世界的交互協(xié)議會比代碼層面更加簡單。本質(zhì)上,只要模型的多模態(tài)能力足夠強(qiáng)就可以。
舉個例子就是 GPT Image 2,你會發(fā)現(xiàn)它的生圖能力幾乎和現(xiàn)實世界一模一樣。可以預(yù)見的是,會有一款全模態(tài)模型出現(xiàn),對現(xiàn)實世界的理解能力是極強(qiáng)的。如果這樣的模型去操作物理世界,唯一剩下的就是物理世界怎么把接口給 AI 打開。
距離還有多遠(yuǎn)?我覺得山雨欲來。
![]()
APPSO:你們自己的工作因為 agent 發(fā)生了怎樣的變化?
擇因:建立在 agent 能力自由、有執(zhí)行規(guī)范,并且有一些嚴(yán)格的約束這三件事的前提之上,我們在 agent 自我迭代,也就是讓 Agent 自己開發(fā)自己這件事上達(dá)到了很好的閉環(huán)。你會不斷試探它的底線,交給它越來越復(fù)雜的任務(wù),它的達(dá)成效果越來越好,我們的預(yù)期也越來越高,進(jìn)入了一個非常高的正反饋循環(huán)。
以及連接飛書了之后,你跟它聊天、它向你匯報工作,這種體驗的情緒價值是極強(qiáng)的。
但最重要的,是我們從過去迫使模型、agent 和我們一起干活,變成我們可以更多深度思考我們的工作,對工作進(jìn)行抽象和模式識別,形成 skill 和規(guī)范——每一個人都變成了更加 senior(資深)的工作者。
APPSO:像你說的,如果 agent 越來越強(qiáng),甚至自我進(jìn)化,大部分人類都將無法追上它。那到時候人類應(yīng)該做怎樣的提升才能跟得上時代?新的工作范式會是什么樣?
擇因:Mavis 上線后我去了新西蘭 10 天,那里沒有任何的 AI 和 agent,但我過得很快樂。那么我覺得,到時候或許人類只要去享受 agent 提升的效率帶來的便捷性就夠了,大家完全可以去干其它更感興趣、更符合人性的事情。
跟你說個現(xiàn)象:有些大廠開始招高中畢業(yè)生參與研學(xué)了。基于此我還有一個推演:將來大學(xué)本科生畢業(yè)之后,可能要「付費(fèi)再上兩到三年班」,成為一個 senior 之后,才能開始上班賺錢。
APPSO:你覺得未來的就業(yè)市場會成這樣?
擇因:這是在當(dāng)前教育體制下,我回答你「agent 效率高過人類」這個問題的一個推演。這個情況在一開始聊的視頻剪輯領(lǐng)域,其實已經(jīng)發(fā)生了。
「付費(fèi)上班」的意思是,首先你的 token 消費(fèi)可能最初是由自己買單,等同于交學(xué)費(fèi)。如果 agent 的能力真的全面趕超人類,聰明的公司算筆賬都不會再招初級員工,這才是最可怕的。到那時候,你要先成為資深員工,而這個過程可能需要自己付費(fèi)。
當(dāng)然這是基于現(xiàn)有的教育體制。那么會發(fā)生兩種情況,一就是大家享受 AI 帶來的效率,去創(chuàng)造更多更有人文情懷的事物;二是教育制度層面或許會發(fā)生一些創(chuàng)新。
APPSO:太有意思了。最后有個開放問題:如果你能掌握無限制的算力,訓(xùn)練或推理都行,并且可以以親民的價格向用戶提供,你想做什么?
擇因:這個回答和 MiniMax 關(guān)系不大。我可能會把它用在推理上。
之前翁家翌提到(很多人也提過),人類的命運(yùn)是可以被計算的:你的基因序列、傾向性、性格、激素水平可以測算;你的家庭條件,父母對你的影響(通過語言和肢體動作)也可以計算;你所處的環(huán)境是可量化的,小城市還是大城市、教育水平如何等等——在集齊了這些要素之后,每個當(dāng)下的人的后續(xù)行為都可以預(yù)測。
我不是要用這個去預(yù)測別人,我希望它成為每個人的分身,可以把我的一切過往經(jīng)歷和生理資料都給它,在遇到?jīng)Q策點(diǎn)時去跟它討論。
我之前是一個美團(tuán)程序員,我可以跳槽去互聯(lián)網(wǎng)公司或者考公(計算機(jī)還挺吃香),但這些決策更多因為我的過往認(rèn)知。但是否存在一些我想不到的可能性,能夠被建模、預(yù)測出來?
這就是我想做的,我覺得這才是真正解放人類的一環(huán)。人有生老病死,我們認(rèn)為人生是一條單行線。但其實每個分支點(diǎn)都可能展開不一樣的平行人生。
以及前面這些沒有考慮意外。意外反而是最大的、不可預(yù)測的。我希望我做這個東西能夠拯救因為意外而導(dǎo)致所有要素不再成立的人。從「肥尾效應(yīng)」的角度來看,小概率事件才真正支配了我們大部分時間。它能讓我們更多的關(guān)注點(diǎn)放在這些小概率但顛覆性的事件上,因為大概率的事件是能被算出來的。
APPSO:有點(diǎn)《少數(shù)派報告》《超驗駭客》,所以你會希望你的每一步都走對嗎?
擇因:不一定。我更希望能知道我在認(rèn)知之內(nèi)能做什么選擇,認(rèn)知之外能做什么選擇。
認(rèn)知之外的就是驚喜。我想做的東西,對你不就是個驚喜嗎?
![]()
文|杜晨
duchen@ifanr.com 18515419580
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.