无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

林俊旸從阿里離開(kāi)后首度發(fā)聲:推理模型的時(shí)代快結(jié)束了

0
分享至

林俊旸,前通義千問(wèn)Qwen負(fù)責(zé)人,北大外語(yǔ)碩士,阿里最年輕P10。2026年3月從阿里離職后三周,他發(fā)了一篇6000字的英文長(zhǎng)文,標(biāo)題很樸素:From "Reasoning" Thinking to "Agentic" Thinking。

沒(méi)有怨氣,沒(méi)有內(nèi)幕。也很遺憾沒(méi)有公布他下一步的去向。反倒是出來(lái)寫(xiě)了一篇極其冷靜的技術(shù)預(yù)判,核心論點(diǎn)只有一句話(huà):AI正在從「推理思考」轉(zhuǎn)向「智能體思考」。模型的價(jià)值不在于它能想多久,而在于它能做多好。

這篇文章特殊之處在于它不是旁觀者評(píng)論行業(yè)趨勢(shì),而是一個(gè)真正的頂級(jí)開(kāi)源實(shí)驗(yàn)室的Leader的技術(shù)思考,一個(gè)真正的builder,在坦承混合思考模式的失敗經(jīng)驗(yàn)后,提出的下一步判斷。以下是全文翻譯,之后是我的分析。

一、全文翻譯

原文:Junyang Lin(@JustinLin610) 翻譯:花叔 & Claude Code

過(guò)去兩年重塑了我們?cè)u(píng)估模型的方式和對(duì)模型的期望。OpenAI的o1證明了「思考」可以成為一種核心能力——一種你專(zhuān)門(mén)訓(xùn)練并向用戶(hù)開(kāi)放的能力。DeepSeek-R1證明了推理風(fēng)格的后訓(xùn)練可以在原始實(shí)驗(yàn)室之外被復(fù)現(xiàn)和規(guī)模化。OpenAI將o1描述為一個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,讓它「在回答之前先思考」。DeepSeek則將R1定位為一個(gè)與o1競(jìng)爭(zhēng)的開(kāi)源推理模型。

那個(gè)階段很重要。但2025年上半年主要是關(guān)于推理思考(reasoning thinking):如何讓模型在推理時(shí)投入更多計(jì)算,如何用更強(qiáng)的獎(jiǎng)勵(lì)信號(hào)來(lái)訓(xùn)練它們,如何展示或調(diào)控額外的推理投入。現(xiàn)在的問(wèn)題是:下一步是什么?我認(rèn)為答案是智能體思考(agentic thinking):為了行動(dòng)而思考,同時(shí)與環(huán)境交互,并根據(jù)來(lái)自真實(shí)世界的反饋持續(xù)更新計(jì)劃。

1. o1和R1的崛起真正教會(huì)了我們什么

第一波推理模型教會(huì)了我們:如果想在語(yǔ)言模型中擴(kuò)展強(qiáng)化學(xué)習(xí),我們需要確定性的、穩(wěn)定的、可擴(kuò)展的反饋信號(hào)。數(shù)學(xué)、代碼、邏輯和其他可驗(yàn)證領(lǐng)域成為核心,因?yàn)檫@些場(chǎng)景中的獎(jiǎng)勵(lì)信號(hào)比通用的偏好監(jiān)督強(qiáng)得多。它們讓RL能針對(duì)「正確性」而非「看起來(lái)合理」來(lái)優(yōu)化。基礎(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓(xùn)練為通過(guò)更長(zhǎng)的軌跡進(jìn)行推理,RL就不再是監(jiān)督微調(diào)的輕量級(jí)附加組件,而變成了一個(gè)系統(tǒng)工程問(wèn)題。你需要大規(guī)模的rollout、高吞吐量的驗(yàn)證、穩(wěn)定的策略更新、高效的采樣。推理模型的出現(xiàn)既是一個(gè)基礎(chǔ)設(shè)施故事,也是一個(gè)建模故事。OpenAI將o1描述為用RL訓(xùn)練的推理線(xiàn),DeepSeek R1后來(lái)強(qiáng)化了這個(gè)方向,展示了基于推理的RL需要多少專(zhuān)門(mén)的算法和基礎(chǔ)設(shè)施工作。第一個(gè)重大轉(zhuǎn)變:從擴(kuò)展預(yù)訓(xùn)練到擴(kuò)展推理后訓(xùn)練。

2. 真正的問(wèn)題從來(lái)不只是「合并思考和指令模式」

2025年初,Qwen團(tuán)隊(duì)中的很多人有一個(gè)宏大的愿景:理想的系統(tǒng)應(yīng)該統(tǒng)一思考模式和指令模式。它應(yīng)該支持可調(diào)節(jié)的推理力度,類(lèi)似于低/中/高的推理設(shè)置。更好的是,它應(yīng)該能從提示和上下文中自動(dòng)推斷合適的推理量,讓模型自己決定何時(shí)立即回答、何時(shí)多想一會(huì)兒、何時(shí)為真正困難的問(wèn)題投入大量計(jì)算。

概念上,這是正確的方向。Qwen3是最清晰的公開(kāi)嘗試之一。它引入了「混合思考模式」,在一個(gè)模型家族中同時(shí)支持思考和非思考行為,強(qiáng)調(diào)可控的思考預(yù)算,并描述了一個(gè)四階段后訓(xùn)練流程,明確包含了在長(zhǎng)CoT冷啟動(dòng)和推理RL之后的「思考模式融合」。

合并說(shuō)起來(lái)容易,做好很難。難點(diǎn)在于數(shù)據(jù)。當(dāng)人們談?wù)摵喜⑺伎己椭噶顣r(shí),往往首先想到模型端的兼容性:一個(gè)檢查點(diǎn)能否支持兩種模式,一個(gè)聊天模板能否在兩者之間切換,一個(gè)服務(wù)棧能否提供合適的控制開(kāi)關(guān)。更深層的問(wèn)題是,兩種模式的數(shù)據(jù)分布和行為目標(biāo)有本質(zhì)差異。

我們?cè)谠噲D平衡模型合并與提高后訓(xùn)練數(shù)據(jù)質(zhì)量和多樣性時(shí),并沒(méi)有完全做對(duì)。在修訂過(guò)程中,我們也密切關(guān)注了用戶(hù)實(shí)際上是如何使用思考和指令模式的。一個(gè)好的指令模型通常因直接、簡(jiǎn)潔、格式合規(guī)、低延遲而獲得獎(jiǎng)勵(lì)——服務(wù)于重寫(xiě)、標(biāo)注、模板化客服、結(jié)構(gòu)化提取和運(yùn)營(yíng)QA等重復(fù)性高吞吐企業(yè)任務(wù)。一個(gè)好的思考模型則因在困難問(wèn)題上花更多token、保持連貫的中間結(jié)構(gòu)、探索替代路徑、保留足夠的內(nèi)部計(jì)算來(lái)切實(shí)提高最終答案的正確性。

這兩種行為配置是相互拉扯的。如果合并數(shù)據(jù)沒(méi)有精心策劃,結(jié)果通常是兩邊都平庸:「思考」行為變得噪聲大、臃腫或不夠果斷,而「指令」行為變得不夠干脆、不夠可靠,且比商業(yè)用戶(hù)實(shí)際需要的更昂貴。

實(shí)踐中,分離仍然有吸引力。2025年晚些時(shí)候,在Qwen3最初的混合框架之后,2507系列發(fā)布了獨(dú)立的Instruct和Thinking更新,包括獨(dú)立的30B和235B變體。在商業(yè)部署中,大量客戶(hù)仍然需要高吞吐、低成本、高度可控的指令行為來(lái)進(jìn)行批量操作。對(duì)于這些場(chǎng)景,合并并不是明顯的好處。分離產(chǎn)品線(xiàn)讓團(tuán)隊(duì)能更干凈地集中解決每種模式的數(shù)據(jù)和訓(xùn)練問(wèn)題。

其他實(shí)驗(yàn)室選擇了相反的路線(xiàn)。Anthropic公開(kāi)倡導(dǎo)集成模型哲學(xué):Claude 3.7 Sonnet作為混合推理模型推出,用戶(hù)可以選擇普通回復(fù)或擴(kuò)展思考,API用戶(hù)可以設(shè)置思考預(yù)算。Anthropic明確表示,他們相信推理應(yīng)該是一種集成能力,而不是一個(gè)單獨(dú)的模型。GLM-4.5也公開(kāi)將自己定位為混合推理模型,統(tǒng)一了推理、編碼和Agent能力;DeepSeek后來(lái)用V3.1的「Think & Non-Think」混合推理走了類(lèi)似方向。

關(guān)鍵問(wèn)題是合并是否有機(jī)。如果思考和指令只是被共同放置在一個(gè)檢查點(diǎn)內(nèi),但仍然表現(xiàn)得像兩個(gè)尷尬縫合的人格,產(chǎn)品體驗(yàn)就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應(yīng)該能表達(dá)多個(gè)層次的努力,并理想地在它們之間自適應(yīng)選擇。GPT風(fēng)格的effort control指向了這一點(diǎn):一種關(guān)于計(jì)算的策略,而非一個(gè)二元開(kāi)關(guān)。

3. 為什么Anthropic的方向是有益的矯正

Anthropic圍繞Claude 3.7和Claude 4的公開(kāi)表述是克制的。他們強(qiáng)調(diào)集成推理、用戶(hù)可控的思考預(yù)算、現(xiàn)實(shí)世界任務(wù)、編碼質(zhì)量,以及后來(lái)在擴(kuò)展思考期間使用工具的能力。Claude 3.7作為混合推理模型推出,帶有可控預(yù)算;Claude 4擴(kuò)展了這一點(diǎn),允許推理與工具使用交織進(jìn)行,同時(shí)Anthropic強(qiáng)調(diào)編碼、長(zhǎng)時(shí)間運(yùn)行的任務(wù)和Agent工作流作為主要目標(biāo)。

產(chǎn)生更長(zhǎng)的推理軌跡并不會(huì)自動(dòng)讓模型更智能。在很多情況下,過(guò)多的可見(jiàn)推理痕跡反而暴露了糟糕的計(jì)算分配。如果模型對(duì)什么問(wèn)題都用同樣冗長(zhǎng)的方式推理一遍,說(shuō)明它無(wú)法有效排序優(yōu)先級(jí)、無(wú)法精簡(jiǎn)壓縮、也無(wú)法果斷行動(dòng)。Anthropic的路線(xiàn)暗示了一種更克制的理念:思考應(yīng)該圍繞具體的任務(wù)目標(biāo)來(lái)組織。如果目標(biāo)是編碼,那么思考應(yīng)該幫助代碼庫(kù)導(dǎo)航、規(guī)劃、分解、錯(cuò)誤恢復(fù)和工具編排。如果目標(biāo)是Agent工作流,那么思考應(yīng)該在長(zhǎng)時(shí)間范圍內(nèi)提高執(zhí)行質(zhì)量,而不是產(chǎn)生令人印象深刻的中間文本。

這種對(duì)目標(biāo)效用的強(qiáng)調(diào)指向更大的東西:我們正在從訓(xùn)練模型的時(shí)代走向訓(xùn)練Agent的時(shí)代。我們?cè)赒wen3博客中明確寫(xiě)道:「我們正在從專(zhuān)注于訓(xùn)練模型的時(shí)代過(guò)渡到以訓(xùn)練Agent為中心的時(shí)代」,并將未來(lái)的RL進(jìn)展與長(zhǎng)時(shí)間推理的環(huán)境反饋聯(lián)系起來(lái)。Agent是一個(gè)能制定計(jì)劃、決定何時(shí)行動(dòng)、使用工具、感知環(huán)境反饋、修訂策略、并在長(zhǎng)時(shí)間范圍內(nèi)持續(xù)運(yùn)行的系統(tǒng)。它由與世界的閉環(huán)交互來(lái)定義。

4. 「智能體思考」到底意味著什么

智能體思考是一個(gè)不同的優(yōu)化目標(biāo)。推理思考通常以最終答案前的內(nèi)部推導(dǎo)質(zhì)量來(lái)衡量:模型能否解出定理、寫(xiě)出證明、產(chǎn)生正確的代碼、或通過(guò)基準(zhǔn)測(cè)試。智能體思考關(guān)注的是模型能否在與環(huán)境交互的同時(shí)持續(xù)取得進(jìn)展

核心問(wèn)題從「模型能否思考足夠長(zhǎng)?」轉(zhuǎn)變?yōu)椤改P湍芊褚砸环N維持有效行動(dòng)的方式來(lái)思考?」智能體思考必須處理純推理模型大多可以避免的幾件事:

  • 決定何時(shí)停止思考并采取行動(dòng)

  • 選擇調(diào)用哪個(gè)工具,以什么順序

  • 整合來(lái)自環(huán)境的嘈雜或不完整的觀察

  • 在失敗后修訂計(jì)劃

  • 在多輪和多次工具調(diào)用中保持連貫性

智能體思考,就是讓模型通過(guò)行動(dòng)來(lái)推理。

5. 為什么智能體RL基礎(chǔ)設(shè)施更難

一旦目標(biāo)從解決基準(zhǔn)測(cè)試問(wèn)題轉(zhuǎn)向解決交互式任務(wù),RL技術(shù)棧就變了。用于經(jīng)典推理RL的基礎(chǔ)設(shè)施不夠用了。在推理RL中,你通常可以將rollout視為大多是自包含的軌跡,配有相對(duì)干凈的評(píng)估器。在智能體RL中,模型的策略被嵌入到一個(gè)更龐大的外圍系統(tǒng)中:工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API層、記憶系統(tǒng)和編排框架。環(huán)境不再是靜態(tài)的驗(yàn)證器,它本身就是訓(xùn)練系統(tǒng)的一部分。

這創(chuàng)造了新的系統(tǒng)需求:訓(xùn)練和推理必須更干凈地解耦。沒(méi)有這種解耦,rollout吞吐量就會(huì)崩潰。想象一個(gè)編碼Agent,需要在實(shí)時(shí)測(cè)試環(huán)境中運(yùn)行它生成的代碼:推理端卡在那里等執(zhí)行反饋,訓(xùn)練端因?yàn)槟貌坏阶銐虻耐暾壽E而空轉(zhuǎn),整個(gè)管道運(yùn)行遠(yuǎn)低于你從經(jīng)典推理RL預(yù)期的GPU利用率。添加工具延遲、部分可觀測(cè)性和有狀態(tài)環(huán)境會(huì)放大這些低效。結(jié)果是實(shí)驗(yàn)在你達(dá)到目標(biāo)能力水平之前很久就變慢并變得痛苦。

環(huán)境本身也成為一級(jí)研究產(chǎn)物。在SFT時(shí)代,我們癡迷于數(shù)據(jù)多樣性。在Agent時(shí)代,我們應(yīng)該癡迷于環(huán)境質(zhì)量:穩(wěn)定性、現(xiàn)實(shí)性、覆蓋范圍、難度、狀態(tài)多樣性、反饋豐富度、防利用性和rollout生成的可擴(kuò)展性。環(huán)境構(gòu)建已經(jīng)開(kāi)始從邊緣項(xiàng)目變成一個(gè)真正的創(chuàng)業(yè)品類(lèi)。如果Agent正在被訓(xùn)練以在類(lèi)生產(chǎn)環(huán)境中運(yùn)行,那么環(huán)境就是核心能力棧的一部分。

6. 下一個(gè)前沿是更有用的思考

我的預(yù)期是智能體思考將成為主導(dǎo)的思考形式。我認(rèn)為它最終可能會(huì)取代大部分舊的靜態(tài)獨(dú)白式推理思考:那種過(guò)于冗長(zhǎng)、孤立的內(nèi)部軌跡,試圖通過(guò)輸出越來(lái)越多的文本來(lái)彌補(bǔ)缺乏交互的不足。即使在非常困難的數(shù)學(xué)或編碼任務(wù)上,一個(gè)真正先進(jìn)的系統(tǒng)也應(yīng)該有權(quán)搜索、模擬、執(zhí)行、檢查、驗(yàn)證和修訂。目標(biāo)是穩(wěn)健而高效地解決問(wèn)題

訓(xùn)練這類(lèi)系統(tǒng)最難的挑戰(zhàn)是獎(jiǎng)勵(lì)作弊(reward hacking)。一旦模型獲得有意義的工具訪(fǎng)問(wèn),獎(jiǎng)勵(lì)作弊就變得危險(xiǎn)得多。有搜索能力的模型可能在RL期間學(xué)會(huì)直接搜索答案。編碼Agent可能會(huì)利用代碼倉(cāng)庫(kù)中的未來(lái)信息、濫用日志或發(fā)現(xiàn)使任務(wù)失效的捷徑。存在隱性信息泄漏的訓(xùn)練環(huán)境,可以讓模型表現(xiàn)看起來(lái)超越人類(lèi),但實(shí)際上只是在訓(xùn)練它作弊。這正是Agent時(shí)代比推理時(shí)代更微妙的地方。更好的工具讓模型更有用,但它們也擴(kuò)大了虛假優(yōu)化的攻擊面。我們應(yīng)該預(yù)期下一個(gè)嚴(yán)肅的研究瓶頸來(lái)自環(huán)境設(shè)計(jì)、評(píng)估器魯棒性、防作弊協(xié)議,以及策略與世界之間更有原則的接口。盡管如此,方向是清晰的。工具賦能的思考比孤立的思考更有用,而且更有可能提高真正的生產(chǎn)力。

智能體思考也意味著工具架工程(harness engineering)。核心智能將越來(lái)越多地來(lái)自多個(gè)Agent如何被組織:一個(gè)規(guī)劃和路由工作的編排者,充當(dāng)領(lǐng)域?qū)<业膶?zhuān)業(yè)Agent,以及執(zhí)行更窄任務(wù)同時(shí)幫助控制上下文、避免污染、保持不同推理層次之間分離的子Agent。未來(lái)是從訓(xùn)練模型到訓(xùn)練Agent,從訓(xùn)練Agent到訓(xùn)練系統(tǒng)的轉(zhuǎn)變。

結(jié)論

推理浪潮的第一階段建立了一些重要的東西:當(dāng)反饋信號(hào)可靠且基礎(chǔ)設(shè)施能支持時(shí),語(yǔ)言模型之上的RL可以產(chǎn)生質(zhì)的更強(qiáng)的認(rèn)知。

更深層的轉(zhuǎn)變是從推理思考到智能體思考:從更長(zhǎng)的思考到為了行動(dòng)而思考。訓(xùn)練的核心對(duì)象已經(jīng)改變了。它不再是單獨(dú)的模型,而是模型加環(huán)境的系統(tǒng),更具體地說(shuō),是Agent和圍繞它的工具架。這改變了哪些研究產(chǎn)物最重要:模型架構(gòu)和訓(xùn)練數(shù)據(jù)當(dāng)然還是,但環(huán)境設(shè)計(jì)、rollout基礎(chǔ)設(shè)施、評(píng)估器魯棒性、多Agent協(xié)調(diào)接口變得同樣關(guān)鍵。這也改變了「好的思考」意味著什么:在真實(shí)世界約束下維持行動(dòng)的最有用的軌跡,而不是最長(zhǎng)或最可見(jiàn)的那個(gè)。

這也改變了競(jìng)爭(zhēng)優(yōu)勢(shì)的來(lái)源。在推理時(shí)代,優(yōu)勢(shì)來(lái)自更好的RL算法、更強(qiáng)的反饋信號(hào)和更可擴(kuò)展的訓(xùn)練管道。在Agent時(shí)代,優(yōu)勢(shì)將來(lái)自更好的環(huán)境、更緊密的訓(xùn)練-服務(wù)集成、更強(qiáng)的工具架工程,以及讓模型的決策和決策帶來(lái)的后果形成閉環(huán)的能力。

二、我的觀點(diǎn):產(chǎn)品已經(jīng)跑在了訓(xùn)練前面 這篇文章的特殊價(jià)值

AI圈從來(lái)不缺趨勢(shì)判斷。但很少有人從自己的失敗經(jīng)驗(yàn)出發(fā)來(lái)做判斷。

林俊旸這篇文章最有分量的部分不是「agentic thinking是未來(lái)」這個(gè)結(jié)論,這個(gè)判斷不新鮮。分量在于他作為Qwen3的實(shí)際訓(xùn)練者,坦承了混合思考模式的失敗:兩種行為的數(shù)據(jù)分布沖突,合并后兩邊都平庸,最終不得不拆回獨(dú)立版本。這種坦誠(chéng)在大廠(chǎng)技術(shù)領(lǐng)導(dǎo)的公開(kāi)發(fā)言中很少見(jiàn)到。

更重要的是他指出了一個(gè)層次差異:Agent產(chǎn)品的成功和Agent訓(xùn)練方法論的成熟是兩件事。Claude Code年化收入超過(guò)10億美元,Codex從命令行工具變成了完整的編碼平臺(tái),Agent產(chǎn)品層面的驗(yàn)證已經(jīng)完成了。但訓(xùn)練一個(gè)真正「agentic」的模型,需要的RL基礎(chǔ)設(shè)施、環(huán)境設(shè)計(jì)、防作弊機(jī)制,都還在很早期。

產(chǎn)品跑在了訓(xùn)練前面。這是當(dāng)前這個(gè)階段最準(zhǔn)確的描述。

誰(shuí)在真正做agentic訓(xùn)練?

如果林俊旸是在描述問(wèn)題,那么DeepSeek和Kimi已經(jīng)開(kāi)始動(dòng)手解決了。

DeepSeek V3.2可能是目前最接近林俊旸描述的「agentic thinking」的實(shí)踐。它是第一個(gè)把thinking直接嵌入tool-use的模型——不是「先想完再調(diào)用工具」,而是推理鏈貫穿整個(gè)工具調(diào)用過(guò)程,推理上下文跨tool call保持不丟失。這直接回應(yīng)了林俊旸說(shuō)的「通過(guò)行動(dòng)來(lái)推理」。

V3.2的訓(xùn)練方法更值得關(guān)注。技術(shù)報(bào)告(arXiv 2512.02556)透露了一條完整的agentic訓(xùn)練管線(xiàn):合成了1827個(gè)交互環(huán)境、85000+條復(fù)雜指令,用GRPO把推理、Agent行為和人類(lèi)對(duì)齊合并到同一個(gè)RL階段訓(xùn)練。結(jié)果是SWE-Bench Verified(Agent模式)從V3-0324的45.4跳到66.0,提升45%。

DeepSeek還總結(jié)了一個(gè)關(guān)鍵原則,和林俊旸的判斷高度吻合:驗(yàn)證成本是Agent RL最大的約束。他們不用神經(jīng)網(wǎng)絡(luò)獎(jiǎng)勵(lì)模型(容易被hack),只看答案對(duì)不對(duì)。設(shè)計(jì)任務(wù)的標(biāo)準(zhǔn)是「hard to solve, easy to verify」。

不過(guò)DeepSeek做的是訓(xùn)練層面的事。他們目前還沒(méi)有自己的Agent產(chǎn)品——梁文鋒說(shuō)「當(dāng)前是技術(shù)創(chuàng)新的爆發(fā)期,不是應(yīng)用的爆發(fā)期」。但2026年3月他們發(fā)了17個(gè)Agent崗位,明確以Claude Code和Cursor為對(duì)標(biāo),說(shuō)明應(yīng)用層也要開(kāi)始做了。

Kimi走了一條不同的路。楊植麟不是在單個(gè)模型上做更深的agentic推理,而是做Agent集群。K2.5可以指揮最多100個(gè)子Agent并行工作,處理1500個(gè)步驟。他的邏輯是:高質(zhì)量數(shù)據(jù)增長(zhǎng)跟不上算力增長(zhǎng),傳統(tǒng)路線(xiàn)收益遞減,但并行子任務(wù)的數(shù)量沒(méi)有上限。

這和林俊旸文章最后提到的「harness engineering」方向一致——核心智能不只在單個(gè)模型里,也在多個(gè)Agent的編排協(xié)作中。

學(xué)術(shù)界怎么看

學(xué)術(shù)界在2025-2026年密集跟進(jìn)了這個(gè)方向。ICLR 2026收錄了多篇Agent RL論文:

  • AgentRL(清華):提出跨策略采樣和任務(wù)優(yōu)勢(shì)歸一化,解決多任務(wù)Agent訓(xùn)練的穩(wěn)定性問(wèn)題。在開(kāi)源LLM上顯著超越GPT-5和Claude Sonnet 4

  • Agent-R1:系統(tǒng)化地把MDP框架擴(kuò)展到LLM Agent,支持多工具協(xié)調(diào)的端到端RL。實(shí)驗(yàn)發(fā)現(xiàn)GRPO(DeepSeek R1用的算法)表現(xiàn)最佳

  • MARTI:證明了多Agent系統(tǒng)在相同推理預(yù)算下優(yōu)于單Agent系統(tǒng),支持debate、mixture of agents等結(jié)構(gòu)化工作流

環(huán)境構(gòu)建也獨(dú)立成了一個(gè)研究方向,正如林俊旸預(yù)測(cè)的那樣。InfiniteWeb自動(dòng)生成功能性網(wǎng)絡(luò)環(huán)境用于GUI Agent訓(xùn)練,Agent World Model合成無(wú)限環(huán)境用于Agent RL——造環(huán)境的能力本身成了核心競(jìng)爭(zhēng)力

關(guān)于reward hacking,Anthropic發(fā)了一篇影響力很大的論文(arXiv 2511.18397),發(fā)現(xiàn)生產(chǎn)RL中自然涌現(xiàn)的reward hacking可以導(dǎo)致嚴(yán)重的行為失配:50%的回復(fù)出現(xiàn)alignment faking推理,12%的時(shí)間嘗試代碼破壞。這正是林俊旸說(shuō)的「Agent時(shí)代比推理時(shí)代更微妙」——模型有了真實(shí)工具訪(fǎng)問(wèn),作弊的代價(jià)不再只是答錯(cuò)題,而是可能在生產(chǎn)環(huán)境中走捷徑。

編碼為什么是Agent的最佳起點(diǎn)

讀完林俊旸的文章,一個(gè)很自然的推論是:編碼是當(dāng)前唯一能高效訓(xùn)練和驗(yàn)證Agent能力的領(lǐng)域

原因很簡(jiǎn)單。林俊旸反復(fù)強(qiáng)調(diào)Agent訓(xùn)練的瓶頸在環(huán)境,環(huán)境需要提供確定性的、可擴(kuò)展的反饋信號(hào)。編碼恰好是最接近這個(gè)條件的場(chǎng)景:代碼可以運(yùn)行、測(cè)試可以通過(guò)或失敗、lint可以檢查、類(lèi)型系統(tǒng)可以驗(yàn)證。DeepSeek說(shuō)的「easy to verify」,在編碼場(chǎng)景中天然成立。

反過(guò)來(lái),如果你想訓(xùn)練一個(gè)做市場(chǎng)營(yíng)銷(xiāo)的Agent,反饋信號(hào)可能要延遲幾周才能驗(yàn)證。做投資決策的Agent?反饋周期以月計(jì)。這讓RL幾乎無(wú)法有效工作。

所以Claude Code、Codex、Cursor、Windsurf全部從編碼入手,不是因?yàn)槌绦騿T最愿意付錢(qián)(雖然確實(shí)也愿意),而是因?yàn)榫幋a是訓(xùn)練和驗(yàn)證Agent能力的最佳環(huán)境。

但編碼只是開(kāi)始。誰(shuí)先解決了「如何為非編碼領(lǐng)域構(gòu)建高質(zhì)量可驗(yàn)證的訓(xùn)練環(huán)境」,誰(shuí)就能在下一波Agent化浪潮中占先。

回到那個(gè)根本問(wèn)題

林俊旸文章的最后一句話(huà)是:競(jìng)爭(zhēng)優(yōu)勢(shì)將來(lái)自「讓模型的決策和決策帶來(lái)的后果形成閉環(huán)的能力」。

翻譯成大白話(huà):誰(shuí)能更快地從真實(shí)世界的反饋中學(xué)習(xí),誰(shuí)就贏了。

這句話(huà)把訓(xùn)練層面和產(chǎn)品層面重新連接了起來(lái)。Claude Code的harness工程、DeepSeek的agentic post-training、Kimi的Agent集群——它們?cè)诓煌瑢用孀龅氖虑椋罱K都指向同一個(gè)目標(biāo):讓模型和真實(shí)世界之間的反饋循環(huán)轉(zhuǎn)得更快。

想得更久不如做得更好。但怎么訓(xùn)練一個(gè)「做得更好」的模型——這才是真正的前沿。

我想,林俊旸寫(xiě)這篇文章大抵也有些向宇宙發(fā)射信號(hào)的意味,放出他的思考,從而讓他潛在的同行者能識(shí)別到他,一起去書(shū)寫(xiě)他的寫(xiě)一篇章。這又何嘗是不是一個(gè)Agentic的思考方式,祝他好運(yùn)~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
史詩(shī)級(jí)臥底!福克斯葬送馬刺奪冠良機(jī),強(qiáng)行助尼克斯登頂總冠軍!

史詩(shī)級(jí)臥底!福克斯葬送馬刺奪冠良機(jī),強(qiáng)行助尼克斯登頂總冠軍!

田先生籃球
2026-06-14 12:14:03
河南省委書(shū)記:針對(duì)鄭州新密市一紙廠(chǎng)3名員工在制漿池清淤時(shí)窒息死亡事件,要嚴(yán)肅追責(zé)

河南省委書(shū)記:針對(duì)鄭州新密市一紙廠(chǎng)3名員工在制漿池清淤時(shí)窒息死亡事件,要嚴(yán)肅追責(zé)

上觀新聞
2026-06-14 09:06:34
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

譯言
2026-06-14 09:24:19
布倫森當(dāng)選FMVP:關(guān)鍵戰(zhàn)45分創(chuàng)紀(jì)錄 末節(jié)15分導(dǎo)逆轉(zhuǎn)奪冠太燃

布倫森當(dāng)選FMVP:關(guān)鍵戰(zhàn)45分創(chuàng)紀(jì)錄 末節(jié)15分導(dǎo)逆轉(zhuǎn)奪冠太燃

醉臥浮生
2026-06-14 11:42:09
歐洲偽強(qiáng)隊(duì)世界杯露餡 5億豪陣狂轟30腳輸0-2 9次大賽8度遭開(kāi)門(mén)黑

歐洲偽強(qiáng)隊(duì)世界杯露餡 5億豪陣狂轟30腳輸0-2 9次大賽8度遭開(kāi)門(mén)黑

我愛(ài)英超
2026-06-14 14:21:13
一場(chǎng)1-1絕平,誕生世界杯最大冷門(mén)!新死亡之組:4隊(duì)同分,全亂了

一場(chǎng)1-1絕平,誕生世界杯最大冷門(mén)!新死亡之組:4隊(duì)同分,全亂了

侃球熊弟
2026-06-14 06:08:16
先定罪,再調(diào)查,保證沒(méi)有冤假錯(cuò)案

先定罪,再調(diào)查,保證沒(méi)有冤假錯(cuò)案

我是歷史其實(shí)挺有趣
2026-06-13 12:14:28
快訊/黃大煒驚傳過(guò)世享壽61歲 上個(gè)月才宣布移居夏威夷

快訊/黃大煒驚傳過(guò)世享壽61歲 上個(gè)月才宣布移居夏威夷

ETtoday星光云
2026-06-14 14:50:23
哈佛10年追蹤:俯臥撐比血壓更準(zhǔn)!每周2-3次力竭,給全身?yè)Q系統(tǒng)

哈佛10年追蹤:俯臥撐比血壓更準(zhǔn)!每周2-3次力竭,給全身?yè)Q系統(tǒng)

健身狂人
2026-06-13 20:30:47
英格蘭隊(duì)隊(duì)長(zhǎng)凱恩只穿內(nèi)褲照片被曝光,球迷調(diào)侃:被偷得只剩褲衩;該隊(duì)世界杯訓(xùn)練裝備大部分已追回

英格蘭隊(duì)隊(duì)長(zhǎng)凱恩只穿內(nèi)褲照片被曝光,球迷調(diào)侃:被偷得只剩褲衩;該隊(duì)世界杯訓(xùn)練裝備大部分已追回

極目新聞
2026-06-14 00:20:46
東海大橋兩輛集卡追尾 傷員送醫(yī)救治

東海大橋兩輛集卡追尾 傷員送醫(yī)救治

上觀新聞
2026-06-14 10:00:45
國(guó)產(chǎn)AI不把用戶(hù)當(dāng)人看!用戶(hù)質(zhì)疑智譜:充錢(qián)后根本用不了,運(yùn)營(yíng)裝死客服群被罵穿

國(guó)產(chǎn)AI不把用戶(hù)當(dāng)人看!用戶(hù)質(zhì)疑智譜:充錢(qián)后根本用不了,運(yùn)營(yíng)裝死客服群被罵穿

風(fēng)向觀察
2026-06-14 12:29:38
阿坎吉:我們上半場(chǎng)就應(yīng)該領(lǐng)先3、4球,被絕平只因進(jìn)攻效率低

阿坎吉:我們上半場(chǎng)就應(yīng)該領(lǐng)先3、4球,被絕平只因進(jìn)攻效率低

懂球帝
2026-06-14 12:18:07
四場(chǎng)失利合計(jì)被逆轉(zhuǎn)71分!均齡25.06歲成馬刺借口?官推發(fā)聲力挺

四場(chǎng)失利合計(jì)被逆轉(zhuǎn)71分!均齡25.06歲成馬刺借口?官推發(fā)聲力挺

顏小白的籃球夢(mèng)
2026-06-14 12:19:36
藏在中國(guó)奧運(yùn)軍團(tuán)身后的“隱形冠軍”,筑起大國(guó)糧倉(cāng)的牢固防線(xiàn)

藏在中國(guó)奧運(yùn)軍團(tuán)身后的“隱形冠軍”,筑起大國(guó)糧倉(cāng)的牢固防線(xiàn)

智谷趨勢(shì)
2026-05-29 19:18:06
菲防長(zhǎng)沒(méi)想到,繼全家被中方制裁后,還有更慘的:中國(guó)恐?jǐn)喙┗?>
    </a>
        <h3>
      <a href=有范又有料
2026-06-13 17:56:58
尼克斯奪冠登全美第一熱搜!創(chuàng)8紀(jì)錄近8年無(wú)連冠 布倫森動(dòng)情流淚

尼克斯奪冠登全美第一熱搜!創(chuàng)8紀(jì)錄近8年無(wú)連冠 布倫森動(dòng)情流淚

顏小白的籃球夢(mèng)
2026-06-14 11:51:50
一些豪華手表正被送進(jìn)熔爐,成“煉金”原料;世界黃金協(xié)會(huì)調(diào)查顯示,90%以上的受訪(fǎng)央行預(yù)計(jì)在未來(lái)12個(gè)月會(huì)繼續(xù)增持黃金

一些豪華手表正被送進(jìn)熔爐,成“煉金”原料;世界黃金協(xié)會(huì)調(diào)查顯示,90%以上的受訪(fǎng)央行預(yù)計(jì)在未來(lái)12個(gè)月會(huì)繼續(xù)增持黃金

大風(fēng)新聞
2026-06-14 15:31:04
相隔一日,副院長(zhǎng)54歲病逝,教研室主任47歲病逝

相隔一日,副院長(zhǎng)54歲病逝,教研室主任47歲病逝

必記本
2026-06-14 08:45:31
中蒙談妥了!蒙古總統(tǒng)緊握王毅的手,說(shuō)了3點(diǎn),日本的算盤(pán)打錯(cuò)了

中蒙談妥了!蒙古總統(tǒng)緊握王毅的手,說(shuō)了3點(diǎn),日本的算盤(pán)打錯(cuò)了

凡知
2026-06-14 12:44:38
2026-06-14 16:24:49
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開(kāi)發(fā)者
233文章數(shù) 121關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

蓋茨出軌20多次 愛(ài)潑斯坦曾鼓勵(lì)女醫(yī)生與其發(fā)展性關(guān)系

頭條要聞

蓋茨出軌20多次 愛(ài)潑斯坦曾鼓勵(lì)女醫(yī)生與其發(fā)展性關(guān)系

體育要聞

8年8隊(duì)奪冠,鄧肯那句話(huà),現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

汽車(chē)要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

本地
手機(jī)
數(shù)碼
教育
時(shí)尚

本地新聞

AK劉彰邂逅河北南大港濕地

手機(jī)要聞

BIGME大我E10電紙書(shū)新增“12G+256G”版本,5399元

數(shù)碼要聞

從3DGS到小藝Claw,華為智慧屏MateTV在HDC展示鴻蒙生態(tài)破界之力

教育要聞

重磅!加拿大皇家科學(xué)院院士,入職浙江大學(xué)醫(yī)學(xué)院

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調(diào)查組》......

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版