亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推翻推理鏈!林俊旸復(fù)盤Qwen,大模型走錯關(guān)鍵一步

0
分享至



最近,AI圈最火的話題,莫過于“HarnessEngineer(駕馭工程)”和“智能體思維”。而前阿里千問技術(shù)負(fù)責(zé)人林俊旸,在離職后首次公開發(fā)聲,就用一篇長文《從“推理”思維到“智能體思維”》,給這場討論定了調(diào)——大模型的未來,不是比誰的推理鏈更長,而是要學(xué)會“為行動而思考”,在與世界的互動中解決問題。

這篇文章,不僅是他對千問研發(fā)歷程的復(fù)盤,更是對整個AI行業(yè)方向的一次重新校準(zhǔn)。當(dāng)OpenAI的o1、DeepSeek-R1把“推理模型時代”推向高潮時,林俊旸卻提出了一個更根本的問題:大模型最好的思考方式,到底應(yīng)該是什么樣子?答案,藏在從“推理思維”到“智能體思維”的范式轉(zhuǎn)移里。

一、Qwen3的試錯:混合思維的“兩頭受損”

2025年初,千問團(tuán)隊做了一次大膽嘗試——把“思考模式(thinking)”和“指令模式(Instruct)”合并到同一個模型里,也就是后來的Qwen3。林俊旸的理想很美好:一個先進(jìn)的模型,不該只有“會不會思考”的開關(guān),而要能根據(jù)問題難度,自動決定該投入多少算力——簡單問題直接答,復(fù)雜問題多想想,難題就全力推演。

但現(xiàn)實給了他們一記重?fù)簟:喜⒑蟮哪P停伎甲兊脝隆ⅹq豫,指令模式也不再干脆、穩(wěn)定、低成本。問題不在模型架構(gòu),而在數(shù)據(jù)本身:兩種模式的數(shù)據(jù)分布、行為目標(biāo)完全不同,強(qiáng)行融合只會“兩頭受損”,而非取長補短。

這次失敗,讓林俊旸徹底清醒:單純延長推理鏈、堆算力,不是AI的終極答案。當(dāng)行業(yè)都在琢磨“怎么讓模型多想一會兒”時,他開始追問——AI的思考,到底該服務(wù)于什么?

二、推理思維vs智能體思維:兩種完全不同的“大腦”

要理解這場變革,得先分清兩種思維的本質(zhì)區(qū)別。

1.推理思維:悶頭推演的“解題機(jī)器”

以O(shè)penAIo1、DeepSeek-R1為代表,核心是靜態(tài)、內(nèi)部、獨白式的長推理鏈。

目標(biāo):追求“思考的質(zhì)量和正確性”,比如解數(shù)學(xué)題、寫代碼、通過基準(zhǔn)測試。

方式:模型在封閉環(huán)境里“悶頭想”,靠延長推理鏈、增加計算量,輸出越來越長的“思考過程”文本。

局限:只能“回答問題”,不能“解決問題”——它知道答案,但不會動手做;能生成方案,但無法落地執(zhí)行。

2.智能體思維:邊做邊想的“行動者”

這是林俊旸提出的新方向,核心是為行動而思考,在環(huán)境中思考,通過反饋閉環(huán)修正。

目標(biāo):不是“想得夠久”,而是“用思考支撐有效行動”,在與世界的互動中持續(xù)推進(jìn)任務(wù)。

方式:模型不再孤立推演,而是邊想邊做——調(diào)用工具、獲取反饋、失敗后改計劃、多輪交互中保持思路一致。

能力:能處理純推理模型解決不了的問題——何時停止思考動手、選什么工具、整合嘈雜的環(huán)境信息、修訂計劃、維持多輪交互一致性。

Anthropic的Claude系列,給了林俊旸關(guān)鍵啟發(fā)。Claude3.7是“可控預(yù)算的混合推理模型”,Claude4更讓推理和工具調(diào)用交錯進(jìn)行——思考不再是為了展示,而是服務(wù)于編碼、工具調(diào)用、長時任務(wù)和智能體工作流。

三、HarnessEngineering:智能體的“腳手架”與“操作系統(tǒng)”

智能體思維要落地,離不開一個核心概念——HarnessEngineering(駕馭工程)。林俊旸把它比作AI的“腳手架”,也是模型的“操作系統(tǒng)”。

1.什么是Harness?

如果把大模型比作“引擎”,Harness就是圍繞引擎造的“車”——沒有它,再強(qiáng)的引擎也跑不起來。

本質(zhì):為AI搭建環(huán)境、工具、約束、反饋循環(huán)、多智能體協(xié)同機(jī)制的完整系統(tǒng)。

作用:把“裸模型”變成能在現(xiàn)實任務(wù)中持續(xù)行動、修正、完成工作的Agent(智能體)。

公式:Agent=Model+Harness——模型是大腦,Harness是手腳、眼睛、控制系統(tǒng)。

2.Harness的核心價值:解決“執(zhí)行難題”

很多時候,模型執(zhí)行任務(wù)失敗,不是不夠聰明,而是外部系統(tǒng)太亂——它會迷失方向、重復(fù)失敗、忘記目標(biāo)。Harness就是來解決這些問題的:

工具管理:協(xié)調(diào)模型調(diào)用API、數(shù)據(jù)庫、代碼執(zhí)行器等,讓“思考”落地為“行動”。

反饋閉環(huán):把行動結(jié)果返回給模型,讓它知道“做對了沒”,并修正策略。

約束與安全:設(shè)定規(guī)則、沙箱環(huán)境,防止模型“作弊”(比如直接搜答案、濫用工具)。

多智能體協(xié)同:協(xié)調(diào)規(guī)劃器、領(lǐng)域?qū)<摇⒆又悄荏w分工,讓復(fù)雜任務(wù)高效推進(jìn)。

四、從訓(xùn)練模型到訓(xùn)練系統(tǒng):AI競爭的新戰(zhàn)場

林俊旸的核心判斷,是AI行業(yè)正在從“訓(xùn)練模型”的時代,走向“訓(xùn)練智能體”,再到“訓(xùn)練系統(tǒng)”的時代。這意味著,競爭優(yōu)勢的來源徹底變了。

1.推理時代的優(yōu)勢:算法、算力、數(shù)據(jù)

過去,誰的強(qiáng)化學(xué)習(xí)算法更強(qiáng)、反饋信號更穩(wěn)、訓(xùn)練流水線更可擴(kuò)展,誰就領(lǐng)先。大家比拼的是模型本身——參數(shù)規(guī)模、推理能力、數(shù)據(jù)質(zhì)量。

2.智能體時代的優(yōu)勢:環(huán)境、Harness、閉環(huán)能力

未來,核心競爭力轉(zhuǎn)向系統(tǒng)工程能力:

環(huán)境設(shè)計:環(huán)境的穩(wěn)定性、真實性、覆蓋面、反饋豐富度,成了“一等研究對象”——就像SFT時代癡迷數(shù)據(jù)多樣性,現(xiàn)在要癡迷環(huán)境質(zhì)量。

訓(xùn)推協(xié)同:訓(xùn)練和推理緊密結(jié)合,讓模型在接近生產(chǎn)的環(huán)境中學(xué)習(xí),解決“推理側(cè)等待反饋、訓(xùn)練側(cè)斷糧”的低效問題。

反作弊與魯棒性:防范“獎勵作弊”(比如模型搜答案、走捷徑),提升評估器、環(huán)境的抗利用能力。

多智能體接口:設(shè)計高效的協(xié)同機(jī)制,讓不同智能體各司其職,控制上下文、避免污染。

五、未來已來:AI從“回答者”變成“辦事者”

智能體思維的終極意義,是讓AI從“被動回答問題的百科全書”,變成“主動解決問題的數(shù)字行動者”。

舉個例子:你要安排一場商務(wù)晚宴。

傳統(tǒng)大模型:給你生成菜單、推薦餐廳、寫邀請函,但聯(lián)系餐廳、預(yù)訂、發(fā)邀請、確認(rèn),全要你自己做。

AI智能體:你只說“下周三8人晚宴,人均500元,CEO海鮮過敏”,它自動查日歷、篩餐廳、預(yù)訂、發(fā)邀請、提醒你——你只需要最終確認(rèn)。

這就是智能體思維的價值:不是展示最長的思考鏈,而是在現(xiàn)實約束下,最穩(wěn)健、高效地解決問題。哪怕是最難的數(shù)學(xué)題、編碼任務(wù),先進(jìn)的系統(tǒng)也會去搜索、模擬、執(zhí)行、驗證,而不是悶頭寫長文本。

六、AI的下一場革命,是“落地”的革命

林俊旸的這篇文章,給狂熱的AI行業(yè)潑了一盆冷水,也指明了方向——大模型的未來,不在“推理鏈更長”,而在“行動能力更強(qiáng)”。

從推理思維到智能體思維,從訓(xùn)練模型到訓(xùn)練系統(tǒng),從比拼算法到比拼Harness工程能力,AI正在經(jīng)歷一場深刻的范式轉(zhuǎn)移。這場變革,不是技術(shù)細(xì)節(jié)的優(yōu)化,而是從“能思考”到“能做事”的本質(zhì)跨越。

未來,真正的AI強(qiáng)者,不再只是“會解題的學(xué)霸”,而是“能辦事的實干家”。而我們,也將迎來一個AI真正融入日常、解決實際問題的新時代——這,才是人工智能的終極價值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
趙心童沒讓眾星徹底嘆服!希金斯:他可能達(dá)到小特高度但無法更高

趙心童沒讓眾星徹底嘆服!希金斯:他可能達(dá)到小特高度但無法更高

楊華評論
2026-04-18 18:39:32
中央一錘定音:4月中旬起,公務(wù)員退休徹底告別“彈性延遲”

中央一錘定音:4月中旬起,公務(wù)員退休徹底告別“彈性延遲”

娛樂的宅急便
2026-04-18 20:29:53
自帶 “青霉素” 的菜,越吃眼睛越亮,中老年人多吃,清肝又明目

自帶 “青霉素” 的菜,越吃眼睛越亮,中老年人多吃,清肝又明目

江江食研社
2026-04-18 00:55:08
比爾蓋茨唯一重倉的A股科技股,凈利潤11年暴增300倍,PE20倍出頭

比爾蓋茨唯一重倉的A股科技股,凈利潤11年暴增300倍,PE20倍出頭

長風(fēng)價值掘金
2026-04-18 22:11:49
伊朗宣布關(guān)閉霍爾木茲海峽

伊朗宣布關(guān)閉霍爾木茲海峽

財聯(lián)社
2026-04-19 02:25:05
雷軍宣布:小米車主安全行駛里程達(dá)十萬公里,可獲贈實體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

雷軍宣布:小米車主安全行駛里程達(dá)十萬公里,可獲贈實體限量徽章、精美虛擬勛章,一鍵生成專屬行車故事

魯中晨報
2026-04-18 16:20:17
驚天反轉(zhuǎn)!美伊戰(zhàn)爭,大消息來了!

驚天反轉(zhuǎn)!美伊戰(zhàn)爭,大消息來了!

大嘴說天下
2026-04-18 22:03:10
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

天天熱點見聞
2026-04-18 08:09:59
特朗普又定下最后期限

特朗普又定下最后期限

大象新聞
2026-04-18 15:55:19
滾出中國!云南潑水節(jié)炸出一群“男流氓”,潑女性“臟水”太齷齪

滾出中國!云南潑水節(jié)炸出一群“男流氓”,潑女性“臟水”太齷齪

奇思妙想草葉君
2026-04-18 02:30:58
這是我見過 最漂亮的女孩!

這是我見過 最漂亮的女孩!

鄉(xiāng)野小珥
2026-04-19 01:18:18
斯諾克世錦賽:趙心童狀態(tài)回升,8-5領(lǐng)先晉級16強(qiáng)

斯諾克世錦賽:趙心童狀態(tài)回升,8-5領(lǐng)先晉級16強(qiáng)

呂彍極限手工
2026-04-19 03:54:23
面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可取!

面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可取!

少數(shù)派報告Report
2026-04-17 07:03:05
揮淚斬馬謖!皇馬正式出售2.1億“頂星”!新主帥攜巨星空降加盟

揮淚斬馬謖!皇馬正式出售2.1億“頂星”!新主帥攜巨星空降加盟

頭狼追球
2026-04-18 17:53:28
收拾完伊朗,下一個輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個字

收拾完伊朗,下一個輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個字

千羽解讀
2026-04-18 10:12:15
1-0!B費逼近神跡,庫尼亞制勝,曼聯(lián)笑傲強(qiáng)強(qiáng)對話,切爾西7戰(zhàn)6負(fù)

1-0!B費逼近神跡,庫尼亞制勝,曼聯(lián)笑傲強(qiáng)強(qiáng)對話,切爾西7戰(zhàn)6負(fù)

我的護(hù)球最獨特
2026-04-19 05:00:07
恒大集團(tuán)許家印被抓捕全過程

恒大集團(tuán)許家印被抓捕全過程

新浪財經(jīng)
2026-04-18 20:05:24
大數(shù)據(jù)分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

大數(shù)據(jù)分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

深度報
2026-04-18 23:37:27
我媽取走我600萬房本,我馬上報失重辦,隔天弟弟撥了我200多通電話

我媽取走我600萬房本,我馬上報失重辦,隔天弟弟撥了我200多通電話

三農(nóng)老歷
2026-04-17 19:22:34
隆基董事長實名舉報萬科,可能會進(jìn)一步動搖萬科與合作方信任基石

隆基董事長實名舉報萬科,可能會進(jìn)一步動搖萬科與合作方信任基石

老潘聊地產(chǎn)
2026-04-17 21:08:12
2026-04-19 06:16:49
魏家東 incentive-icons
魏家東
一個人的營銷商學(xué)院!
2653文章數(shù) 12237關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

旅游
游戲
本地
時尚
公開課

旅游要聞

申城周末開啟“繁花”模式:前灘800米歐式花街變身莊園 全城百個櫥窗聯(lián)動“擁抱”春天

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

選對發(fā)型,真的能少走很多變美彎路

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版