作者|松壑
2019年,AI“強化學習之父”理查德·薩頓寫了一篇六頁紙的文章,影響了后來的整個人工智能學界。
這篇名為《苦澀的教訓》的文章,核心只有一句話:
人類花了幾十年把領域知識硬塞進AI,結果每次都輸給了"讓機器自己去試錯"。
國際象棋、圍棋、語音識別、計算機視覺如此。那些精心設計的先驗知識、人工特征、專家規則,最終全部被大規模計算加上自我博弈踩在腳下。
薩頓是強化學習領域公認的奠基者。他花了半輩子研究一件事:
智能不是被設計出來的,是被環境逼出來的。智能體與環境的持續交互,是通向更高智能上限的唯一可靠路徑。
![]()
文章發表后,學界的反應幾乎是兩極分裂。一批在特征工程和專家系統上耕耘多年的研究者,被迫重新審視自己工作的長期意義。爭議至今沒有平息,然而薩頓的判斷,在接下來的七年里一再被反復驗證。
站在2026年初的Agent浪潮回頭看這七年,這個判斷正在AI產業里以一種出人意料的方式應驗——只是大多數人還沒有意識到。
討論Agent,只聊了一半
從Claude引領的Skill熱到Cowork協同再到如今遍地的“養蝦熱“,Agent已是今天AI界最熱的詞。
但熱歸熱,面對能力與日俱增的Agent,行業正在高度聚焦的問題已不再停留在“能做什么”的工具之問,而是權限不斷開放、插件生態日益豐富,它的應用范圍可能有多廣,又將如何重塑生產關系、驅動經濟結構變化。
從每場發布會、每篇產品評測到每條行業推文,人們追問的核心正在成為:具備更強自主性與系統權限的 Agent,會在應用層帶來怎樣巨大的商業洗牌,而哪些行業與環節將會就此被Agent浪潮所摧毀?
業界甚至出現了更為尖銳的預警與預言:隨著 Agent替代范圍持續擴大、替代深度不斷加深,大規模崗位消失、收入分化加劇、有效需求萎縮等風險正在累積,可能引發結構性就業問題和連鎖式的經濟風險。
這些敘事有價值,它們都在問同一類問題:Agent作為工具,它在應用層面對人類社會的重塑會走向何方?
但似乎少有人在追問另一個問題:
如今Agent加速的大規模普及,反過來會在模型層對AI本身帶來哪些質的改變?
這個問題,才是薩頓視角下真正重要的那個。
Chatbot死胡同
在理解Agent的深層價值前,有必要先看清楚它的前身Chatbot走進了怎樣的死胡同。
2023年初,ChatGPT用戶數突破一億,創下了消費互聯網歷史上增長最快的紀錄。全世界的產品經理如夢初醒,瘋狂地在自己的產品里塞入對話框。客服機器人、知識問答、寫作助手、代碼補全——所有東西都變成了一個"聊天界面"。
但到了2024年底,一個尷尬的事實浮出水面:大量用戶在最初的新鮮感消退后,使用頻率顯著下滑。多家媒體和分析機構報道了ChatGPT用戶活躍度增長放緩的趨勢。
用戶發現自己并不知道該拿這個對話框干什么,偶爾用它寫個郵件、改個措辭、問個問題,但從未形成穩定的使用習慣。
原因很簡單:Chatbot的交互模式是一問一答,而人類的真實工作流程是多步驟、多工具、多判斷的。
讓Chatbot幫你做市場調研,它會給你一篇看起來不錯的文章。但不知道數據來源是否可靠,不知道它是否遺漏了關鍵競爭對手,不知道結論背后的推理鏈條是否經得起推敲。雖然拿到的是一個結果,但失去了整個過程。
更致命的是,Chatbot的每一次對話都是孤立的。它不記得上周的偏好,不知道項目的上下文,不理解組織的業務邏輯。每一次打開對話框,都在跟一個彬彬有禮的失憶者重新自我介紹。
這就是為什么從2024年下半年開始,整個行業集體轉向Agent,因為Chatbot的天花板已經清晰地擺在那里。
但這里有一個幾乎所有人都忽略的維度:Chatbot的天花板,不僅僅是產品形態的天花板,它同時也是模型進化的天花板。
![]()
實踐交互是關鍵
薩頓的強化學習哲學,核心邏輯非常清晰:靜態數據的上限,是已知世界的邊界。
無論語料庫多大,無論參數量多高,在固定數據集上訓練的模型,能力邊界就是那批數據所描繪的世界的邊界。
到了24-25年,這條邊界已經肉眼可見。
Epoch AI團隊發表過一項被廣泛引用的分析,預測按照當前的消耗速度,高質量的互聯網文本數據將在未來幾年內被基本耗盡。整個行業開始談論"數據墻",一堵由信息總量的物理極限砌成的墻。
Chatbot提供的答案是:從用戶對話里來。但用戶跟Chatbot的對話,信息密度極低。
"幫我把這封郵件改得更正式一點""用Python寫一個快速排序""中國的GDP是多少"這些交互包含的,不過是人類需求的淺層映射。
模型從這些對話中能學到的東西,跟從互聯網上抓取一批新文本學到的,本質上沒有區別。都是語言模式的統計規律,都缺乏一樣東西:因果結構。
Agent不同之處在于:完成任務的過程中,會產生一種靜態語料永遠無法提供的東西:標注了因果結構的決策軌跡 。
例如包括:目標是什么,采取了什么行動,環境返回了什么反饋,哪里出錯了,如何修正的。
用個具體例子來說明區別。一個用戶對Chatbot說:“幫我安排下周三從北京去上海的出差行程。” Chatbot直接給出一段行程方案,交互就此結束。模型從中學到的東西微乎其微 ,它不知道這份安排是否合理,用戶是否滿意,也無法驗證自己的回答是否真正解決了問題。
而如果讓一個Agent 去完成同樣的任務,它會走一整套完整的自主工作流:先理解用戶的出差需求,查詢用戶過往偏好,調用航班接口時發現早班機因天氣取消,自動切換備選航班,再根據公司差旅標準篩選合適酒店,生成初稿行程。當用戶反饋 “酒店離會場太遠”,Agent 會重新篩選步行可達的酒店,修正后輸出最終方案。
![]()
每一步,都攜帶著明確的因果信號。調用接口失敗告訴模型 “要預留備用方案”,用戶的偏好告訴模型 “要記住使用習慣”,用戶的修改反饋告訴模型 “要根據需求迭代優化”。
Chatbot只輸出答案,而 Agent 是在真正自主完成任務,并在不斷試錯與修正中持續成長。
這類數據的信息密度,遠超簡單的網頁抓取。它不是人類語言表達的映射,而是智能體與現實世界博弈的實錄。
用這類數據訓練出來的模型,獲得的不是更多的知識,而是更強的推理能力和自我糾錯能力,而這才是決定大模型能力上限的關鍵變量。
換言之,Agent是大模型從外部世界獲取進化燃料的接口。
沒有這個接口,模型的能力上限被死死鎖在靜態數據的邊界里。
追上限,還是堆接口?
2024年底到2025年這段時間,頭部大模型玩家的戰略選擇出現了一個耐人尋味的分叉。
OpenAI、Google等頭部模型用最大壓強猛攻同一堵墻:追逐模型能力的天花板。
2024年底,OpenAI發布了o3。在Fran?ois Chollet設計的ARC-AGI基準測試上——這個被公認為衡量抽象推理能力的高難度測試——o3取得了令整個行業側目的成績。ARC-AGI的設計哲學恰恰是反蠻力的:Chollet一直堅持智能的核心是抽象推理和小樣本泛化,而不是暴力搜索。但o3用大規模的推理時間計算,硬是在這個測試上刷出了遠超此前所有系統的分數。
Chollet在公開回應中態度審慎。他沒有否認o3的成績,但指出了一個關鍵事實:這個系統在解題時消耗的計算量遠超人類,高分不等于通用智能的突破。
Google DeepMind則在Gemini 2.0系列上持續推進多模態推理能力。
但Anthropic選擇了另一條路。2024年10月,Anthropic為Claude推出了一個在當時看來不夠性感的功能:Computer Use,它讓Claude直接操作電腦屏幕。它能看到屏幕上的內容,移動鼠標,點擊按鈕,輸入文字。
早期的用戶體驗談不上驚艷。Claude操作電腦的速度很慢,經常花很長時間才能找到一個按鈕,偶爾還會點錯地方。科技媒體和社交平臺上的評論普遍帶著善意的嘲諷——"看AI用電腦,像看一個剛接觸電腦的老人"。
但Anthropic的CEO Dario Amodei在多次訪談中反復強調一個判斷:
大模型的下一個突破不僅僅在于參數量,更在于模型與世界交互的方式。
Amodei曾在OpenAI擔任研究副總裁近五年,親歷了GPT-2到GPT-3的演化過程,2021年離開后創立Anthropic,帶著的正是這個信念。
2024年末,Anthropic推出了Model Context Protocol(MCP)開放協議,讓AI模型可以標準化地連接外部工具和數據源。
如果說Computer Use給了Claude手腳,MCP就是給了它一套通用的神經末梢,讓它能觸及的真實世界的表面積成倍擴大。
![]()
Claude在2025年的主要敘事,不是在某個基準上的刷榜,而是Agent能力的工程落地,包括長上下文的穩定性、多步驟任務中不掉鏈子的可靠性、與外部工具集成的靈活性。
它在追一個更難量化的目標:在真實任務里,持續地、可靠地干活。
這聽起來不夠浪漫。但薩頓的整個理論都在告訴你:這恰恰是通向更高智能上限的那條路。
干活即訓練
這是過去一年多里最值得關注的反直覺現象。當同行們正面強攻能力基準的時候,Claude在真實Agent場景下的大規模使用,悄悄完成了薩頓預言過的一件事:
它在與真實世界的交互中持續積累高質量的決策信號,而這些信號反過來成了提升模型能力的燃料。
這個飛輪的運轉邏輯是這樣的:用戶用Claude處理真實任務,比如自動化地整理CRM數據、跨系統地完成采購審批、根據實時數據調整營銷策略、用Claude Code完成復雜的編程項目。
每一次成功和失敗都是信號;每一個多步驟的工作流,都帶有因果結構的決策軌跡;每一次工具調用的結果,都在告訴模型"這樣做有效,那樣做無效"。
這些信號經過脫敏和提煉,會直接作用于模型的推理深度和自我糾錯能力。
反觀Chatbot模式。用戶跟ChatGPT的海量對話中,有多少能顯著提升模型推理能力?"幫我寫一首關于秋天的詩""用Python寫一個快速排序""中國有多少個省"這類交互無論重復多少億次,都不包含因果推理的信號。它們是語言模式的重復預測,不是智能的增量。
這就是Agent和Chatbot在模型進化層面的根本區別:Chatbot給模型喂的是"語言的影子",Agent給模型喂的是"決策的骨骼"。
這正是薩頓講了幾十年的事:不要試圖直接教育或設計智能,要讓智能在與環境的交互中自己生長出來。
OpenAI轉向
OpenAI不是沒有意識到這個問題。
很早之前,它就通過 Function Calling、Assistants、GPTs等一系列功能,持續探索工具調用與任務執行。
但真正的躍遷發生在 2025年1月,OpenAI發布的Operator能在瀏覽器中自主完成任務,隨后推出的還有Deep Research,一個能自主進行多步驟研究、跨網站搜集信息并綜合分析的Agent系統。
![]()
OpenAI的戰略重心正在明確地從“對話”轉向“行動”。這個轉向本身就是對薩頓邏輯的一種暗合:從在靜態數據上做模式匹配的系統,轉向在動態環境中做決策和學習的系統。
但OpenAI面臨一個獨特的挑戰:路徑依賴。ChatGPT的數億用戶,絕大多數已經習慣了Chatbot的使用模式——打開對話框、問一個問題、得到一個答案。
讓這些用戶從問答切換到指派任務,不僅僅是產品設計的問題,更是心智模型的問題。
用戶需要學會一件反直覺的事情:不要告訴AI怎么做,只要告訴它你要什么結果。
Claude從一開始就沒有ChatGPT那樣的全民級Chatbot包袱。它的用戶群體更偏向開發者和企業,這些用戶天然更適應Agent的交互模式。Anthropic推出的MCP協議,更是直接面向開發者生態,讓第三方可以方便地為Claude構建工具連接。
這就造成了一個微妙的時間差:當OpenAI還在引導龐大的用戶基數從Chatbot轉向Agent的時候,Claude已經在Agent場景中積累了可觀的交互數據。
在強化學習的世界里,時間差就是一切。
先行者的數據優勢會通過飛輪效應不斷放大:更好的Agent → 更多開發者和用戶使用 → 更多交互數據 → 更強的模型 → 更好的Agent。
上限不是被攻破的
歷史上有一個反復出現的模式,值得AI行業認真對待:深藍擊敗卡斯帕羅夫,不是因為工程師手動編碼了人類所有的棋路,而是因為它的搜索算法在海量評估中找到了人類從未想到的走法。
AlphaGo的真正突破不在學習人類棋譜的第一版,而在AlphaGo Zero這個完全靠自我對弈、不依賴任何棋譜的版本。它從零開始,在數天內重新發現了人類數千年積累的圍棋知識,然后超越了它。
大語言模型有關數學推理、代碼生成、邏輯分析的涌現,沒有一項是被精心設計出來的。
沒有人在訓練目標里寫過"請學會做數學題",但當模型規模和數據規模跨過某個臨界點,這些能力自發地涌現了。
能力的上限,從來都不是被正面攻打突破的。它是在足夠復雜的環境里持續交互的過程中,被逼出來的。
這就是Agent對大模型真正的意義:它不僅僅是讓模型有了"手腳",它還給了模型一個持續與現實世界博弈的競技場。
真實世界中的反饋與博弈,才是進化的引擎。
一個從不犯錯的系統,無法進化。一個只回答問題、永遠不觸碰真實世界的系統,永遠不知道自己的無知在哪里。
只有當Agent把手伸進現實,調用一個API、操作一個瀏覽器、執行一個工作流,然后再被現實狠狠地打回來的時候,真正的學習才開始發生。
古老呼應
和薩頓的強化學習哲學相類似的原理,早在半個多世紀前,就被另一個完全不同領域的經濟學家發現過。
1945年,弗里德里希·哈耶克在《美國經濟評論》上發表了一篇名為《知識在社會中的利用》的論文,后來被認為是20世紀最重要的經濟學文章之一。
![]()
它的核心論點極其簡單:沒有任何一個人或組織,能夠掌握一個復雜經濟體運轉所需要的全部知識。不是暫時掌握不了,而是原則上不可能
因為有價值的知識是分散的、局部的、隱性的、轉瞬即逝的。
對于經濟來說,沒有整體設計、沒有全局藍圖,沒有從上到下的指令鏈。只有無數個體與環境的持續交互,加上一個能傳遞反饋信號的機制。
這段描述,把經濟體換成智能體,把價格信號換算成獎勵信號,就是薩頓的強化學習。
1988年,89歲的哈耶克出版了人生最后一部重要著作《致命的自負》。
書名本身就是論點。哈耶克用一整本書論證了一件事:人類最危險的智識錯覺,就是以為自己可以設計出一個比自發秩序更好的系統。
哈耶克提出,我們無法預先知道所有人在所有時刻的所有需求和所有約束。 唯一能"知道"這些的,是讓所有人在真實環境中自己去交互、去試錯、去根據反饋信號調整行為的那個過程。
這個過程,哈耶克給了它一個名字:自發秩序,如此哲學與薩頓所重視的環境訓練具有異曲同工之處。
哈耶克或許會說:計劃者把專家知識硬塞進經濟體系,試圖用頂層設計替代市場的自發調節,結果每次都輸給了"讓個體自己去試錯"。
薩頓則可能會說: AI研究者把領域知識硬塞進算法,試圖用人工特征替代機器的自主學習,結果每次都輸給了"讓機器自己去試錯"。
哈耶克所說的致命自負,是以為人類理性能設計出比自發秩序更好的系統。
薩頓的苦澀教訓,是以為人類專家能通過簡單預訓練,就能搞出比大規模搜索更好的智能。
波蘭尼的默會知識
如果允許再加一個人到這場跨時空對話中,他可能是哈耶克同時代的匈牙利裔學者邁克爾·波蘭尼(Michael Polanyi)。
波蘭尼在1966年出版的《默會維度》中提出了一個影響深遠的概念:
默會知識(tacit knowledge),即人們知道的,永遠比人們能說出來的多。原話是:"We know more than we can tell."
![]()
人知道怎么騎自行車,但人無法用語言精確描述保持平衡的每一個動作。一個經驗豐富的醫生看一眼X光片就知道哪里不對,但他很難把自己的判斷過程完全形式化。
這個概念直接擊中了此前Chatbot模式的命門:大語言模型從互聯網文本中學到的,只是人類能夠用語言表達出來的那部分知識——顯性知識。
但人類的大量能力和判斷力,存在于默會知識中,而默會知識只能在行動中被體現,不能在文本中被捕獲。
一個人類專家做決策的過程,有大量的東西是他自己都說不清楚的——為什么在這個時候選擇等待而不是行動,為什么覺得這個方案"感覺不對"。這些判斷力不會出現在任何網頁上,不會出現在任何教科書里,也不會出現在任何Chatbot的訓練數據中。
但它們會出現在Agent的行為軌跡中。當Agent在執行一個復雜任務時,它在決策序列中先做什么、后做什么、遇到障礙如何調整、在不確定性面前如何權衡,本身就是一種默會知識的外化。
它不是語言的表達,而是行動的記錄。而行動記錄,比語言表達,攜帶了多得多的信息。
翻譯成AI的語言就是:Agent的行為軌跡里包含的信息,比互聯網上所有文本包含的信息在結構上更豐富。因為前者記錄的是行動和后果,后者記錄的只是言說。
路徑驗證
站在2026年初回頭看,過去一年多的行業走向,正在為這場認識論之爭提供初步的經驗證據。
追基準的路線成果顯著,但邊際收益與頭部模型的方差確實都在縮小。
各家模型在主流基準上的分數越來越接近,差距從代際碾壓縮小到比拼幾個百分點的距離。
基準分數的競賽并沒有失去意義,但它越來越像短跑比賽中百分之一秒的較量,觀眾看不出區別,對實際應用的影響也在遞減。
Agent路線的回報開始顯現,但以一種不太引人注目的方式。
沒有一個驚天動地的基準突破,取而代之的是一個個具體場景中的可靠性提升。
Claude在編程輔助中的多步驟任務完成率在持續改善,Computer Use的操作精準度和速度在迭代中顯著提高,基于MCP協議的第三方工具生態在擴大。
一年前的DeepSeek-R1全球出圈,恰恰是這個故事中最有趣的一章。它深度采用強化學習、這種薩頓最推崇的方法在推理任務上實現了驚人的效果,且成本極低。
![]()
這等于在產業界面前做了一次薩頓哲學的現場示范:未必需要最大的參數量和最多的人工標注,只需要讓模型在一個有明確反饋信號的環境中大規模試錯,推理能力就能被"逼"出來。
值得一提的是,在物理世界的 Agent 大規模部署之前,更多模型是通過合成數據和規則明確的虛擬環境進行“預演”,而這同樣是通往真實世界賽場的過渡態。
DeepSeek-R1的成功和Agent路線的邏輯,在底層是相通的:都是用交互中產生的信號來驅動能力的提升,而不是依賴靜態數據的堆積。 區別只在于前者環境是精心設計的推理任務,后者環境是混亂的真實世界。
當然必須承認,用經驗喂養智能的這條道路,在現實中運轉起來注定會有極大的摩擦力。
真實世界從來不是一個可以無限重啟的虛擬沙盒。AlphaGo 在棋盤上輸掉一百萬局的成本幾乎為零,DeepSeek 在數學推導中的試錯也十分廉價;
但在真實的商業環境與社會鏈路中,Agent 的一次越界試錯,可能意味著一筆交易的失敗、一次糟糕的客戶體驗,甚至是難以被問責的金融、法律和醫療風險。
更棘手的是,現實世界的反饋信號往往是高度嘈雜且延遲的。當一個 Agent 給出的策略最終見效時,究竟是因為它的推理邏輯無懈可擊,還是僅僅碰上了宏觀環境的順風?
客觀上許多因果歸因的模糊性,仍然會給模型從中提取純粹的“有效經驗”帶來了巨大的工程挑戰。
但這恰恰是薩頓理論中那份“苦澀”在今天的現實映射:即使真實世界的試錯成本再高、反饋再嘈雜,這也是通向通用人工智能唯一不可回避的窄門。
耀眼的苦澀
薩頓在《苦澀的教訓》里不止一次的道出了AI研究者的苦澀:人類精心設計的特征、規則和先驗知識,最終都會被規模化的搜索與學習所超越。
那些看起來更聰明的方法,往往不如那些更“笨”的方法走得更遠,因為后者更可擴展。
回看過去幾年,大模型的演進其實一直在重復這個模式。
從手工特征到深度學習,從監督學習到自監督學習,從人工標注到強化學習,每一次范式躍遷的方向都一樣——減少人類設計,增加系統在環境中的試錯空間。
Agent的出現,把這條路徑推向了一個新的階段。
如果說過去的模型主要是在語言世界中學習,那么Agent開始讓模型在行動世界中學習。
語言可以描述世界,但只有行動才會產生后果;語言可以表達知識,但只有行動才會暴露無知。
這也是為什么Agent帶來的改變,短期看像是產品能力的擴展,長期看卻更像是能力生成機制的改變。
一個只在對話框里回答問題的模型,很難意識到自己的盲區;一個在真實任務中反復嘗試、反復失敗、反復修正的模型,卻會不斷被現實糾正。現實世界的反饋,比任何人工標注都更直接,也更殘酷。
某種意義上說,Agent最重要的價值,并不是讓AI替人干活,而是讓AI開始擁有經歷。
![]()
經歷意味著時間維度,意味著因果結構,意味著錯誤與修正的循環。
一個沒有經歷的系統,可以擁有知識,但很難形成判斷;一個持續積累經歷的系統,則會在無數次反饋中逐漸形成策略。
這也解釋了為什么許多看似“笨拙”的Agent實驗,反而值得耐心觀察。
它們操作緩慢、偶爾出錯、效率遠不如人類,但這些笨拙本身就是學習的前提。一個從不觸碰真實環境的系統,看起來穩定,卻難以進化;一個不斷被現實打回來的系統,雖然不完美,卻在不斷更新自身的世界模型。
站在2026年初回望,許多分歧依然存在。
一部分人仍在致力于用基準測試衡量模型的高度,另一部分人開始用任務完成率衡量模型的成熟度。前者提供了清晰的數字坐標,后者卻更接近真實世界的復雜性。
兩者并不矛盾,但后者所積累的經驗,可能更深刻地影響未來智能的邊界。
那些無數個Agent在真實世界中的實踐,無數個通過交互產生的正負反饋,無數次失敗正在被轉化為改進的信號,都在構成了智能演化最真實的底層數據。
它們不像基準成績那樣耀眼,卻像燃料一樣持續供給著模型的能力增長。
如果說Chatbot階段讓AI學會了說話,那么Agent階段正在讓AI學會生活。
生活意味著不確定性、偶然性與復雜因果,也意味著持續的適應與調整。智能在這樣的環境中不會一蹴而就,但會在無數微小反饋中逐漸成形。
這或許正是“苦澀”一詞真正的含義:
承認沒有任何設計能夠一步到位地通向最優路徑,承認真正的進步來自漫長而反復的試錯過程。
苦澀之處在于,人類必須放棄對完美設計的執念;但希望也在于,一旦系統被置于足夠豐富的環境中,智能的生長將具有某種內在的必然性。
在這個意義上,今天的Agent浪潮遠不是大模型故事的終點,而更像是一個新的起點。
它把模型從靜態知識的容器,推向持續學習的過程;把能力從一次性的訓練結果,轉化為長期交互的副產品。
未來模型的高度,或許不再僅由參數規模和語料規模決定,而取決于它們在現實世界中經歷了多少次嘗試、失敗、以及修正。
能被測量的分數,記錄的是今天的能力;不能被完全測量的經歷,則在塑造明天的能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.