无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Anthropic宣告「遞歸自我提升」時代到來,全景綜述帶你一探究竟

0
分享至



近日,Anthropic 發布了一篇引發廣泛關注的文章《When AI builds itself》。文中披露了極其驚人的內部數據:截至 2026 年 5 月,Anthropic 超過 80% 的合并代碼已由 Claude 編寫,工程師的日常代碼產出飆升了 8 倍;更令人矚目的是,AI 智能體已經可以自主提出假設、執行長達數百小時的強化安全實驗。

這說明 AI 已開始展現自主參與下一代模型設計與訓練的潛力,而這種自我提升能力(Self-Improvement),正在成為下一代 AI 發展的關鍵驅動力。



圖 1:大語言模型自我提升 (LLM Self-improvement) 的構想:人類只需啟動系統,模型便能夠持續改進自身能力。

過去,探討大語言模型(LLMs)的下一步發展時,焦點往往局限于更大的參數規模、海量的數據喂養和極限的算力堆疊。

然而,傳統依賴人類監督的訓練范式正逐漸面臨瓶頸:高質量人工標注極其昂貴,專家反饋難以規模化;更致命的是,隨著模型能力的指數級攀升,在高等數學、復雜代碼生成和前沿科研推理等任務中,人類的認知邊界,反而成了限制模型進化的天花板。與此同時,隨著智能體技術的成熟,模型已展現出自主生成數據、調用工具和執行代碼的強大自動化能力。

這表明,當前的大語言模型已具備主動參與自身迭代的能力,無需再完全依賴人類的監督。這一趨勢標志著一種深刻的范式轉移:大語言模型的發展正從被動接受人類微調與修正轉向自主探索與持續進化。

為了解構大語言模型自我提升的底層邏輯,填補系統性研究的空白,來自紐約州立大學石溪分校 Zesearch NLP Lab 的 Haoyan Yang、Jiawei Zhou 等人經過將近一年的努力,最近發布了一篇 113 頁、涵蓋 500 余篇前沿文獻的關于大模型自我提升的全景綜述:



  • 論文鏈接: https://arxiv.org/pdf/2603.25681
  • GitHub Repo: https://github.com/Zesearch/self-improvement-llm
  • 項目網站: https://zesearch.github.io/self-improvement-llm-website/



圖 2:LLM 自我提升系統 (LLM Self-improvement system) 的閉環框架:數據獲取、數據篩選、模型優化、推理細化與貫穿全程的自動評估。

論文提出了「LLM 自我提升系統」(LLM Self-Improvement System)這一概念。

相比已有關于自我演化智能體 (Self-Evovling Agents) 的研究,這篇論文更加從模型自身能力出發,關注模型如何憑借內在能力驅動系統持續演化,并將過去分散在數據、訓練、推理和評估中的方法,整合為一個由模型能力驅動的系統級閉環生命周期。

在這個框架中,自我提升不再是單一算法,而是一套可持續運轉的智能系統。論文圍繞一個核心問題展開:如何在不同階段利用模型自身能力,推動持續且自主的改進?

論文將自我提升系統概括為四個核心環節:數據獲取(Data Acquisition)→ 數據篩選(Data Selection)→ 模型優化(Model Optimization)→ 推理細化(Inference Refinement),并由自動評估(Autonomous Evaluation)作為貫穿全程的控制層。每個環節都以模型的自動化能力為核心,使模型能夠主動獲取數據、篩選樣本、優化自身,并在推理中反思改進。

數據獲取(Data Acquisition)



圖 3:數據獲取 (Data Acquisition) 的三種主要路徑:靜態篩選、環境交互與合成生成。

自我提升首先需要源源不斷的學習數據。論文將數據獲取分為三類:靜態篩選 (Static Curation)、環境交互(Environment Interaction)和合成生成(Synthetic Generation)。

靜態篩選是從已有語料中挖掘可學習樣本;環境交互讓模型通過與外部環境交互來主動獲取數據;合成生成則進一步讓模型自己構造新的訓練數據。隨著這三類方式遞進,模型從使用已有數據走向主動探索甚至是自主創造數據。

數據篩選(Data Selection)



圖 4:數據篩選(Data Selection)的兩類核心機制:模型引導評分與自適應選擇。

在數據獲取之后,問題轉向數據篩選:重點變成當已經獲取到足夠的數據后,判斷哪些數據真正有價值。 低質量、重復或錯誤的數據可能放大偏差,甚至導致模型坍塌。因此,系統需要篩選出更有效的數據,進入下一步訓練。

論文將數據篩選方法分為兩類:第一類是模型引導評分(Model-Guided Scoring),即利用模型產生的信號對數據進行打分和過濾,例如置信度、困惑度、梯度或損失函數;第二類是自適應選擇(Adaptive Selection),即把數據篩選變成一個可學習的策略,根據模型能力和反饋動態更新,選擇當前最有價值的數據。

模型優化(Model Optimization)




圖 5:模型優化 (Model Optimization) 的 GRO 框架,通過生成、獎勵與優化循環推動模型能力持續提升。

在數據經過獲取和篩選之后,模型優化階段負責將這些數據真正轉化為模型能力。

作者將這一過程總結為GRO 框架,即生成 — 獎勵 — 優化(Generation–Reward–Optimization):模型首先基于已有數據生成反映當前能力的輸出,再利用獎勵信號判斷其質量,并通過訓練更新自身參數,使模型在循環迭代中持續提升能力。

在這個 GRO 循環中,生成(Generation)是起點:模型基于當前能力產生答案、推理鏈等。論文將生成方式分為三類:自我探索(Self-Exploratory Generation)讓模型嘗試生成多種可能解;精煉生成(Refined Generation)讓模型在初始輸出上反思和修改;交互式生成(Interactive Generation)則通過工具、環境或外部反饋不斷調整生成過程。

隨后是獎勵(Reward) 階段:系統對生成結果進行自動評估,判斷哪些輸出值得學習。獎勵信號主要包括三類:啟發式獎勵(Heuristic Reward) 依賴規則或簡單指標,模型獎勵(Model-based Reward) 由模型或獎勵模型進行打分,可驗證獎勵(Verifiable Reward) 則通過代碼執行、答案匹配或形式化檢查等方式提供更可靠的反饋。

最后是優化(Optimization) 階段:模型利用這些反饋更新自身參數。優化方法可以分為三類:監督微調(Supervised Fine-Tuning, SFT) 把高質量輸出作為訓練數據,強化學習(Reinforcement Learning, RL) 根據獎勵信號直接優化模型行為,混合優化(Hybrid Optimization) 則結合 SFT 和 RL:先用高質量數據進行監督學習,再通過獎勵信號進一步強化模型表現。

此外,作者還總結了三種常見的模型優化范式,它們可以看作 GRO 框架在具體方法中的不同實例:迭代拒絕采樣(Iterative Rejection Sampling)、自我驗證與精煉(Self-Verification and Self-Refinement),以及自我對弈(Self-Play)。

在迭代拒絕采樣中,模型先生成多個候選答案,再通過規則或模型打分篩選高質量樣本,最后將這些樣本用于監督微調。自我驗證與精煉則先生成初始答案,再進行自我檢查與修改,最后利用改進后的答案進行監督微調,或將修改前后的答案構造成偏好對進行偏好優化,從而提升模型能力。自我對弈通過模型自身或多個模型之間的競爭與協作生成更具挑戰性的樣本,并借助勝負、偏好或驗證信號更新模型。

推理細化(Inference Refinement)



圖 6:推理細化 (Inference Refinement) 的四類方法:解碼策略、推理式增強、智能體系統增強與測試時訓練。

在模型優化之后,自我提升系統還需要考慮另一個問題:模型能力如何在實際推理過程中被進一步提升。

模型優化關注的是通過訓練更新參數,而推理細化(Inference Refinement)關注的是:在參數不一定永久改變的情況下,如何讓模型在回答問題時更好地搜索、反思、調用工具并修正自身輸出。

論文將推理細化歸納為四類方法。第一類是解碼策略(Decoding Strategies),通過采樣、樹搜索、logit 調整和效率優化等方式,引導模型生成更可靠的答案。第二類是推理式增強(Reasoning-based Improvement),讓模型在生成過程中加入執行、反饋、反思和協作推理,從而不斷修正中間步驟。第三類是智能體系統增強(Agentic System-based Improvement),通過提示詞、工具、記憶模塊和工作流,把模型放入更完整的任務系統中提升表現。第四類是測試時訓練(Test-Time Training),即模型在面對具體問題時,利用當前任務產生的反饋進行臨時更新,再生成最終答案。

這部分的核心意義在于,它把自我提升擴展到推理過程,使系統不僅依賴訓練后的參數更新,也能在具體任務中實現動態改進。這也是當前「自我演化智能體」研究最關注的方向之一:智能體如何在運行時通過規劃、反思、工具調用和環境交互,不斷調整自身行為并提升任務完成能力。

自動評估(Autonomous Evaluation)



圖 7:自動評估(Autonomous Evaluation)通過動態基準和交互環境評估,持續監控自我提升系統的真實進步。

除了上述四個環節,自我提升系統還需要一個貫穿全程的控制層:自動評估(Autonomous Evaluation)。如果缺少評估,系統就無法判斷自身改進是否真實有效。作者認為,評估過程不應只依賴人工檢查或固定測試集,而應能夠隨著模型迭代自動更新并提供反饋。

為此,論文強調兩類方法:動態基準(Dynamic Benchmarking)可以持續生成或更新測試任務,避免靜態基準失效;交互環境評估(Interactive Environment Evaluation)則讓模型在真實或模擬環境中完成任務,并根據環境反饋自動判斷表現。

通過這種方式,評估不再是閉環末端的一次性打分,而是持續指導系統改進的反饋機制。

風險、應用與未來(Application, Challenge and Future Outlook)



圖 8:自我提升系統的六大挑戰:數據自噬、反饋信號缺陷、優化驅動失敗、無效自我精煉、評估瓶頸和監督瓶頸。

自我提升系統具有巨大潛力,但也面臨一系列挑戰。作者一共總結了六個關鍵問題:模型反復學習自身生成的數據,可能帶來數據自噬(Data Autophagy);錯誤或有偏的反饋會造成反饋信號缺陷(Flawed Feedback Signals);訓練和優化過程可能出現優化驅動失敗(Optimization-Driven Failures);推理階段的自我精煉有時只是表面修改,形成無效自我精煉(Ineffective Self-Refinement);此外,評估瓶頸(Evaluation Bottlenecks)和監督瓶頸(Supervision Bottlenecks)也會限制系統的可靠發展。



圖 9:自我提升系統的六大應用場景:代碼、數學、醫療、金融、算法發現和科學研究。

與此同時,作者總結了自我提升系統的六大應用場景,包括代碼(Code)、數學(Math)、醫療(Medicine)、金融(Finance)、算法發現(Algorithm)和科學研究(Science)。這些領域中已經出現了不少自我提升的應用案例,展現著這一方向的實際價值。

面向未來,作者提出了自我提升研究的四大方向:

  • 第一,從模型級優化走向端到端自我提升系統(End-to-End Self-Improving Systems);
  • 第二,發展面向應用的專用自我提升模型(Application-Centric Self-Improved Models);
  • 第三,建立統一基準與自主評估(Unified Benchmarks and Autonomous Evaluation),衡量模型是否真的在持續進步;
  • 第四,在自動化與人類監督之間取得平衡(Balancing Automation and Human Oversight),確保系統既能自主進化,又保持安全和可控。

總體來看,這篇論文把自我提升從一組分散的技術方法,提升為一個以模型為主體的系統級閉環框架,通過數據、訓練、推理和評估等環節的協同,使大模型從一次性訓練的產物,逐步走向能夠持續成長的閉環智能系統。

當人類不再總能繼續教模型時,誰來推動模型進步?答案或許是模型自己。

作者介紹

第一作者: Haoyan Yang,紐約州立大學石溪分校計算機科學博士生。

個人主頁:https://joyyang158.github.io/haoyan-yang/

其他作者:Mario Xerri、Solha Park、Huajian Zhang、Yiyang Feng、Sai Akhil Kogilathota,來自紐約州立大學石溪分校計算機科學系以及數據科學項目

通訊作者: Jiawei Zhou,紐約州立大學石溪分校計算機科學系、數據科學項目、應用數學與統計系助理教授。

個人主頁:https://joezhouai.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
導演王晶談與周星馳關系:很難跟他做朋友,是除劉德華外合作最多的男星...

導演王晶談與周星馳關系:很難跟他做朋友,是除劉德華外合作最多的男星...

無比
2026-06-11 23:00:23
“一個吻蒸發200億市值”:女主宋珍珍美照曝光,遭多個富豪白嫖

“一個吻蒸發200億市值”:女主宋珍珍美照曝光,遭多個富豪白嫖

文刀貳
2026-06-09 19:59:05
老山最激烈五年:176582名解放軍消滅越軍34766人,傷亡多少人?

老山最激烈五年:176582名解放軍消滅越軍34766人,傷亡多少人?

歷史龍元閣
2026-05-22 08:10:17
菲律賓急了,要求撤走黃巖島裝置,中方把話挑明:基建勢在必行

菲律賓急了,要求撤走黃巖島裝置,中方把話挑明:基建勢在必行

指忘崖
2026-06-12 07:08:37
隨著古伊里雙響炮+比分4-0,阿爾及利亞橫掃南美勁旅

隨著古伊里雙響炮+比分4-0,阿爾及利亞橫掃南美勁旅

俯身沖頂
2026-06-11 10:07:47
菲律賓震后三天遇難人數不斷攀升,等不來援助,馬科斯要調查中國

菲律賓震后三天遇難人數不斷攀升,等不來援助,馬科斯要調查中國

兵鑒史
2026-06-11 11:44:55
勸和失敗!蕭華喬丹都搞不定,尼克斯老板多蘭到底和誰結了死仇?

勸和失敗!蕭華喬丹都搞不定,尼克斯老板多蘭到底和誰結了死仇?

劉哥談體育
2026-06-12 01:08:27
哈珀:難受和憤怒的情緒會轉化為動力 我們現在只想專注G5

哈珀:難受和憤怒的情緒會轉化為動力 我們現在只想專注G5

北青網-北京青年報
2026-06-12 08:07:05
中國男網傳捷報!張之臻爆冷6號種子,轟11記ACE球,創造新紀錄!

中國男網傳捷報!張之臻爆冷6號種子,轟11記ACE球,創造新紀錄!

劉姚堯的文字城堡
2026-06-12 07:55:24
潑糞大戰+外掛火車,AI打造印度模擬器走紅,4天播放量直沖935萬

潑糞大戰+外掛火車,AI打造印度模擬器走紅,4天播放量直沖935萬

17173游戲網
2026-06-09 13:52:06
領先29分為何被翻盤?米奇給出答案,說得很直白,真想抽他兩巴掌

領先29分為何被翻盤?米奇給出答案,說得很直白,真想抽他兩巴掌

萌蘭聊個球
2026-06-11 12:07:27
臨陣因傷無緣世界杯,日本隊隊長遠藤航:我將借此從國家隊退役

臨陣因傷無緣世界杯,日本隊隊長遠藤航:我將借此從國家隊退役

足球報
2026-06-12 03:22:09
6戰世界杯!奧喬亞:100%確定世界杯后從國家隊退役 已有財務自由

6戰世界杯!奧喬亞:100%確定世界杯后從國家隊退役 已有財務自由

硯底沉香
2026-06-11 17:09:34
美預測:臺海一旦開打,9國將展開混戰,中俄朝將對陣6國聯軍

美預測:臺海一旦開打,9國將展開混戰,中俄朝將對陣6國聯軍

安珈使者啊
2026-06-11 11:48:07
遠強于沃格光電?這家7元低價+玻璃基板原片龍頭 主力凈搶籌6億

遠強于沃格光電?這家7元低價+玻璃基板原片龍頭 主力凈搶籌6億

元芳說投資
2026-06-12 06:00:22
破防!大 S 具俊曄 20 年前愛巢曝光,滿屋都是少女純愛回憶

破防!大 S 具俊曄 20 年前愛巢曝光,滿屋都是少女純愛回憶

可樂談情感
2026-06-12 05:44:37
庫爾圖瓦:國家隊的氛圍非常好;我和穆里尼奧的關系很好

庫爾圖瓦:國家隊的氛圍非常好;我和穆里尼奧的關系很好

懂球帝
2026-06-12 03:53:31
離開董明珠3年后,孟羽童真實現狀曝光,如今她印證了李國慶的話

離開董明珠3年后,孟羽童真實現狀曝光,如今她印證了李國慶的話

悅心知足
2026-06-12 04:48:34
“你念幼兒園?”女子穿幼態褲子開家長會,穿艾莎都比這個體面!

“你念幼兒園?”女子穿幼態褲子開家長會,穿艾莎都比這個體面!

番外行
2026-06-06 13:29:54
WTT薩格勒布站爆冷,國乒女單11人僅剩3人,陳熠迎最大挑戰

WTT薩格勒布站爆冷,國乒女單11人僅剩3人,陳熠迎最大挑戰

許礆很機智
2026-06-12 07:06:59
2026-06-12 08:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13237文章數 142668關注度
往期回顧 全部

科技要聞

SpaceX IPO募資750億美元,馬斯克身家萬億

頭條要聞

世界杯揭幕戰單場發3紅牌 幾乎追平上屆全部紅牌紀錄

頭條要聞

世界杯揭幕戰單場發3紅牌 幾乎追平上屆全部紅牌紀錄

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

歐洲忍不住了,全球加息潮再起?

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態度原創

手機
家居
親子
公開課
軍事航空

手機要聞

iPhone 17標準版無緣高階Siri AI;第13版《新華字典》發布

家居要聞

空間微調 移形換境

親子要聞

歷經兩年治療,無精子癥患者家庭在滬迎健康寶寶

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版