![]()
來源:專知
![]()
隨著大語言模型(LLMs)的持續演進,僅依靠人類監督來提升模型性能的成本日益高昂,且在可擴展性方面存在局限。當模型在特定領域接近人類水平時,人類反饋可能無法再為進一步的提升提供足夠的信息增益。與此同時,模型自主決策和執行復雜任務能力的增強,使得模型開發流程中各個組件的逐步自動化成為可能。在挑戰與機遇的共同驅動下,“自我改進”(Self-improvement)引起了學術界日益增長的關注,即模型自主生成數據、評估輸出并迭代優化自身能力。
本文從系統級視角審視了具備自我改進能力的語言模型,并提出了一套整合現有技術的統一框架。我們將自我改進系統概念化為一個閉環生命周期,由四個緊密耦合的過程組成:數據獲取、數據篩選、模型優化和推理細化,并輔以一個自主評估層。在該框架中,模型自身在驅動各個階段中發揮著核心作用:收集或生成數據、篩選信息信號、更新參數以及細化輸出;同時,自主評估層持續監控進展并引導跨階段的改進循環。基于這一生命周期視角,我們從技術角度系統地評述并分析了各組件的代表性方法。此外,我們進一步討論了當前的局限性,并對通往完全自我改進 LLM 的未來研究方向進行了展望。
![]()
1 引言 (Introduction)
通過擴展模型規模、訓練數據和計算量,大語言模型(LLMs)已實現快速且持續的性能增益(Brown et al., 2020; Ouyang et al., 2022; Hoffmann et al., 2022; OpenAI et al., 2024)。支撐這一進展的普遍假設是:更大規模、更高質量的數據集,特別是專家標注的人類監督,是催生更強模型的關鍵。在實踐中,諸如 RLHF(Ouyang et al., 2022)等方法高度依賴精心策劃的高質量監督信號,以對預訓練模型進行對齊和細化。
然而,隨著模型的不斷演進,主要依靠人類監督來改進模型的范式暴露出了幾項結構性局限:
人類數據的稀缺性日益凸顯:高質量的專家標注數據成本高昂且難以規模化(Gilardi et al., 2023; Villalobos et al., 2024)。構建大型監督數據集的邊際成本迅速增長,而專家勞動力資源卻始終有限。
更深層的局限在于人類認知的邊界:如果模型監督始終受限于人類智能,模型是否能真正超越人類水平?當模型在某些領域接近或超過人類水平時,人類反饋可能不再能提供足夠的信息梯度(Informative Gradients)以支持進一步提升(Bowman, 2023; Burns et al., 2023)。這提出了一個根本性問題:當模型與其監督者(人類)水平持平時,如何持續進化?
上述局限共同促使學術界探索**模型自我改進(Model Self-improvement)**這一極具前景的方向。模型不再完全依賴外部的人類信號,而是利用自身能力來生成數據、評估輸出并迭代優化其策略。
從自動化的角度來看,這一方向不僅是理想的,而且是必然的。隨著 LLMs 的進階,它們展現出了解決復雜工程任務和參與高層決策的能力。鑒于 LLMs 的開發過程(包括數據獲取、篩選和模型訓練)本身就是一項高度復雜的工程任務,將這些職責委派給模型自身是一個自然的演進過程。通過將 LLMs 作為智能體(Agents)來編排自身的開發生命周期,一個“系統側”的自我改進閉環得以建立。如圖 1 所示,我們的愿景是從人類驅動的模型開發轉向自主自我改進系統范式,使 LLM 通過自主導向的迭代和反饋不斷增強其能力。
我們將 LLM 的自我改進定義為:**一種在沒有持續人工干預(Human-in-the-loop)的情況下,模型迭代增強自身能力的學習范式。**該范式具有兩個核心屬性:
自主性(Autonomy):改進過程無需持續的人工標注或手動校正。“自我”并不排斥外部組件;系統仍可使用教師模型、驗證器(Verifiers)、評論家(Critics)、獎勵模型或自動評估器等輔助模塊。關鍵要求是:學習環節一旦部署,必須是完全自動化的。
持續性(Continuity):自我改進并非一次性的細化,而是一個迭代的、自我強化的過程。前期階段的輸出或經驗被重新利用,為后續更新產生更強的監督信號。每一輪改進都依賴并放大先前的成果,從而實現隨時間推移的累積式進展。
在此定義下,自我改進不僅僅是提升任務指標的技術,更是一種實現持續、自主增長的結構性能力。從 AI 長期發展的視角看,這種能力被廣泛認為是構建能夠超越初始訓練范疇、實現持續學習與適應的系統的核心。
受此愿景啟發,如圖 2 所示,我們提出了一個由五個互連組件組成的生命周期自我改進系統。其中四個組件——數據獲取、數據篩選、模型優化和推理細化——共同解決了一個核心問題:為了構建端到端的自我改進系統,如何在不同階段利用模型自身來驅動持續且自主的貢獻?具體而言:
數據獲取(Data Acquisition):模型自主收集或生成訓練數據。
數據篩選(Data Selection):模型獨立評估并過濾出質量更高、更適合自身學習的數據點。
模型優化(Model Optimization):模型自主學習,有效地將數據轉化為其參數內部的增強能力。
推理細化(Inference Refinement):模型在推理過程中提升性能,而無需更改底層參數。
除了這四個階段,系統還需要一種長期衡量與引導機制,以確保自我改進的穩定性和可持續性。為此,我們引入了第五個組件:自主評估(Autonomous Evaluation)。它為模型表現提供持續反饋,并引導其未來的發展方向。由于靜態基準測試(Benchmarks)會迅速過時,且人工評估無法隨系統規模同步增長,這種機制至關重要。通過自主評估,模型可以保持及時、自適應的反饋,支撐長期的持續改進。
這五個組件共同將模型置于自動化迭代閉環的核心地位。該統一系統確保了改進信號能夠被一致地生成、篩選、應用、細化和評估,為實現更廣泛的系統級 LLM 自我改進鋪平了道路。
近期已有一些綜述從不同角度探討了自我改進。例如,Tao et al. (2024) 關注通過自我訓練和強化學習實現的策略級自我演化;Dong et al. (2024) 評述了提示詞(Prompting)和解碼細化等推理側改進技術;Fang et al. (2025a) 和 Gao et al. (2026) 則強調智能體系統,突出記憶、反思和工具增強交互。盡管如此,現有研究大多集中在特定階段(如訓練或推理)的局部機制。相比之下,我們采用了系統級視角,將自我改進概念化為一個統一的、閉環的生命周期,將模型開發的所有階段整合進一個連貫的、用于可擴展自主演化的端到端框架中。
本文余下部分分為兩個主要部分。首先,從技術角度系統研究自我改進系統中的每個組件(§2 至 §6),并將其分類(如圖 3 所示)。其次,我們將討論更宏觀的自我改進系統(§7 至 §9),涵蓋挑戰、局限、應用及未來展望(結構如圖 9 所示)。此外,盡管本文以模型為中心,但也納入了關于**自我演化智能體(Self-evolving agents)**的研究。我們認為,從單一階段向統一自我改進系統的轉變,與從獨立模型向智能體系統的轉變相呼應,反映了向更自主、交互式學習系統范式發展的共同趨勢。
![]()
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
![]()
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.