出品 | 網易智能
作者 | 小爪
編輯 | 王鳳枝
AI模型競賽里,過去最容易被記住的數字是參數。
幾百億、幾千億、上萬億。模型越大,似乎越容易被理解成能力越強。
上海AI Lab相關團隊新開源的Agents-A1,換了一個問題:如果不繼續把模型做得更大,而是讓它把任務做得更長,會發生什么?
GitHub README顯示,團隊在6月26日開源了Agents-A1 35B-A3B模型、部分評估代碼和技術報告。簡單說,這不是萬億級底座模型,而是一個總參數約35B(350億)、推理時激活參數更少的MoE(混合專家)Agent模型。
![]()
6月29日,一篇題為《擴展任務邊界,而非參數規模》(Scaling the Horizon, Not the Parameters)的論文提交至arXiv。按論文、項目頁和開源倉庫披露的結果,Agents-A1在多項長任務Agent基準測試上達到或接近論文所列"1T-level"(萬億參數級)前沿模型表現。
![]()
模型會答題,不等于會做事
普通聊天模型面對的是一個相對短的回合:用戶問一句,模型答一句。即便問題很復雜,輸出仍主要發生在一個文本窗口里。
智能體面對的任務不一樣。
論文把這種能力稱為智能體任務邊界(agent horizon)。直白說,就是AI能連續把一件事往前推進多遠。
它要先理解目標,再拆步驟;要查外部資料,調用工具,運行代碼,觀察結果;如果中間失敗,還要換路線繼續推進。對Agent來說,難點不只是一瞬間答對,還在于很長的過程里不忘目標、不丟約束、不把前面的錯誤一路帶下去。
這個詞比"參數"更接近真實使用體驗。
一個模型知道很多,并不等于它能把復雜任務做好。
它可能第一步查對了資料,第二步選錯工具;也可能前面判斷都對,最后整理結果時忘了用戶最初的要求。很多人使用AI時遇到的挫敗感,就來自這種斷裂:單步看起來都在推進,串起來卻交付不了結果。
摘要、翻譯這類短任務很容易判斷好壞;但調研、分析、改表格、寫結論這些多步驟任務,中間任何一步走偏,最后都會壞掉。 到了Agent場景,模型強不強,不只看它知識多不多,還要看它能不能穩定把任務做完。
Agents-A1想訓練的是長鏈條能力
Agents-A1的做法,是把訓練重點放在更長的任務軌跡上。
論文稱,團隊構建了一套長任務知識-行動基礎設施,把外部知識、動作、觀察結果和驗證器反饋連接起來,生成平均長度約4.5萬個token的Agent軌跡。
![]()
具體到訓練材料,團隊不只給模型看"題目和標準答案",還把一個任務從開始到結束的過程喂進去。
論文里更具體的抓手,是知識-行動圖(Knowledge-Action Graph,KAG)。它不是普通知識圖譜,不只是記錄實體和關系,而是把一次任務推進中的連續狀態保存下來:模型查到了什么、用了什么工具、工具返回了什么、結果是否通過驗證,以及失敗后怎樣調整下一步。Agents-A1訓練的不是單次回答,而是這種帶反饋的行動過程。模型學到的不只是"最后答案是什么",還有"答案是怎么被查到、執行、驗證和修正的"。
![]()
論文中的訓練流程分為三步:
- 第一步,用全領域監督微調,讓基礎模型先對搜索、工程、科研、工具調用、指令遵循等Agent行為形成基本對齊。
- 第二步,訓練不同領域的教師模型,讓它們分別捕捉專業領域里的經驗。
- 第三步,再把多個教師模型的能力蒸餾到一個可部署的學生模型里,讓一個35B模型同時覆蓋多類Agent任務。
三步流程的共同目的,是讓模型在訓練階段就反復經歷完整的任務過程,而不只是看到孤立的問答對。它們背后對應的是同一個方向:把"會不會答"轉成"會不會持續行動"。
這也解釋了為什么論文標題強調"擴展任務邊界(Scaling the Horizon)"。它不是說把參數規模這條路扔掉,而是把擴展對象從模型本身,挪到模型能夠處理的任務過程上。
過去的scaling(擴展)更像擴大一顆大腦:更多參數、更多數據、更大算力。Agents-A1討論的scaling更像拉長一個人的工作半徑:它能查多少輪資料,能處理多少次反饋,能在多長的上下文里不迷路,能不能把工具調用和最終答案連成一個閉環。
35B為什么能接近更大的模型
根據論文報告,Agents-A1的評測覆蓋長任務搜索、工程、科學研究、指令遵循和工具調用等方向。它取得較強表現的地方,主要集中在那些需要模型連續處理信息、調用工具并推進任務的Agent基準測試上。
這些基準測試考的不是一次性答題,而是模型能不能在長流程里穩定推進任務。
一篇35B模型論文之所以會拿來和論文所列1T-level前沿模型比較,原因也在這里。
如果任務只是比知識儲備和瞬時推理,大模型通常有天然優勢;但如果任務需要連續行動,訓練數據里有沒有足夠長的過程、模型會不會調用工具、能不能看懂中間狀態,就會變得更重要。
![]()
更細地看,Agents-A1的優勢并不平均分布。論文表格顯示,它在長任務搜索、部分科學和指令遵循類評測上表現突出;但在瀏覽理解、科學編程、機器學習工程基準、材料工具等任務上,前沿大模型仍有明顯優勢。論文作者也承認,MLE-Bench-Lite這類完整工程流程對穩定目標、記憶歷史決策、避免重復試錯要求很高,Agents-A1仍弱于1T-level模型。
但Agents-A1給出的信號是:參數之外,還有一條擴展路線。把模型做得更大是一種scaling;把它能處理的任務鏈條拉長,也是一種scaling。
這條路線對大模型行業很有吸引力。繼續把模型做大,意味著更高的訓練成本、更貴的推理成本,也意味著部署門檻越來越高。如果一個較小模型能通過更好的Agent訓練,在某些長任務場景里接近更大模型,它就給行業提供了另一種效率想象:不是每個問題都必須靠更大的底座解決,有些問題可以靠更好的任務過程解決。
這條路線并不排斥更大的模型。長任務能力本身仍依賴基礎模型的語言理解、推理、代碼和工具調用能力。更合理的理解是,Agent時代的能力競爭不只發生在底座模型大小上,也發生在訓練軌跡、工具環境、反饋機制和驗證器設計上。
這對普通用戶意味著什么
這類論文離普通用戶并不遠。
現在很多人使用AI,仍停留在"問答工具"的階段:寫一段文案、翻譯一段話、總結一份材料。未來更有價值的場景,是把AI放進完整工作流里。
例如,一次行業調研不只是列觀點,而是查資料、篩來源、標注證據、整理表格、寫初稿、檢查不確定項;一個編程任務也不只是回答問題,而是讀問題單、查代碼、改文件、跑測試、提交修復;一個辦公任務則可能跨郵件、日歷、文檔和表格,把待辦追蹤到可以發給同事的結論。
現在很多AI產品已經在往這個方向走。瀏覽器里的Agent想替用戶訂票、購物、查資料;編程工具里的Agent想從issue讀到代碼,再改文件、跑測試;辦公軟件里的Agent想把郵件、日歷、文檔和表格連起來。它們共同考驗的不是一句話答得漂不漂亮,而是AI能不能在長時間里保持目標一致,記住前面做過什么,知道什么時候該查資料,什么時候該調用工具,什么時候該承認不確定。
長任務能力最先改變的,可能就是產品體驗:用戶未必關心底層模型有多大,但會明顯感受到AI能不能把任務一路跟到底。
對普通用戶來說,這種變化可能不會以"你正在使用一個35B Agent模型"的方式出現。它更可能藏在產品體驗里:AI不再頻繁反問你下一步做什么,不再做完一半就忘記上下文,也不再把工具調用結果和最終結論割裂開來。
當這種能力成熟,用戶對AI的期待也會改變。過去我們容忍它像一個聰明但健忘的聊天對象;以后我們會更希望它像一個靠譜的執行者,知道目標、記得過程、能交付結果。
參數競賽沒有結束,但賽道變寬了
Agents-A1不意味著參數規模不重要。
![]()
論文里的結論仍然限定在特定Agent基準測試和作者報告的評測范圍內。更大的模型在通用知識、復雜推理、代碼、科學任務等許多場景里,仍有優勢。
但它提醒了一個變化:AI能力的競爭不再只有模型大小這一條軸。
過去,大家問一個模型強不強,常看它有多少參數、用了多少訓練數據、跑分排第幾。到了Agent場景,還要看它能不能長時間執行任務,能不能使用工具,能不能處理外部反饋,能不能把多個領域能力合在一個模型里。
如果把普通聊天模型比作一個會答題的人,Agent更像一個會做項目的人。
會做項目的人,不能只靠腦子大。它還要有步驟感、工具感、反饋感和持續推進能力。
Agents-A1的價值就在這里。它沒有簡單加入"誰的模型更大"的競賽,而是把問題推向另一個方向:當模型已經足夠聰明時,下一步要訓練的是把事情做到底的能力。
今天很多Agent論文開始有傳播價值,不再只是因為它們能在模型榜單上換一個名次,而是因為它們正在討論AI產品下一步怎樣進入工作流。誰能讓AI更穩定地完成長任務,誰就更接近普通用戶真正愿意付費的場景。
