網易首頁 > 網易科技 > 網易科技 > 正文

35B模型追上1T級前沿模型？AI開始拼誰更會做事

2026-07-02 19:38:35　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 小爪

編輯 | 王鳳枝

AI模型競賽里，過去最容易被記住的數字是參數。

幾百億、幾千億、上萬億。模型越大，似乎越容易被理解成能力越強。

上海AI Lab相關團隊新開源的Agents-A1，換了一個問題：如果不繼續把模型做得更大，而是讓它把任務做得更長，會發生什么？

GitHub README顯示，團隊在6月26日開源了Agents-A1 35B-A3B模型、部分評估代碼和技術報告。簡單說，這不是萬億級底座模型，而是一個總參數約35B（350億）、推理時激活參數更少的MoE（混合專家）Agent模型。

6月29日，一篇題為《擴展任務邊界，而非參數規模》（Scaling the Horizon, Not the Parameters）的論文提交至arXiv。按論文、項目頁和開源倉庫披露的結果，Agents-A1在多項長任務Agent基準測試上達到或接近論文所列"1T-level"（萬億參數級）前沿模型表現。

雖然后續還要看第三方復現，但這組結果表明，在需要搜索、

模型會答題，不等于會做事

普通聊天模型面對的是一個相對短的回合：用戶問一句，模型答一句。即便問題很復雜，輸出仍主要發生在一個文本窗口里。

智能體面對的任務不一樣。

論文把這種能力稱為智能體任務邊界（agent horizon）。直白說，就是AI能連續把一件事往前推進多遠。

它要先理解目標，再拆步驟；要查外部資料，調用工具，運行代碼，觀察結果；如果中間失敗，還要換路線繼續推進。對Agent來說，難點不只是一瞬間答對，還在于很長的過程里不忘目標、不丟約束、不把前面的錯誤一路帶下去。

這個詞比"參數"更接近真實使用體驗。

一個模型知道很多，并不等于它能把復雜任務做好。

它可能第一步查對了資料，第二步選錯工具；也可能前面判斷都對，最后整理結果時忘了用戶最初的要求。很多人使用AI時遇到的挫敗感，就來自這種斷裂：單步看起來都在推進，串起來卻交付不了結果。

摘要、翻譯這類短任務很容易判斷好壞；但調研、分析、改表格、寫結論這些多步驟任務，中間任何一步走偏，最后都會壞掉。 到了Agent場景，模型強不強，不只看它知識多不多，還要看它能不能穩定把任務做完。

Agents-A1想訓練的是長鏈條能力

Agents-A1的做法，是把訓練重點放在更長的任務軌跡上。

論文稱，團隊構建了一套長任務知識-行動基礎設施，把外部知識、動作、觀察結果和驗證器反饋連接起來，生成平均長度約4.5萬個token的Agent軌跡。

具體到訓練材料，團隊不只給模型看"題目和標準答案"，還把一個任務從開始到結束的過程喂進去。

論文里更具體的抓手，是知識-行動圖（Knowledge-Action Graph，KAG）。它不是普通知識圖譜，不只是記錄實體和關系，而是把一次任務推進中的連續狀態保存下來：模型查到了什么、用了什么工具、工具返回了什么、結果是否通過驗證，以及失敗后怎樣調整下一步。Agents-A1訓練的不是單次回答，而是這種帶反饋的行動過程。模型學到的不只是"最后答案是什么"，還有"答案是怎么被查到、執行、驗證和修正的"。

論文中的訓練流程分為三步：

第一步，用全領域監督微調，讓基礎模型先對搜索、工程、科研、工具調用、指令遵循等Agent行為形成基本對齊。

第二步，訓練不同領域的教師模型，讓它們分別捕捉專業領域里的經驗。

第三步，再把多個教師模型的能力蒸餾到一個可部署的學生模型里，讓一個35B模型同時覆蓋多類Agent任務。

三步流程的共同目的，是讓模型在訓練階段就反復經歷完整的任務過程，而不只是看到孤立的問答對。它們背后對應的是同一個方向：把"會不會答"轉成"會不會持續行動"。

這也解釋了為什么論文標題強調"擴展任務邊界（Scaling the Horizon）"。它不是說把參數規模這條路扔掉，而是把擴展對象從模型本身，挪到模型能夠處理的任務過程上。

過去的scaling（擴展）更像擴大一顆大腦：更多參數、更多數據、更大算力。Agents-A1討論的scaling更像拉長一個人的工作半徑：它能查多少輪資料，能處理多少次反饋，能在多長的上下文里不迷路，能不能把工具調用和最終答案連成一個閉環。

35B為什么能接近更大的模型

根據論文報告，Agents-A1的評測覆蓋長任務搜索、工程、科學研究、指令遵循和工具調用等方向。它取得較強表現的地方，主要集中在那些需要模型連續處理信息、調用工具并推進任務的Agent基準測試上。

這些基準測試考的不是一次性答題，而是模型能不能在長流程里穩定推進任務。

一篇35B模型論文之所以會拿來和論文所列1T-level前沿模型比較，原因也在這里。

如果任務只是比知識儲備和瞬時推理，大模型通常有天然優勢；但如果任務需要連續行動，訓練數據里有沒有足夠長的過程、模型會不會調用工具、能不能看懂中間狀態，就會變得更重要。

更細地看，Agents-A1的優勢并不平均分布。論文表格顯示，它在長任務搜索、部分科學和指令遵循類評測上表現突出；但在瀏覽理解、科學編程、機器學習工程基準、材料工具等任務上，前沿大模型仍有明顯優勢。論文作者也承認，MLE-Bench-Lite這類完整工程流程對穩定目標、記憶歷史決策、避免重復試錯要求很高，Agents-A1仍弱于1T-level模型。

但Agents-A1給出的信號是：參數之外，還有一條擴展路線。把模型做得更大是一種scaling；把它能處理的任務鏈條拉長，也是一種scaling。

這條路線對大模型行業很有吸引力。繼續把模型做大，意味著更高的訓練成本、更貴的推理成本，也意味著部署門檻越來越高。如果一個較小模型能通過更好的Agent訓練，在某些長任務場景里接近更大模型，它就給行業提供了另一種效率想象：不是每個問題都必須靠更大的底座解決，有些問題可以靠更好的任務過程解決。

這條路線并不排斥更大的模型。長任務能力本身仍依賴基礎模型的語言理解、推理、代碼和工具調用能力。更合理的理解是，Agent時代的能力競爭不只發生在底座模型大小上，也發生在訓練軌跡、工具環境、反饋機制和驗證器設計上。

這對普通用戶意味著什么

這類論文離普通用戶并不遠。

現在很多人使用AI，仍停留在"問答工具"的階段：寫一段文案、翻譯一段話、總結一份材料。未來更有價值的場景，是把AI放進完整工作流里。

例如，一次行業調研不只是列觀點，而是查資料、篩來源、標注證據、整理表格、寫初稿、檢查不確定項；一個編程任務也不只是回答問題，而是讀問題單、查代碼、改文件、跑測試、提交修復；一個辦公任務則可能跨郵件、日歷、文檔和表格，把待辦追蹤到可以發給同事的結論。

現在很多AI產品已經在往這個方向走。瀏覽器里的Agent想替用戶訂票、購物、查資料；編程工具里的Agent想從issue讀到代碼，再改文件、跑測試；辦公軟件里的Agent想把郵件、日歷、文檔和表格連起來。它們共同考驗的不是一句話答得漂不漂亮，而是AI能不能在長時間里保持目標一致，記住前面做過什么，知道什么時候該查資料，什么時候該調用工具，什么時候該承認不確定。

長任務能力最先改變的，可能就是產品體驗：用戶未必關心底層模型有多大，但會明顯感受到AI能不能把任務一路跟到底。

對普通用戶來說，這種變化可能不會以"你正在使用一個35B Agent模型"的方式出現。它更可能藏在產品體驗里：AI不再頻繁反問你下一步做什么，不再做完一半就忘記上下文，也不再把工具調用結果和最終結論割裂開來。

當這種能力成熟，用戶對AI的期待也會改變。過去我們容忍它像一個聰明但健忘的聊天對象；以后我們會更希望它像一個靠譜的執行者，知道目標、記得過程、能交付結果。

參數競賽沒有結束，但賽道變寬了

Agents-A1不意味著參數規模不重要。

論文里的結論仍然限定在特定Agent基準測試和作者報告的評測范圍內。更大的模型在通用知識、復雜推理、代碼、科學任務等許多場景里，仍有優勢。

但它提醒了一個變化：AI能力的競爭不再只有模型大小這一條軸。

過去，大家問一個模型強不強，常看它有多少參數、用了多少訓練數據、跑分排第幾。到了Agent場景，還要看它能不能長時間執行任務，能不能使用工具，能不能處理外部反饋，能不能把多個領域能力合在一個模型里。

如果把普通聊天模型比作一個會答題的人，Agent更像一個會做項目的人。

會做項目的人，不能只靠腦子大。它還要有步驟感、工具感、反饋感和持續推進能力。

Agents-A1的價值就在這里。它沒有簡單加入"誰的模型更大"的競賽，而是把問題推向另一個方向：當模型已經足夠聰明時，下一步要訓練的是把事情做到底的能力。

今天很多Agent論文開始有傳播價值，不再只是因為它們能在模型榜單上換一個名次，而是因為它們正在討論AI產品下一步怎樣進入工作流。誰能讓AI更穩定地完成長任務，誰就更接近普通用戶真正愿意付費的場景。

延伸閱讀

 可靈AI落地近30億美元融資，創全球視頻大模型公司融資規模新紀錄

傳快手旗下可靈AI即將完成30億美元融資投后估值180億美元

小雨智造發布首款具身智能焊接機器人，標準版售價16.98萬元

本文來源：網易智能責任編輯：王鳳枝_NT2541

相關推薦

熱點推薦

AI大廠，正在互相設防

虎嗅APP 2026-07-03 03:59:26
0 跟貼 0

從瘋狂翻表到群里直接@AI：飛書來了個新同事，把臟活累活全包了

愛范兒 2026-07-01 15:39:25
0 跟貼 0

不只是調用API，Spatial-Agent讓大模型生成可執行地理分析工作流

機器之心Pro 2026-05-26 14:32:03
0 跟貼 0

跨越安全紅線后重啟：Anthropic Fable 5全面接入GitHub Copilot，押注長周期自主編程

華爾街見聞官方 2026-07-02 06:53:23
19 跟貼 19

徹底殺死提示詞比賽，Agent Loop是什么鬼？

雷科技 2026-07-03 00:05:18
2 跟貼 2

從被動存儲到主動執行 NAS即將進入下一場戰爭

華爾街見聞官方 2026-07-03 18:33:09
0 跟貼 0

這男的有點蠢，不會預判軌跡，就給速度還撒手！

栗子生活醬 2026-06-29 15:47:58
0 跟貼 0

同花順回應突然崩了：已修復，具體原因排查中

第一財經 2026-07-03 11:32:13
321 跟貼 321

中國機器人又進化了，美國客戶不相信不要編程，在這直接大開眼界

怪獸愛逗樂 2026-07-01 13:31:29
1 跟貼 1

紀委核查通訊記錄的獨門手段，很多人到落馬都不知道

細說職場 2026-07-03 18:42:42
0 跟貼 0

開了一次就“頭暈”？看到機器上的英文單詞，他覺得自己被罵了

北青網-北京青年報 2026-06-28 14:48:24
1827 跟貼 1827

泰山景區回應修建滾筒式刀片刺繩隔離鐵絲網：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
20221 跟貼 20221

滿分的「差」，Qwen與復旦等揭示編程智能體獎勵設計的結構性困境

機器之心Pro 2026-07-02 18:16:12
0 跟貼 0

土木人的昨天，程序員的明天：被行業周期碾過的人，最后都去了哪

在野ing 2026-07-03 13:11:41
0 跟貼 0

Fable 5解題解到破防，一句「啊啊啊」刷屏了

機器之心Pro 2026-07-03 17:12:39
0 跟貼 0

中國崛起速度震驚全球！摩洛哥網友：這發展軌跡美國都追不上

愛歌唱的叮當貓 2026-07-03 13:18:40
0 跟貼 0

國乒男單無緣美國大滿貫8強

北京日報 2026-07-03 11:55:13
6514 跟貼 6514

官方報價40元的配件被維修師傅收150元格力售后回應

上游新聞 2026-07-03 12:34:32
728 跟貼 728

獨家：阿里全面禁用Claude

智東西 2026-07-03 13:40:26
2040 跟貼 2040

西班牙時隔16年再贏淘汰賽奧地利全場沒有1次射正

澎湃新聞 2026-07-03 07:16:31
466 跟貼 466

俄羅斯宣布：芬蘭已成核打擊目標！

看看新聞Knews 2026-07-03 13:09:37
5964 跟貼 5964

大量歐洲客戶從中國網購空調空運一臺運費2000元

封面新聞 2026-07-03 11:45:25
5708 跟貼 5708

AI寫完AI審，AI審完AI看

人間小愜意啊 2026-07-01 07:00:07
0 跟貼 0

歐洲主要國家現已接受船舶通過霍爾木茲海峽將不可避免需要付費

財聯社 2026-07-02 23:23:04
896 跟貼 896

失蹤近一年后，美國一實驗室員工被曝曾參與量子物理項目：讓物質“同時存在于兩個地方”

紅星新聞 2026-07-03 14:00:10
22 跟貼 22

C羅穿21號球衣致敬已故隊友若塔

看看新聞Knews 2026-07-03 09:38:09
3145 跟貼 3145

營銷工程師為何成收入團隊最缺新角色

全棧遛狗員 2026-07-03 02:27:22
0 跟貼 0

Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0

90萬人次圍觀，Agent進入真實直播現場

機器之心Pro 2026-07-03 11:32:49
0 跟貼 0

ATHENA將影響函數擴展到十億參數VLA，313×加速篩選高價值數據

機器之心Pro 2026-07-02 18:18:44
0 跟貼 0

2026常用的項目管理軟件推薦：如何選型適合團隊的工具

周口融媒 2026-07-03 18:25:08
0 跟貼 0

神經計算機橫空出世：AI不再調用軟件，而是直接長成一臺計算機

DeepTech深科技 2026-05-03 18:24:37
0 跟貼 0

單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0

紫牛頭條｜景區 NPC 與游客互動掰手腕致骨折，自己墊付醫藥費后被游客拉黑

揚子晚報 2026-07-03 07:25:03
1639 跟貼 1639

風行CEO易正朝：真正的全產業殺手應用是AI編程，相比AI視頻，AI編程對企業經營的意義更大

量子位 2026-05-21 08:05:56
0 跟貼 0

日經225波動率指數飆升53%，創三個月以來最大漲幅

每日經濟新聞 2026-07-03 14:56:06
57 跟貼 57

特斯拉Model Y L在美國上市

界面新聞 2026-07-03 11:01:08
321 跟貼 321

意大利女排甲級聯賽豪門科內利亞諾官宣：34歲前中國女排主力二傳姚迪和中國女排前隊長朱婷正式加盟球隊，兩人攜手征戰意甲與歐冠賽事

大象新聞 2026-07-03 19:54:41
2 跟貼 2

美拒絕續簽"美墨加協定" 美媒屢屢提及中國

環球網資訊 2026-07-03 07:05:17
63 跟貼 63

PalantirCEO怒懟模型廠賣Token就是收AI稅，軟件公司第一個被打殘

DeepTech深科技 2026-07-03 20:38:32
0 跟貼 0

A股，尾盤傳來一個“重大利好”信號，下周，或將迎來大反彈！
夜深愛雜談
2026-07-03 19:49:28

3日凌晨爆冷：4強賽出爐橋本慘敗，蒯曼剃光頭，誕生3大不可思議
小七說籃球
2026-07-03 11:21:30

國乒16強全軍覆沒！比慘敗更可怕的是3件事，林詩棟打不回來了？
漫川舟船
2026-07-03 18:41:07

3球2助攻！20歲5000萬超新星閃耀世界杯：連破紀錄引爆豪門爭搶？
李喜林籃球絕殺
2026-07-03 18:07:16

70歲知名港星米雪疑遭男性騷擾，雙手明確表示拒絕，但仍然被貼臉
裕豐娛間說
2026-07-03 08:24:15

“有你這樣的媽，真丟人”，畢業典禮母親出洋相，兒子一臉無奈
熙熙說教
2026-07-01 19:29:52

索尼13年前推文被扒出！回旋鏢正中眉心
游民星空
2026-07-02 11:13:36

C羅：相比進球被取消和被換下，更難受的是沒有進入首發陣容
懂球帝
2026-07-03 12:14:29

紫牛頭條｜景區 NPC 與游客互動掰手腕致骨折，自己墊付醫藥費后被游客拉黑
揚子晚報
2026-07-03 07:25:03

2026年養老金要大變！看懂新規，不吃虧！
細說職場
2026-07-03 19:05:51

基努·里維斯在飛機上看的爛片，把主演自己都看崩潰了
峽谷一級保護廢物
2026-07-02 19:47:14

深度解析：克羅地亞第103分鐘格絕平進球被VAR取消的完整判罰依據
夜白侃球
2026-07-03 11:16:26

重磅！正式加盟76人！一億射手搭檔杰倫布朗
技巧君侃球
2026-07-03 17:22:07

FIFA：智能技術證實克羅地亞“絕平”前有球員觸球，裁判判罰快速精準
懂球帝
2026-07-03 11:32:06

一商戶負責人在西安賽格商場墜亡，生前好友：他曾變賣門店發工資，幾年前已有抑郁傾向
瀟湘晨報
2026-07-02 23:29:18

突發6.2級地震！上海有震感！不少網友感到頭暈,燈晃…有人直接沖下18樓
新浪財經
2026-07-03 13:25:30

孫穎莎大勝張本美和，WTT大滿貫賽事中3-0橫掃對手
老稅系戲精北鼻
2026-07-03 07:45:25

40架殲-10C+4架空警-500，俄羅斯壟斷被打破，北非天空要變天
止戈軍是我
2026-07-03 13:03:51

國產的“他汀”和進口的“他汀”相比較，對肝臟的損害會更大嗎？
重癥醫生張偉
2026-07-02 20:51:53

網友分享被父母迷暈后送進戒同所：斷水斷食、電擊、循環播放a片
燈錦年
2026-07-03 11:44:04

2026-07-03 21:00:49