![]()
開源大模型最熱鬧的時候,市場曾經(jīng)相信一件事:只要模型權重放出來,只要社區(qū)足夠活躍,只要有一個DeepSeek式的突破,閉源模型的領先優(yōu)勢遲早會被抹平。
但Epoch AI最新發(fā)布的一組數(shù)據(jù),把這個敘事往回拽了一下。
這家專注人工智能基準測試與模型能力研究的非營利機構,在5月29日發(fā)布的Data Insight中重新審視了開放權重模型與閉源前沿模型之間的能力差距。結論并不樂觀:自2026年初以來,開放權重模型相對最強閉源模型,平均落后約4個月。
這比Epoch此前統(tǒng)計的3個月差距,略有擴大。
更重要的是,這個“4個月”不是簡單的發(fā)布時間差。Epoch用的是自己的綜合能力指標ECI,也就是Epoch Capabilities Index。按它的估算,2026年以來,開放權重模型與閉源前沿模型之間平均相差約8個ECI點,大致相當于GPT-5與GPT-5.5之間的能力差距。
換句話說,問題不是“開源模型有沒有進步”。它當然在進步,而且進步很快。真正的問題是,閉源模型也在加速,而且加速的方向越來越不是靠外部社區(qū)能夠輕易復制的。
這也是這份報告真正值得討論的地方。
過去一年,市場對開源模型的信心很大程度來自DeepSeek-R1。2025年1月,DeepSeek-R1發(fā)布后,確實一度改寫了市場情緒。它用相對低成本的訓練路徑,在推理能力上逼近當時最強閉源模型,讓外界第一次強烈感受到:中國公司、開放模型、低成本路線,也可以沖到前沿牌桌。
但從Epoch的圖表看,DeepSeek-R1更像是一次短暫收斂,而不是趨勢逆轉。2024年三季度,開放權重模型與閉源模型一度非常接近;DeepSeek-R1發(fā)布后,差距也曾被壓縮。但進入2026年后,差距沒有繼續(xù)縮小,反而重新拉開。
這說明一個事實:開源模型可以靠單點突破驚艷市場,但要持續(xù)站在前沿,需要的是另一套東西。
01:差距擴大的不是模型參數(shù),而是系統(tǒng)能力
今天的大模型競爭,已經(jīng)不再是“誰的參數(shù)更多”“誰的預訓練語料更大”這么簡單。
在早期階段,開放模型追趕閉源模型的路徑相對清晰:更大的模型、更好的預訓練數(shù)據(jù)、更便宜的推理成本、更高效的訓練框架。社區(qū)能夠復現(xiàn)論文,企業(yè)能夠開放權重,開發(fā)者能夠微調部署,差距自然會被快速壓縮。
但到了GPT、Claude、Gemini這一代前沿模型,競爭重心變了。
真正決定體驗差距的,不只是基礎模型本身,而是后訓練、強化學習、長上下文處理、工具調用、代碼環(huán)境、智能體任務、多輪反饋和產(chǎn)品數(shù)據(jù)閉環(huán)。這些東西不再只是“模型權重”能解釋的能力,而是一整套工程體系。
這也是為什么用戶會明顯感受到,很多開放模型在普通問答、翻譯、總結、輕量代碼上已經(jīng)很好用,但一旦進入復雜任務,比如長文檔推理、跨工具協(xié)作、自動寫代碼并調試、拆解商業(yè)問題、持續(xù)多輪執(zhí)行任務,閉源模型仍然更穩(wěn)。
差距不一定體現(xiàn)在單個榜單分數(shù)上,而是體現(xiàn)在真實工作流里。
一個模型能不能連續(xù)跑一個小時不跑偏?能不能調用工具后理解返回結果?能不能在復雜代碼庫里找到問題?能不能在多步驟任務中記住目標、修正錯誤、避免幻覺?這些能力背后,不是簡單堆參數(shù),而是大量高質量任務數(shù)據(jù)、訓練基礎設施、自動評測系統(tǒng)、人工反饋體系和產(chǎn)品端用戶行為數(shù)據(jù)。
這正是閉源廠商的優(yōu)勢區(qū)。
OpenAI、Anthropic、Google這些公司不只是模型公司,它們更像是AI系統(tǒng)工程公司。它們擁有持續(xù)的算力投入、海量用戶反饋、企業(yè)客戶場景、產(chǎn)品化閉環(huán)和更強的后訓練能力。模型每一次上線,都能從真實使用中拿到數(shù)據(jù),再反哺下一輪訓練。
開放權重模型當然也能做后訓練,但它面對的現(xiàn)實更復雜:算力不穩(wěn)定,數(shù)據(jù)不完整,商業(yè)化回報周期更長,社區(qū)貢獻高度分散,很多關鍵工程細節(jié)無法公開復用。
所以,開源和閉源之間的差距,本質上不是“聰明程度”的差距,而是持續(xù)投入能力的差距。
02:DeepSeek已經(jīng)提前說出了問題
其實,DeepSeek自己也很清楚這個變化。
在DeepSeek-V3.2技術報告中,它已經(jīng)把開放模型面臨的關鍵瓶頸講得很直接:長上下文處理效率不足,后訓練計算投入不夠,智能體任務中的泛化能力和指令遵循能力仍然存在短板。
這幾個問題,正好對應當下前沿模型競爭的核心戰(zhàn)場。
第一是長上下文。模型不只是要“能讀很長”,還要在很長的上下文里準確抓住關鍵線索,避免注意力浪費,降低推理成本。標準注意力機制在長序列任務上天然成本高,誰能把長上下文做得又便宜又穩(wěn)定,誰就更接近企業(yè)級應用的真實需求。
第二是后訓練。現(xiàn)在前沿模型的能力提升,很大一部分來自預訓練之后的強化學習、偏好優(yōu)化、任務合成和復雜評測。尤其是推理模型和智能體模型,后訓練投入往往決定了模型能不能真正解決復雜問題。開放模型如果后訓練算力不夠,就容易出現(xiàn)“基礎能力不錯,但高難任務不穩(wěn)”的問題。
第三是智能體能力。未來模型不只是聊天工具,而是能替人完成任務的系統(tǒng)。它需要理解目標、調用工具、拆分步驟、驗證結果、修正錯誤。這類能力特別依賴真實任務數(shù)據(jù)和復雜環(huán)境訓練。閉源模型背后有大量產(chǎn)品場景和企業(yè)應用反饋,開放模型在這一點上天然吃虧。
所以,DeepSeek-R1的意義不是證明開源已經(jīng)追平閉源,而是證明開放路線有能力在某個關鍵時點打出一次漂亮的技術突破。
但下一次突破會更難。
因為前沿競爭已經(jīng)從“做出一個強模型”,變成“持續(xù)運營一個強模型系統(tǒng)”。這兩者不是一個難度。
前者考驗研究能力、工程效率和訓練策略。后者還要考驗資金、算力、產(chǎn)品、客戶、數(shù)據(jù)、組織能力和商業(yè)化閉環(huán)。
這也是為什么Epoch的數(shù)據(jù)看起來只是從3個月變成4個月,背后卻是AI產(chǎn)業(yè)競爭邏輯的變化。時間差并不大,但方向值得警惕:閉源廠商并沒有被開源浪潮拖慢,反而正在利用更強的資源稟賦,把優(yōu)勢重新轉化為系統(tǒng)性壁壘。
03:開源沒有輸,但它需要重新定義勝利
不過,把這件事簡單寫成“開源模型追不上了”,也不準確。
開放權重模型的價值從來不只是沖擊最強榜單。它真正不可替代的地方,在于可部署、可定制、可審計、可控成本,以及對本地化應用生態(tài)的支撐。
對很多企業(yè)來說,最強模型未必是最合適的模型。金融、政務、醫(yī)療、工業(yè)、法律等場景,對數(shù)據(jù)安全、私有化部署、成本控制和可解釋性有更高要求。這些場景不一定愿意把核心數(shù)據(jù)放進閉源模型的云端接口里。開放權重模型即便不是全球第一,也可能是更現(xiàn)實的選擇。
而且,從價格和性能比看,開放模型仍然很有競爭力。一些開放權重模型已經(jīng)能用更低成本完成大量通用任務。對開發(fā)者和中小企業(yè)來說,這種能力足夠重要。不是所有應用都需要GPT-5.5或Claude最頂級版本。大量場景真正需要的是穩(wěn)定、便宜、可控、能接入業(yè)務系統(tǒng)。
這意味著,開源不會消失,也不會邊緣化。
但它的敘事可能要變。
過去市場期待開源模型“全面追平閉源”。這個預期太高,也太線性。更現(xiàn)實的判斷是:開放模型會在大量應用層面持續(xù)繁榮,在本地部署、行業(yè)微調、成本效率和開發(fā)者生態(tài)上形成優(yōu)勢;但在最前沿的通用智能、復雜推理和長程智能體任務上,閉源模型仍可能保持階段性領先。
開源模型下一步真正需要的,不是再做一個“閉源平替”,而是找到新的突破口。
比如更高效的架構,更低成本的長上下文機制,更強的后訓練方法,更開放的智能體數(shù)據(jù)生成體系,更適合行業(yè)部署的模型工程方案。只有這些底層能力發(fā)生變化,開放模型才可能再次把差距壓回去。
否則,4個月的差距可能只是開始。
這也是這份Epoch報告對行業(yè)最大的提醒:AI前沿競爭正在進入資本密集、算力密集、數(shù)據(jù)密集和工程密集階段。社區(qū)熱情仍然重要,但它很難單獨對抗一整套閉源工業(yè)體系。
DeepSeek-R1證明過,開放路線可以震動世界。
但下一個DeepSeek,不能只靠驚艷。
它需要的不再是一次漂亮的發(fā)布,而是一套能持續(xù)進化的系統(tǒng)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.