網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

開源模型追不上閉源了？

2026-05-31 02:23:17　來源: 高恒說

北京舉報

分享至

開源大模型最熱鬧的時候，市場曾經(jīng)相信一件事：只要模型權重放出來，只要社區(qū)足夠活躍，只要有一個DeepSeek式的突破，閉源模型的領先優(yōu)勢遲早會被抹平。

但Epoch AI最新發(fā)布的一組數(shù)據(jù)，把這個敘事往回拽了一下。

這家專注人工智能基準測試與模型能力研究的非營利機構，在5月29日發(fā)布的Data Insight中重新審視了開放權重模型與閉源前沿模型之間的能力差距。結論并不樂觀：自2026年初以來，開放權重模型相對最強閉源模型，平均落后約4個月。

這比Epoch此前統(tǒng)計的3個月差距，略有擴大。

更重要的是，這個“4個月”不是簡單的發(fā)布時間差。Epoch用的是自己的綜合能力指標ECI，也就是Epoch Capabilities Index。按它的估算，2026年以來，開放權重模型與閉源前沿模型之間平均相差約8個ECI點，大致相當于GPT-5與GPT-5.5之間的能力差距。

換句話說，問題不是“開源模型有沒有進步”。它當然在進步，而且進步很快。真正的問題是，閉源模型也在加速，而且加速的方向越來越不是靠外部社區(qū)能夠輕易復制的。

這也是這份報告真正值得討論的地方。

過去一年，市場對開源模型的信心很大程度來自DeepSeek-R1。2025年1月，DeepSeek-R1發(fā)布后，確實一度改寫了市場情緒。它用相對低成本的訓練路徑，在推理能力上逼近當時最強閉源模型，讓外界第一次強烈感受到：中國公司、開放模型、低成本路線，也可以沖到前沿牌桌。

但從Epoch的圖表看，DeepSeek-R1更像是一次短暫收斂，而不是趨勢逆轉。2024年三季度，開放權重模型與閉源模型一度非常接近；DeepSeek-R1發(fā)布后，差距也曾被壓縮。但進入2026年后，差距沒有繼續(xù)縮小，反而重新拉開。

這說明一個事實：開源模型可以靠單點突破驚艷市場，但要持續(xù)站在前沿，需要的是另一套東西。

01:差距擴大的不是模型參數(shù)，而是系統(tǒng)能力

今天的大模型競爭，已經(jīng)不再是“誰的參數(shù)更多”“誰的預訓練語料更大”這么簡單。

在早期階段，開放模型追趕閉源模型的路徑相對清晰：更大的模型、更好的預訓練數(shù)據(jù)、更便宜的推理成本、更高效的訓練框架。社區(qū)能夠復現(xiàn)論文，企業(yè)能夠開放權重，開發(fā)者能夠微調部署，差距自然會被快速壓縮。

但到了GPT、Claude、Gemini這一代前沿模型，競爭重心變了。

真正決定體驗差距的，不只是基礎模型本身，而是后訓練、強化學習、長上下文處理、工具調用、代碼環(huán)境、智能體任務、多輪反饋和產(chǎn)品數(shù)據(jù)閉環(huán)。這些東西不再只是“模型權重”能解釋的能力，而是一整套工程體系。

這也是為什么用戶會明顯感受到，很多開放模型在普通問答、翻譯、總結、輕量代碼上已經(jīng)很好用，但一旦進入復雜任務，比如長文檔推理、跨工具協(xié)作、自動寫代碼并調試、拆解商業(yè)問題、持續(xù)多輪執(zhí)行任務，閉源模型仍然更穩(wěn)。

差距不一定體現(xiàn)在單個榜單分數(shù)上，而是體現(xiàn)在真實工作流里。

一個模型能不能連續(xù)跑一個小時不跑偏？能不能調用工具后理解返回結果？能不能在復雜代碼庫里找到問題？能不能在多步驟任務中記住目標、修正錯誤、避免幻覺？這些能力背后，不是簡單堆參數(shù)，而是大量高質量任務數(shù)據(jù)、訓練基礎設施、自動評測系統(tǒng)、人工反饋體系和產(chǎn)品端用戶行為數(shù)據(jù)。

這正是閉源廠商的優(yōu)勢區(qū)。

OpenAI、Anthropic、Google這些公司不只是模型公司，它們更像是AI系統(tǒng)工程公司。它們擁有持續(xù)的算力投入、海量用戶反饋、企業(yè)客戶場景、產(chǎn)品化閉環(huán)和更強的后訓練能力。模型每一次上線，都能從真實使用中拿到數(shù)據(jù)，再反哺下一輪訓練。

開放權重模型當然也能做后訓練，但它面對的現(xiàn)實更復雜：算力不穩(wěn)定，數(shù)據(jù)不完整，商業(yè)化回報周期更長，社區(qū)貢獻高度分散，很多關鍵工程細節(jié)無法公開復用。

所以，開源和閉源之間的差距，本質上不是“聰明程度”的差距，而是持續(xù)投入能力的差距。

02:DeepSeek已經(jīng)提前說出了問題

其實，DeepSeek自己也很清楚這個變化。

在DeepSeek-V3.2技術報告中，它已經(jīng)把開放模型面臨的關鍵瓶頸講得很直接：長上下文處理效率不足，后訓練計算投入不夠，智能體任務中的泛化能力和指令遵循能力仍然存在短板。

這幾個問題，正好對應當下前沿模型競爭的核心戰(zhàn)場。

第一是長上下文。模型不只是要“能讀很長”，還要在很長的上下文里準確抓住關鍵線索，避免注意力浪費，降低推理成本。標準注意力機制在長序列任務上天然成本高，誰能把長上下文做得又便宜又穩(wěn)定，誰就更接近企業(yè)級應用的真實需求。

第二是后訓練。現(xiàn)在前沿模型的能力提升，很大一部分來自預訓練之后的強化學習、偏好優(yōu)化、任務合成和復雜評測。尤其是推理模型和智能體模型，后訓練投入往往決定了模型能不能真正解決復雜問題。開放模型如果后訓練算力不夠，就容易出現(xiàn)“基礎能力不錯，但高難任務不穩(wěn)”的問題。

第三是智能體能力。未來模型不只是聊天工具，而是能替人完成任務的系統(tǒng)。它需要理解目標、調用工具、拆分步驟、驗證結果、修正錯誤。這類能力特別依賴真實任務數(shù)據(jù)和復雜環(huán)境訓練。閉源模型背后有大量產(chǎn)品場景和企業(yè)應用反饋，開放模型在這一點上天然吃虧。

所以，DeepSeek-R1的意義不是證明開源已經(jīng)追平閉源，而是證明開放路線有能力在某個關鍵時點打出一次漂亮的技術突破。

但下一次突破會更難。

因為前沿競爭已經(jīng)從“做出一個強模型”，變成“持續(xù)運營一個強模型系統(tǒng)”。這兩者不是一個難度。

前者考驗研究能力、工程效率和訓練策略。后者還要考驗資金、算力、產(chǎn)品、客戶、數(shù)據(jù)、組織能力和商業(yè)化閉環(huán)。

這也是為什么Epoch的數(shù)據(jù)看起來只是從3個月變成4個月，背后卻是AI產(chǎn)業(yè)競爭邏輯的變化。時間差并不大，但方向值得警惕：閉源廠商并沒有被開源浪潮拖慢，反而正在利用更強的資源稟賦，把優(yōu)勢重新轉化為系統(tǒng)性壁壘。

03:開源沒有輸，但它需要重新定義勝利

不過，把這件事簡單寫成“開源模型追不上了”，也不準確。

開放權重模型的價值從來不只是沖擊最強榜單。它真正不可替代的地方，在于可部署、可定制、可審計、可控成本，以及對本地化應用生態(tài)的支撐。

對很多企業(yè)來說，最強模型未必是最合適的模型。金融、政務、醫(yī)療、工業(yè)、法律等場景，對數(shù)據(jù)安全、私有化部署、成本控制和可解釋性有更高要求。這些場景不一定愿意把核心數(shù)據(jù)放進閉源模型的云端接口里。開放權重模型即便不是全球第一，也可能是更現(xiàn)實的選擇。

而且，從價格和性能比看，開放模型仍然很有競爭力。一些開放權重模型已經(jīng)能用更低成本完成大量通用任務。對開發(fā)者和中小企業(yè)來說，這種能力足夠重要。不是所有應用都需要GPT-5.5或Claude最頂級版本。大量場景真正需要的是穩(wěn)定、便宜、可控、能接入業(yè)務系統(tǒng)。

這意味著，開源不會消失，也不會邊緣化。

但它的敘事可能要變。

過去市場期待開源模型“全面追平閉源”。這個預期太高，也太線性。更現(xiàn)實的判斷是：開放模型會在大量應用層面持續(xù)繁榮，在本地部署、行業(yè)微調、成本效率和開發(fā)者生態(tài)上形成優(yōu)勢；但在最前沿的通用智能、復雜推理和長程智能體任務上，閉源模型仍可能保持階段性領先。

開源模型下一步真正需要的，不是再做一個“閉源平替”，而是找到新的突破口。

比如更高效的架構，更低成本的長上下文機制，更強的后訓練方法，更開放的智能體數(shù)據(jù)生成體系，更適合行業(yè)部署的模型工程方案。只有這些底層能力發(fā)生變化，開放模型才可能再次把差距壓回去。

否則，4個月的差距可能只是開始。

這也是這份Epoch報告對行業(yè)最大的提醒：AI前沿競爭正在進入資本密集、算力密集、數(shù)據(jù)密集和工程密集階段。社區(qū)熱情仍然重要，但它很難單獨對抗一整套閉源工業(yè)體系。

DeepSeek-R1證明過，開放路線可以震動世界。

但下一個DeepSeek，不能只靠驚艷。

它需要的不再是一次漂亮的發(fā)布，而是一套能持續(xù)進化的系統(tǒng)。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.