網易首頁 > 網易號 > 正文 申請入駐

“集市”的終結?當開源AI只剩下載:一項280萬個倉庫的實證研究揭示了什么

0
分享至

當 Meta 發布 Llama、DeepSeek 開放 R1 權重時,整個技術社區都在歡呼AI 開源時代來了。但一個關鍵問題被忽略了:把模型權重掛到網上供人下載,就等于"開源"了嗎?如果沒有人能真正參與到模型的共同開發中,那這種"開源"與免費發放產品試用裝之間,究竟有什么區別?

在傳統開源軟件(OSS)的黃金年代,Eric Raymond 提出的"集市"模式(Bazaar)被奉為開源協作開發的典范:開發者分布式參與,流程開放透明,用戶可以自下而上驅動創新。從 Linux 內核到 Apache,再到 PyTorch,無數成功案例證明了這一范式的強大生命力。然而,在人工智能時代,所謂的開源 AI 模型(以下簡稱 OSM)正在悄然背離這一經典范式。

北京大學開源軟件分析實驗室團隊完成了一項大規模混合方法實證研究,結合大規模數據挖掘(GitHub 上 1,428,792 個 OSS 倉庫 vs. Hugging Face 上 1,440,527 個 OSM 倉庫)、社會網絡分析、主題建模分析以及對數十名核心開發者與社區參與者的深度訪談,系統性地對比了傳統開源軟件與開源 AI 模型在協作模式上的差異,是目前該領域規模最大的跨平臺實證對比研究。


核心發現可以概括為一句話:當前的開源 AI,在很大程度上是一種"只讀式開源"模型可以下載和使用,但協作開發的大門幾乎是關閉的。 但故事并沒有止步于此,在舊范式失靈的裂隙中,新的協作形態正在萌芽。

一、消失的互動:協作數據的全景掃描

把近 288 萬個倉庫的數據攤開對比,可以發現開源 AI 社區的協作強度相比傳統開源軟件,不是略有下降,而是斷崖式塌陷:

- 近 140 倍的活躍度鴻溝:在核心開發指標上,傳統 OSS 倉庫的平均提交數(Commits)達到 1,464 次,而 OSM 僅為 10.65 次。一個典型的開源 AI 倉庫的全部開發活躍度,可能還不如一個活躍的傳統開源項目一個月的貢獻頻次。

- 近乎沉寂的社區討論:傳統 OSS 平均每個倉庫的 Issue 數量為 35.94 條,而 OSM 倉庫的社區討論平均僅有 0.20 條(約 180 倍的差距)。絕大多數開源 AI 模型的倉庫頁面更像一個靜默的文件下載站,而非一個活躍的協作社區。

- 高度中心化的協作網絡:社會網絡分析進一步揭示,傳統 OSS 的開發者協作網絡在深度和廣度上都遠超 OSM。在 OSM 的提交網絡中,頭部項目的核心開發往往被同一小批內部成員包攬,外部節點極度稀疏。

- 極低的外部貢獻率:開源的精髓不只是"結果可獲取",更在于"過程可參與",但在當前的開源 AI 領域,這種參與的開放性幾乎名存實亡。OSM 的直接貢獻(代碼/權重提交)極度封閉,98.91% 的貢獻者來自發布機構內部或在線托管平臺員工,外部開發者的直接貢獻僅占 1.09%。換句話說,絕大多數開源 AI 模型的開發過程,外界幾乎無從介入。而即便是傳統商業公司主導的 OSS 項目,其外部開發者的貢獻比例通常也能達到 56.7%。


指標 傳統開源軟件 (OSS) 開源 AI 模型 (OSM) 差異倍數

平均 Commits

1,464 10.65 ~140x 平均 Issues / Discussions 35.94 0.20 ~180x

外部貢獻者比例

超過 56.7% 1.09% ~50x

二、共同開發者適配使用者:用戶角色的遷移

數字背后是更根本的分歧:傳統開源社區的對話圍繞"如何一起把它改好",而AI開源社區的對話圍繞"我該怎么把它跑通"。基于數萬條在線托管平臺交流記錄的主題分析印證了這一判斷。

- 傳統 OSS:圍繞改進展開溝通內容高度集中于"Bug 報告"(42.7%)和"功能改進建議"(28.2%),用戶以"共同開發者"的身份深度參與產品打磨。一條典型的 Issue 可能是:"我發現某某函數在并發場景下存在競態條件,附上復現代碼和修復 PR。"

- OSM:圍繞使用展開社區討論的主流變成了"使用問題"(40.0%)和"性能評估"(22.3%)。一條典型的 Discussion 更像是:"我在 4-bit 量化后推理結果出現亂碼,有人遇到過同樣問題嗎?"

用戶不再致力于改進模型本身,而是專注于在下游應用中進行環境適配和微調。他們正從"開發者"(Developer)演變為"適配者"(Adaptor)。這意味著所謂的開源 AI 社區在協作性質上更接近一個用戶論壇,而非一個共建社區。

三、為什么集市模型開發的語境下失靈了?

協作的塌陷不是偶然的,對數?名領域專家的深度訪談反復傳遞著同一個信號:不是人們不愿意協作,而是AI模型開發的技術現實和產業邏輯,從根本上堵死了傳統協作的入口。

- 略性開放的出發點定位在 AI 領域,開源往往是企業競爭的戰略棋子:構建生態鎖定、爭奪開發者、對抗競爭對手的封閉策略,而并非完全為了社區共建。正如一位受訪者所言:"雖然大家都在說開源,但大公司之間其實幾乎不存在真正的協作,說到底還是商業競爭和壟斷",另一位受訪者補充道:"小公司也不太可能真正開源自己的模型,因為賣 API 就是它們的主營業務。大公司可以靠其他增值服務賺錢,但對小公司來說,模型本身就是全部家當“。這種策略性開放從動機層面就決定了社區參與的天花板。

- 技術架構的黑盒壁壘。傳統軟件的源代碼是人類可讀的文本,開發者可以逐行審查、定位問題、提交修改。但模型權重是高維的二進制數值文件,無法像讀代碼一樣讀懂一個 70B 參數模型的某一層為什么會產生某種輸出。更關鍵的是,當前模型主流架構具有高度的全局耦合性,難以像傳統軟件那樣實現清晰的模塊化分工。代碼是可以被理解的協作對象,而模型權重不是。

- 算力構筑的參與門檻。訓練一個前沿大模型所需的算力投入,已經從"昂貴"升級為"天文數字"。一位受訪者直接提及:“我們公司去年投入超過 5 億美元,其中 70% 花在了算力上,個人開發者根本承擔不起這種級別的參與。” 當核心開發的入場券標價數億美元,獨立開發者和小型團隊就被徹底排除在了核心協作圈之外。

- 基礎設施的結構性錯位以Git為代表的、驅動了傳統開源繁榮的版本控制基礎設施,擅長追蹤代碼的逐行變更,卻無法有效管理動輒數十 GB 的模型權重文件。當每次提交的具體修改內容都無法明確追蹤的時候,模型審查和協作迭代就失去了基礎。

四、舊范式失靈,但新芽已現:OSM中的全新協作形態

如果故事止步于“集市”模式的失靈,那未免過于悲觀。事實上,在傳統協作范式瓦解的裂隙中,幾種全新的協作形態正在自發生長。

- 外圍知識生產被算力和技術壁壘擋在核心開發之外的貢獻者,并沒有徹底沉默。他們正在開辟另一條路徑:不觸碰模型權重本身,而是圍繞模型構建獨立于模型結構之外的知識公共財產,例如提示詞庫(Prompt Libraries)的集體編寫、評測基準(Benchmarks)的共同開發、使用文檔和最佳實踐的社區積累。這些貢獻并未改動模型的參數,卻推進了模型被理解、被評估、被使用的方式。“改不了黑盒本身,就去改黑盒周圍的一切”,這正是外圍貢獻者找到的協作突破口。

- 集體邊界探測另一種引人注目的協作形態是,大量用戶通過分布式的實驗測試,協同探索模型的行為邊界和能力極限。紅隊測試、對抗性提示、邊界案例收集……這些看似零散的用戶行為,匯聚起來構成了一種大規模的協同評估機制。即便核心訓練過程仍然封閉,這些來自外圍的信號也能反向引導上游開發者優化模型對齊,形成一種間接但真實的協作閉環。

- 基于資源互補的聯盟式協作傳統軟件可以通過功能模塊的分解實現分工協作,但 AI 模型的不可分解性使得一種新的協作模式萌生:不再拆分任務,而是交換資源,大型機構貢獻算力,合作方和社區貢獻領域知識與專有數據。這種資源互補式的聯盟,讓大模型開發變成了參與方各出所長的聯合行動,它不是集市,更像是一種以資源為紐帶的協作聯邦。

五、通往 AI 協作新范式的四條路徑

識別了問題的根源和新生的協作萌芽之后,一個自然的追問是:能否主動設計方案和工具,促使OSM中協作的發生?破局的關鍵不在于空泛地呼吁更多人來貢獻,而在于重新定義什么叫貢獻、重新設計協作的基礎設施,上述實證發現和訪談洞察共同指向了四條通往AI協作新范式的路徑。

- 標準化訓練配方(Recipes)。完整復現一個大模型的算力門檻極高,但透明性可以通過另一條路徑實現:將數據處理邏輯、超參數配置、環境規格等打包為標準化的訓練配方,讓社區無需重跑訓練,也能評估和驗證模型的構建過程。配方將開發邏輯與硬件需求解耦,社區參與者跑不起同樣的訓練不要緊,但至少能看懂它是怎么做出來的,這是彌合模型生產者與社區之間資源鴻溝的重要一步。

- 構建偽模塊化的協作接口AI模型整體難以模塊化切分,而包括但不限于PEFT(參數高效微調)技術和模型融合在內的新技術卻正在模擬模塊化,為更加解耦的開發流程鋪路。將模型變體的生產從端到端的完整訓練流程中剝離出來,獨立貢獻者無需重跑預訓練,就可以開發面向特定任務的模型變體。這種"偽模塊化"讓協作可以異步發生,從而繞開了預訓練階段的巨額算力門檻,讓更多人有機會真正參與到模型開發中來。

- 開發適配 AI 特性的協作基礎設施。一套為 AI 協作設計的新工具鏈正亟待設計和實現,以面向大規模二進制文件的語義化差分存儲與版本控制、標準化的插件式推理接口、低門檻的在線實驗環境等。正如 Git 和 GitHub 催生了傳統開源的黃金時代,AI 開源的繁榮同樣需要屬于自己的基礎設施革命。

- 重構貢獻度評價體系當前的開源貢獻評估高度依賴代碼提交(Commit)和合并請求(Pull Request),但在OSM開發語境下,許多關鍵貢獻形式被系統性地低估了。正如第四部分所揭示的那樣,外圍知識生產、集體邊界探測、資源互補協同,這些不寫代碼的協作形式對模型質量和安全同樣至關重要,卻長期游離在正式的貢獻激勵體系之外。承認并量化這些貢獻,才能讓更多樣化的參與者找到協作的入口。

一方面,傳統開源的"集市"模式在 AI 模型開發的場域下正經歷嚴重的失靈:協作強度斷崖式下跌,外部參與近乎封閉,用戶從共同開發者退化為被動使用者;而另一方面,在舊范式瓦解的縫隙中,新的協作形態正在萌生:外圍知識生產、集體邊界探測、資源互補協同等,共同指向了一種與AI模型技術特性相適應的全新協作邏輯。

開源 AI 的未來不應止步于開放權重,真正需要的不僅是理念上的重申,更是技術基礎設施、協作工具鏈和貢獻評價體系的系統性重建。"集市"或許不會終結,但它需要一場深刻的自我革新:在算力障礙與黑盒架構的重壓之下,重新找到人人可參與的協作之路,而那些正在萌芽的新協作形態,或許正是這場革新最有希望的起點。

-- 論文信息:

> 論文標題:From OSS to Open Source AI: an Exploratory Study of Collaborative Development Paradigm Divergence

> 發表于:The 29th ACM Conference on Computer-Supported Cooperative Work & Social Computing (CSCW’26)

> 作者:Hengzhi Ye, Minghui Zhou

> 全文鏈接:http://arxiv.org/abs/2604.08888

> 歡迎引用、討論與批評。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
痛心!湖北一派出所所長因公犧牲,年僅45歲

痛心!湖北一派出所所長因公犧牲,年僅45歲

極目新聞
2026-04-23 13:43:56
王維當選蘇州市市長

王維當選蘇州市市長

揚子晚報
2026-04-23 15:36:35
揪心!女生受邀赴泰過潑水節,被轉賣緬甸電詐園,20萬元贖金付完仍被困……

揪心!女生受邀赴泰過潑水節,被轉賣緬甸電詐園,20萬元贖金付完仍被困……

新民周刊
2026-04-23 18:53:58
蔡磊的妻子段睿深夜發布訃告:他走了,再也沒有人等我回去了!

蔡磊的妻子段睿深夜發布訃告:他走了,再也沒有人等我回去了!

做一個合格的吃瓜群眾
2026-04-23 15:09:30
全球最毒的10大垃圾食物榜單,泡面沒上榜,“真兇”很多人每天吃

全球最毒的10大垃圾食物榜單,泡面沒上榜,“真兇”很多人每天吃

小談食刻美食
2026-04-23 07:54:50
大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

極目新聞
2026-04-23 15:05:28
太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

青梅侃史啊
2026-04-21 19:37:02
女子買12萬黃金首飾,金店為何報警?起底退費騙局

女子買12萬黃金首飾,金店為何報警?起底退費騙局

環球網資訊
2026-04-23 16:39:17
鄭麗文訪美確定!希望美方級別越高越好,話音剛落,華盛頓潑冷水

鄭麗文訪美確定!希望美方級別越高越好,話音剛落,華盛頓潑冷水

云舟史策
2026-04-23 07:14:45
湖南一高中生200米跑出20.99秒破紀錄,教練:他曾想放棄高考去打工

湖南一高中生200米跑出20.99秒破紀錄,教練:他曾想放棄高考去打工

瀟湘晨報
2026-04-22 13:16:27
狂妄到沒邊!以色列大使聯合國發飆,當眾逼問中國給伊朗多少錢

狂妄到沒邊!以色列大使聯合國發飆,當眾逼問中國給伊朗多少錢

主宰穩場
2026-04-23 03:31:24
上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

環球網資訊
2026-04-23 11:11:44
斯諾克世錦賽16強對陣!丁俊暉戰趙心童時間曝光,吳宜澤PK塞爾比

斯諾克世錦賽16強對陣!丁俊暉戰趙心童時間曝光,吳宜澤PK塞爾比

曹說體育
2026-04-23 11:39:25
不打了!退出G3和G4!雷霆遭遇最大危機

不打了!退出G3和G4!雷霆遭遇最大危機

籃球教學論壇
2026-04-23 17:14:19
CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠換掉爭議外援

CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠換掉爭議外援

體壇瞎白話
2026-04-23 18:19:13
賴清德無法竄訪,鄭麗文表態后,藍營改口,柯文哲做出驚人預言

賴清德無法竄訪,鄭麗文表態后,藍營改口,柯文哲做出驚人預言

DS北風
2026-04-23 11:52:05
就差1秒!特朗普欲發射核武器,軍方強行攔截,拒絕為總統扣扳機

就差1秒!特朗普欲發射核武器,軍方強行攔截,拒絕為總統扣扳機

面包夾知識
2026-04-23 17:09:14
特斯拉將迎來重磅更新,太猛了!

特斯拉將迎來重磅更新,太猛了!

花果科技
2026-04-23 15:08:15
開撕了!陳曉方面反擊陳妍希,道出未參加前岳父葬禮的原因!

開撕了!陳曉方面反擊陳妍希,道出未參加前岳父葬禮的原因!

娛樂團長
2026-04-23 16:11:09
美特使:已向特朗普提議意大利取代伊朗參加世界杯

美特使:已向特朗普提議意大利取代伊朗參加世界杯

體壇周報
2026-04-23 09:51:15
2026-04-23 19:39:00
開源中國 incentive-icons
開源中國
每天為開發者推送最新技術資訊
7705文章數 34536關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

游戲
數碼
房產
教育
軍事航空

R星還是卡普空?十年磨一劍還是年年有得玩?

數碼要聞

榮耀新旗艦輕薄本開賣,酷睿Ultra X7/X9版半小時電商平臺售罄

房產要聞

三亞安居房,突然官宣!

教育要聞

現在的家長真的不關注成績了,期中試卷只有少部分家長簽字了!

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版