網易首頁 > 網易號 > 正文申請入駐

中國大模型數量全球第一，但大模型正在餓肚子？公開語料將耗盡

2026-06-02 17:04:42　來源: 三個皮匠報告

湖南舉報

分享至

你有沒有想過一個問題：ChatGPT學的東西，是從哪來的？

答案是：互聯網上人類寫的所有文字——維基百科、Reddit、GitHub、新聞網站、博客、論壇……大模型像一頭巨獸，吃掉了數以萬億計的token。

但這份“免費午餐”快吃完了。

《2026全球大模型數據市場白皮書》（藝恩，35頁）給出了一個令人警醒的時間表：可用的人類公開文本存量約300萬億token，按當前趨勢，訓練數據集規模將在2026-2032年間與之持平，中位數預測約2028年。 Elon Musk在2025年1月直言：“人類知識的累積總和，已基本在AI訓練中被耗盡——大體上去年就發生了。”

當算力競賽逼近邊際、公開語料趨于枯竭，數據已從“可廉價獲取的原料”轉變為決定模型上限的稀缺生產要素。今天咱們就拆一拆：大模型到底需要什么樣的數據？這個市場有多大？錢都流向了哪里？

重點內容：五大核心發現

1. 市場拐點：公開語料即將耗盡，價值向高質量數據遷移

Epoch AI（經ICML 2024同行評審）的測算揭示了“數據墻”的逼近。

面對這一拐點，行業正在尋找四條出路：多模態擴容（引入圖像/視頻/音頻可使訓練數據約增3倍）、合成數據、數據效率與策展、高質量/專家數據。

2. 市場規模：狹義口徑嚴重低估，廣義口徑2025年約100-160億美元

常被引用的“AI訓練數據集”狹義口徑僅約28-32億美元（2024-2025），只統計打包數據集+標注軟件。但真實支出多在標注與RLHF/專家數據服務中，而非打包數據集。

本白皮書采用廣義口徑（數據集+采集標注+RLHF/專家數據+合成數據），自下而上測算：

2024年：約60-90億美元
2025年：約100-160億美元

一個有力證據：Scale AI（約20億）+ Surge AI（約14億）+ Mercor（約7.6億）2025年毛收入合計約42億美元，已超過“訓練數據集”狹義全球值。

3. 價值鏈分層：從通用語料到專家數據，價差可達數十倍

核心規律：越靠近“專家級、多模態、可驗證”的一端，單位價值越高、可復制性越低。業界觀察顯示，模型性能提升中歸因于數據質量（而非架構）的比例已超過70%。標注單價隨專業度上升，價差可達數十倍。

4. 資本涌入與合規溢價

連鎖反應：Meta入股Scale AI后，因數據機密性顧慮，Google、OpenAI、xAI等削減與Scale的合作，為Surge、Mercor讓出空間——印證了數據供應行業的“中立性”本身即核心資產。

合規正在從“成本項”轉為“定價項”。截至2025年10月，全球AI版權訴訟達51-166起。歐盟《AI法案》要求訓練內容摘要須按模板披露。可審計、可溯源的合規授權數據正獲得結構性溢價。

5. 中美雙核：兩種不同的發展邏輯

中國在開源生態中表現突出：2025年7月HuggingFace前10名開放權重模型中國占9席（智譜GLM、阿里Qwen等）。據信通院測算，2024年中國數據標注產業規模約120億元，核心企業超600家。

總結與啟示

這份報告最核心的啟示是：大模型競爭的勝負手，正在從“更多算力”轉向“更優質、更合規的數據”。

公開語料枯竭不是終點，而是價值化的起點。當算力競賽逼近邊際，誰掌握稀缺、專業、合規的數據，誰就掌握定價權。從通用語料到專家數據，從單模態到多模態，從“抓取”到“付費授權”——這些結構性變化正在重塑整個AI產業的底層邏輯。

對AI從業者來說，可以問自己三個問題：你的訓練數據來源是否合規？你的數據質量是否足夠支撐模型能力突破？你是否在關注合成數據和專家數據這兩個高價值方向？

對中國企業來說，機遇在于數據要素上升為國家戰略，政策紅利持續釋放；挑戰在于頭部數據公司估值與美國相差1-2個數量級，高質量、多模態數據的供給仍是短板。

報告節選

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.