你有沒有想過一個問題:ChatGPT學的東西,是從哪來的?
答案是:互聯網上人類寫的所有文字——維基百科、Reddit、GitHub、新聞網站、博客、論壇……大模型像一頭巨獸,吃掉了數以萬億計的token。
但這份“免費午餐”快吃完了。
《2026全球大模型數據市場白皮書》(藝恩,35頁)給出了一個令人警醒的時間表:可用的人類公開文本存量約300萬億token,按當前趨勢,訓練數據集規模將在2026-2032年間與之持平,中位數預測約2028年。 Elon Musk在2025年1月直言:“人類知識的累積總和,已基本在AI訓練中被耗盡——大體上去年就發生了。”
當算力競賽逼近邊際、公開語料趨于枯竭,數據已從“可廉價獲取的原料”轉變為決定模型上限的稀缺生產要素。今天咱們就拆一拆:大模型到底需要什么樣的數據?這個市場有多大?錢都流向了哪里?
重點內容:五大核心發現
1. 市場拐點:公開語料即將耗盡,價值向高質量數據遷移
Epoch AI(經ICML 2024同行評審)的測算揭示了“數據墻”的逼近。
![]()
面對這一拐點,行業正在尋找四條出路:多模態擴容(引入圖像/視頻/音頻可使訓練數據約增3倍)、合成數據、數據效率與策展、高質量/專家數據。
2. 市場規模:狹義口徑嚴重低估,廣義口徑2025年約100-160億美元
常被引用的“AI訓練數據集”狹義口徑僅約28-32億美元(2024-2025),只統計打包數據集+標注軟件。但真實支出多在標注與RLHF/專家數據服務中,而非打包數據集。
本白皮書采用廣義口徑(數據集+采集標注+RLHF/專家數據+合成數據),自下而上測算:
- 2024年:約60-90億美元
- 2025年:約100-160億美元
一個有力證據:Scale AI(約20億)+ Surge AI(約14億)+ Mercor(約7.6億)2025年毛收入合計約42億美元,已超過“訓練數據集”狹義全球值。
3. 價值鏈分層:從通用語料到專家數據,價差可達數十倍
![]()
核心規律:越靠近“專家級、多模態、可驗證”的一端,單位價值越高、可復制性越低。業界觀察顯示,模型性能提升中歸因于數據質量(而非架構)的比例已超過70%。標注單價隨專業度上升,價差可達數十倍。
4. 資本涌入與合規溢價
![]()
連鎖反應:Meta入股Scale AI后,因數據機密性顧慮,Google、OpenAI、xAI等削減與Scale的合作,為Surge、Mercor讓出空間——印證了數據供應行業的“中立性”本身即核心資產。
合規正在從“成本項”轉為“定價項”。截至2025年10月,全球AI版權訴訟達51-166起。歐盟《AI法案》要求訓練內容摘要須按模板披露。可審計、可溯源的合規授權數據正獲得結構性溢價。
5. 中美雙核:兩種不同的發展邏輯
![]()
中國在開源生態中表現突出:2025年7月HuggingFace前10名開放權重模型中國占9席(智譜GLM、阿里Qwen等)。據信通院測算,2024年中國數據標注產業規模約120億元,核心企業超600家。
總結與啟示
這份報告最核心的啟示是:大模型競爭的勝負手,正在從“更多算力”轉向“更優質、更合規的數據”。
公開語料枯竭不是終點,而是價值化的起點。當算力競賽逼近邊際,誰掌握稀缺、專業、合規的數據,誰就掌握定價權。從通用語料到專家數據,從單模態到多模態,從“抓取”到“付費授權”——這些結構性變化正在重塑整個AI產業的底層邏輯。
對AI從業者來說,可以問自己三個問題:你的訓練數據來源是否合規?你的數據質量是否足夠支撐模型能力突破?你是否在關注合成數據和專家數據這兩個高價值方向?
對中國企業來說,機遇在于數據要素上升為國家戰略,政策紅利持續釋放;挑戰在于頭部數據公司估值與美國相差1-2個數量級,高質量、多模態數據的供給仍是短板。
報告節選
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.