網易首頁 > 網易號 > 正文申請入駐

算力是偽命題，數據才是真瓶頸？

2026-05-29 13:38:29　來源: 數據猿DataYuan

內蒙古舉報

分享至

“給AI一本好書，勝過十本爛書。

2026年，一個令人不安的陰影籠罩著AI圈。

過去幾個月，從硅谷到中關村，關于“Scaling Law是否已死”的討論越來越多。曾經屢試不爽的“更大即更強”邏輯，似乎正在遭遇前所未有的挑戰。人們開始質疑，大模型的“暴力美學”，是不是已經撞上了天花板？

與此同時，另一條暗線卻在悄然生長：谷歌的Gemini Nano、蘋果的設備端模型、以及國內面壁智能的MiniCPM系列——這些參數量只有1B到3B的“小參數模型”，正在以令人驚訝的表現，攪動著整個市場。

為什么連大模型都跑不動了，小參數模型反而在逆襲？

答案或許不在模型大小，而在一個被長期忽視的底層要素——數據。

就在這個節骨眼上，面壁智能做了一件讓行業側目的事：把自己的核心訓練數據，開源了。

它可能是中國AI公司對“數據如何制造智能”這件事，最徹底的一次公開。

大模型正在被什么“卡脖子”？

要說清楚這次開源的意義，得先搞明白一個底層問題：大模型到底被什么卡住了？

過去兩年，行業的共識是“算力決定一切”。誰買的GPU多，誰就能訓出更強的模型。但現在，這個邏輯正在松動。

算力擴張的邊際效益遞減

一個殘酷的事實正在浮出水面：參數翻倍，性能的提升幅度正在急劇收窄。

GPT-3到GPT-4的提升是驚人的，但從GPT-4到GPT-5，進步似乎不再那么“性感”了。這不是OpenAI一家的問題，而是整個大模型行業的“暴力美學”正在逼近它的物理和經濟天花板。

你往爐子里加再多的柴，火焰也不會無限變高。這個道理，在大模型身上同樣適用。

高質量數據加速枯竭

比算力更讓人焦慮的，是數據。

研究機構預測：公開可用的高質量文本數據將在未來幾年內基本耗盡。這不是危言聳聽——互聯網看似無窮無盡，但真正干凈、準確、有邏輯、可訓練的內容，遠沒有想象中那么多。

更糟糕的是，“垃圾進，垃圾出”，是大模型訓練的殘酷法則。喂給模型低質量的網絡雜燴，它就會產出幻覺、偏見和毫無邏輯的胡言亂語。

在這個行業里，“量”不等于“質”，已經被越來越多的實踐所驗證。

端側落地對“模型+高質量數據”提出苛刻要求。

還有一個被很多人忽略的現實，大模型根本跑不到終端設備上。

手機、PC、汽車——這些才是AI商業化的真正主戰場。但它們的算力和功耗，注定了無法部署千億、萬億參數的大模型。

于是出現了一個悖論：用戶想要的是“足夠聰明”的智能體驗，但終端能承載的只有小參數模型。怎么辦？

答案只有一個：給這些小參數模型喂“精糧”。用最高質量的數據，讓1B參數的模型打出接近10B的效果。

這正是面壁智能一直在做的事。

面壁智能的“數據煉金術”

開源兩大L3數據集意味著什么？

在AI行業，談論“數據重要性”的公司很多，但真正把數據治理系統化、工程化、并且開源出來的，面壁智能是走在前面的那一個。

當大多數玩家還在比拼算力儲備時，面壁智能已經意識到：模型架構趨同的時代，數據質量才是真正的分水嶺。

為了解決數據的問題，面壁智能在今年2月，開源了一套叫做UltraData的數據分級治理體系。而本次發布并開源的兩個L3數據集——Ultra?FineWeb?L3和UltraData?SFT?2605，正是在這套體系基礎上產出的最新成果。

要理解這套體系為什么重要，得先理解一個被長期忽略的事實：不同訓練階段，對數據的需求是完全不同的。

預訓練階段，模型需要的是廣泛的知識覆蓋，這時候“量”很重要。但到了退火（即在預訓練后期使用高質量數據對模型進行精細化調整，通常發生在學習率衰減階段）和微調階段，模型需要的是高密度的邏輯、推理和能力強化——這時候，“質”遠比“量”重要。

傳統的“一刀切”數據處理方式，滿足不了這種差異化需求。

面壁智能的UltraData數據體系，正是為了解決這個問題而生。

核心理念：L0-L4，告別“大鍋飯”式數據處理

他們把數據分成了五個等級，每一級對應不同的處理標準和應用場景：

·L0（原始數據）：從互聯網扒下來的“原礦”，含大量雜質，不直接用于訓練

·L1（過濾數據）：經過基礎清洗、去重后的“粗礦”，格式規范但質量參差不齊

·L2（精篩數據）：通過模型打分篩選出的“精礦”，信息密度高、領域明確

·L3（合成增強數據）：經過改寫、合成、人工標注的“高純度燃料”——這是本次開源的核心

·L4（編排數據）：可直接用于RAG等應用的成品數據

數據分級治理體系示意圖

這套體系的核心理念其實很樸素——不是所有數據都配得上“訓練”二字，更不是所有數據都該在同一口鍋里亂燉。

但這套體系真正厲害的地方，除了分級本身，還有它背后的方法論。

面壁智能的L0-L4不是一套固定的“菜譜”，而是一套模型驅動的動態評估機制。什么意思？就是在模型訓練過程中，根據模型反饋實時調整數據的質量標準和配比策略。模型會“告訴”你，什么樣的數據對它更有價值。

這意味著，這套體系是活的、會進化的——它不是一個靜態的數據集，而是一套可持續優化的數據工程流水線。

而且，面壁智能已經用實驗證明了這套方法的有效性：模型性能隨著數據質量從L1向L3的逐級提升而持續增強。他們在英文網頁、中文網頁、數學、代碼四個領域上進行了系統性實驗，結果一致指向同一個結論——數據質量，是模型能力的決定性變量。

理論說完了，那這套方法論在實際中能產出什么樣的成果？面壁智能開源的兩個L3數據集，足以說明問題

開源行動：兩大L3數據集，把“秘方”公之于眾

這次，面壁智能開源的兩個高質量數據集，相當于給業界打了一個樣。

第一個數據集：Ultra?FineWeb?L3

這是全球最大開源規模的中文預訓練合成數據，總量達到600B Tokens——其中中文200B+，英文400B+。

600B Tokens是什么概念？相當于幾十萬本《紅樓夢》的體量。

但規模并不是它最值得關注的地方，真正有價值的是這個數據集的生成方式。

傳統的數據集構建，基本上是“爬蟲扒下來→簡單清洗→打包發布”的三部曲。這種方式得到的數據，仍有三個問題：信號單一（主要是陳述性敘述）、風格集中（缺少教材、百科等多樣格式）、知識稀釋（有價值的信息被冗余內容淹沒）。

這種L2級別的網頁數據，模型只能“讀懂”，但不一定“好學”。就像給一個學生一堆雜亂的參考資料，他翻完了，但未必能真正掌握其中的知識脈絡。

面壁智能的做法完全不同。

他們把L2級別的網頁數據，也就是已經經過基礎篩選、具備一定質量的網頁文本，通過QA生成、多風格改寫等技術手段，進一步加工成了L3級別的“高可學習性”數據。比如，通過QA生成把陳述性的網頁文檔，轉化成“原文+多組問答對”的結構化樣本；通過多風格改寫把同一來源的網頁內容，改寫成多種表達風格——百科風格、教材風格、博客風格、摘要風格——同時總結和重組核心知識點。

這個過程，本質上是在做一件事：把“可讀”的網頁，變成模型“好學”的教材。

同樣的文本內容，經過L3級別的重構，模型從中能學到的信息密度完全不是一個量級。實驗數據印證了這一點：在100B Token的訓練預算下，使用Ultra-FineWeb-L3的模型，訓練后期平均得分持續領先其他數據集。這也正是MiniCPM5-1B把它用在退火階段的原因。

第二個數據集：UltraData?SFT?2605

如果說預訓練是讓模型博覽群書，那SFT（監督微調）就是給它一本附帶詳細解題步驟的習題集。

面壁智能這次開源的SFT數據集，有幾個值得說道的地方：

·千萬級別：最終產出的數據集，樣本量超過1500萬，規模超大多數開源SFT數據集，并且覆蓋數學、代碼、知識、中文通用、指令遵循、多語言數學、多語言知識等七大核心領域。

·含推理鏈：不只是問題和答案，還包括完整的“思考過程”。

·深思考/非思考全覆蓋：這個數據集既有需要多步推理的復雜問題，也有快速應答的簡單樣本。這相當于同時訓練模型的“深度思考”能力和“快速反應”能力。

這正是MiniCPM5-1B能夠以1B參數逼近大模型推理能力的核心秘密——訓練它的“習題集”質量足夠高、思路足夠清晰、覆蓋足夠全面。

面壁智能這次開源，還有一個值得特別強調的特點——全流程透明化。他們不僅公開了最終的數據集，還公開了從query篩選、answer質量校驗，到單一數據驗證的完整治理流程。

而且，這些數據與主流評測集做了嚴格去重——這意味著，任何使用這些數據訓練的模型，其評測成績都不會因為“數據污染”而虛高。

行業內關于“數據污染”、“評測刷榜”的爭議從來就沒停過，面壁智能的做法，這在行業內卷評測刷榜的當下，是一種難得的誠實和自信。

好了，數據集開源了，治理方法也公開了。那這套東西到底能給行業帶來什么價值？

下一個十年的勝負手

誰更懂數據，誰就能贏得市場

開源模型權重在業界其實比較普遍了，但開源訓練數據則并不多見。

這是一種更高維度的開放，而這種開放也將在行業當中泛起“漣漪”，它的影響，既包括端側設備這種應用層，也包括整個AI開源生態的格局。

對端側智能的“加速效應”

L3級數據的最大受益者，是端側設備。

高質量、高密度的訓練數據，可以直接轉化為更低的算力需求和內存占用。

端側廠商——無論是做手機的、做PC的、還是做汽車的——如果想要復現MiniCPM5-1B級別的能力，現在可以直接使用UltraData。他們不需要重復投入巨額成本做網頁合成、數據清洗和SFT數據構建。

這相當于面壁智能替整個行業踩了一遍坑，然后把“通關攻略”免費發給了所有人。

高質量數據意味著更少的訓練token即可達到同樣效果，這對手機、PC、汽車這些算力受限的場景來說，意義重大，比如：

·手機本地就能處理百頁文檔、進行深度推理，無需聯網上傳

·PC端的代碼補全和數據分析能力，可能達到接近云端大模型的水平

·車載助手真正能理解復雜的語音指令，而不是只會做關鍵詞匹配

可以說，UltraData這類數據集的開放，可能是端側智能從“能用”到“好用”的關鍵催化劑。

開源生態的“第二層”革命

過去兩年，開源社區的主戰場在“模型權重”。深度求索開源DeepSeek、Meta開源Llama，阿里開源Qwen——這些無疑推動了整個行業的民主化。

但面壁智能這次的開源，指向了另一個維度——數據層。

如果說開源模型是給社區“魚”，那開源數據則是教社區“如何養魚、如何釣魚”。當一個高性能模型背后的訓練數據被公開，整個社區的研究和復現能力將可能得到顯著提升。

這可能會引領一種新的協作模式：不只是共享模型，更共享“制造模型的方法論”。

當你把一個高性能模型背后“數據是如何被治理、篩選、合成與驗證的”全過程公開，社區就不再只是被動地使用模型，而是可以真正參與到“如何制造智能”的討論和優化中來——這相當于公開了“可口可樂的配方”。

寫在最后

每一次技術的重大更迭，本質上都是一場關于“稀缺資源”的重新定義。

算力時代，贏家是買得起最多GPU的人。但算力可以堆，芯片可以造，供應鏈可以重建——它是商品，不是壁壘。

但數據不同。

高質量、可訓練、有邏輯的數據，是人類過去幾十年在互聯網上留下的有限痕跡，它是不可再生的。而AI用短短三四年，就把其中最精華的部分“榨”干了。

當表層富礦耗盡，剩下的只有深埋地下的貧礦。誰能在貧礦中提煉出更高的純度，誰就能定義下一個時代。

面壁智能的UltraData體系，就是一套“精煉工藝”。L0到L4，從礦石到高純度燃料——他們把數據當作需要深度加工的原材料，而不是可以直接扔進爐子的柴火。

更耐人尋味的是，他們把這套工藝開源了。

歷史上，每一次關鍵技術的開源，都是一次權力的轉移。Linux開源，微軟的壟斷被撬開；安卓開源，移動互聯網的入口不再屬于任何一家公司。

當一家公司選擇開源自己的“數據秘方”，它在做的是同一件事：重新定義行業的起跑線。

而面壁智能之所以能做這件事，不是偶然。

脫胎于清華NLP實驗室的這支團隊，親歷了中國大模型從無到有的全過程。早在2020年12月，其團隊就發布了國內首個中文大模型CPM-1，并成為后來中國奠基性大模型“悟道”系列的首發主力陣容。

面壁智能，與DeepSeek并稱“國內最會做架構改進的兩家公司”。但跟DeepSeek不同，面壁智能的戰場在端側：在功耗、散熱、訪存帶寬的嚴苛約束下追求極致效率。從自研訓練框架到量化技術，從端側推理引擎到開源數據，面壁智能可能是國內少數具備端側AI全棧能力的公司。其提出的密度定律登上了《 Nature 》子刊封面，端側多模態成果登上了《 Nature 》子刊，成為國內大模型公司獲得的頂級學術認可。而端側智能，對數據質量有著更高的要求。

當高質量數據成為稀缺資源，數據治理能力則將成為另一個競爭壁壘。

誰能從有限的數據中榨取出更高的訓練價值？誰能建立更高效的數據分級和合成流水線？誰能用更低成本讓模型變得更聰明？

這些問題，將定義下一代AI公司的勝負。

數據科學，正在從AI產業的“輔助角色”走向“舞臺中央”。那些愿意把“秘方”公之于眾、帶著整個行業一起向前的人，可能正站在下一個時代的起點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.