![]()
“給AI一本好書,勝過十本爛書。
2026年,一個令人不安的陰影籠罩著AI圈。
過去幾個月,從硅谷到中關村,關于“Scaling Law是否已死”的討論越來越多。曾經屢試不爽的“更大即更強”邏輯,似乎正在遭遇前所未有的挑戰。人們開始質疑,大模型的“暴力美學”,是不是已經撞上了天花板?
與此同時,另一條暗線卻在悄然生長:谷歌的Gemini Nano、蘋果的設備端模型、以及國內面壁智能的MiniCPM系列——這些參數量只有1B到3B的“小參數模型”,正在以令人驚訝的表現,攪動著整個市場。
為什么連大模型都跑不動了,小參數模型反而在逆襲?
答案或許不在模型大小,而在一個被長期忽視的底層要素——數據。
就在這個節骨眼上,面壁智能做了一件讓行業側目的事:把自己的核心訓練數據,開源了。
它可能是中國AI公司對“數據如何制造智能”這件事,最徹底的一次公開。
大模型正在被什么“卡脖子”?
要說清楚這次開源的意義,得先搞明白一個底層問題:大模型到底被什么卡住了?
過去兩年,行業的共識是“算力決定一切”。誰買的GPU多,誰就能訓出更強的模型。但現在,這個邏輯正在松動。
算力擴張的邊際效益遞減
一個殘酷的事實正在浮出水面:參數翻倍,性能的提升幅度正在急劇收窄。
GPT-3到GPT-4的提升是驚人的,但從GPT-4到GPT-5,進步似乎不再那么“性感”了。這不是OpenAI一家的問題,而是整個大模型行業的“暴力美學”正在逼近它的物理和經濟天花板。
你往爐子里加再多的柴,火焰也不會無限變高。這個道理,在大模型身上同樣適用。
高質量數據加速枯竭
比算力更讓人焦慮的,是數據。
研究機構預測:公開可用的高質量文本數據將在未來幾年內基本耗盡。這不是危言聳聽——互聯網看似無窮無盡,但真正干凈、準確、有邏輯、可訓練的內容,遠沒有想象中那么多。
更糟糕的是,“垃圾進,垃圾出”,是大模型訓練的殘酷法則。喂給模型低質量的網絡雜燴,它就會產出幻覺、偏見和毫無邏輯的胡言亂語。
在這個行業里,“量”不等于“質”,已經被越來越多的實踐所驗證。
端側落地對“模型+高質量數據”提出苛刻要求。
還有一個被很多人忽略的現實,大模型根本跑不到終端設備上。
手機、PC、汽車——這些才是AI商業化的真正主戰場。但它們的算力和功耗,注定了無法部署千億、萬億參數的大模型。
于是出現了一個悖論:用戶想要的是“足夠聰明”的智能體驗,但終端能承載的只有小參數模型。怎么辦?
答案只有一個:給這些小參數模型喂“精糧”。用最高質量的數據,讓1B參數的模型打出接近10B的效果。
這正是面壁智能一直在做的事。
面壁智能的“數據煉金術”
開源兩大L3數據集意味著什么?
在AI行業,談論“數據重要性”的公司很多,但真正把數據治理系統化、工程化、并且開源出來的,面壁智能是走在前面的那一個。
當大多數玩家還在比拼算力儲備時,面壁智能已經意識到:模型架構趨同的時代,數據質量才是真正的分水嶺。
為了解決數據的問題,面壁智能在今年2月,開源了一套叫做UltraData的數據分級治理體系。而本次發布并開源的兩個L3數據集——Ultra?FineWeb?L3和UltraData?SFT?2605,正是在這套體系基礎上產出的最新成果。
要理解這套體系為什么重要,得先理解一個被長期忽略的事實:不同訓練階段,對數據的需求是完全不同的。
預訓練階段,模型需要的是廣泛的知識覆蓋,這時候“量”很重要。但到了退火(即在預訓練后期使用高質量數據對模型進行精細化調整,通常發生在學習率衰減階段)和微調階段,模型需要的是高密度的邏輯、推理和能力強化——這時候,“質”遠比“量”重要。
傳統的“一刀切”數據處理方式,滿足不了這種差異化需求。
面壁智能的UltraData數據體系,正是為了解決這個問題而生。
核心理念:L0-L4,告別“大鍋飯”式數據處理
他們把數據分成了五個等級,每一級對應不同的處理標準和應用場景:
·L0(原始數據):從互聯網扒下來的“原礦”,含大量雜質,不直接用于訓練
·L1(過濾數據):經過基礎清洗、去重后的“粗礦”,格式規范但質量參差不齊
·L2(精篩數據):通過模型打分篩選出的“精礦”,信息密度高、領域明確
·L3(合成增強數據):經過改寫、合成、人工標注的“高純度燃料”——這是本次開源的核心
·L4(編排數據):可直接用于RAG等應用的成品數據
![]()
數據分級治理體系示意圖
這套體系的核心理念其實很樸素——不是所有數據都配得上“訓練”二字,更不是所有數據都該在同一口鍋里亂燉。
但這套體系真正厲害的地方,除了分級本身,還有它背后的方法論。
面壁智能的L0-L4不是一套固定的“菜譜”,而是一套模型驅動的動態評估機制。什么意思?就是在模型訓練過程中,根據模型反饋實時調整數據的質量標準和配比策略。模型會“告訴”你,什么樣的數據對它更有價值。
這意味著,這套體系是活的、會進化的——它不是一個靜態的數據集,而是一套可持續優化的數據工程流水線。
而且,面壁智能已經用實驗證明了這套方法的有效性:模型性能隨著數據質量從L1向L3的逐級提升而持續增強。他們在英文網頁、中文網頁、數學、代碼四個領域上進行了系統性實驗,結果一致指向同一個結論——數據質量,是模型能力的決定性變量。
理論說完了,那這套方法論在實際中能產出什么樣的成果?面壁智能開源的兩個L3數據集,足以說明問題
開源行動:兩大L3數據集,把“秘方”公之于眾
這次,面壁智能開源的兩個高質量數據集,相當于給業界打了一個樣。
第一個數據集:Ultra?FineWeb?L3
這是全球最大開源規模的中文預訓練合成數據,總量達到600B Tokens——其中中文200B+,英文400B+。
600B Tokens是什么概念?相當于幾十萬本《紅樓夢》的體量。
但規模并不是它最值得關注的地方,真正有價值的是這個數據集的生成方式。
傳統的數據集構建,基本上是“爬蟲扒下來→簡單清洗→打包發布”的三部曲。這種方式得到的數據,仍有三個問題:信號單一(主要是陳述性敘述)、風格集中(缺少教材、百科等多樣格式)、知識稀釋(有價值的信息被冗余內容淹沒)。
這種L2級別的網頁數據,模型只能“讀懂”,但不一定“好學”。就像給一個學生一堆雜亂的參考資料,他翻完了,但未必能真正掌握其中的知識脈絡。
面壁智能的做法完全不同。
他們把L2級別的網頁數據,也就是已經經過基礎篩選、具備一定質量的網頁文本,通過QA生成、多風格改寫等技術手段,進一步加工成了L3級別的“高可學習性”數據。比如,通過QA生成把陳述性的網頁文檔,轉化成“原文+多組問答對”的結構化樣本;通過多風格改寫把同一來源的網頁內容,改寫成多種表達風格——百科風格、教材風格、博客風格、摘要風格——同時總結和重組核心知識點。
這個過程,本質上是在做一件事:把“可讀”的網頁,變成模型“好學”的教材。
同樣的文本內容,經過L3級別的重構,模型從中能學到的信息密度完全不是一個量級。實驗數據印證了這一點:在100B Token的訓練預算下,使用Ultra-FineWeb-L3的模型,訓練后期平均得分持續領先其他數據集。這也正是MiniCPM5-1B把它用在退火階段的原因。
![]()
第二個數據集:UltraData?SFT?2605
如果說預訓練是讓模型博覽群書,那SFT(監督微調)就是給它一本附帶詳細解題步驟的習題集。
面壁智能這次開源的SFT數據集,有幾個值得說道的地方:
·千萬級別:最終產出的數據集,樣本量超過1500萬,規模超大多數開源SFT數據集,并且覆蓋數學、代碼、知識、中文通用、指令遵循、多語言數學、多語言知識等七大核心領域。
·含推理鏈:不只是問題和答案,還包括完整的“思考過程”。
·深思考/非思考全覆蓋:這個數據集既有需要多步推理的復雜問題,也有快速應答的簡單樣本。這相當于同時訓練模型的“深度思考”能力和“快速反應”能力。
這正是MiniCPM5-1B能夠以1B參數逼近大模型推理能力的核心秘密——訓練它的“習題集”質量足夠高、思路足夠清晰、覆蓋足夠全面。
面壁智能這次開源,還有一個值得特別強調的特點——全流程透明化。他們不僅公開了最終的數據集,還公開了從query篩選、answer質量校驗,到單一數據驗證的完整治理流程。
而且,這些數據與主流評測集做了嚴格去重——這意味著,任何使用這些數據訓練的模型,其評測成績都不會因為“數據污染”而虛高。
行業內關于“數據污染”、“評測刷榜”的爭議從來就沒停過,面壁智能的做法,這在行業內卷評測刷榜的當下,是一種難得的誠實和自信。
好了,數據集開源了,治理方法也公開了。那這套東西到底能給行業帶來什么價值?
![]()
下一個十年的勝負手
誰更懂數據,誰就能贏得市場
開源模型權重在業界其實比較普遍了,但開源訓練數據則并不多見。
這是一種更高維度的開放,而這種開放也將在行業當中泛起“漣漪”,它的影響,既包括端側設備這種應用層,也包括整個AI開源生態的格局。
對端側智能的“加速效應”
L3級數據的最大受益者,是端側設備。
高質量、高密度的訓練數據,可以直接轉化為更低的算力需求和內存占用。
端側廠商——無論是做手機的、做PC的、還是做汽車的——如果想要復現MiniCPM5-1B級別的能力,現在可以直接使用UltraData。他們不需要重復投入巨額成本做網頁合成、數據清洗和SFT數據構建。
這相當于面壁智能替整個行業踩了一遍坑,然后把“通關攻略”免費發給了所有人。
高質量數據意味著更少的訓練token即可達到同樣效果,這對手機、PC、汽車這些算力受限的場景來說,意義重大,比如:
·手機本地就能處理百頁文檔、進行深度推理,無需聯網上傳
·PC端的代碼補全和數據分析能力,可能達到接近云端大模型的水平
·車載助手真正能理解復雜的語音指令,而不是只會做關鍵詞匹配
可以說,UltraData這類數據集的開放,可能是端側智能從“能用”到“好用”的關鍵催化劑。
![]()
開源生態的“第二層”革命
過去兩年,開源社區的主戰場在“模型權重”。深度求索開源DeepSeek、Meta開源Llama,阿里開源Qwen——這些無疑推動了整個行業的民主化。
但面壁智能這次的開源,指向了另一個維度——數據層。
如果說開源模型是給社區“魚”,那開源數據則是教社區“如何養魚、如何釣魚”。當一個高性能模型背后的訓練數據被公開,整個社區的研究和復現能力將可能得到顯著提升。
這可能會引領一種新的協作模式:不只是共享模型,更共享“制造模型的方法論”。
當你把一個高性能模型背后“數據是如何被治理、篩選、合成與驗證的”全過程公開,社區就不再只是被動地使用模型,而是可以真正參與到“如何制造智能”的討論和優化中來——這相當于公開了“可口可樂的配方”。
寫在最后
每一次技術的重大更迭,本質上都是一場關于“稀缺資源”的重新定義。
算力時代,贏家是買得起最多GPU的人。但算力可以堆,芯片可以造,供應鏈可以重建——它是商品,不是壁壘。
但數據不同。
高質量、可訓練、有邏輯的數據,是人類過去幾十年在互聯網上留下的有限痕跡,它是不可再生的。而AI用短短三四年,就把其中最精華的部分“榨”干了。
當表層富礦耗盡,剩下的只有深埋地下的貧礦。誰能在貧礦中提煉出更高的純度,誰就能定義下一個時代。
面壁智能的UltraData體系,就是一套“精煉工藝”。L0到L4,從礦石到高純度燃料——他們把數據當作需要深度加工的原材料,而不是可以直接扔進爐子的柴火。
更耐人尋味的是,他們把這套工藝開源了。
歷史上,每一次關鍵技術的開源,都是一次權力的轉移。Linux開源,微軟的壟斷被撬開;安卓開源,移動互聯網的入口不再屬于任何一家公司。
當一家公司選擇開源自己的“數據秘方”,它在做的是同一件事:重新定義行業的起跑線。
而面壁智能之所以能做這件事,不是偶然。
脫胎于清華NLP實驗室的這支團隊,親歷了中國大模型從無到有的全過程。早在2020年12月,其團隊就發布了國內首個中文大模型CPM-1,并成為后來中國奠基性大模型“悟道”系列的首發主力陣容。
面壁智能,與DeepSeek并稱“國內最會做架構改進的兩家公司”。但跟DeepSeek不同,面壁智能的戰場在端側:在功耗、散熱、訪存帶寬的嚴苛約束下追求極致效率。從自研訓練框架到量化技術,從端側推理引擎到開源數據,面壁智能可能是國內少數具備端側AI全棧能力的公司。其提出的密度定律登上了《 Nature 》子刊封面,端側多模態成果登上了《 Nature 》子刊,成為國內大模型公司獲得的頂級學術認可。而端側智能,對數據質量有著更高的要求。
當高質量數據成為稀缺資源,數據治理能力則將成為另一個競爭壁壘。
誰能從有限的數據中榨取出更高的訓練價值?誰能建立更高效的數據分級和合成流水線?誰能用更低成本讓模型變得更聰明?
這些問題,將定義下一代AI公司的勝負。
數據科學,正在從AI產業的“輔助角色”走向“舞臺中央”。那些愿意把“秘方”公之于眾、帶著整個行業一起向前的人,可能正站在下一個時代的起點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.