无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

算力是偽命題,數據才是真瓶頸?

0
分享至



“給AI一本好書,勝過十本爛書。

2026年,一個令人不安的陰影籠罩著AI圈。

過去幾個月,從硅谷到中關村,關于“Scaling Law是否已死”的討論越來越多。曾經屢試不爽的“更大即更強”邏輯,似乎正在遭遇前所未有的挑戰。人們開始質疑,大模型的“暴力美學”,是不是已經撞上了天花板?

與此同時,另一條暗線卻在悄然生長:谷歌的Gemini Nano、蘋果的設備端模型、以及國內面壁智能的MiniCPM系列——這些參數量只有1B到3B的“小參數模型”,正在以令人驚訝的表現,攪動著整個市場。

為什么連大模型都跑不動了,小參數模型反而在逆襲?

答案或許不在模型大小,而在一個被長期忽視的底層要素——數據。

就在這個節骨眼上,面壁智能做了一件讓行業側目的事:把自己的核心訓練數據,開源了。

它可能是中國AI公司對“數據如何制造智能”這件事,最徹底的一次公開。

大模型正在被什么“卡脖子”?

要說清楚這次開源的意義,得先搞明白一個底層問題:大模型到底被什么卡住了?

過去兩年,行業的共識是“算力決定一切”。誰買的GPU多,誰就能訓出更強的模型。但現在,這個邏輯正在松動。

算力擴張的邊際效益遞減

一個殘酷的事實正在浮出水面:參數翻倍,性能的提升幅度正在急劇收窄。

GPT-3到GPT-4的提升是驚人的,但從GPT-4到GPT-5,進步似乎不再那么“性感”了。這不是OpenAI一家的問題,而是整個大模型行業的“暴力美學”正在逼近它的物理和經濟天花板。

你往爐子里加再多的柴,火焰也不會無限變高。這個道理,在大模型身上同樣適用。

高質量數據加速枯竭

比算力更讓人焦慮的,是數據。

研究機構預測:公開可用的高質量文本數據將在未來幾年內基本耗盡。這不是危言聳聽——互聯網看似無窮無盡,但真正干凈、準確、有邏輯、可訓練的內容,遠沒有想象中那么多。

更糟糕的是,“垃圾進,垃圾出”,是大模型訓練的殘酷法則。喂給模型低質量的網絡雜燴,它就會產出幻覺、偏見和毫無邏輯的胡言亂語。

在這個行業里,“量”不等于“質”,已經被越來越多的實踐所驗證。

端側落地對“模型+高質量數據”提出苛刻要求。

還有一個被很多人忽略的現實,大模型根本跑不到終端設備上。

手機、PC、汽車——這些才是AI商業化的真正主戰場。但它們的算力和功耗,注定了無法部署千億、萬億參數的大模型。

于是出現了一個悖論:用戶想要的是“足夠聰明”的智能體驗,但終端能承載的只有小參數模型。怎么辦?

答案只有一個:給這些小參數模型喂“精糧”。用最高質量的數據,讓1B參數的模型打出接近10B的效果。

這正是面壁智能一直在做的事。

面壁智能的“數據煉金術”
開源兩大L3數據集意味著什么?

在AI行業,談論“數據重要性”的公司很多,但真正把數據治理系統化、工程化、并且開源出來的,面壁智能是走在前面的那一個。

當大多數玩家還在比拼算力儲備時,面壁智能已經意識到:模型架構趨同的時代,數據質量才是真正的分水嶺。

為了解決數據的問題,面壁智能在今年2月,開源了一套叫做UltraData的數據分級治理體系。而本次發布并開源的兩個L3數據集——Ultra?FineWeb?L3和UltraData?SFT?2605,正是在這套體系基礎上產出的最新成果。

要理解這套體系為什么重要,得先理解一個被長期忽略的事實:不同訓練階段,對數據的需求是完全不同的。

預訓練階段,模型需要的是廣泛的知識覆蓋,這時候“量”很重要。但到了退火(即在預訓練后期使用高質量數據對模型進行精細化調整,通常發生在學習率衰減階段)和微調階段,模型需要的是高密度的邏輯、推理和能力強化——這時候,“質”遠比“量”重要。

傳統的“一刀切”數據處理方式,滿足不了這種差異化需求。

面壁智能的UltraData數據體系,正是為了解決這個問題而生。

核心理念:L0-L4,告別“大鍋飯”式數據處理

他們把數據分成了五個等級,每一級對應不同的處理標準和應用場景:

·L0(原始數據):從互聯網扒下來的“原礦”,含大量雜質,不直接用于訓練

·L1(過濾數據):經過基礎清洗、去重后的“粗礦”,格式規范但質量參差不齊

·L2(精篩數據):通過模型打分篩選出的“精礦”,信息密度高、領域明確

·L3(合成增強數據):經過改寫、合成、人工標注的“高純度燃料”——這是本次開源的核心

·L4(編排數據):可直接用于RAG等應用的成品數據



數據分級治理體系示意圖

這套體系的核心理念其實很樸素——不是所有數據都配得上“訓練”二字,更不是所有數據都該在同一口鍋里亂燉。

但這套體系真正厲害的地方,除了分級本身,還有它背后的方法論。

面壁智能的L0-L4不是一套固定的“菜譜”,而是一套模型驅動的動態評估機制。什么意思?就是在模型訓練過程中,根據模型反饋實時調整數據的質量標準和配比策略。模型會“告訴”你,什么樣的數據對它更有價值。

這意味著,這套體系是活的、會進化的——它不是一個靜態的數據集,而是一套可持續優化的數據工程流水線。

而且,面壁智能已經用實驗證明了這套方法的有效性:模型性能隨著數據質量從L1向L3的逐級提升而持續增強。他們在英文網頁、中文網頁、數學、代碼四個領域上進行了系統性實驗,結果一致指向同一個結論——數據質量,是模型能力的決定性變量。

理論說完了,那這套方法論在實際中能產出什么樣的成果?面壁智能開源的兩個L3數據集,足以說明問題

開源行動:兩大L3數據集,把“秘方”公之于眾

這次,面壁智能開源的兩個高質量數據集,相當于給業界打了一個樣。

第一個數據集:Ultra?FineWeb?L3

這是全球最大開源規模的中文預訓練合成數據,總量達到600B Tokens——其中中文200B+,英文400B+。

600B Tokens是什么概念?相當于幾十萬本《紅樓夢》的體量。

但規模并不是它最值得關注的地方,真正有價值的是這個數據集的生成方式。

傳統的數據集構建,基本上是“爬蟲扒下來→簡單清洗→打包發布”的三部曲。這種方式得到的數據,仍有三個問題:信號單一(主要是陳述性敘述)、風格集中(缺少教材、百科等多樣格式)、知識稀釋(有價值的信息被冗余內容淹沒)。

這種L2級別的網頁數據,模型只能“讀懂”,但不一定“好學”。就像給一個學生一堆雜亂的參考資料,他翻完了,但未必能真正掌握其中的知識脈絡。

面壁智能的做法完全不同。

他們把L2級別的網頁數據,也就是已經經過基礎篩選、具備一定質量的網頁文本,通過QA生成、多風格改寫等技術手段,進一步加工成了L3級別的“高可學習性”數據。比如,通過QA生成把陳述性的網頁文檔,轉化成“原文+多組問答對”的結構化樣本;通過多風格改寫把同一來源的網頁內容,改寫成多種表達風格——百科風格、教材風格、博客風格、摘要風格——同時總結和重組核心知識點。

這個過程,本質上是在做一件事:把“可讀”的網頁,變成模型“好學”的教材。

同樣的文本內容,經過L3級別的重構,模型從中能學到的信息密度完全不是一個量級。實驗數據印證了這一點:在100B Token的訓練預算下,使用Ultra-FineWeb-L3的模型,訓練后期平均得分持續領先其他數據集。這也正是MiniCPM5-1B把它用在退火階段的原因。



第二個數據集:UltraData?SFT?2605

如果說預訓練是讓模型博覽群書,那SFT(監督微調)就是給它一本附帶詳細解題步驟的習題集。

面壁智能這次開源的SFT數據集,有幾個值得說道的地方:

·千萬級別:最終產出的數據集,樣本量超過1500萬,規模超大多數開源SFT數據集,并且覆蓋數學、代碼、知識、中文通用、指令遵循、多語言數學、多語言知識等七大核心領域。

·含推理鏈:不只是問題和答案,還包括完整的“思考過程”。

·深思考/非思考全覆蓋:這個數據集既有需要多步推理的復雜問題,也有快速應答的簡單樣本。這相當于同時訓練模型的“深度思考”能力和“快速反應”能力。

這正是MiniCPM5-1B能夠以1B參數逼近大模型推理能力的核心秘密——訓練它的“習題集”質量足夠高、思路足夠清晰、覆蓋足夠全面。

面壁智能這次開源,還有一個值得特別強調的特點——全流程透明化。他們不僅公開了最終的數據集,還公開了從query篩選、answer質量校驗,到單一數據驗證的完整治理流程。

而且,這些數據與主流評測集做了嚴格去重——這意味著,任何使用這些數據訓練的模型,其評測成績都不會因為“數據污染”而虛高。

行業內關于“數據污染”、“評測刷榜”的爭議從來就沒停過,面壁智能的做法,這在行業內卷評測刷榜的當下,是一種難得的誠實和自信。

好了,數據集開源了,治理方法也公開了。那這套東西到底能給行業帶來什么價值?



下一個十年的勝負手
誰更懂數據,誰就能贏得市場

開源模型權重在業界其實比較普遍了,但開源訓練數據則并不多見。

這是一種更高維度的開放,而這種開放也將在行業當中泛起“漣漪”,它的影響,既包括端側設備這種應用層,也包括整個AI開源生態的格局。

對端側智能的“加速效應”

L3級數據的最大受益者,是端側設備。

高質量、高密度的訓練數據,可以直接轉化為更低的算力需求和內存占用。

端側廠商——無論是做手機的、做PC的、還是做汽車的——如果想要復現MiniCPM5-1B級別的能力,現在可以直接使用UltraData。他們不需要重復投入巨額成本做網頁合成、數據清洗和SFT數據構建。

這相當于面壁智能替整個行業踩了一遍坑,然后把“通關攻略”免費發給了所有人。

高質量數據意味著更少的訓練token即可達到同樣效果,這對手機、PC、汽車這些算力受限的場景來說,意義重大,比如:

·手機本地就能處理百頁文檔、進行深度推理,無需聯網上傳

·PC端的代碼補全和數據分析能力,可能達到接近云端大模型的水平

·車載助手真正能理解復雜的語音指令,而不是只會做關鍵詞匹配

可以說,UltraData這類數據集的開放,可能是端側智能從“能用”到“好用”的關鍵催化劑。



開源生態的“第二層”革命

過去兩年,開源社區的主戰場在“模型權重”。深度求索開源DeepSeek、Meta開源Llama,阿里開源Qwen——這些無疑推動了整個行業的民主化。

但面壁智能這次的開源,指向了另一個維度——數據層。

如果說開源模型是給社區“魚”,那開源數據則是教社區“如何養魚、如何釣魚”。當一個高性能模型背后的訓練數據被公開,整個社區的研究和復現能力將可能得到顯著提升。

這可能會引領一種新的協作模式:不只是共享模型,更共享“制造模型的方法論”。

當你把一個高性能模型背后“數據是如何被治理、篩選、合成與驗證的”全過程公開,社區就不再只是被動地使用模型,而是可以真正參與到“如何制造智能”的討論和優化中來——這相當于公開了“可口可樂的配方”。

寫在最后

每一次技術的重大更迭,本質上都是一場關于“稀缺資源”的重新定義。

算力時代,贏家是買得起最多GPU的人。但算力可以堆,芯片可以造,供應鏈可以重建——它是商品,不是壁壘。

但數據不同。

高質量、可訓練、有邏輯的數據,是人類過去幾十年在互聯網上留下的有限痕跡,它是不可再生的。而AI用短短三四年,就把其中最精華的部分“榨”干了。

當表層富礦耗盡,剩下的只有深埋地下的貧礦。誰能在貧礦中提煉出更高的純度,誰就能定義下一個時代。

面壁智能的UltraData體系,就是一套“精煉工藝”。L0到L4,從礦石到高純度燃料——他們把數據當作需要深度加工的原材料,而不是可以直接扔進爐子的柴火。

更耐人尋味的是,他們把這套工藝開源了。

歷史上,每一次關鍵技術的開源,都是一次權力的轉移。Linux開源,微軟的壟斷被撬開;安卓開源,移動互聯網的入口不再屬于任何一家公司。

當一家公司選擇開源自己的“數據秘方”,它在做的是同一件事:重新定義行業的起跑線。

而面壁智能之所以能做這件事,不是偶然。

脫胎于清華NLP實驗室的這支團隊,親歷了中國大模型從無到有的全過程。早在2020年12月,其團隊就發布了國內首個中文大模型CPM-1,并成為后來中國奠基性大模型“悟道”系列的首發主力陣容。

面壁智能,與DeepSeek并稱“國內最會做架構改進的兩家公司”。但跟DeepSeek不同,面壁智能的戰場在端側:在功耗、散熱、訪存帶寬的嚴苛約束下追求極致效率。從自研訓練框架到量化技術,從端側推理引擎到開源數據,面壁智能可能是國內少數具備端側AI全棧能力的公司。其提出的密度定律登上了《 Nature 》子刊封面,端側多模態成果登上了《 Nature 》子刊,成為國內大模型公司獲得的頂級學術認可。而端側智能,對數據質量有著更高的要求。

當高質量數據成為稀缺資源,數據治理能力則將成為另一個競爭壁壘。

誰能從有限的數據中榨取出更高的訓練價值?誰能建立更高效的數據分級和合成流水線?誰能用更低成本讓模型變得更聰明?

這些問題,將定義下一代AI公司的勝負。

數據科學,正在從AI產業的“輔助角色”走向“舞臺中央”。那些愿意把“秘方”公之于眾、帶著整個行業一起向前的人,可能正站在下一個時代的起點。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯開幕式遭吐槽:大半夜嚇一跳 吉祥物畫風有點猛 瘦得像剛戒掉碳水

世界杯開幕式遭吐槽:大半夜嚇一跳 吉祥物畫風有點猛 瘦得像剛戒掉碳水

快科技
2026-06-12 11:29:15
學醫后才知道,糖尿病最危險信號,不是頭暈,而是頻繁出現5癥狀

學醫后才知道,糖尿病最危險信號,不是頭暈,而是頻繁出現5癥狀

健身狂人
2026-06-12 20:44:34
臨時停車買水不到4分鐘被罰200,大哥紅著眼:這是我媽兩天藥錢啊

臨時停車買水不到4分鐘被罰200,大哥紅著眼:這是我媽兩天藥錢啊

今朝牛馬
2026-06-12 17:45:54
連續43小時沒合眼,上海30歲骨干教師溺亡前細節曝光

連續43小時沒合眼,上海30歲骨干教師溺亡前細節曝光

大廠編外實習生
2026-06-12 19:37:31
i7黑絲:不好意思穿出門,那就自在獨享

i7黑絲:不好意思穿出門,那就自在獨享

自愈小日子
2026-06-12 01:38:11
鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

果媽聊娛樂
2026-06-07 09:51:32
上海一家人分拆遷房,把孫輩、祖輩名字全寫在房產證上,如今全成了坑……

上海一家人分拆遷房,把孫輩、祖輩名字全寫在房產證上,如今全成了坑……

環球網資訊
2026-06-11 10:13:13
“中國好人”花2500萬買到銀行抵押房,幫賣家還錢解押次日又遭抵押貸款;當事人懷疑銀行與賣家串通合謀

“中國好人”花2500萬買到銀行抵押房,幫賣家還錢解押次日又遭抵押貸款;當事人懷疑銀行與賣家串通合謀

大風新聞
2026-06-12 17:37:15
大衣哥回應每月給兒子2萬,稱兒子沒上班,在家做飯看孩子種地

大衣哥回應每月給兒子2萬,稱兒子沒上班,在家做飯看孩子種地

洲洲影視娛評
2026-06-12 20:19:44
專家:金價重回歷史高點仍具可能性

專家:金價重回歷史高點仍具可能性

21世紀經濟報道
2026-06-12 09:31:31
上海金橋有輛車直接“飛”到了雕塑頂上 官方:不是意外!是當地鎮標“飛車”雕塑

上海金橋有輛車直接“飛”到了雕塑頂上 官方:不是意外!是當地鎮標“飛車”雕塑

閃電新聞
2026-06-12 21:52:57
尊重前輩,金玟哉賽后第一時間把韓國隊長袖標交還給孫興慜

尊重前輩,金玟哉賽后第一時間把韓國隊長袖標交還給孫興慜

懂球帝
2026-06-12 18:13:32
9歲男孩吃了夜市提拉米蘇,全麻開腹手術進了ICU:你的那口隨便的甜,可能要了孩子的命!

9歲男孩吃了夜市提拉米蘇,全麻開腹手術進了ICU:你的那口隨便的甜,可能要了孩子的命!

消化石醫生
2026-06-09 20:08:20
外媒終于發現不對勁:平壤街頭大變樣,朝鮮靠著中國偷偷干件大事

外媒終于發現不對勁:平壤街頭大變樣,朝鮮靠著中國偷偷干件大事

舊窗老街
2026-06-13 03:11:21
每天一杯“抗炎果汁”,連喝28天!美研究:體內炎癥指標明顯下降

每天一杯“抗炎果汁”,連喝28天!美研究:體內炎癥指標明顯下降

愛醫斯坦
2026-06-10 12:20:08
養路費改革:油價降0.8元/升,新能源車0.12元/公里,誰受益?

養路費改革:油價降0.8元/升,新能源車0.12元/公里,誰受益?

娛樂圈的筆娛君
2026-06-12 08:51:16
內塔尼亞胡:以色列已準備好拋棄美國獨自攻擊伊朗

內塔尼亞胡:以色列已準備好拋棄美國獨自攻擊伊朗

一種觀點
2026-06-10 15:53:34
緊急叫停?謝娜巡演被大量舉報,官方最新回應來了

緊急叫停?謝娜巡演被大量舉報,官方最新回應來了

胡一舸南游y
2026-06-12 20:06:01
巴薩同意出售隊內核心球星給曼聯,原本推進中的紐卡交易或將告吹

巴薩同意出售隊內核心球星給曼聯,原本推進中的紐卡交易或將告吹

劉哥談體育
2026-06-12 19:12:23
曝迪麗熱巴陳飛宇熱戀一年半,男的愛到瘋魔卻摳搜,買二手送熱巴

曝迪麗熱巴陳飛宇熱戀一年半,男的愛到瘋魔卻摳搜,買二手送熱巴

陳意小可愛
2026-06-12 00:43:25
2026-06-13 04:00:49
數據猿DataYuan incentive-icons
數據猿DataYuan
數據智能產業創新服務媒體
2778文章數 611關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

教育
時尚
健康
藝術
房產

教育要聞

家長成了“瘋女人”,被女兒作業搞崩潰,網友:太真實

夏天別總穿一身白或一身黑!試試一半彩色、一半基礎色,高級亮眼

老人、小孩、孕婦,吃粽子有啥風險

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

無障礙瀏覽 進入關懷版