无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

表格建模也能Scaling?樹模型的時(shí)代要改變了

0
分享至



一張 H100 相當(dāng)于多少個(gè) Hadoop 實(shí)例?

讓我們先從一個(gè)有趣的問題開始:站在 2026 年的當(dāng)下,一張 H100 GPU 的單卡算力(FP16)大約相當(dāng)于多少個(gè) Hadoop 實(shí)例?

答案是:約 200 個(gè)( 單卡 H100 vs 一臺 96 核 CPU 實(shí)例)。

這個(gè)數(shù)字背后隱藏著一個(gè)值得深思的現(xiàn)象:過去幾年中,AI 的快速發(fā)展極大推動(dòng)了算力的指數(shù)級增長。然而在結(jié)構(gòu)化數(shù)據(jù)建模這一領(lǐng)域,行業(yè)主流方法仍然是以樹模型為核心的垂直場景化解決方案。

這就形成了一個(gè)有趣的 "反差":一邊是各大科技公司和大量初創(chuàng)企業(yè)正通過不斷升級的大語言模型推動(dòng) AI 生產(chǎn)力的躍遷,另一邊是在金融、醫(yī)療、電商、物流、工業(yè)制造等高價(jià)值行業(yè)中,真正承載智能化任務(wù)的,仍主要是以 XGBoost、隨機(jī)森林為代表的樹模型。這種反差讓我們不得不開始思考:當(dāng)算力革命發(fā)生時(shí),結(jié)構(gòu)化數(shù)據(jù)建模的 "平衡點(diǎn)" 是否也該被重新定義?

"苦澀的教訓(xùn)" 與結(jié)構(gòu)化數(shù)據(jù)的困境

從更宏觀的角度看,大模型研發(fā)所遵循的核心思想,可以追溯到 Richard Sutton 提出的 “苦澀的教訓(xùn)”(The Bitter Lesson):在 AI 的長期發(fā)展中,那些能夠隨著計(jì)算規(guī)模持續(xù)擴(kuò)展的通用學(xué)習(xí)方法,往往最終會(huì)超越依賴人類直覺與領(lǐng)域知識精心設(shè)計(jì)的系統(tǒng)。

大語言模型的成功正是這一規(guī)律的典型體現(xiàn) —— 通過統(tǒng)一架構(gòu)與大規(guī)模數(shù)據(jù)訓(xùn)練,LLM 在 NLP 領(lǐng)域?qū)崿F(xiàn)了跨任務(wù)、跨場景的能力遷移。然而,當(dāng)企業(yè)在實(shí)際業(yè)務(wù)中解決監(jiān)督學(xué)習(xí)問題時(shí),情況卻呈現(xiàn)出明顯反差。即使在嘗試引入深度學(xué)習(xí)時(shí),也往往需要依賴復(fù)雜的數(shù)據(jù)流水線、特定架構(gòu)設(shè)計(jì)以及大量領(lǐng)域知識的引入。這相當(dāng)于用 "手工作坊" 的方式,去應(yīng)對 "工業(yè)化生產(chǎn)" 的需求。于是出現(xiàn)了一個(gè)頗為有趣的現(xiàn)象:一方面,各大科技公司和大量初創(chuàng)企業(yè)正通過不斷擴(kuò)大的大語言模型推動(dòng) AI 生產(chǎn)力的躍遷;另一方面,在金融、醫(yī)療、電商、物流、工業(yè)制造、農(nóng)業(yè)等高價(jià)值行業(yè)的重要社會(huì)經(jīng)濟(jì)領(lǐng)域中,真正承載智能化場景任務(wù)的,仍主要是以 XGBoost、隨機(jī)森林為代表的基于樹的表格分類模型或垂域深度學(xué)習(xí)分類模型,這進(jìn)一步激發(fā)了我們探索結(jié)構(gòu)化數(shù)據(jù)模型 scaling 上限的興趣。

回顧歷史,XGBoost 在 2014 年被廣泛視為機(jī)器學(xué)習(xí)領(lǐng)域中算力、算法與數(shù)據(jù)三要素之間的一個(gè) “平衡點(diǎn)”。但十二年后的今天,隨著 GPU 算力的快速迭代并帶來數(shù)量級提升,這一平衡點(diǎn)是否已經(jīng)發(fā)生改變?結(jié)構(gòu)化數(shù)據(jù)建模是否也可能像 NLP 和 CV 一樣,通過新的計(jì)算范式實(shí)現(xiàn)突破?回到開篇的問題:當(dāng)單張 H100 與一臺 96 核 CPU 服務(wù)器之間已經(jīng)存在約 200 倍的 FP16 算力差距時(shí),一個(gè)自然的想法是 —— 是否可以將 GPU 的大規(guī)模并行算力真正引入結(jié)構(gòu)化數(shù)據(jù)建模,并通過預(yù)訓(xùn)練范式重新平衡算力、數(shù)據(jù)與算法這三大核心要素。

千億級樣本預(yù)訓(xùn)練實(shí)踐

本文將重點(diǎn)介紹浙大 X 螞蟻 AIforData 團(tuán)隊(duì)的探索:基于螞蟻集團(tuán)海量的異構(gòu)結(jié)構(gòu)化數(shù)據(jù)以及豐富的下游業(yè)務(wù)場景,實(shí)現(xiàn)了千卡 GPU 集群下百億級樣本規(guī)模的結(jié)構(gòu)化數(shù)據(jù)預(yù)訓(xùn)練,并系統(tǒng)評估了預(yù)訓(xùn)練模型在下游任務(wù)中的表現(xiàn),實(shí)驗(yàn)結(jié)果表明:

1. 在工業(yè)級表格數(shù)據(jù)集上,預(yù)訓(xùn)練模型的性能可以穩(wěn)定且顯著地超越傳統(tǒng)樹模型

2. 表格數(shù)據(jù)預(yù)訓(xùn)練模型呈現(xiàn)出明顯的 scaling law

3. 行為序列預(yù)訓(xùn)練模型同樣表現(xiàn)出良好的 scaling law

工作 1: 表格數(shù)據(jù)預(yù)訓(xùn)練與 Scaling Law

https://arxiv.org/abs/2602.22777

KMLP(Kolmogorov-Arnold Network with gated MLP)是面向互聯(lián)網(wǎng)超大規(guī)模表格數(shù)據(jù)的混合深度學(xué)習(xí)架構(gòu)(中稿 The Web Conference 2026)。面對工業(yè)場景中數(shù)十億樣本、數(shù)千異構(gòu)特征的建模挑戰(zhàn),KMLP 創(chuàng)新性地將淺層 KAN 作為前端特征工程構(gòu)造器,結(jié)合 gMLP 主干網(wǎng)絡(luò)捕獲高階交互,實(shí)現(xiàn)了端到端的自動(dòng)化特征表示學(xué)習(xí)。



在包含 20 億樣本的真實(shí)信貸評分?jǐn)?shù)據(jù)集上,KMLP 展現(xiàn)出顯著的規(guī)模優(yōu)勢:隨著數(shù)據(jù)量級提升,其相對于傳統(tǒng) GBDT 模型的性能優(yōu)勢持續(xù)擴(kuò)大。這一發(fā)現(xiàn)驗(yàn)證了 KMLP 作為可擴(kuò)展深度學(xué)習(xí)范式的潛力,為大規(guī)模動(dòng)態(tài)互聯(lián)網(wǎng)表格數(shù)據(jù)建模提供了新路徑。



KMLP 的核心價(jià)值在于解決了傳統(tǒng)方法的雙重瓶頸:一方面克服了 GBDT 在超大規(guī)模數(shù)據(jù)集上分布式計(jì)算效率問題,另一方面通過可學(xué)習(xí)激活函數(shù)擺脫了對人工特征工程的依賴,實(shí)現(xiàn)了特征異構(gòu)性與交互建模的統(tǒng)一。其相對于傳統(tǒng) GBDT 模型的性能優(yōu)勢持續(xù)擴(kuò)大;解決了 GBDT 分布式計(jì)算效率問題和人工特征工程依賴。

工作 2: 行為序列預(yù)訓(xùn)練與 Scaling Law

https://arxiv.org/abs/2412.12468

用戶行為時(shí)序數(shù)據(jù),作為刻畫用戶的關(guān)鍵結(jié)構(gòu)化數(shù)據(jù)之一,對于用戶理解與建模起著重要作用。在用戶建模時(shí)如何利用以及如何利用好更多的用戶行為序列數(shù)據(jù),是一個(gè)重要的研究課題。

FOUND:時(shí)序數(shù)據(jù)的語義級應(yīng)用

FOUND(Transferable and Forecastable User Targeting Foundation Model)是 AIforData 團(tuán)隊(duì)發(fā)布在 The Web Conference 2025(WebConf 25)中的工作,面向互聯(lián)網(wǎng)平臺中多種來源的序列數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),構(gòu)建了工業(yè)級、具有預(yù)測性的用戶表征框架。

當(dāng)前許多用戶理解方法面臨兩大顯著挑戰(zhàn):(i) 跨領(lǐng)域和跨場景的可遷移性及泛化能力較弱 (ii) 在實(shí)際應(yīng)用中的預(yù)測能力不足。為了增強(qiáng)跨領(lǐng)域遷移能力,F(xiàn)OUND 框架整合了多場景用戶數(shù)據(jù),并在用戶建模時(shí)創(chuàng)新性地通過對比學(xué)習(xí)預(yù)訓(xùn)練將其與根據(jù)序列語義整理得到的文本進(jìn)行對齊。為了提高預(yù)測性,每個(gè)用戶的文本描述基于用戶未來的行為推導(dǎo)得出,而用戶表征則由歷史信息構(gòu)建而成,使用過去 - 未來語義對齊的方式構(gòu)造訓(xùn)練樣本對。

由該框架產(chǎn)出的用戶表征在真實(shí)場景 benchmark 和業(yè)務(wù)上均獲得了增益。同時(shí)引入自然語言監(jiān)督的方式也使得模型天然支持人群圈選這一用戶理解任務(wù),該預(yù)訓(xùn)練框架支持的圈人能力在下游取得了大量收益,支持超過 50 個(gè)業(yè)務(wù)場景。



序列數(shù)據(jù)的 Scaling Law

在有了上述預(yù)訓(xùn)練框架后,我們思考如何將綜合互聯(lián)網(wǎng)平臺中更多更長的用戶行為序列引入到模型中來。針對多種來源的序列數(shù)據(jù),各自設(shè)計(jì)編碼器會(huì)存在訓(xùn)練成本過高、表達(dá)空間不統(tǒng)一等缺陷,同時(shí)如何發(fā)揮更多輸入序列數(shù)據(jù)的最大性能也是一個(gè)問題,即需要探索輸入序列本身存在的 Scaling Law 以及如何突破可能存在的 Scaling 瓶頸。

在實(shí)驗(yàn)探索過程中我們發(fā)現(xiàn),輸入序列長度 / 用戶數(shù)目在數(shù)量級較少時(shí),性能隨著天數(shù) / 用戶數(shù)目(指數(shù))近似線性提升,Scaling 現(xiàn)象明顯;但在輸入序列增長、用戶數(shù)目增加時(shí)增長緩慢,出現(xiàn) Scaling 瓶頸。為解決該問題,除了增加參數(shù)這種模型層面的 Scaling,提升輸入用戶數(shù)據(jù)的信息密度,即對用戶信息進(jìn)行壓縮,不失為一種節(jié)約成本且輕量的方案。在使用 RQ-VAE 方案進(jìn)行用戶序列數(shù)據(jù)壓縮后,我們觀測到出現(xiàn)數(shù)據(jù)增長瓶頸得到延緩,說明了壓縮帶來突破瓶頸的 Densing Law 現(xiàn)象。

核心結(jié)論:在輸入序列長度 / 用戶數(shù)目在數(shù)量較少時(shí)性能隨著天數(shù)指數(shù)的 Scaling 現(xiàn)象明顯,輸入序列長度和用戶數(shù)目增加至較大量級時(shí)出現(xiàn) Scaling 瓶頸,而壓縮數(shù)據(jù)可以通過提升信息密度帶來突破瓶頸的 Densing Law 現(xiàn)象。





基于以上原始和壓縮輸入的 Scaling Law,我們設(shè)計(jì)了基于統(tǒng)一用戶量化壓縮的用戶理解方案,將用戶的多源序列等數(shù)據(jù)使用設(shè)計(jì)的 MRQ-VAE 方案壓縮成語義 token ID 提升信息密度,并在此基礎(chǔ)之上 Scaling 得到了更佳性能的用戶模型。產(chǎn)出的通用用戶表征在 80% 以上真實(shí)場景 benchmark 中相比之前原始數(shù)據(jù)輸入版本均有提升,并在數(shù)字金融、支付安全、營銷推薦、廣告等業(yè)務(wù)中全面應(yīng)用。

總結(jié)與展望

回到開篇的問題:當(dāng)算力已經(jīng)發(fā)生數(shù)量級變化時(shí),結(jié)構(gòu)化數(shù)據(jù)建模的范式是否也該隨之改變?

螞蟻 x 浙大 AIforData 團(tuán)隊(duì)的探索給出了肯定的答案。Scaling Law 正在從 NLP、CV 延伸到結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域—— 這或許意味著,那個(gè)依賴人工特征工程和場景化調(diào)參的時(shí)代,真的要過去了。

"當(dāng)算力天平已經(jīng)傾斜,平衡點(diǎn)也該重新定義。"

未來,隨著算力的持續(xù)增長和預(yù)訓(xùn)練范式的成熟,我們有理由相信:結(jié)構(gòu)化數(shù)據(jù)建模將迎來屬于自己的 "大模型時(shí)刻"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
剛簽完“三年之約”美國轉(zhuǎn)頭又翻臉?果然,特朗普還是那個(gè)特朗普

剛簽完“三年之約”美國轉(zhuǎn)頭又翻臉?果然,特朗普還是那個(gè)特朗普

眼界看世界
2026-06-14 13:34:23
漂泊的船終于靠港!逢見梨花睽違 6 年再當(dāng)專屬

漂泊的船終于靠港!逢見梨花睽違 6 年再當(dāng)專屬

吃瓜黨二號頭目
2026-06-14 11:33:22
馬科斯終于等到這天,國際刑事法院正式裁定,杜特爾特真的危險(xiǎn)了

馬科斯終于等到這天,國際刑事法院正式裁定,杜特爾特真的危險(xiǎn)了

阿振觀點(diǎn)
2026-06-14 13:11:21
攤上大事了?南寧一農(nóng)貿(mào)市場222臺電子秤全不合格!官方緊急回應(yīng)

攤上大事了?南寧一農(nóng)貿(mào)市場222臺電子秤全不合格!官方緊急回應(yīng)

聽心堂
2026-06-14 12:53:16
中方接到日媒消息,日本已找上巴基斯坦,要跟中國主張打擂臺

中方接到日媒消息,日本已找上巴基斯坦,要跟中國主張打擂臺

健身狂人
2026-06-13 03:32:16
法專家曾言:中國電力已讓世界畏懼!為啥中國人自己卻渾然不知?

法專家曾言:中國電力已讓世界畏懼!為啥中國人自己卻渾然不知?

蜉蝣說
2026-06-13 10:55:14
發(fā)行 5.56 億股刷新紀(jì)錄,萬億富豪馬斯克,私生活屢次登上熱搜

發(fā)行 5.56 億股刷新紀(jì)錄,萬億富豪馬斯克,私生活屢次登上熱搜

財(cái)經(jīng)無忌
2026-06-13 09:44:40
不止今年,往后的錢只會(huì)越來越難掙

不止今年,往后的錢只會(huì)越來越難掙

職場資深秘書
2026-06-14 11:31:13
啤酒再次成為關(guān)注對象!多名院士發(fā)現(xiàn):常喝啤酒的人,有6個(gè)變化

啤酒再次成為關(guān)注對象!多名院士發(fā)現(xiàn):常喝啤酒的人,有6個(gè)變化

健康之光
2026-06-12 22:20:03
莫言:如果你混到?jīng)]人找你吃飯,沒人喊你聚會(huì),連電話也沒幾個(gè),那慶祝了,你不是人緣變差,而是真正覺醒了

莫言:如果你混到?jīng)]人找你吃飯,沒人喊你聚會(huì),連電話也沒幾個(gè),那慶祝了,你不是人緣變差,而是真正覺醒了

品讀時(shí)刻
2026-05-27 09:00:58
太平島又發(fā)生激烈對峙,現(xiàn)場情況很危險(xiǎn),我們必須收回該島執(zhí)法權(quán)

太平島又發(fā)生激烈對峙,現(xiàn)場情況很危險(xiǎn),我們必須收回該島執(zhí)法權(quán)

馬探解說體育
2026-06-14 08:00:22
220萬人干翻全球,美國油服巨頭被山東東營反向卡脖子

220萬人干翻全球,美國油服巨頭被山東東營反向卡脖子

毒sir財(cái)經(jīng)
2026-06-13 13:28:59
釘釘員工自曝作息大改,內(nèi)部爭議曝光

釘釘員工自曝作息大改,內(nèi)部爭議曝光

影視情報(bào)室
2026-06-14 00:39:31
眼見到手鴨子要飛,蒙古國不敢再矜持,邀王毅到訪要拿下金飯碗

眼見到手鴨子要飛,蒙古國不敢再矜持,邀王毅到訪要拿下金飯碗

涼了時(shí)光人
2026-06-14 01:42:57
這組全是許晴年輕舊照!

這組全是許晴年輕舊照!

草莓解說體育
2026-06-05 14:04:24
血型決定腦力晚年?研究稱O型血中老年人認(rèn)知表現(xiàn)或更穩(wěn)定

血型決定腦力晚年?研究稱O型血中老年人認(rèn)知表現(xiàn)或更穩(wěn)定

CNMO科技
2026-06-12 16:46:03
俄議員公開炮轟普京“無效領(lǐng)導(dǎo)”:幻覺已結(jié)束,國家正處于社會(huì)爆發(fā)邊緣

俄議員公開炮轟普京“無效領(lǐng)導(dǎo)”:幻覺已結(jié)束,國家正處于社會(huì)爆發(fā)邊緣

叮當(dāng)當(dāng)科技
2026-06-14 10:12:19
難怪敢一個(gè)勁挑釁中國,原來馬科斯早已知道,菲防長早就留好退路

難怪敢一個(gè)勁挑釁中國,原來馬科斯早已知道,菲防長早就留好退路

軒逸阿II
2026-06-14 10:02:46
日菲沒料到,中方把“劃界”當(dāng)真了,海警駛?cè)肓鹎蛉簫u,信號強(qiáng)烈

日菲沒料到,中方把“劃界”當(dāng)真了,海警駛?cè)肓鹎蛉簫u,信號強(qiáng)烈

孟彥說
2026-06-13 19:11:59
孫楠閃婚9年終散場,女兒演員夢被繼母覆滅,如今下場怪不了別人

孫楠閃婚9年終散場,女兒演員夢被繼母覆滅,如今下場怪不了別人

仙味少女心
2026-06-13 06:57:41
2026-06-14 14:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13246文章數(shù) 142669關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

男友花94500元買"全國僅兩只"LV鴕鳥皮包 女友發(fā)現(xiàn)問題

頭條要聞

男友花94500元買"全國僅兩只"LV鴕鳥皮包 女友發(fā)現(xiàn)問題

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

深藍(lán)S07華為乾崑激光版增程車型上市 限時(shí)15.49萬元起

態(tài)度原創(chuàng)

本地
藝術(shù)
教育
公開課
軍事航空

本地新聞

AK劉彰邂逅河北南大港濕地

藝術(shù)要聞

廣州再建一座“小蠻腰”?190米,頂著個(gè)球,2027年見!

教育要聞

2026年高考本科分?jǐn)?shù)線預(yù)測!特控線有望下降,今年的考生很幸運(yùn)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協(xié)議周日簽 還有終極手段

無障礙瀏覽 進(jìn)入關(guān)懷版