无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大斯坦福聯(lián)手打造「AI科學(xué)家」,預(yù)測精度超越人類專家

0
分享至



作者丨論文團(tuán)隊(duì)

編輯丨ScienceAI

如果 AI 能夠比人類更精準(zhǔn)、更高效地發(fā)現(xiàn)統(tǒng)治 AI 系統(tǒng)的「牛頓定律」,那么 AI 自我進(jìn)化的奇點(diǎn)是否已經(jīng)臨近?

Scaling Laws(擴(kuò)展定律)被譽(yù)為現(xiàn)代 AI 領(lǐng)域最接近「科學(xué)」的工具。從 Chinchilla 到 GPT-4,它指導(dǎo)研究者利用「小規(guī)模實(shí)驗(yàn)」精準(zhǔn)預(yù)測「大模型的性能」,決定了算力分配、數(shù)據(jù)配比等關(guān)鍵決策。

然而,隨著 AI 技術(shù)的演進(jìn),Scaling Law 的發(fā)現(xiàn)過程正變得愈發(fā)艱難。從經(jīng)典的預(yù)訓(xùn)練拓展到強(qiáng)化學(xué)習(xí)、混合專家模型(MoE),每一個(gè)新場景都需要研究人員手動進(jìn)行大量的假設(shè)、擬合與試錯(cuò)。

既然 AI 如此強(qiáng)大,為什么不讓 AI 自己去發(fā)現(xiàn) Scaling Law 呢?

近日,來自北京大學(xué)、斯坦福大學(xué)、寬德投資和清華大學(xué)的研究團(tuán)隊(duì)提出了一項(xiàng)開創(chuàng)性工作:Scaling Law Discovery (SLD)。這項(xiàng)工作不僅構(gòu)建了包含 5000 多個(gè)真實(shí)實(shí)驗(yàn)的基準(zhǔn)測試 SLDBench,還提出了一種基于進(jìn)化的智能體框架 SLDAgent。令人驚訝的是,這個(gè) AI 智能體發(fā)現(xiàn)的 Scaling Law,在預(yù)測精度和外推能力上已經(jīng)超越了人類專家。



目前,該論文已被 ICLR 2026 接收。

論文地址:https://arxiv.org/abs/2507.21184

項(xiàng)目主頁:https://linhaowei1.github.io/scaling_law_discovery/

HuggingFace:https://huggingface.co/collections/pkuHaowei/scaling-law-discovery

痛點(diǎn):被「手動檔」卡住的 AI 科研

Scaling Law 本質(zhì)上是一個(gè)經(jīng)驗(yàn)公式,預(yù)測模型性能(Loss、準(zhǔn)確率等)與規(guī)模變量(模型參數(shù)量 N、數(shù)據(jù)量 D、計(jì)算量 C 等)之間的關(guān)系。

最經(jīng)典的莫過于 Chinchilla 定律:



雖然公式看似簡潔,但在實(shí)際科研中,發(fā)現(xiàn)正確的公式往往伴隨著巨大的試錯(cuò)成本。

作者團(tuán)隊(duì)分享了一個(gè)真實(shí)的「血淚史」:在 2023 年進(jìn)行大模型微調(diào)研究時(shí),他們試圖用預(yù)訓(xùn)練中經(jīng)典的冪律(Power Law)去擬合微調(diào)性能,結(jié)果徹底失敗。他們發(fā)現(xiàn)微調(diào)過程存在一個(gè)明顯的「預(yù)冪律階段(pre-power phase)」,現(xiàn)有 Scaling Law 公式根本無法準(zhǔn)確描述。



微調(diào)過程中觀察到的兩階段行為:預(yù)冪律階段和冪律階段。

最終,團(tuán)隊(duì)不得不專門寫了一篇論文(https://arxiv.org/abs/2402.02314,發(fā)表于 ICML2024)來提出「修正后的 Scaling Law」。雖然結(jié)果很好(誤差 RMSD 從 0.036 降到了 0.007),但過程極其耗時(shí)。



這揭示了一個(gè)殘酷的現(xiàn)實(shí): 每一項(xiàng)新的 AI 技術(shù)的大規(guī)模拓展(SFT、MoE、詞表大小、并行策略等)都在呼喚新的 Scaling Law,而目前發(fā)現(xiàn) Scaling Law 的這種「假設(shè) → 擬合 → 失敗 → 重來」的人工試錯(cuò)循環(huán),已經(jīng)成為制約 AI 發(fā)展的瓶頸。

SLDBench:首個(gè) Scaling Law 發(fā)現(xiàn)基準(zhǔn)

為了解決這個(gè)問題,研究團(tuán)隊(duì)首先需要定義:什么叫做「做好了 Scaling Law 研究」?

為此,他們構(gòu)建了 SLDBench。這不是一個(gè)普通的合成數(shù)據(jù)集,而是基于從現(xiàn)有文獻(xiàn)中收集的超過 5000 個(gè)真實(shí)的大模型訓(xùn)練實(shí)驗(yàn)構(gòu)建的實(shí)驗(yàn)數(shù)據(jù)。



SLDBench 涵蓋了從預(yù)訓(xùn)練、微調(diào)到 MoE 等多種場景的任務(wù)。

SLDBench 的獨(dú)特之處在于:

1. 真實(shí)數(shù)據(jù):智能體拿到的是真實(shí)的實(shí)驗(yàn)結(jié)果,不需要自己跑昂貴的訓(xùn)練。

2. 客觀評估:不僅看擬合得好不好,更看外推(Extrapolation)得準(zhǔn)不準(zhǔn)。即用小規(guī)模數(shù)據(jù)發(fā)現(xiàn)規(guī)律,預(yù)測大規(guī)模模型的效果。

3. 未知探索:即便對人類專家來說,許多任務(wù)也沒有已知的「完美公式」。SLDBench 完全模擬了真實(shí)世界中的「開放式科研」探索。

4. 高效輕量:相比于其他智能體評測任務(wù)(例如 SWEBench,MLEBench),SLDBench 不需要復(fù)雜的環(huán)境就能運(yùn)行,科學(xué)發(fā)現(xiàn)的難度卻不亞于這些任務(wù)。

這使得 SLDBench 成為衡量 AI 是否具備「科學(xué)發(fā)現(xiàn)能力」的絕佳標(biāo)尺。

SLDAgent:公式和優(yōu)化算法的共進(jìn)化

發(fā)現(xiàn) Scaling Law 絕不僅僅是找出一個(gè)數(shù)學(xué)公式 f(x) 那么簡單。作者團(tuán)隊(duì)指出:「發(fā)現(xiàn)一個(gè)公式」和「找到讓公式生效的擬合過程」同等重要。

許多漂亮的數(shù)學(xué)公式因?yàn)閿?shù)值不穩(wěn)定、難以擬合,在實(shí)際工程中毫無價(jià)值。

因此,該研究提出了 SLDAgent。這是一個(gè)基于進(jìn)化算法(Evolutionary Algorithm)的智能體,它不是在單點(diǎn)優(yōu)化,而是同時(shí)協(xié)同進(jìn)化兩個(gè)部分:

1. 符號表達(dá)式(Expression):即 Scaling Law 的數(shù)學(xué)形式。

2. 優(yōu)化器(Optimizer):即如何穩(wěn)健地?cái)M合該公式參數(shù)的算法代碼。



SLDAgent 的進(jìn)化管線,同時(shí)搜索公式形式和擬合策略。

SLDAgent 從一個(gè)基線(如 Power Law + BFGS)出發(fā),通過變異、交叉等操作不斷生成新的變體,并利用類似 MAP-Elites 的機(jī)制保持種群的多樣性。這種「協(xié)同優(yōu)化」完美模擬了人類研究員「提出假設(shè) → 調(diào)整擬合方法 → 驗(yàn)證」的科研閉環(huán)。

實(shí)驗(yàn)結(jié)果:AI 戰(zhàn)勝了人類

在 SLDBench 上,SLDAgent 展現(xiàn)出了驚人的能力。在多個(gè)任務(wù)中,AI 發(fā)現(xiàn)的定律在準(zhǔn)確性和外推能力上均超越了人類此前發(fā)表的成果。



SLDAgent 在各項(xiàng)任務(wù)中均優(yōu)于人類發(fā)現(xiàn)的定律。

更有趣的是 AI 贏的方式。它并不是靠堆砌復(fù)雜的公式來「過擬合」,而是經(jīng)常能發(fā)現(xiàn)更具物理意義的簡潔形式。

案例 1:SFT 定律的物理意義





在 SFT 任務(wù)上,SLDAgent 發(fā)現(xiàn)的定律比人類提出的定律在量綱上更可解釋。

案例 2:自動尋找最佳超參(學(xué)習(xí)率 & Batch Size)

對于預(yù)訓(xùn)練來說,如何根據(jù)模型規(guī)模選擇最佳的學(xué)習(xí)率(lr)和 Batch Size(bsz)是老大難問題。

傳統(tǒng)方法(來自階躍星辰:https://step-law.github.io/)可能需要跑 3000 個(gè)實(shí)驗(yàn),然后只選出 17 個(gè)「最優(yōu)作為點(diǎn)」來擬合規(guī)律。而 SLDAgent 選擇了一條更硬核的路:直接對整個(gè) Loss 曲面 L (N, D, lr, bsz) 建模。

一旦得到了 Loss 曲面的公式,通過求偏導(dǎo)并令其為零,SLDAgent 就能直接推導(dǎo)出最優(yōu)超參數(shù)的閉式解。這不僅利用了所有實(shí)驗(yàn)數(shù)據(jù),還極大地提升了預(yù)測的魯棒性。



SLDAgent 提出的 Scaling Law 求導(dǎo)后得到的最優(yōu)超參非常接近最優(yōu)超參。

邁向 AI 科學(xué)家

這篇 ICLR 2026 的接收論文給社區(qū)帶來了一個(gè)重要的啟示:

目前的 AI Agent 評估大多集中在寫代碼或做數(shù)學(xué)題上,而 SLD(Scaling Law Discovery) 提供了一個(gè)全新的視角 —— 評估 AI 進(jìn)行科學(xué)研究的能力。

它要求 AI 具備符號推理能力、多場景泛化能力、長程規(guī)劃能力,以及面對真實(shí)世界嘈雜數(shù)據(jù)時(shí)的魯棒性。

正如作者在文中所言:「SLDBench 是我們將『AI 用于 AI 研究』這一概念進(jìn)行程序化、基準(zhǔn)化乃至最終自動化的初步嘗試。」

也許在不久的將來,當(dāng)我們面對新的 AI 架構(gòu)時(shí),不再需要人類苦苦試錯(cuò),而是直接交給 AI 科學(xué)家,靜待它給出那個(gè)支配系統(tǒng)的「牛頓定律」。

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務(wù)員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務(wù)員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網(wǎng)友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網(wǎng)友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點(diǎn)多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報(bào)復(fù);死者父親:他遇害前一個(gè)月未騎摩托

19歲男生凌晨2點(diǎn)多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報(bào)復(fù);死者父親:他遇害前一個(gè)月未騎摩托

都市快報(bào)橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達(dá)文西看世界
2026-05-21 09:48:14
網(wǎng)戀10天奔現(xiàn)4天領(lǐng)證!安徽離異女子攜子與新婚丈夫露營走紅網(wǎng)絡(luò)

網(wǎng)戀10天奔現(xiàn)4天領(lǐng)證!安徽離異女子攜子與新婚丈夫露營走紅網(wǎng)絡(luò)

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應(yīng):正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據(jù)支撐

被判賠三家車企共226萬元,知名汽車博主回應(yīng):正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據(jù)支撐

每日經(jīng)濟(jì)新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區(qū)人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區(qū)人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個(gè)妻子,發(fā)現(xiàn)日本的女人都有一個(gè)共同特點(diǎn)

我定居日本20年,娶過3個(gè)妻子,發(fā)現(xiàn)日本的女人都有一個(gè)共同特點(diǎn)

千秋文化
2026-05-20 20:33:05
職業(yè)運(yùn)動員究竟有多厲害?網(wǎng)友:在天賦面前,努力一文不值!

職業(yè)運(yùn)動員究竟有多厲害?網(wǎng)友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風(fēng)俠
2026-05-21 11:13:14
越扒瓜越大!交大女學(xué)生吞獎金再添猛料,不止想進(jìn)體制內(nèi)這么簡單

越扒瓜越大!交大女學(xué)生吞獎金再添猛料,不止想進(jìn)體制內(nèi)這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網(wǎng)友發(fā)帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網(wǎng)友發(fā)帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯(lián)重大錯(cuò)誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊(duì)

爭議!國際足聯(lián)重大錯(cuò)誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊(duì)

念洲
2026-05-21 08:02:07
光速失業(yè)!禁足名單內(nèi)10人目前仍為現(xiàn)役球員或在足球行業(yè)從事

光速失業(yè)!禁足名單內(nèi)10人目前仍為現(xiàn)役球員或在足球行業(yè)從事

懂球帝
2026-05-21 15:41:08
三大元兇引發(fā)跳水 后期策略

三大元兇引發(fā)跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續(xù):大四重修生,老師道歉,學(xué)校回應(yīng)來了

上海工大男生課堂喊殺后續(xù):大四重修生,老師道歉,學(xué)校回應(yīng)來了

奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災(zāi)了

今天直接跌成股災(zāi)了

曹多魚的財(cái)經(jīng)世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數(shù)的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數(shù)的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1307文章數(shù) 227關(guān)注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達(dá)交出816億美元營收

頭條要聞

中紀(jì)委連打三"虎":一人被指違規(guī)核發(fā)機(jī)動車號牌

頭條要聞

中紀(jì)委連打三"虎":一人被指違規(guī)核發(fā)機(jī)動車號牌

體育要聞

常住人口7000的小鎮(zhèn),擁有了一支德甲球隊(duì)

娛樂要聞

反轉(zhuǎn)!金秀賢與金賽綸未成年時(shí)交往不實(shí)

財(cái)經(jīng)要聞

英偉達(dá)業(yè)績超預(yù)!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發(fā)"高達(dá)" 融合機(jī)器人技術(shù)的主動懸架

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
游戲
教育
軍事航空

藝術(shù)要聞

崔雪冬 2026年油畫新作

數(shù)碼要聞

AMD攜手多家中國臺灣地區(qū)OSAT企業(yè)推進(jìn)新一代EFB技術(shù)研發(fā)

《生化9》當(dāng)之無愧年度級別!美國年度銷量冠軍

教育要聞

嶺大AI學(xué)科躋身軟科2025全球前200!三大碩士課程招生中!

軍事要聞

伊朗警告:任何新襲擊將促使戰(zhàn)場擴(kuò)大到中東以外

無障礙瀏覽 進(jìn)入關(guān)懷版