无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

MOOSE-Star:打破組合復雜度壁壘,解鎖直接訓練范式

0
分享至



作者:論文團隊

編輯丨ScienceAI

在目前的 LLM for scientific discovery 研究中,絕大多數工作要么依賴于大模型推理期的 Prompting,要么基于 external feedback(外部實驗 / 評委反饋)進行 training。

這引出了一個極其核心的拷問:為什么一直沒人去「直接訓練」并顯式建模科學發現的生成過程 P (hypothesis | background) 本身?

最近一項工作首次從理論上揭示了其背后的死鎖,提出了一套通用的科學發現理論框架,并成功觀察到了令人振奮的 both Train-time Scaling Law 和 Test-Time Scaling Law。

該研究來自 MiroMind AI 的楊宗霖 (Zonglin Yang) 與邴立東 (Lidong Bing) 團隊。為了推動直接訓練范式在科學發現 (Scientific Discovery) 領域的應用,團隊開發并開源了包含超 10.8 萬篇高質量論文推導鏈路的 TOMATO-Star 數據套件 ,以及基于理論框架構建的 MOOSE-Star 模型體系。團隊希望以此為契機,攜手推動 Scientific Discovery 領域開源社區的建設與發展。



論文地址:https://arxiv.org/pdf/2603.03756

GitHub 數據與代碼:https://github.com/ZonglinY/MOOSE-Star

Hugging Face:https://huggingface.co/papers/2603.03756

1. 核心壁壘:計算上幾乎無解的 O (N^k) 組合復雜度

如果要直接訓練模型生成科學發現,最大的挑戰在于「靈感的檢索與組合」。科學發現并非憑空產生,它要求模型從海量的全局文獻庫(規模為 N)中,精準檢索出 k 個相關的靈感碎片,并將它們拼圖般組合成一個新的 Hypothesis。

如果直接端到端讓模型去隱式學習這個過程,其搜索空間是一個極其恐怖的組合爆炸:O (N^k)。

這種計算上幾乎無解的復雜性,導致以往直接訓練模型極易陷入死鎖,表現為嚴重的幻覺或邏輯斷裂。

2. 破局與統一理論:MOOSE-Star 的解構與分離范式

為了 enable 真正 tractable 與 scalable 的 discovery LLM training,MOOSE-Star 并沒有去頭鐵地直接端到端訓練 P (hypothesis | background)。

相反,該研究從第一性原理出發,首先提出并形式化了一個統一的科學發現理論框架。團隊認為,高度復雜的科學發現過程必須先在理論層面被徹底解耦。依據這一證明過的理論框架,該研究提出了三個方法。



科學發現理論框架

  • 方法一:IR 與 HC 的分離訓練范式 (Decoupled Training)

這是保證整個框架「可訓練 (Tractable)」的靈魂所在。根據該研究提出的科學發現理論,團隊沒有去直接硬訓單一的 P (h|b),而是將訓練過程解耦,分別獨立訓練靈感檢索模型 (IR, Inspiration Retrieval) 和假設組合模型 (HC, Hypothesis Composition)。這種分離范式徹底避開了端到端建模復雜科學發現時的優化死鎖,將復雜度從指數級 O (N^k) 降到了線性 O (k * N)。

  • 方法二:動機引導的分層搜索 (Motivation-Guided Hierarchical Search)

該研究拒絕了在海量知識庫中的全局暴力盲搜。模型首先基于背景知識,生成一個明確的「研究動機 (Motivation)」,然后順著結構化的全局知識樹進行分層、定向的檢索。在最理想的情況下 (in the best case),這一機制成功將線性的復雜度 O (N) 降維至 O (log N)。

  • 方法三:容錯組合 (Bounded Composition)

在獲取到檢索結果后,模型在一個有界的上下文中,通過嚴密的生成式推理,將(即便帶有一定噪聲的)靈感碎片無縫融合成邏輯自洽的科學假設。

3. 核心發現:在科學發現領域解鎖 Train-time 與 Test-Time Scaling Law

當該研究基于上述統一理論,成功打通了 tractable 的分離訓練路徑后,團隊不僅解決了一個工程難題,更得到了一組非常驚艷的副產品 —— 在科學發現這一極其復雜的認知任務上,清晰地觀察到了兩條優美的擴展法則(Scaling Law)。

  • Train-time Scaling Law (訓練期擴展法則):

過去,由于直接端到端擬合 P (h|b) 存在 O (N^k) 的復雜度之墻,此時「大力出奇跡」是失效的。

而 MOOSE-Star 的解構與分離訓練徹底打破了這一魔咒。該研究證實:隨著訓練數據量(如 TOMATO-Star 數據集的規模擴張),模型在靈感檢索和假設組合上的基礎能力,呈現出了可預測的持續提升。這意味著,用 LLM 對科學發現進行直接建模 P (h|b) (不依賴 external feedback) 的能力首次變得「可以通過增加訓練算力來 Scale up」。

  • Test-Time Scaling Law (推理期擴展法則):

除了訓練期的規模化紅利,MOOSE-Star 還在推理期展現出了驚人的算力轉化率。

面對極其復雜的科學問題,傳統的暴力采樣(Brute-force)或盲目的 Prompting 會迅速撞上「復雜性高墻」,此時給予再多的推理算力(例如讓模型盲猜 1000 次)也無濟于事,成功率依然趨近于零。

而基于 MOOSE-Star 框架,得益于分層搜索與容錯組合機制,隨著該研究在推理期投入更多的計算資源(Compute,例如延展更深的邏輯搜索樹、生成并評估更多的候選分支),模型產出高質量、創新性科學假設的成功率,呈現出極其穩定且持續的增長。



暴力 sampling 對 P (h|b) 失效



Train-time Scaling Law



Test-time Scaling Law

4. 誠意開源:3.8 萬卡時煉成的 TOMATO-Star 數據套件

為了支撐起這套龐大框架的驗證與訓練,數據是繞不過去的坎。

為此,該研究燒了約 38,400 個 A800 GPU 小時,對 108,717 篇近年來的高質量真實論文進行了極其精細的反向拆解,重構了從背景知識到科學假設的完整推導鏈路,構建了包含十萬級樣本的 TOMATO-Star 數據套件。

目前,這套十萬級的數據集、完整的訓練代碼,以及微調后的系列模型已經全部開源!

團隊非常期待這項工作能為整個 AI4Science 社區提供一個新的基座視角。如果大家對這個方向感興趣,或者正在探索 LLM 的復雜推理機制,歡迎來 GitHub Repo 體驗和交流!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

都市快報橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達文西看世界
2026-05-21 09:48:14
網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

每日經濟新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

千秋文化
2026-05-20 20:33:05
職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風俠
2026-05-21 11:13:14
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

念洲
2026-05-21 08:02:07
光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

懂球帝
2026-05-21 15:41:08
三大元兇引發跳水 后期策略

三大元兇引發跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災了

今天直接跌成股災了

曹多魚的財經世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發"高達" 融合機器人技術的主動懸架

態度原創

本地
手機
時尚
公開課
軍事航空

本地新聞

用云錦的方式,打開江蘇南京

手機要聞

蘋果史詩級大改!20周年iPhone測試四曲面屏:告別直屏時代

全網首檔挑戰Al設備拍攝短劇現場直播!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗警告:任何新襲擊將促使戰場擴大到中東以外

無障礙瀏覽 進入關懷版