網易首頁 > 網易號 > 正文申請入駐

MOOSE-Star：打破組合復雜度壁壘，解鎖直接訓練范式

2026-03-16 12:07:41　來源: ScienceAI

河北舉報

分享至

作者：論文團隊

編輯丨ScienceAI

在目前的 LLM for scientific discovery 研究中，絕大多數工作要么依賴于大模型推理期的 Prompting，要么基于 external feedback（外部實驗 / 評委反饋）進行 training。

這引出了一個極其核心的拷問：為什么一直沒人去「直接訓練」并顯式建模科學發現的生成過程 P (hypothesis | background) 本身？

最近一項工作首次從理論上揭示了其背后的死鎖，提出了一套通用的科學發現理論框架，并成功觀察到了令人振奮的 both Train-time Scaling Law 和 Test-Time Scaling Law。

該研究來自 MiroMind AI 的楊宗霖 (Zonglin Yang) 與邴立東 (Lidong Bing) 團隊。為了推動直接訓練范式在科學發現 (Scientific Discovery) 領域的應用，團隊開發并開源了包含超 10.8 萬篇高質量論文推導鏈路的 TOMATO-Star 數據套件，以及基于理論框架構建的 MOOSE-Star 模型體系。團隊希望以此為契機，攜手推動 Scientific Discovery 領域開源社區的建設與發展。

論文地址：https://arxiv.org/pdf/2603.03756

GitHub 數據與代碼：https://github.com/ZonglinY/MOOSE-Star

Hugging Face：https://huggingface.co/papers/2603.03756

1. 核心壁壘：計算上幾乎無解的 O (N^k) 組合復雜度

如果要直接訓練模型生成科學發現，最大的挑戰在于「靈感的檢索與組合」。科學發現并非憑空產生，它要求模型從海量的全局文獻庫（規模為 N）中，精準檢索出 k 個相關的靈感碎片，并將它們拼圖般組合成一個新的 Hypothesis。

如果直接端到端讓模型去隱式學習這個過程，其搜索空間是一個極其恐怖的組合爆炸：O (N^k)。

這種計算上幾乎無解的復雜性，導致以往直接訓練模型極易陷入死鎖，表現為嚴重的幻覺或邏輯斷裂。

2. 破局與統一理論：MOOSE-Star 的解構與分離范式

為了 enable 真正 tractable 與 scalable 的 discovery LLM training，MOOSE-Star 并沒有去頭鐵地直接端到端訓練 P (hypothesis | background)。

相反，該研究從第一性原理出發，首先提出并形式化了一個統一的科學發現理論框架。團隊認為，高度復雜的科學發現過程必須先在理論層面被徹底解耦。依據這一證明過的理論框架，該研究提出了三個方法。

科學發現理論框架

方法一：IR 與 HC 的分離訓練范式 (Decoupled Training)

這是保證整個框架「可訓練 (Tractable)」的靈魂所在。根據該研究提出的科學發現理論，團隊沒有去直接硬訓單一的 P (h|b)，而是將訓練過程解耦，分別獨立訓練靈感檢索模型 (IR, Inspiration Retrieval) 和假設組合模型 (HC, Hypothesis Composition)。這種分離范式徹底避開了端到端建模復雜科學發現時的優化死鎖，將復雜度從指數級 O (N^k) 降到了線性 O (k * N)。

方法二：動機引導的分層搜索 (Motivation-Guided Hierarchical Search)

該研究拒絕了在海量知識庫中的全局暴力盲搜。模型首先基于背景知識，生成一個明確的「研究動機 (Motivation)」，然后順著結構化的全局知識樹進行分層、定向的檢索。在最理想的情況下 (in the best case)，這一機制成功將線性的復雜度 O (N) 降維至 O (log N)。

方法三：容錯組合 (Bounded Composition)

在獲取到檢索結果后，模型在一個有界的上下文中，通過嚴密的生成式推理，將（即便帶有一定噪聲的）靈感碎片無縫融合成邏輯自洽的科學假設。

3. 核心發現：在科學發現領域解鎖 Train-time 與 Test-Time Scaling Law

當該研究基于上述統一理論，成功打通了 tractable 的分離訓練路徑后，團隊不僅解決了一個工程難題，更得到了一組非常驚艷的副產品 —— 在科學發現這一極其復雜的認知任務上，清晰地觀察到了兩條優美的擴展法則（Scaling Law）。

Train-time Scaling Law (訓練期擴展法則)：

過去，由于直接端到端擬合 P (h|b) 存在 O (N^k) 的復雜度之墻，此時「大力出奇跡」是失效的。

而 MOOSE-Star 的解構與分離訓練徹底打破了這一魔咒。該研究證實：隨著訓練數據量（如 TOMATO-Star 數據集的規模擴張），模型在靈感檢索和假設組合上的基礎能力，呈現出了可預測的持續提升。這意味著，用 LLM 對科學發現進行直接建模 P (h|b) (不依賴 external feedback) 的能力首次變得「可以通過增加訓練算力來 Scale up」。

Test-Time Scaling Law (推理期擴展法則)：

除了訓練期的規模化紅利，MOOSE-Star 還在推理期展現出了驚人的算力轉化率。

面對極其復雜的科學問題，傳統的暴力采樣（Brute-force）或盲目的 Prompting 會迅速撞上「復雜性高墻」，此時給予再多的推理算力（例如讓模型盲猜 1000 次）也無濟于事，成功率依然趨近于零。

而基于 MOOSE-Star 框架，得益于分層搜索與容錯組合機制，隨著該研究在推理期投入更多的計算資源（Compute，例如延展更深的邏輯搜索樹、生成并評估更多的候選分支），模型產出高質量、創新性科學假設的成功率，呈現出極其穩定且持續的增長。

暴力 sampling 對 P (h|b) 失效

Train-time Scaling Law

Test-time Scaling Law

4. 誠意開源：3.8 萬卡時煉成的 TOMATO-Star 數據套件

為了支撐起這套龐大框架的驗證與訓練，數據是繞不過去的坎。

為此，該研究燒了約 38,400 個 A800 GPU 小時，對 108,717 篇近年來的高質量真實論文進行了極其精細的反向拆解，重構了從背景知識到科學假設的完整推導鏈路，構建了包含十萬級樣本的 TOMATO-Star 數據套件。

目前，這套十萬級的數據集、完整的訓練代碼，以及微調后的系列模型已經全部開源！

團隊非常期待這項工作能為整個 AI4Science 社區提供一個新的基座視角。如果大家對這個方向感興趣，或者正在探索 LLM 的復雜推理機制，歡迎來 GitHub Repo 體驗和交流！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.