无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

字節Seed用化學思想搞AI,把DeepSeek-R1的腦回路拆成了分子結構

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

字節Seed都開始用化學思想搞大模型了——

深度推理是共價鍵、自我反思是氫鍵、自我探索是范德華力?!



傳統的大模型長思維鏈推理基本把AI的思考過程等同于線性結構。

但很多情況下,后續的一個關鍵結論,可能需要回過頭去驗證早早提出的假設。

CoT把這種非線性的依賴關系忽略了。

字節Seed在論文《The Molecular Structure of Thought》中首次給大模型的長鏈思維定義了分子式結構。



在這種分子拓撲中,三種鍵是怎么相互配合的?

好的推理像分子結構

團隊把DeepSeek-R1、gpt-OSS等強推理模型的長鏈思維拆成一步一步的,然后給每一步之間的“跳躍”打上標簽。

打完標簽發現,所有有效的長鏈思維里,其實就三種基礎動作來回組合。

第一種叫深度推理,像共價鍵一樣結實。

通俗來說就是類似“因為A所以B,因為B所以C”的硬邏輯推進。

團隊在語義空間里做了一個很形象的量化分析,把模型的每一步思考都當成一個點,看這些點最后會散成多大一個圈。

圈子越小,說明模型越沒跑題,思考越聚焦。

結果發現,加上深度推理之后,這個散點圈直接縮水22%。

深度推理確實起到了收束雜念、鎖定核心邏輯的關鍵作用。



第二種叫自我反思,像氫鍵一樣有彈性但穩定。

類似于“等等,我剛才那步是不是想錯了”“讓我重新檢查一下前面的假設”,能把后面的思考拐回來跟前面的節點呼應上,形成一種折疊感。

團隊測了模型自我反思時的思維軌跡,把每一步思考都看成語義空間里的一個點,然后計算反思時會跳回多遠、落在哪里。

發現81.72%的反思步驟,都會精準落回之前已經形成的靠譜思路區域里。

還對比了反思前后的思維范圍,反思前,語義空間體積是35.2,反思后,直接壓縮到31.2。

再看聚類結果就更清楚了,反思之后,同一類正確思路的點會緊緊抱團,而那些零散、跑偏的分支會被自動推開。

也就是說,自我反思氫鍵能把靠譜邏輯揉得更緊實、把跑偏想法篩出去、穩住整個推理大局,讓長鏈思考不再松散混亂。



第三種叫自我探索,像范德華力一樣弱,但覆蓋面廣。

這個就類似于“要不咱們試試這個角度”“有沒有另一種可能性”,在語義空間里找新的解題路徑。

量化分析顯示,加上探索行為之后,模型在語義空間里的思維覆蓋范圍能從23.95擴大到29.22。

雖然思路一打開穩定性就會下降,容易跑偏想歪,但能讓模型跳出死胡同,不卡在局部最優解里,真正找到全新的解題路線。

研究發現,所有強推理模型的三種思維行為比例和轉換規律都高度一致,相關性超過0.9,說明有效長鏈推理存在通用的穩定拓撲結構。



你可能覺得“共價鍵”“氫鍵”只是個比喻,但論文發現,這個比喻背后藏著嚴格的數學對應。

在Transformer里,注意力權重的計算方式長這樣:



眼熟嗎?這和統計力學里的玻爾茲曼分布一模一樣:



如果把負注意力分數看作能量,那么注意力權重就是模型在語義空間里按“能量”高低選擇路徑的概率就是能量越低,被選中的概率越高

論文進一步分析了三種行為對應的“注意力能量”。

  • 深度推理通常發生在相鄰步驟之間,能量最低;
  • 自我反思會跳回較遠的步驟,能量中等;
  • 自我探索跳得更遠,能量最高.

這就解釋了為什么強推理模型的三種鍵比例如此穩定。

因為模型的注意力機制本身就在追求最低能量的推理路徑,而深度推理、反思、探索正好對應了不同距離下的能量層級。

語義同分異構體和智能熵減

接著團隊還拋出了語義同分異構體的概念。

這詞兒是借的化學,同樣的分子式,原子連接方式不同,就能搞出性質完全不同的物質。

放到推理里就是,同樣的題目,同樣的概念點,用不同的”化學鍵“組合去解,出來的推理鏈條可以完全不一樣,但都能解對。



但不是所有異構體都適合拿來教模型。

這里就要引入一個關鍵概念熵減

在熱力學里,孤立系統總是自發走向混亂(熵增),而一個有效的長鏈推理過程,本質上就是在語義空間里不斷降低不確定性——

從一堆可能的方向中,逐步收斂到唯一正確的答案。這個過程就是“熵減”。

而“注意力能量”機制,正是模型實現熵減的工具。

模型的注意力天然偏好能量更低的路徑。

當深度推理(低能量)被反復選中,反思(中等能量)把前后邏輯折疊起來,探索(高能量)偶爾探路但不喧賓奪主,整個系統的“推理熵”就會快速下降,邏輯火速收斂。

這如論文里說的,只有那些能推動熵快速降低的“化學鍵”組合,才是模型真正能學會、能持續進化的穩定態。

這在實驗中有個很典型的現象,從R1和OSS兩個不同強推理模型中蒸餾出的推理軌跡,語義層面的內容相似度高達95%,但混在一起訓練,模型反而崩潰了。

這說明,長鏈推理的關鍵是思路結構必須穩定、統一,模型才能學得會。

MoLE-Syn:從零合成穩定推理結構

發現問題就要解決問題。

基于這一整套發現,團隊搞了個叫MoLE-Syn的方法,來從零合成穩定的推理結構。

具體操作就兩步。

第一步,從強推理模型(比如R1、QwQ、gpt-OSS)的推理鏈里,抽出一張行為轉移概率圖。

這張圖里每個節點是一種推理行為(化學鍵),每條邊是從一個行為跳到另一個行為的概率。



第二步,拿著這張圖,讓普通的指令模型照著圖上畫的概率去生成推理鏈。

用這個方法從零合成的訓練數據,喂給Llama或者Qwen,效果逼近直接蒸餾R1的水平。



而且這么做有一個大好處就是成本低。只要拿到那張行為轉移圖,普通模型就能自己生產合格的長鏈推理數據。

團隊把用MoLE-Syn初始化過的模型拿去做強化學習,發現跑起來還特別穩。

相比直接用蒸餾數據初始化的模型,MoLE-Syn版的在RL過程中收益持續增長,震蕩也小得多。



這說明一開始植入的思維結構夠穩,后面的強化學習就不會出現邏輯偏移。

這項研究的負責人為字節Seed算法專家黃文灝,曾在微軟亞洲研究院擔任研究員。

第一作者是哈爾濱工業大學博士、字節Seed實習研究員陳麒光

合作單位還包括北京大學、2077AI Foundation、南京大學、M-A-P、中南大學。

不得不說,這波操作有點當年薛定諤拿物理學公式推生物學那味兒了。

給大模型推理這個卷得飛起的領域,開了個挺清爽的新腦洞。

論文地址:https://arxiv.org/abs/2601.06002

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鵝腿阿姨用鴨腿翻車成就人大食堂主任:冤屈終于洗白,只賣真鵝腿

鵝腿阿姨用鴨腿翻車成就人大食堂主任:冤屈終于洗白,只賣真鵝腿

蜜桔娛樂
2026-06-11 11:06:32
以色列命令軍隊準備對伊朗采取獨立行動

以色列命令軍隊準備對伊朗采取獨立行動

桂系007
2026-06-12 23:36:06
29分逆轉奪冠?尼克斯告訴你爭冠定義正在悄悄改變

29分逆轉奪冠?尼克斯告訴你爭冠定義正在悄悄改變

溫柔且自由
2026-06-13 00:37:44
美俄都在盼中國倒下,全球卻沒人料到,中國握住了獨一無二的底牌

美俄都在盼中國倒下,全球卻沒人料到,中國握住了獨一無二的底牌

深析古今
2026-06-12 14:51:36
布倫特原油跌幅擴大至4%

布倫特原油跌幅擴大至4%

財聯社
2026-06-12 16:13:04
事實證明,已經“消失”7年的周立波,早已走上一條不歸路

事實證明,已經“消失”7年的周立波,早已走上一條不歸路

素衣讀史
2026-04-16 19:41:20
金龜子親口承認:退休金一個月8900,在北京真的不夠花

金龜子親口承認:退休金一個月8900,在北京真的不夠花

西樓知趣雜談
2026-06-10 17:48:35
頂級牛散葛衛東罕見發聲:為什么股價跌到全部股東都套牢還會跌?

頂級牛散葛衛東罕見發聲:為什么股價跌到全部股東都套牢還會跌?

風風順
2026-05-25 03:25:03
尹錫悅涉“無人機事件”一案一審被判有期徒刑30年

尹錫悅涉“無人機事件”一案一審被判有期徒刑30年

界面新聞
2026-06-12 10:02:05
中美俄調動10萬兵力需要多久?俄羅斯3天,美國1天,中國呢?

中美俄調動10萬兵力需要多久?俄羅斯3天,美國1天,中國呢?

蜉蝣說
2026-06-11 10:15:39
12秒75!男子110米欄新世界紀錄誕生,塵封14年神跡被打破!

12秒75!男子110米欄新世界紀錄誕生,塵封14年神跡被打破!

馬拉松跑步健身
2026-06-11 22:18:50
鬼才導演新片票房遇冷 1.15億成本回本難

鬼才導演新片票房遇冷 1.15億成本回本難

自愈小日子
2026-06-13 00:18:06
都說董潔眼瞎出軌王大治,殊不知,王大治除了外貌,別的全是頂配

都說董潔眼瞎出軌王大治,殊不知,王大治除了外貌,別的全是頂配

軒逸阿II
2026-06-12 15:51:25
7死17傷,廣西桂林發生連續大爆炸?原因至今是謎

7死17傷,廣西桂林發生連續大爆炸?原因至今是謎

李將平老師
2026-06-12 08:19:04
遺憾!日本核心因傷退出世界杯!并直接宣布從國家隊退役

遺憾!日本核心因傷退出世界杯!并直接宣布從國家隊退役

格斗社
2026-06-12 06:13:57
溫州又多一所新初中!校長是他

溫州又多一所新初中!校長是他

溫百君
2026-06-12 20:53:26
北京今天傍晚至明天將有明顯雷陣雨 雷雨時陣風七級以上

北京今天傍晚至明天將有明顯雷陣雨 雷雨時陣風七級以上

北青網-北京青年報
2026-06-12 07:35:05
女總裁破產那天,我給爸打了個電話:我看上老板了,給點追妻基金

女總裁破產那天,我給爸打了個電話:我看上老板了,給點追妻基金

千秋文化
2026-06-09 22:53:05
充電寶提前宣判“死刑” 安克CEO:充電寶馬上就要消失了!

充電寶提前宣判“死刑” 安克CEO:充電寶馬上就要消失了!

泡泡網
2026-06-12 18:24:29
世界波!韓國急速扳平,黃仁范一腳扣過3人,破12年魔咒

世界波!韓國急速扳平,黃仁范一腳扣過3人,破12年魔咒

奧拜爾
2026-06-12 11:38:40
2026-06-13 00:59:01
量子位 incentive-icons
量子位
追蹤人工智能動態
12784文章數 176492關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

藝術
數碼
教育
房產
公開課

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

數碼要聞

英國監管機構警告:亞馬遜、eBay仍在售可能致命的假冒手機充電器

教育要聞

家長成了“瘋女人”,被女兒作業搞崩潰,網友:太真實

房產要聞

海南最賺錢行業曝光!最快4年半,??谌钯I三房!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版