无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

字節Seed用化學思想搞AI，把DeepSeek-R1的腦回路拆成了分子結構

2026-02-24 15:21:52　來源: 量子位

北京舉報

0

分享至

聞樂發自凹非寺
量子位 | 公眾號 QbitAI

字節Seed都開始用化學思想搞大模型了——

深度推理是共價鍵、自我反思是氫鍵、自我探索是范德華力？！

傳統的大模型長思維鏈推理基本把AI的思考過程等同于線性結構。

但很多情況下，后續的一個關鍵結論，可能需要回過頭去驗證早早提出的假設。

CoT把這種非線性的依賴關系忽略了。

字節Seed在論文《The Molecular Structure of Thought》中首次給大模型的長鏈思維定義了分子式結構。

在這種分子拓撲中，三種鍵是怎么相互配合的？

好的推理像分子結構

團隊把DeepSeek-R1、gpt-OSS等強推理模型的長鏈思維拆成一步一步的，然后給每一步之間的“跳躍”打上標簽。

打完標簽發現，所有有效的長鏈思維里，其實就三種基礎動作來回組合。

第一種叫深度推理，像共價鍵一樣結實。

通俗來說就是類似“因為A所以B，因為B所以C”的硬邏輯推進。

團隊在語義空間里做了一個很形象的量化分析，把模型的每一步思考都當成一個點，看這些點最后會散成多大一個圈。

圈子越小，說明模型越沒跑題，思考越聚焦。

結果發現，加上深度推理之后，這個散點圈直接縮水22%。

深度推理確實起到了收束雜念、鎖定核心邏輯的關鍵作用。

第二種叫自我反思，像氫鍵一樣有彈性但穩定。

類似于“等等，我剛才那步是不是想錯了”“讓我重新檢查一下前面的假設”，能把后面的思考拐回來跟前面的節點呼應上，形成一種折疊感。

團隊測了模型自我反思時的思維軌跡，把每一步思考都看成語義空間里的一個點，然后計算反思時會跳回多遠、落在哪里。

發現81.72%的反思步驟，都會精準落回之前已經形成的靠譜思路區域里。

還對比了反思前后的思維范圍，反思前，語義空間體積是35.2，反思后，直接壓縮到31.2。

再看聚類結果就更清楚了，反思之后，同一類正確思路的點會緊緊抱團，而那些零散、跑偏的分支會被自動推開。

也就是說，自我反思氫鍵能把靠譜邏輯揉得更緊實、把跑偏想法篩出去、穩住整個推理大局，讓長鏈思考不再松散混亂。

第三種叫自我探索，像范德華力一樣弱，但覆蓋面廣。

這個就類似于“要不咱們試試這個角度”“有沒有另一種可能性”，在語義空間里找新的解題路徑。

量化分析顯示，加上探索行為之后，模型在語義空間里的思維覆蓋范圍能從23.95擴大到29.22。

雖然思路一打開穩定性就會下降，容易跑偏想歪，但能讓模型跳出死胡同，不卡在局部最優解里，真正找到全新的解題路線。

研究發現，所有強推理模型的三種思維行為比例和轉換規律都高度一致，相關性超過0.9，說明有效長鏈推理存在通用的穩定拓撲結構。

你可能覺得“共價鍵”“氫鍵”只是個比喻，但論文發現，這個比喻背后藏著嚴格的數學對應。

在Transformer里，注意力權重的計算方式長這樣：

眼熟嗎？這和統計力學里的玻爾茲曼分布一模一樣：

如果把負注意力分數看作能量，那么注意力權重就是模型在語義空間里按“能量”高低選擇路徑的概率就是能量越低，被選中的概率越高

論文進一步分析了三種行為對應的“注意力能量”。

深度推理通常發生在相鄰步驟之間，能量最低;
自我反思會跳回較遠的步驟，能量中等;
自我探索跳得更遠，能量最高.

這就解釋了為什么強推理模型的三種鍵比例如此穩定。

因為模型的注意力機制本身就在追求最低能量的推理路徑，而深度推理、反思、探索正好對應了不同距離下的能量層級。

語義同分異構體和智能熵減

接著團隊還拋出了語義同分異構體的概念。

這詞兒是借的化學，同樣的分子式，原子連接方式不同，就能搞出性質完全不同的物質。

放到推理里就是，同樣的題目，同樣的概念點，用不同的”化學鍵“組合去解，出來的推理鏈條可以完全不一樣，但都能解對。

但不是所有異構體都適合拿來教模型。

這里就要引入一個關鍵概念熵減

在熱力學里，孤立系統總是自發走向混亂（熵增），而一個有效的長鏈推理過程，本質上就是在語義空間里不斷降低不確定性——

從一堆可能的方向中，逐步收斂到唯一正確的答案。這個過程就是“熵減”。

而“注意力能量”機制，正是模型實現熵減的工具。

模型的注意力天然偏好能量更低的路徑。

當深度推理（低能量）被反復選中，反思（中等能量）把前后邏輯折疊起來，探索（高能量）偶爾探路但不喧賓奪主，整個系統的“推理熵”就會快速下降，邏輯火速收斂。

這如論文里說的，只有那些能推動熵快速降低的“化學鍵”組合，才是模型真正能學會、能持續進化的穩定態。

這在實驗中有個很典型的現象，從R1和OSS兩個不同強推理模型中蒸餾出的推理軌跡，語義層面的內容相似度高達95%，但混在一起訓練，模型反而崩潰了。

這說明，長鏈推理的關鍵是思路結構必須穩定、統一，模型才能學得會。

MoLE-Syn：從零合成穩定推理結構

發現問題就要解決問題。

基于這一整套發現，團隊搞了個叫MoLE-Syn的方法，來從零合成穩定的推理結構。

具體操作就兩步。

第一步，從強推理模型（比如R1、QwQ、gpt-OSS）的推理鏈里，抽出一張行為轉移概率圖。

這張圖里每個節點是一種推理行為（化學鍵），每條邊是從一個行為跳到另一個行為的概率。

第二步，拿著這張圖，讓普通的指令模型照著圖上畫的概率去生成推理鏈。

用這個方法從零合成的訓練數據，喂給Llama或者Qwen，效果逼近直接蒸餾R1的水平。

而且這么做有一個大好處就是成本低。只要拿到那張行為轉移圖，普通模型就能自己生產合格的長鏈推理數據。

團隊把用MoLE-Syn初始化過的模型拿去做強化學習，發現跑起來還特別穩。

相比直接用蒸餾數據初始化的模型，MoLE-Syn版的在RL過程中收益持續增長，震蕩也小得多。

這說明一開始植入的思維結構夠穩，后面的強化學習就不會出現邏輯偏移。

這項研究的負責人為字節Seed算法專家黃文灝，曾在微軟亞洲研究院擔任研究員。

第一作者是哈爾濱工業大學博士、字節Seed實習研究員陳麒光

合作單位還包括北京大學、2077AI Foundation、南京大學、M-A-P、中南大學。

不得不說，這波操作有點當年薛定諤拿物理學公式推生物學那味兒了。

給大模型推理這個卷得飛起的領域，開了個挺清爽的新腦洞。

論文地址：https://arxiv.org/abs/2601.06002

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛剛，地表最強Claude 5被攻破！

新智元 2026-06-12 12:24:23
30 跟貼 30
19歲，常青藤輟學，這群中國年輕人重構了AI記憶

量子位 2026-04-04 16:21:02
0 跟貼 0

“智能體最后的考試”，Fable 5竟然不敵GPT 5.5

量子位 2026-06-12 12:10:09
1 跟貼 1

入圍CVPR 2026最佳論文決選，ViT3突破Transformer復雜度瓶頸

機器之心Pro 2026-06-12 17:09:54
0 跟貼 0
4位AI大牛對話50分鐘！編程是AI勝負手、Claude“神話”模型是自然結果、降token是正確的

智東西 2026-06-12 14:52:40
0 跟貼 0

Transformer解決計算問題？人大團隊指出上限取決于上下文管理

機器之心Pro 2026-06-12 12:58:06
0 跟貼 0

北大聯手讓AI跨界「造物」，業界最強復合纖維誕生！

新智元 2026-06-12 10:10:54
1 跟貼 1
OpenAI、Anthropic急了？外媒曝創企轉向中國更便宜開源模型，特定場景成本能降95%

智東西 2026-06-12 23:21:20
0 跟貼 0

2026智源大會：一場技術硬核的AI年度盛會

機器之心Pro 2026-06-12 22:14:15
0 跟貼 0
微軟不敢給員工用的AI，轉頭賣給你！法務卡住最強Claude

新智元 2026-06-13 00:19:46
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
量子糾纏，看完終于理解了

陽光男孩彬彬 2026-06-08 10:00:25
16 跟貼 16
皇馬官方宣布穆里尼奧出任主教練

央視新聞客戶端 2026-06-12 02:39:10
2419 跟貼 2419
共價鍵成鍵三要素解析

宗老師化學知識學習 2026-06-10 22:15:18
0 跟貼 0
485數學聯賽；2015-6數的性質與規律利用3,5的倍數求解

我服子佩 2026-06-10 21:21:30
1 跟貼 1
燃燒的熱能之謎：從化學鍵到能量轉化

宗老師化學知識學習 2026-06-11 21:25:41
0 跟貼 0
四種常見的共價化合物及其特點

宗老師化學知識學習 2026-06-10 21:53:58
0 跟貼 0
從高考第一，看見最懂中國的全國產底座大模型

中國日報網 2026-06-12 22:03:23
0 跟貼 0
菲防長被中方制裁：曾現場督陣菲軍方強扣中國公民

看看新聞Knews 2026-06-12 00:58:56
426 跟貼 426
高鐵行李架現白色寵物蛇列車長僅用塑料袋徒手拿捏

極目新聞 2026-06-12 10:06:52
1022 跟貼 1022
剛剛，人類歷史上首位萬億美元富豪誕生！

每日經濟新聞 2026-06-12 22:32:06
757 跟貼 757
《中國人的性格》第八章油滑的才能

我讀我在 2026-06-12 08:49:51
1 跟貼 1
核磁共振儀為何嚴禁金屬靠近？

胖爺科技 2026-06-11 18:16:58
4 跟貼 4
找規律，求5+11＝？

公考客棧店小二 2026-06-11 18:00:00
0 跟貼 0
找規律填數，怎么辦怎么辦？家長都開始焦慮了

公考客棧店小二 2026-06-10 12:00:00
0 跟貼 0
美擬撤走北約歐洲防務三分之一戰機

界面新聞 2026-06-12 13:06:43
1656 跟貼 1656
三年級找規律，6+3＝39，求9+2＝？

公考客棧店小二 2026-06-11 08:00:00
15 跟貼 15
左手華為守高端，右手字節攻主流：賽力斯的第二場豪賭

新浪財經 2026-06-12 09:13:29
0 跟貼 0
空間不是容器，而是量子糾纏織出來的幻覺

單推人六花 2026-06-11 00:19:41
0 跟貼 0
別人辦案靠推理，男主辦案靠套話，壞人自己把底褲都交代了

萌妹觀影 2026-06-11 10:57:10
1 跟貼 1
賽力斯、字節跳動聯合打造！賽豆汽車logo發布，和阿維塔很像嗎？

Hello吖小志 2026-06-10 03:04:30
0 跟貼 0
公開征求意見！廣州擬繼續在全市所有道路禁止機動車鳴喇叭

南方都市報 2026-06-12 19:04:34
93 跟貼 93
考生出考場心情就像化學反應

瀟湘晨報 2026-06-10 11:48:14
0 跟貼 0
"中醫匠人"賣課號稱"行走的CT" 自稱學技術可掙錢改命

新京報 2026-06-12 11:56:14
1245 跟貼 1245
AI預測世界杯大橫評：豆包靠玄學，千問看數據，deepseek選黑馬

雷科技 2026-06-12 11:36:56
13 跟貼 13
買了個汽車模型，居然有40邁的速度，這時候多么希望它變大！

能把人笑沒社 2026-06-12 16:03:33
1 跟貼 1
賽豆新品牌定了：賽力斯工廠、字節大模型和元戎智駕

蓋世汽車 2026-06-12 09:30:16
0 跟貼 0
“張雪機車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

極目新聞 2026-06-12 23:00:07
1 跟貼 1
10個很準的規律

淺沫沫 2026-06-08 21:57:09
0 跟貼 0

鵝腿阿姨用鴨腿翻車成就人大食堂主任：冤屈終于洗白，只賣真鵝腿

鵝腿阿姨用鴨腿翻車成就人大食堂主任：冤屈終于洗白，只賣真鵝腿

蜜桔娛樂

2026-06-11 11:06:32

以色列命令軍隊準備對伊朗采取獨立行動

以色列命令軍隊準備對伊朗采取獨立行動

桂系007

2026-06-12 23:36:06

29分逆轉奪冠？尼克斯告訴你爭冠定義正在悄悄改變

29分逆轉奪冠？尼克斯告訴你爭冠定義正在悄悄改變

溫柔且自由

2026-06-13 00:37:44

美俄都在盼中國倒下，全球卻沒人料到，中國握住了獨一無二的底牌

美俄都在盼中國倒下，全球卻沒人料到，中國握住了獨一無二的底牌

深析古今

2026-06-12 14:51:36

布倫特原油跌幅擴大至4%

財聯社

2026-06-12 16:13:04

事實證明，已經“消失”7年的周立波，早已走上一條不歸路

事實證明，已經“消失”7年的周立波，早已走上一條不歸路

素衣讀史

2026-04-16 19:41:20

金龜子親口承認：退休金一個月8900，在北京真的不夠花

金龜子親口承認：退休金一個月8900，在北京真的不夠花

西樓知趣雜談

2026-06-10 17:48:35

頂級牛散葛衛東罕見發聲：為什么股價跌到全部股東都套牢還會跌？

頂級牛散葛衛東罕見發聲：為什么股價跌到全部股東都套牢還會跌？

風風順

2026-05-25 03:25:03

尹錫悅涉“無人機事件”一案一審被判有期徒刑30年

尹錫悅涉“無人機事件”一案一審被判有期徒刑30年

界面新聞

2026-06-12 10:02:05

中美俄調動10萬兵力需要多久？俄羅斯3天，美國1天，中國呢？

中美俄調動10萬兵力需要多久？俄羅斯3天，美國1天，中國呢？

蜉蝣說

2026-06-11 10:15:39

12秒75！男子110米欄新世界紀錄誕生，塵封14年神跡被打破！

12秒75！男子110米欄新世界紀錄誕生，塵封14年神跡被打破！

馬拉松跑步健身

2026-06-11 22:18:50

鬼才導演新片票房遇冷 1.15億成本回本難

鬼才導演新片票房遇冷 1.15億成本回本難

自愈小日子

2026-06-13 00:18:06

都說董潔眼瞎出軌王大治，殊不知，王大治除了外貌，別的全是頂配

都說董潔眼瞎出軌王大治，殊不知，王大治除了外貌，別的全是頂配

軒逸阿II

2026-06-12 15:51:25

7死17傷，廣西桂林發生連續大爆炸？原因至今是謎

7死17傷，廣西桂林發生連續大爆炸？原因至今是謎

李將平老師

2026-06-12 08:19:04

遺憾！日本核心因傷退出世界杯！并直接宣布從國家隊退役

遺憾！日本核心因傷退出世界杯！并直接宣布從國家隊退役

格斗社

2026-06-12 06:13:57

溫州又多一所新初中！校長是他

溫百君

2026-06-12 20:53:26

北京今天傍晚至明天將有明顯雷陣雨雷雨時陣風七級以上

北京今天傍晚至明天將有明顯雷陣雨雷雨時陣風七級以上

北青網-北京青年報

2026-06-12 07:35:05

女總裁破產那天，我給爸打了個電話：我看上老板了，給點追妻基金

女總裁破產那天，我給爸打了個電話：我看上老板了，給點追妻基金

千秋文化

2026-06-09 22:53:05

充電寶提前宣判“死刑” 安克CEO：充電寶馬上就要消失了！

充電寶提前宣判“死刑” 安克CEO：充電寶馬上就要消失了！

泡泡網

2026-06-12 18:24:29

世界波！韓國急速扳平，黃仁范一腳扣過3人，破12年魔咒

世界波！韓國急速扳平，黃仁范一腳扣過3人，破12年魔咒

奧拜爾

2026-06-12 11:38:40

追蹤人工智能動態

12784文章數 176492關注度

往期回顧全部

科技要聞

剛剛，人類歷史上首位萬億美元富豪誕生！

頭條要聞

美加墨世界杯第二場比賽就現空座英媒：尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座英媒：尷尬

體育要聞

歐洲恐韓？肉德維德？

娛樂要聞

一天4個瓜，肖戰熱巴最意外

財經要聞

萬億美元順差背后，透露這些信號

汽車要聞

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

數碼

教育

房產

公開課

藝術要聞

砸了640億，再賠160億！沙特“The Line”項目徹底涼了？

數碼要聞

英國監管機構警告：亞馬遜、eBay仍在售可能致命的假冒手機充電器

教育要聞

家長成了“瘋女人”，被女兒作業搞崩潰，網友：太真實

房產要聞

海南最賺錢行業曝光！最快4年半，?？谌钯I三房！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版