網易首頁 > 網易號 > 正文申請入駐

兩個半球：Transformer、Diffusion 與智能

2026-04-22 23:36:55　來源: 老馮云數

北京舉報

分享至

最近朋友寫了一篇文章，《》。引發了我與 Claude 的多輪對話思考，將其整理為蘇格拉底式問答。

語言是地基，視覺是外掛？

問：現在行業在爭論一件事：多模態 AI 的未來，到底是語言為主，還是視覺為主？你怎么看？

答：在回答之前，我想先問你：你為什么覺得必須有一個“為主”？

問：因為總得有個地基吧。房子總要建在什么東西上面。

答：這正是我想追問的。“地基”是一個隱喻。你有沒有想過，這個隱喻本身可能就在誤導我們？

問：怎么說？

答：你看語言和視覺這兩樣東西。它們在人類身上是怎么共存的？是語言建立在視覺之上嗎？還是視覺是語言的附屬？

問：好像都不是。它們是并列的。

答：那如果我們看得更仔細一點。你閉上眼睛，想一幅畫。你是怎么想的？

問：就是……想象出來。

答：是從左上角第一筆開始，一筆一筆往右推的嗎？

問：不是。更像是先有一個整體的感覺、一個調性、一個氛圍，然后細節慢慢浮出來。

答：好。現在再想一下：你怎么“想”一段論證？

問：那就完全不一樣了。一步推一步，前提推出結論。順序錯了，整個論證就塌了。

答：所以你剛才做了兩件事：一件是連續的、并行的、整體先于局部的思考，另一件是離散的、序列的、局部構成整體的思考。

問：確實。

答：這兩件事，可能根本不是同一種東西。

Transformer 與 Diffusion

問：那跟 AI 有什么關系？

答：這里有個有意思的巧合。這幾年 AI 圈最成功的兩種架構是什么？

問：Transformer 和 Diffusion。

答：對。現在請你想一想，Transformer 在做什么？

問：預測下一個 token。

答：一步一步預測？

問：對，自回歸。

答：那 Diffusion 呢？

問：從噪聲里，整張圖一起演化、一起細化。

答：你發現什么沒有？

問：這不就是我剛才說的那兩種思考方式嗎？

答：對。Transformer 是離散、序列、符號的；Diffusion 是連續、并行、場態的。這不是巧合。這是兩種在數學上就不兼容的生成范式，恰好對應了兩種在認知上就不兼容的思考方式。

問：所以 Transformer 擅長語言，Diffusion 擅長視覺，就是這個原因？

答：比這更深一點。不是語言與視覺的差別，而是符號與場態的差別。 語言恰好是符號信號，圖像恰好是場態信號。真正的分野不在模態，而在計算范式。

不要合并，要保持張力

問：那你是不是在說：下一代 AI 應該把這兩個架構合起來？

答：我想反問：你見過物理學家把波和粒子合起來嗎？

問：沒有。

答：他們怎么處理波粒二象性？

問：讓兩套數學框架并存。描述同一個現象，必須同時保留兩套，不能合并。

答：對。因為真相就是兩套都成立，而且互相不可化約。

問：你的意思是智能也這樣？

答：我覺得是。用純符號系統描述智能，會漏掉場態的那一半；用純場態系統描述，又會漏掉符號的那一半。兩套必須并存，而且必須保持互相的張力。

MoE 不是左右腦

問：如果是這樣，那 MoE 算不算就是在做這件事？畢竟 MoE 就是多個專家并存。

答：好問題。我反問你：今天的 MoE 里，不同專家的架構是一樣的，還是不一樣的？

問：一樣的。Mixtral、DeepSeek 這些，所有專家都是同一種 FFN，只是參數不同。

答：那你覺得這對應大腦里的什么？左右腦，還是別的？

問：好像不是左右腦。左右腦是結構上就不一樣的。

答：對。MoE 的專家之間的“專業化”，是同一種結構在訓練中分化出的不同用途。這不是左右腦，這是一百個左腦在分工。

問：那它對應大腦里什么？

答：皮層柱。哺乳動物大腦皮層的重復單元：結構高度相似，功能通過學習分化。大腦真正的組織結構是半球級異質，加皮層柱級同質。今天的 MoE 只做對了第二半。

分化依賴通信受限

問：那只要把 MoE 做成異質的就行了？比如一半專家是 Transformer，一半是 Diffusion？

答：這方向對。但我想先問你一個更基礎的問題：為什么大腦的左右半球能保持分化？

問：因為它們功能不同。

答：但功能不同是結果，不是原因。它們一開始不是就分化的。是什么讓這種分化穩定下來，沒有塌縮成同質系統的？

問：胼胝體？

答：再想。胼胝體做了什么？

問：連接兩個半球。

答：連接得充分嗎？

問：好像不是很充分。胼胝體的帶寬其實有限，而且大多數連接是抑制性的。

答：那你覺得這說明什么？

問：大腦特意限制了兩個半球之間的通信？

答：Nature Communications 2019 年的全腦側化圖譜給出了一個很明確的觀察：腦區之間越是功能分化，通過胼胝體的連接反而越弱。 這個發現支持一個叫“半球間獨立假說”的理論。

問：這是反直覺的。

答：對。分化依賴于通信受限。 如果兩個半球完全連通，它們會塌縮成一個同質系統，反而失去分化的優勢。

更緊密的溝通，可能破壞分化

問：那這對 MoE 意味著什么？

答：你觀察一下今天 MoE 研究在追求什么？Top-2 routing、shared experts、soft routing、load balancing……所有這些改進都在做同一件事：降低專家之間的隔離，讓信息更自由地流動。

問：等等。

答：對。

問：這正好是在破壞分化的條件？

答：是。行業在用“更緊密的溝通”追求 scaling 效率，但真正的異質分化要求“更難的溝通”。這兩個方向不是漸變的，而是相反的。

問：所以今天的 MoE 架構不可能自發演化出左右腦？

答：它的設計機制本身就在對抗分化。要長出真正的半球，必須主動設計隔離，而不是被動追求融合。

稀缺的是受控異質性

問：那下一代 SOTA 應該長什么樣？

答：我先問你，兩個半球夠嗎？為什么不是十個？

問：更多不是更好嗎？

答：你見過有九個腦的生物嗎？

問：章魚？

答：對。章魚有一個中央腦和八條腕各自的神經節。它的智能有什么特點？

問：它極其擅長并行的空間和觸覺任務，但沒有抽象推理，也沒有語言。

答：這說明什么？

問：半球多了，協調成本也漲了。異質性帶來的收益被瓶頸吃掉了。

答：對。脊椎動物選了“二”不是偶然，它很可能是對稱性和最小必要分化之間的 Pareto 最優。二是最低必要分化，四可能已經接近臨界。稀缺的不是異質性，是受控的異質性。

兩種知識：Episteme 與 Metis

問：好，假設我們有一個 Transformer 半球和一個 Diffusion 半球，通過一個受限 bridge 連接。問題是：這兩個半球到底在做什么不同的事？

答：這正是我想和你一起走到的地方。我問你：你“知道”一件事，可能有幾種方式？

問：我能想到兩種。一種是我能說出來的，比如“水在一百度沸騰”。一種是我知道但說不出來的，比如我知道這段代碼有 bug，但我說不清為什么。

答：對。哲學里有兩個古老的詞：episteme 和 metis。Episteme 是可陳述的、普遍的、關于“為什么”的知識。Metis 是不可陳述的、情境的、關于“如何”的智慧。

問：聽起來就是顯性知識和默會知識。

答：對。Michael Polanyi 有一句話：“我們知道的，比我們能說出來的多。” 他的判斷更狠：所有知識要么是默會知識，要么根植于默會知識。顯性知識只是默會知識被擠進語言框架之后的殘影。

路徑與地形

問：這和 Transformer、Diffusion 有什么關系？

答：你想一下。Transformer 學的是什么？

問：條件概率鏈。每一步的決策都是顯式的、可追溯的、可以被 chain-of-thought 展開的。

答：所以 Transformer 學的是路徑。從這里如何到那里。

問：Diffusion 呢？

答：Diffusion 學的是 score function，對數概率梯度。這個對象有一個非常特殊的性質：它不是關于“如何推理”的，它是關于“什么是合理的”的。

問：所以它學的是？

答：地形。整個概率空間的形狀。哪里是山峰，哪里是山谷，坡度朝向哪里。

問：等一下。一個專家看棋盤的直覺……

答：你說下去。

問：就是在感覺這個局面在“合理棋局分布”里處于什么位置。他不是在推理路徑，他是在感覺地形。

答：對。這是 score function 的現象學版本。Diffusion 模型學的那類對象，和默會知識的結構是同構的。

理解不等于解釋

問：那是不是可以說，Diffusion 本質上就是沒法“理解”的，只能“直覺”？

答：我想在這里停一下，因為這個判斷需要被切得更細。取決于“理解”是什么意思。

問：什么意思？

答：如果“理解”指的是能給出顯式的推理鏈、能回答“為什么”，那么是的，Diffusion 做不到。它的生成過程里就不存在“因為”這種結構。

問：那如果“理解”指的是別的意思呢？

答：如果“理解”指的是掌握一個領域的內部結構，能區分合理與不合理，能在未見過的情境里做出正確判斷……

問：……

答：那么 Diffusion 恰恰是更深意義上的理解。

問：你是在說……

答：我想問你一個問題。一個真正懂物理的人，是能背出所有公式的人，還是看到一個物理情境立刻感覺到“這里不對”的人？

問：后者。

答：一個真正懂代碼的人，是能解釋每一行的人，還是看到一段代碼立刻嗅到“這里有 bug”的人？

問：后者。

答：這些人被問到“你為什么這么判斷”的時候，很多時候給不出讓人滿意的答案。他們說“就是感覺”、“說不清但我知道”。

問：你的意思是……

答：人類最深的理解，往往恰恰是不可陳述的。 這不是理解的缺陷，是理解的頂點。

問：那我們平時說的“解釋”、“理解”……

答：今天整個 AI 行業把“理解”默認等同于“能解釋”。這可能本身就是一個范疇錯誤。

Benchmark 的盲區

問：這讓我想到一件事。今天所有的 benchmark 都在測什么？

答：你說。

問：都是有標準答案的題。MMLU、GSM8K、HumanEval……全都是“能不能答對”。

答：那它們測的是 episteme，還是 metis？

問：全都是 episteme。

答：所以當你說“LLM 在 benchmark 上接近人類專家”的時候，你真正在說什么？

問：它在可陳述的那一半知識上接近人類專家。

答：而人類專家真正讓他成為專家的那一半呢？

問：沒有被測。也沒有被訓練。

答：這可能就是為什么 scaling 曲線在走平的一個原因。不是數據不夠，不是算力不夠，而是架構維度不夠。我們一直在一個維度上做到極致，但人類智能的另一個維度，在今天的架構里根本沒有容器去承載。

轉化本身，就是智能的核心動作

問：那下一代突破會是什么？

答：我不會假裝我知道答案。但我有一個猜測：它會出現在“雙向轉化”被工程化之后。

問：怎么講？

答：今天的 Chain-of-Thought 是單向的：從 LLM 擠出更多推理步驟，但始終在 episteme 維度內部打轉。真正重要的方向，可能是反向 CoT：如何讓一個 Diffusion-like 的場態被激發之后，把它的直覺“翻譯”成可以被 Transformer 使用的顯性結構。

問：從地形到路徑？

答：對。從默會到顯性是“表達”，從顯性到默會是“內化”。轉化本身，就是智能的核心動作。

問：一個專家是怎么成為專家的……

答：正是這兩個方向反復循環的結果。初學者靠顯性規則，高手能把規則內化成直覺，大師在直覺和規則之間自由切換。這不是兩個模塊并列的靜態結構，而是一個動力系統。

胼胝體不是連接，是邊界

問：所以回到最開始的問題：語言是地基嗎？視覺是地基嗎？

答：你覺得呢？

問：都不是。地基這個問法就錯了。

答：那真正的底層是什么？

問：兩種不兼容的計算范式，通過一個有限帶寬的瓶頸，互相校準。大腦用了幾億年進化出這個結構。

答：更進一步，這兩種范式對應兩種知識。一種可陳述，一種不可陳述。而今天的 AI 行業……

問：繼承了一個只看重可陳述知識的傳統。從柏拉圖、亞里士多德開始的。

答：對。Transformer 是 episteme 的技術化身。一切都要 token 化，一切都要可陳述，一切都要能被 chain-of-thought 展開。

問：那 Diffusion 是什么？

答：Metis 的架構。那個被西方理性主義傳統壓抑了兩千年的另一半，默會的、情境的、不可言說的那一半，不是智能的裝飾，是智能的底座。

問：如果讓你用一句話總結今天的討論，你會怎么說？

答：我們對智能的很多默認假設，可能都需要重新想一遍。

問：比如？

答：“地基”這個隱喻。“理解”這個概念。“scale 就夠了”這個信仰。“越融合越好”這個直覺。

問：……

答：真正的智能，不是從融合里長出來的。它是從有紀律的分化里長出來的。

胼胝體不是連接，是邊界。

本篇為上半部分 —— 右腦命題

下半部分 —— 小腦命題，敬請期待。

數據庫老司機

點一個關注 ??，精彩不迷路

對 PostgreSQL， Pigsty，下云，AI 感興趣的朋友

歡迎加入 PGSQL x Pigsty 交流群 QQ 619377403

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.