最近朋友寫了一篇文章,《》。 引發了我與 Claude 的多輪對話思考,將其整理為蘇格拉底式問答。
語言是地基,視覺是外掛?
問:現在行業在爭論一件事:多模態 AI 的未來,到底是語言為主,還是視覺為主?你怎么看?
答:在回答之前,我想先問你:你為什么覺得必須有一個“為主”?
問:因為總得有個地基吧。房子總要建在什么東西上面。
答:這正是我想追問的。“地基”是一個隱喻。你有沒有想過,這個隱喻本身可能就在誤導我們?
問:怎么說?
答:你看語言和視覺這兩樣東西。它們在人類身上是怎么共存的?是語言建立在視覺之上嗎?還是視覺是語言的附屬?
問:好像都不是。它們是并列的。
答:那如果我們看得更仔細一點。你閉上眼睛,想一幅畫。你是怎么想的?
問:就是……想象出來。
答:是從左上角第一筆開始,一筆一筆往右推的嗎?
問:不是。更像是先有一個整體的感覺、一個調性、一個氛圍,然后細節慢慢浮出來。
答:好。現在再想一下:你怎么“想”一段論證?
問:那就完全不一樣了。一步推一步,前提推出結論。順序錯了,整個論證就塌了。
答:所以你剛才做了兩件事:一件是連續的、并行的、整體先于局部的思考,另一件是離散的、序列的、局部構成整體的思考。
問:確實。
答:這兩件事,可能根本不是同一種東西。
Transformer 與 Diffusion
問:那跟 AI 有什么關系?
答:這里有個有意思的巧合。這幾年 AI 圈最成功的兩種架構是什么?
問:Transformer 和 Diffusion。
答:對。現在請你想一想,Transformer 在做什么?
問:預測下一個 token。
答:一步一步預測?
問:對,自回歸。
答:那 Diffusion 呢?
問:從噪聲里,整張圖一起演化、一起細化。
答:你發現什么沒有?
問:這不就是我剛才說的那兩種思考方式嗎?
答:對。Transformer 是離散、序列、符號的;Diffusion 是連續、并行、場態的。這不是巧合。這是兩種在數學上就不兼容的生成范式,恰好對應了兩種在認知上就不兼容的思考方式。
問:所以 Transformer 擅長語言,Diffusion 擅長視覺,就是這個原因?
答:比這更深一點。不是語言與視覺的差別,而是符號與場態的差別。 語言恰好是符號信號,圖像恰好是場態信號。真正的分野不在模態,而在計算范式。
不要合并,要保持張力
問:那你是不是在說:下一代 AI 應該把這兩個架構合起來?
答:我想反問:你見過物理學家把波和粒子合起來嗎?
問:沒有。
答:他們怎么處理波粒二象性?
問:讓兩套數學框架并存。描述同一個現象,必須同時保留兩套,不能合并。
答:對。因為真相就是兩套都成立,而且互相不可化約。
問:你的意思是智能也這樣?
答:我覺得是。用純符號系統描述智能,會漏掉場態的那一半;用純場態系統描述,又會漏掉符號的那一半。兩套必須并存,而且必須保持互相的張力。
MoE 不是左右腦
問:如果是這樣,那 MoE 算不算就是在做這件事?畢竟 MoE 就是多個專家并存。
答:好問題。我反問你:今天的 MoE 里,不同專家的架構是一樣的,還是不一樣的?
問:一樣的。Mixtral、DeepSeek 這些,所有專家都是同一種 FFN,只是參數不同。
答:那你覺得這對應大腦里的什么?左右腦,還是別的?
問:好像不是左右腦。左右腦是結構上就不一樣的。
答:對。MoE 的專家之間的“專業化”,是同一種結構在訓練中分化出的不同用途。這不是左右腦,這是一百個左腦在分工。
問:那它對應大腦里什么?
答:皮層柱。哺乳動物大腦皮層的重復單元:結構高度相似,功能通過學習分化。大腦真正的組織結構是半球級異質,加皮層柱級同質。今天的 MoE 只做對了第二半。
分化依賴通信受限
問:那只要把 MoE 做成異質的就行了?比如一半專家是 Transformer,一半是 Diffusion?
答:這方向對。但我想先問你一個更基礎的問題:為什么大腦的左右半球能保持分化?
問:因為它們功能不同。
答:但功能不同是結果,不是原因。它們一開始不是就分化的。是什么讓這種分化穩定下來,沒有塌縮成同質系統的?
問:胼胝體?
答:再想。胼胝體做了什么?
問:連接兩個半球。
答:連接得充分嗎?
問:好像不是很充分。胼胝體的帶寬其實有限,而且大多數連接是抑制性的。
答:那你覺得這說明什么?
問:大腦特意限制了兩個半球之間的通信?
答:Nature Communications 2019 年的全腦側化圖譜給出了一個很明確的觀察:腦區之間越是功能分化,通過胼胝體的連接反而越弱。 這個發現支持一個叫“半球間獨立假說”的理論。
問:這是反直覺的。
答:對。分化依賴于通信受限。 如果兩個半球完全連通,它們會塌縮成一個同質系統,反而失去分化的優勢。
更緊密的溝通,可能破壞分化
問:那這對 MoE 意味著什么?
答:你觀察一下今天 MoE 研究在追求什么?Top-2 routing、shared experts、soft routing、load balancing……所有這些改進都在做同一件事:降低專家之間的隔離,讓信息更自由地流動。
問:等等。
答:對。
問:這正好是在破壞分化的條件?
答:是。行業在用“更緊密的溝通”追求 scaling 效率,但真正的異質分化要求“更難的溝通”。這兩個方向不是漸變的,而是相反的。
問:所以今天的 MoE 架構不可能自發演化出左右腦?
答:它的設計機制本身就在對抗分化。要長出真正的半球,必須主動設計隔離,而不是被動追求融合。
稀缺的是受控異質性
問:那下一代 SOTA 應該長什么樣?
答:我先問你,兩個半球夠嗎?為什么不是十個?
問:更多不是更好嗎?
答:你見過有九個腦的生物嗎?
問:章魚?
答:對。章魚有一個中央腦和八條腕各自的神經節。它的智能有什么特點?
問:它極其擅長并行的空間和觸覺任務,但沒有抽象推理,也沒有語言。
答:這說明什么?
問:半球多了,協調成本也漲了。異質性帶來的收益被瓶頸吃掉了。
答:對。脊椎動物選了“二”不是偶然,它很可能是對稱性和最小必要分化之間的 Pareto 最優。二是最低必要分化,四可能已經接近臨界。稀缺的不是異質性,是受控的異質性。
兩種知識:Episteme 與 Metis
問:好,假設我們有一個 Transformer 半球和一個 Diffusion 半球,通過一個受限 bridge 連接。問題是:這兩個半球到底在做什么不同的事?
答:這正是我想和你一起走到的地方。我問你:你“知道”一件事,可能有幾種方式?
問:我能想到兩種。一種是我能說出來的,比如“水在一百度沸騰”。一種是我知道但說不出來的,比如我知道這段代碼有 bug,但我說不清為什么。
答:對。哲學里有兩個古老的詞:episteme 和 metis。Episteme 是可陳述的、普遍的、關于“為什么”的知識。Metis 是不可陳述的、情境的、關于“如何”的智慧。
問:聽起來就是顯性知識和默會知識。
答:對。Michael Polanyi 有一句話:“我們知道的,比我們能說出來的多。” 他的判斷更狠:所有知識要么是默會知識,要么根植于默會知識。顯性知識只是默會知識被擠進語言框架之后的殘影。
路徑與地形
問:這和 Transformer、Diffusion 有什么關系?
答:你想一下。Transformer 學的是什么?
問:條件概率鏈。每一步的決策都是顯式的、可追溯的、可以被 chain-of-thought 展開的。
答:所以 Transformer 學的是路徑。從這里如何到那里。
問:Diffusion 呢?
答:Diffusion 學的是 score function,對數概率梯度。這個對象有一個非常特殊的性質:它不是關于“如何推理”的,它是關于“什么是合理的”的。
問:所以它學的是?
答:地形。整個概率空間的形狀。哪里是山峰,哪里是山谷,坡度朝向哪里。
問:等一下。一個專家看棋盤的直覺……
答:你說下去。
問:就是在感覺這個局面在“合理棋局分布”里處于什么位置。他不是在推理路徑,他是在感覺地形。
答:對。這是 score function 的現象學版本。Diffusion 模型學的那類對象,和默會知識的結構是同構的。
![]()
理解不等于解釋
問:那是不是可以說,Diffusion 本質上就是沒法“理解”的,只能“直覺”?
答:我想在這里停一下,因為這個判斷需要被切得更細。取決于“理解”是什么意思。
問:什么意思?
答:如果“理解”指的是能給出顯式的推理鏈、能回答“為什么”,那么是的,Diffusion 做不到。它的生成過程里就不存在“因為”這種結構。
問:那如果“理解”指的是別的意思呢?
答:如果“理解”指的是掌握一個領域的內部結構,能區分合理與不合理,能在未見過的情境里做出正確判斷……
問:……
答:那么 Diffusion 恰恰是更深意義上的理解。
問:你是在說……
答:我想問你一個問題。一個真正懂物理的人,是能背出所有公式的人,還是看到一個物理情境立刻感覺到“這里不對”的人?
問:后者。
答:一個真正懂代碼的人,是能解釋每一行的人,還是看到一段代碼立刻嗅到“這里有 bug”的人?
問:后者。
答:這些人被問到“你為什么這么判斷”的時候,很多時候給不出讓人滿意的答案。他們說“就是感覺”、“說不清但我知道”。
問:你的意思是……
答:人類最深的理解,往往恰恰是不可陳述的。 這不是理解的缺陷,是理解的頂點。
問:那我們平時說的“解釋”、“理解”……
答:今天整個 AI 行業把“理解”默認等同于“能解釋”。這可能本身就是一個范疇錯誤。
Benchmark 的盲區
問:這讓我想到一件事。今天所有的 benchmark 都在測什么?
答:你說。
問:都是有標準答案的題。MMLU、GSM8K、HumanEval……全都是“能不能答對”。
答:那它們測的是 episteme,還是 metis?
問:全都是 episteme。
答:所以當你說“LLM 在 benchmark 上接近人類專家”的時候,你真正在說什么?
問:它在可陳述的那一半知識上接近人類專家。
答:而人類專家真正讓他成為專家的那一半呢?
問:沒有被測。也沒有被訓練。
答:這可能就是為什么 scaling 曲線在走平的一個原因。不是數據不夠,不是算力不夠,而是架構維度不夠。我們一直在一個維度上做到極致,但人類智能的另一個維度,在今天的架構里根本沒有容器去承載。
轉化本身,就是智能的核心動作
問:那下一代突破會是什么?
答:我不會假裝我知道答案。但我有一個猜測:它會出現在“雙向轉化”被工程化之后。
問:怎么講?
答:今天的 Chain-of-Thought 是單向的:從 LLM 擠出更多推理步驟,但始終在 episteme 維度內部打轉。真正重要的方向,可能是反向 CoT:如何讓一個 Diffusion-like 的場態被激發之后,把它的直覺“翻譯”成可以被 Transformer 使用的顯性結構。
問:從地形到路徑?
答:對。從默會到顯性是“表達”,從顯性到默會是“內化”。轉化本身,就是智能的核心動作。
問:一個專家是怎么成為專家的……
答:正是這兩個方向反復循環的結果。初學者靠顯性規則,高手能把規則內化成直覺,大師在直覺和規則之間自由切換。這不是兩個模塊并列的靜態結構,而是一個動力系統。
胼胝體不是連接,是邊界
問:所以回到最開始的問題:語言是地基嗎?視覺是地基嗎?
答:你覺得呢?
問:都不是。地基這個問法就錯了。
答:那真正的底層是什么?
問:兩種不兼容的計算范式,通過一個有限帶寬的瓶頸,互相校準。大腦用了幾億年進化出這個結構。
答:更進一步,這兩種范式對應兩種知識。一種可陳述,一種不可陳述。而今天的 AI 行業……
問:繼承了一個只看重可陳述知識的傳統。從柏拉圖、亞里士多德開始的。
答:對。Transformer 是 episteme 的技術化身。一切都要 token 化,一切都要可陳述,一切都要能被 chain-of-thought 展開。
問:那 Diffusion 是什么?
答:Metis 的架構。那個被西方理性主義傳統壓抑了兩千年的另一半,默會的、情境的、不可言說的那一半,不是智能的裝飾,是智能的底座。
問:如果讓你用一句話總結今天的討論,你會怎么說?
答:我們對智能的很多默認假設,可能都需要重新想一遍。
問:比如?
答:“地基”這個隱喻。“理解”這個概念。“scale 就夠了”這個信仰。“越融合越好”這個直覺。
問:……
答:真正的智能,不是從融合里長出來的。它是從有紀律的分化里長出來的。
胼胝體不是連接,是邊界。
本篇為上半部分 —— 右腦命題
下半部分 —— 小腦命題,敬請期待。
數據庫老司機
點一個關注 ??,精彩不迷路
對 PostgreSQL, Pigsty,下云,AI 感興趣的朋友
歡迎加入 PGSQL x Pigsty 交流群 QQ 619377403
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.