網易首頁 > 網易號 > 正文申請入駐

10萬引普林斯頓劉壯最新訪談：架構沒那么重要，數據才是王道

2026-04-29 12:17:01　來源: 量子位

北京舉報

分享至

聽雨發自凹非寺量子位 | 公眾號 QbitAI

引用量超過10萬次，清華姚班校友，ConvNeXt、ImageBind、《無歸一化的Transformer》……這些論文的作者——

普林斯頓大學助理教授劉壯，在學術圈是一個頗為特殊的存在——他的每一篇論文幾乎都在質疑某個“理所當然”的假設。

架構真的重要嗎？數據集真的足夠多樣嗎？歸一化層是必需的嗎？大語言模型有世界模型嗎？AI智能體能替代博士生嗎？

在《信息瓶頸》的最新播客中，劉壯和主持人Ravid Shwartz-Ziv、Allen Roush展開了長達一個多小時的對談，解答了這些問題。

劉壯給出了幾個核心判斷（太長不看版）

1、架構選什么，沒你想的重要

只要把殘差連接、自注意力、歸一化層、線性層這四大基礎做對，不管用ConvNet還是Transformer，最終都會落在同一條性能曲線上。

過去十年真正推動AI進步的，是更大程度上是數據規模和計算規模，而不只是架構創新。

2、數據集遠沒有我們以為的多樣

他和何愷明做了一個實驗：訓練神經網絡來判斷一張圖片來自哪個數據集。

結果在三個號稱“多樣化”的億級數據集上，準確率高達80% 以上——

說明這些數據集在模型眼里仍然涇渭分明，距離“無偏的全球分布”還差得遠。

3、大語言模型有世界模型，但只在語言空間里

LLM在高層次事件推理上表現出色，但視覺空間的精細世界模型我們還沒有——

根本原因是視覺數據的信息密度太高，現有算力還處理不了

而且對于超過一半的工作場景（尤其是數字化的白領工作），根本不需要視覺世界模型。

4、記憶才是當前最大的瓶頸，不是能力

現有模型的推理能力已經足夠強，真正缺的是穩定的長期記憶。

我們需要那么多智能體協作，恰恰是因為一個智能體記不住所有事情。

5、自主科研還沒到位，AI替代不了研究生

他親自測試過讓Claude Code在一兩天內獨立完成一個研究項目。

結論是：低層次任務還行，但提出有意思的問題、設計實驗、保持方向感——這些還做不到。

整個訪談有一條隱藏的主線：我們在AI領域里奉為圭臬的很多東西，其實是歷史偶然。

而真正決定成敗的，往往是那些更樸素、更無聊的因素——數據、規模、記憶

以下是量子位梳理的劉壯最新訪談，為便于理解，有部分刪減和潤色，并在必要的地方添加了編者注，各位enjoy~

架構沒那么重要，但細節決定一切

編者注：2020年前后，計算機視覺領域掀起了一場“Transformer熱”。
2020年Google Brain提出的視覺Transformer（ViT）橫空出世，整個視覺社區迅速向它遷移，傳統的卷積神經網絡（ConvNet）被普遍認為已經落伍。
2022年，劉壯團隊發表ConvNeXt，把經典的 ResNet 架構一步步“現代化”，最終讓它在性能上追平了當時最強的視覺Transformer——結論令人意外：兩者的差距并非來自架構本身，而是來自訓練方案的不同。

Ravid：今天我們會聊聊你的一些論文�？傮w上，我們要探討當今AI中真正重要的組成部分是什么。你的研究成果很多，我想我們可以從“哪些組件最關鍵”開始。

幾年前，你發表了一篇關于“面向2020年代的卷積神經網絡”的論文。你能先介紹一下這篇論文，然后我們再來拆解當前AI系統的各個組成部分嗎？

劉壯：嗯，當然。那是一段非常有趣的經歷。

這篇論文我們是在2021年寫的，那時候Transformer剛剛通過視覺Transformer的引入進入了計算機視覺領域，整個視覺社區都在從傳統的卷積網絡切換到視覺Transformer，性能也越來越好。

在這項工作中，我們想研究：ConvNet是否真的已經喪失了競爭力？

是否有可能通過系統性地控制所有設計細節，來驗證ConvNet能否被現代化、達到當時視覺Transformer的水平？

我們想搞清楚，Transformer和ConvNet之間看似存在的性能差距，究竟是源于架構本質的不同——比如用自注意力還是卷積——還是源于一些看似微小的設計細節。

最終我們發現答案是后者。

經過大量對ConvNet各組件的研究，我們最終讓模型在多種任務上達到了當時最強視覺 Transformer 的水平。

這說明，無論選擇ConvNet還是視覺Transformer，只要把所有細節都做對，就能在視覺任務上達到同等的前沿性能。

Ravid：你現在還相信這一點嗎？你還認為架構其實并不重要嗎

劉壯：我不會這么說——總體上我傾向于認同，但我不會說架構不重要

我的意思是，只要你把所有細節都做對，只要你對設計空間探索得足夠充分，就會收斂到一個類似“帕累托前沿”的點——在精度和效率之間取得最佳平衡。

要突破這條前沿線是非常困難的。

我覺得過去這么多年，除了幾年前已經成熟的那些架構之外，真正被廣泛采用的架構創新其實并不多。

不過這個探索過程本身非常有趣。

最近，一些開源模型公司，比如Kimi、DeepSeek，還在不斷折騰架構，比如怎么改殘差連接、怎么連接不同層，我非常尊重這類工作。

事實上，學術界現在架構研究沒那么活躍，部分原因是我們負擔不起用足夠說服力的規模來驗證這些效果所需的計算資源。

但我自己還是會用學校的資源去嘗試�，F在有了Claude Code的幫助，我可以自己動手寫代碼去探索，這非常有趣。

從實用角度來看，我認為我們用什么數據訓練模型，比選擇什么架構更重要——前提是輸入輸出接口不變。

架構本質上是我們參數化函數近似器的方式，這是神經網絡或深度學習最基本的功能。

只要你把幾件事做對，比如用殘差連接、用自注意力或其他合理的機制、在合適的位置放激活函數和前饋層，你就能非常接近甚至達到性能與效率的前沿曲線。

從實際應用的角度，我認為更重要的是：這個模型用什么數據訓練的？它怎么處理上下文和記憶？

在上下文和記憶這方面，確實有一些架構工作在解決這個問題。

我覺得這才是讓AI再上一個臺階最迫切需要解決的問題。

Allen：根據我的理解，你們是把ResNet逐步往類似Swin Transformer的設計方向現代化，最終得到一個能與 Transformer強力競爭的ConvNet。

在那篇論文里，哪一個消融實驗最讓你對“Transformer的優勢究竟從何而來”改變了看法？

編者注：消融實驗（ablation study）是深度學習研究中的常用方法，指的是逐一去掉或改變模型中的某個組件，觀察性能如何變化，以此判斷每個組件的貢獻大小。

劉壯：哪一個？我覺得是每一個。

你看那張圖，沒有任何單一改動能大幅拉升性能。有些改動比其他的更有效，但沒有哪一個能改變一切。

ConvNeXt論文的Figure 2，展示了ResNet現代化的完整過程和每一步對應的性能變化

也許激活函數的使用，以及減少歸一化層的數量，是讓我比較感興趣、也有明顯性能提升的一個點。

但真正起作用的是把所有改動疊加在一起

這些看似微小的組件，當我們把它們組合起來的時候，產生的性能差距，是那種通常只有把卷積換成自注意力這種大改動才能帶來的效果。

所以我認為，這篇論文最大的啟示是：這些小細節組合在一起，比那些看起來很核心的網絡組件影響更大

Ravid：對我來說，感覺我們是在大量嘗試各種東西，有些起效了，模型就變好了。然后回過頭來，我們才開始真正理解哪些組件是關鍵的。

你覺得我們是需要先有突破，再回頭理解細節？還是說我們只需要反復試錯，不需要明確的方向？

劉壯：Transformer對整個社區來說絕對是一個福音，把Transformer引入計算機視覺這件事，意義重大。

是那幾年里絕對是最重要的突破之一。

但視覺Transformer還有另一個好處，就是它實現了文本和圖像表示的統一。

Transformer的使用對后來的發展非常關鍵，比如LLaVA，這類多模態框架——用視覺編碼器把圖像編碼成token，然后和文本 token 一起輸入到下游的大語言模型里。

這是現在很多多模態模型的基本框架。

編者注：LLaVA（Large Language and Vision Assistant）是2023年提出的一種多模態大語言模型框架，將圖像編碼器（通常是CLIP）和大語言模型（如LLaMA）連接起來，讓模型能同時理解圖像和文字。
這一框架成為后來GPT-4V、Gemini等多模態模型的基礎思路。

回到我們的研究，這種對細節的深入分析，我覺得更像是一堂課。它改變了我自己的認知，也改變了很多人的認知，這讓我更引以為傲。

當然人們還是可以繼續用ConvNet，它也有自己的優勢，尤其是在純視覺任務里：部署方便，比較容易理解，也因為操作是局部的，所以對更高分辨率和長序列有更好的支持。

兩種架構只是在不同地方各有所長。

Ravid：好，架構不那么重要——你還有一篇更近的論文，證明了歸一化層也不那么重要，對嗎？

基本上可以用雙曲正切激活函數來取代歸一化層，只需要一些調整，但效果一樣好。

那你覺得真正重要的核心組件是什么？而且為什么好的AI模型只是在最近五年才出現，而不是十年前？

編者注：這里指的是2025年劉壯與Yann LeCun等人合作發表的論文《Transformers Without Normalization》
歸一化層（Normalization Layer）是現代神經網絡中幾乎無處不在的組件，最常見的是LayerNorm，它的作用是穩定訓練過程、加速收斂。
這篇論文用一種稱為“動態雙曲正切（dynamic tanh）”的激活函數替換了LayerNorm，在多種設置下仍能與標準Transformer持平甚至更好。

劉壯：這是個好問題。

首先，Transformer大約是十年前提出來的，九年前吧。

所以在那之后很長一段時間里，我們基本還是沿用類似的基本框架，只有一些小改動，比如激活層、專家混合（不是每次都用）、局部注意力、滑動窗口注意力等，但核心框架和九年前論文剛出來時基本一樣。

所以我的答案是：數據，以及訓練時使用的計算規模

這就像GPT-1到GPT-3的經典故事——基本上是同一個模型，用更多計算量、更多數據、更多樣化的數據、更大規模的互聯網數據來訓練，就得到了我們現在看到的這些強大能力。

所以我會把這歸因于數據，其次是算力

我認為數據是主要因素，因為現在大多數模型訓練的epoch數都不超過一個。

編者注：Epoch指的是模型把整個訓練數據集完整過一遍的次數。
“不超過一個 epoch”意味著模型甚至沒有把所有數據看第二遍——這說明數據的總量和多樣性，比反復訓練同一批數據更關鍵。

Allen：我注意到你的研究有一個貫穿始終的論點，就是這個領域常常把架構和訓練方案混為一談。

如果你要為今天的架構論文設定規則，在有人聲稱某種架構選擇有價值之前，你會要求哪些控制條件？

劉壯：好，在理想世界里，我們有無限計算資源，對吧？

首先，我會要求在一定規模上驗證效果，不一定是前沿模型，但至少要在70億、300億參數這個量級。

規模對工業界來說很重要，只有在這個規模上，大家才真的會相信你的改動有效。當然，這并不總是可行的。

其次，如果你要在較小規模上研究架構變化，我會要求首先做超參數搜索

你不能只在一組超參數下證明新架構比舊架構好，尤其是當這組超參數是專門為這個新模型調過的。

每個模型都應該在各自最優的超參數下進行比較，最重要的超參數是學習率、衰減、優化器類型。

讓我很煩的一件事是，有人甚至不去調基線模型的學習率，只調自己方法的，然后就聲稱有效——這是導致很多”結果無法泛化”的最常見的問題所在。

第三，我會要求這個想法或方法在不止一個數據集上得到驗證，最好是在一個合理規模的數據集上。

ImageNet今天仍然適用，但理想情況下，還應該在一些小規模的大語言模型上驗證，比如在FineWeb上訓練。

我非常贊成在多樣的數據集上驗證想法，至少要在領域內常用的數據集上。這就是我會提的幾個標準。

編者注：FineWeb是Hugging Face于2024年發布的大規模網頁文本數據集，經過嚴格清洗，常被用作語言模型預訓練的基準數據集。

Ravid：如果一個想法是真正好的，它是否應該在不同領域、不同數據集、不同場景下都有效？

還是說有些非常好的想法只適用于非常特定的場景？

劉壯：我認為兩種都同樣有價值。

在第二種情況下，我希望研究者能清楚地說明，這個方法在什么特定場景下更好，仍然應該在不止一個數據集上驗證。

如果你聲稱你的模型在長上下文音頻上效果更好，你仍然可以在這個方向上用多個數據集測試。

同時要解釋清楚，為什么這個方法在這個特定領域好，為什么在其他領域不好，然后從這里出發，去解決那些弱點。

這就是研究的價值所在——你不需要第一步就全面成功，那固然很好，但不是必須的。

數據集沒你想的那么“多樣”

編者注：這部分討論應指劉壯與何愷明合作發表的論文《A Decade’s Battle on Dataset Bias: Are We There Yet?》，研究動機是：我們一直以為主流視覺數據集越來越多樣、越來越全面，但真的是這樣嗎？

Ravid：好，那我們來聊聊數據。你說數據是最重要的。具體是數據的哪些方面？我們先從你那篇關于“數據集偏差的幾十年之爭”的論文說起。你們的研究動機是什么？

劉壯：這篇論文主要聚焦在視覺領域。

多年來，人們一直在從越來越多樣化的來源構建越來越大的數據集——從最初的MNIST，到CIFAR，再到ImageNet，再到互聯網規模的 DataComp、Google 的 Conceptual Captions 等。

這些數據集看起來越來越多樣，規模從幾萬張到十億級別。大家很自然地會認為：我們已經收集了互聯網上能拿到的所有東西，數據集應該足夠了吧？

編者注：MNIST是手寫數字識別數據集（約7萬張圖片），CIFAR是小圖像分類數據集（約6萬張），ImageNet是目前最權威的圖像識別基準（約120萬張），DataComp和Conceptual Captions則是十億級別的互聯網圖文對數據集。
這條發展脈絡代表了過去二十年視覺數據集規模的指數級擴張。

但在我們的初步實驗里，我們發現這些數據集彼此之間其實差異極大。

我們是怎么衡量的呢？我們設計了一個非常“蠢”的實驗——從深度學習訓練的角度來看完全沒有實際意義。

我們做的是：給定三個很大的數據集，訓練一個神經網絡來判斷一張圖片來自哪個數據集

這不是什么實際問題，只是想猜測圖片的來源，是個多分類問題。

結果發現，在這三個看似非常多樣化的數據集上，模型仍然能以超過80%的準確率回答這個問題。

而隨機猜測的準確率是33%，模型的準確率遠遠超過這個基線。

這意味著，在模型看來，這些數據集仍然非常不同，有非常清晰的線索讓模型判斷圖片來自哪里。

當然，我們是在留出的驗證集上做測試，不是在訓練集上猜。

這促使我們反思：我們真的成功構建了一個大規模、全面覆蓋的數據集了嗎？什么樣的數據才是終極目標？

這個“無偏的全球分布數據集”本身就很難定義，不同的人可能有不同的標準。

大語言模型成功的一個重要原因，是它不是領域專用的模型，它能做所有事。要做到這一點，一個普遍的假設是模型在訓練時需要見過所有東西。

但從這個初步實驗來看，我們顯然還沒有達到那個程度。

Ravid：那你覺得答案是什么？好的數據需要具備哪些屬性——多樣性、不確定性、避免冗余？

劉壯：是的，內容多樣性、風格多樣性……深度學習的一個大教訓是：

想讓它擅長所有事，就要在所有事上訓練它。

但在當今的條件下，我們仍然面臨權衡問題——算力有限，模型容量有限。

模型學到的不同能力之間可能會相互競爭，比如如果你想讓模型在編程上更好，可能就需要犧牲一點它在心理咨詢方面的能力，這只是舉個例子。

如何配比訓練數據，讓每個我們希望模型擅長的領域都得到足夠的表示？這是一個重要的設計問題。

在我們最近一個文字轉圖像的項目里，我們發現了一個出人意料的簡單方案——不是最優的，但足夠簡單——就是把你關心的所有領域大致等權重地混合

你不會希望“如何理發”和“如何編程”得到同等權重，因為它們對大多數人的重要程度差別很大，你當然希望模型在編程上見過更多數據。

但如果你把“理發”擴展為“日常生活技能”這個層面，把它和另一個同等重要程度的領域放在一起，然后從每個領域收集高質量數據并等權重混合，這種做法在很多其他項目里效果都不錯。

Ravid：你覺得這就是未來的方向嗎？就是把各種來源簡單地混合在一起？

劉壯：對于通用模型來說，是的。

如果你只是想讓模型在所有事情上都還不錯，而不是在某個特定困難任務上特別拔尖，那我認為數據覆蓋是王道

Ilya Sutskever有句名言，大意是只要你有一個大模型，收集了足夠多的數據，模型就一定能訓好

我認為這在現代深度學習里仍然適用。

當面對用戶時，想讓模型在某個任務上表現好，就在訓練集里放足夠多這方面的數據，這是最合理的解決方案。

視覺是橋梁，但語言先點燃了這把火

編者注：這部分涉及兩篇論文。一是2023年Meta發表的ImageBind，由劉壯參與，將圖像、文本、音頻、深度、熱成像、IMU運動傳感器六種模態對齊到同一個嵌入空間。
二是同年發表的《Eyes Wide Shut》，揭示了 CLIP視覺編碼器的系統性盲點。
CLIP是 OpenAI于2021年提出的圖文對比學習模型，目前是絕大多數多模態大語言模型的視覺編碼器基礎。

AllenImageBind把六種模態對齊到同一個嵌入空間里。

你覺得這是在說明視覺模態本身的特殊地位，還是只是說明了視覺數據在大規模數據中碰巧有這樣的角色？

劉壯：我覺得這篇論文一個很重要的信息是：不同模態確實可以被嵌入在一起，這是現在多模態基礎模型運作方式的基礎

常見的做法是用編碼器把每個模態對齊到語言模型的token表示。

ImageBind更專注于學習編碼器本身，而不是把它們連接到大語言模型上。

另一個洞見是：視覺是連接所有模態的天然橋梁，因為視覺數據就像是我們人類的默認輸入。

它經常和很多其他模態同時出現，比如音頻——看YouTube視頻時，音頻和視覺數據自然地融合在一起，你可以用這個信號來對齊兩者。

還有運動數據，也經常和圖像或視覺數據同時出現。這揭示了視覺在我們日常感知中的根本性地位。

Ravid：但為什么最終能力上的大躍升是通過語言模型實現的？

我們有視覺好一段時間了，但沒有看到AI在所有領域、所有公司里大規模普及。直到語言模型變強，人們才突然開始用 AI。

你覺得這只是巧合，還是語言本身有什么根本性的優勢？

劉壯：是的，這是個被廣泛討論的話題。

我的理解是：視覺本質上是吞吐量非常高的數據——它流入我們感知系統的帶寬遠高于語言，而我們還沒有足夠的算力來真正處理這些數據

想想看，就一幀圖像，存儲它所需的空間就遠大于用語言描述這張圖像——描述可能只需要幾個字節，圖像卻需要幾千字節，相差上千倍。

所以一張圖片的信息量確實超過一千個詞。

另外，我們也沒有好的機制讓模型在圖像上做精細定位——在當前的多模態語言模型里，所有信息都已經編碼在視覺 token 里了，模型沒有辦法回頭去重新聚焦圖像的某個區域。

如果視覺編碼器質量不好，自回歸模型對此毫無辦法。

而語言處于一個低維得多的空間，每個詞都有明確的含義——這有點像人類從自然界里做無監督學習。

我們在進化過程中篩選出了這些重要概念，把它們凝縮成詞，每個詞只需要幾個字節的存儲空間，而用圖像來表示”杯子”這個概念，可能需要成千上萬張圖片。

處理這么大量信息所需的算力自然要高得多，我覺得我們目前還沒有到那個程度。

Allen：好，然后是那篇我很喜歡標題的論文——《Eyes Wide Shut》，斯坦利·庫布里克的最后一部電影。

你在論文里提出，很多多模態大語言模型的失敗，都可以追溯到CLIP這樣的視覺編碼器以及CLIP的盲點。

能概括一下這篇論文嗎？在你看來，這個瓶頸究竟有多少是視覺問題，又有多少是語言模型或對齊問題？

劉壯：我認為這在很大程度上是視覺編碼器的問題

正如我之前說的，這些模型只會學訓練時教它們學的東西。如果訓練時沒有讓模型面對你希望它擅長的任務類型，測試時它就不會好。

具體來說，CLIP訓練的目標是讓圖像表示和它的文字描述對齊。而圖像描述自然地更關注圖像的內容——里面有什么物體，它們在做什么——而不太會明確說明這些物體的位置

如果圖中有一個人和一條狗，描述大概只會說“人和狗玩�！�，而不會說人在左邊還是右邊——這是我們人類描述圖像時很自然的方式。

對人來說這沒問題，我們不太在乎誰在左邊。但如果你希望模型能夠回答這類位置關系的問題，就需要在訓練里用到這些。而這正是CLIP訓練所忽略的。

結果我們得到一個被用作多模態語言模型視覺編碼器的CLIP模型，它根本沒被訓練去處理這些任務。

這再次印證了我的觀點：想讓模型擅長什么，就要在那件事上訓練它

Allen：在《Eyes Wide Shut》那篇論文里，你建議把視覺特征和自監督特征混合來改善視覺定位。

如果同時優化語言對齊和細粒度視覺辨別，你認為多模態語言模型最理想的視覺編碼器應該是什么樣的？

編者注：自監督學習（self-supervised learning）是一種不需要人工標注的訓練方式，模型通過預測圖像的一部分、或者預測被遮擋的區域來學習視覺表示。
典型的方法有MAE（Masked Autoencoders）、DINO等，它們往往能學到比 CLIP 更細粒度的視覺特征。

劉壯：我現在心里想的解決方案就是兩者都做。這兩種是現在視覺預訓練的兩大主流范式。

我還想加一個——現在很多人在討論世界模型——我會在視覺部分加入時間維度，這也會非常有幫助。

大語言模型有世界模型，但只在語言空間里

編者注：“大語言模型有沒有世界模型”是近年來 AI 領域最激烈的爭論之一。
Yann LeCun長期主張：現有大語言模型沒有真正的世界模型，他力推一種基于能量的層次化架構來顯式構建世界模型。
而另一些研究者（如Ilya Sutskever）則認為，足夠大的語言模型在預測下一個token的過程中，已經隱式地學到了世界模型。
劉壯在這里給出了他自己的第三種答案。

Ravid：我們來聊聊世界模型。你對世界模型的定義是什么？

劉壯：對我來說，世界模型就是預測世界如何運作，根據你當前的狀態來預測世界接下來會發生什么。

Ravid：這具體是什么意思？

比如幾周前Stephane Mallat來這里聲稱大語言模型有世界模型，而之前Yann LeCun來這里說我們需要顯式地構建世界模型，目前的大語言模型并沒有。

你怎么看？你覺得我們能定義出一個標準，來判斷哪些模型有世界模型、哪些沒有？

劉壯：是的，我認為大語言模型在語言空間里是有世界模型的，這毫無疑問。

語言是我們所接收的所有感知信號的更高層次的抽象，大語言模型在這個層面上有著相當好的世界模型。

我經常和ChatGPT討論歷史。幾天前我讓它想象一個假設場景：中國歷史上某個事件里，我讓ChatGPT想象如果那個失敗的勢力贏得了戰爭，歷史會怎么變？

它給出的回答非常合理——把所有小事件串聯起來，一切都講得通，只是一些小概率的決策偏移，然后一切隨之改變，像真實歷史一樣，完全有可能就是真實歷史。

在這個意義上，我覺得沒有哪個小說家或歷史學家能超越它在這串事件中的邏輯推理水平。

所以它們確實有一個很好的世界模型，只不過是在非常高的抽象層次上

當我們說“我們現在沒有世界模型”，說的其實是視覺空間的世界模型——我們沒法在像素空間里完整地恢復或模擬世界，這也是真的。

我認為模型有沒有世界模型，取決于你想對世界的哪個層次建模。

如果你把世界的高層次事件視為一個自包含的世界，那我們通過語言模型確實有。

但如果你把每個像素、每個原始信號、每個物理信號，包括世界上每種物質的物理屬性，都納入考量，那我們確實還沒有那個層次的精細化模型。

根本原因還是視覺數據的吞吐量太高，我們還沒有足夠的算力來完美地對它建模。

Ravid：那你覺得我們真的需要世界模型來解決 99% 的任務嗎？

劉壯：對于數字化工作，比如白領工作，我認為不需要視覺世界模型。

很多事情都在數字空間里運作，我最多需要模型能讀取我的電腦屏幕，而屏幕內容可以被數字化或壓縮，通常最多是一組圖像，不是實時視頻流，這相對容易。

我目前用Claude Code的瓶頸之一就是需要截屏，這個問題應該很快可以解決，因為這些模型可能很快就能以安全的方式訪問我們的屏幕。

但對于體力勞動，比如建筑、駕駛、體力活動，我認為確實需要視覺模型，因為這類工作中的反饋是非常細粒度的。

還有理發——你想剪哪部分頭發、剪多少，這是沒法靠語言模型來完成的。

還有一些物理性的工作，比如外科手術。我認為，真正需要視覺世界模型才能做好的工作，不會超過一半

記憶才是真正的瓶頸，智能體只是權宜之計

編者注：這部分話題涵蓋了幾個相互關聯的議題：強化學習（RL）訓練、Agent、持續學習，以及AI輔助科研的現狀。
劉壯還提到了另一篇自己的論文《Idiosyncrasies in Large Language Models》（大語言模型中的特異性），該論文發現，不同大語言模型生成的文本存在可被識別的“指紋”，即便經過改寫或翻譯仍然保留。

Ravid：你怎么看強化學習？

現在所有實驗室都在建自己的環境，想在編程或某些特定任務上做得更好，就搭一個專用環境，讓模型在這個環境里訓練，給它反饋和獎勵。

你覺得這是未來的方向嗎？

劉壯：是的，實際上我不確定每個實驗室都這樣做強化學習或監督微調是否真的可行。

我希望未來能有一套像預訓練一樣成熟的方法來做持續訓練。可以是強化學習，也可以是情境工程、提示工程、智能體協作，這些都還是開放的。

也許還需要調整架構，讓模型有更大的記憶、更長的上下文。

持續學習這件事，把通用模型適配到特定領域，我認為非常重要。

因為每個人在一生中會遇到不同的情境。你希望模型成為你的好助手，賦能你的生活和工作，你需要它記住大量上下文。

在這方面，人腦仍然遠超模型——極大的記憶容量，快速學習，只需見一次就能記住一個事實，而且不會忘記。

你今天用Claude Code時，最讓我擔心的就是它是否還記得我之前做過的事，我相信很多人都有這個感受。

在我們各自的職業生涯里，有太多東西希望模型記住，不用每次都重新解釋。

不是什么特定任務，而是所有一切——我們與他人的互動方式、過去的成就和失敗等等。

我覺得這個答案可能不只是強化學習，更像是系統工程——怎么組織一切，讓模型能輕松訪問所需信息。

說到底還是數據問題：怎么組織數據，怎么提供足夠的數據，怎么整合來自不同來源、不同輸入的數據。也許以后我們會戴智能眼鏡，給這些模型提供視覺輸入。

Ravid：但你覺得基本的組件已經到位了，還是會保持不變？

我們只是需要搭好腳手架——比如怎么讓智能體在世界里行動、收集數據、組織記憶這些事情？還是說我們需要從根本上改變什么？

劉壯：是的，這是個很好的問題。

有一個令人遺憾的現實是：不是每個人都能在這些超大模型的基礎層面上做研究，只有負擔得起訓練成本的人才能做實驗。

所以現在我們看到大量的智能體工作——因為這幾乎是很多人能對系統做出改進的唯一方式。

智能體很好，但我注意到，我構建的每一套智能體系統，每一個腳手架——比如我試圖搭一個能讓Claude Code長時間運行的框架——

通常過幾周或幾個月，我會找到一個更簡單的解決方案，比如用提示或一些內置命令和技能來實現同樣的效果，而不需要Python腳手架這類東西。

所以我認為最大的教訓是：保持系統簡單，讓模型自己做很多決定

遺憾的是，不是每個人都能為底層模型能力的提升做貢獻。

我們能做的是情境工程和智能體。但在基礎能力方面，我認為我們仍然可以追趕。

我們現在關心的每一個任務，在一定的性能水平上，都可以用更少的智能體、更少的腳手架來完成，而更多地依賴模型本身的能力。

我認為我們仍然處在這條曲線上。

Ravid：但我們為什么要在意呢？在算力和數據越來越多的世界里，為什么不就直接搭智能體解決所有問題？

劉壯智能體還是會犯錯——代碼智能體也是。

我遇到的很多錯誤都是因為它記不住某些東西，這很明顯，應該是顯而易見的。

所以我認為在記憶方面——記憶和上下文——這是目前最重要的問題，尤其是記憶。它們是一枚硬幣的兩面。

即使你有無限的上下文，如果它忘記了或者記錯了事實，它的記憶力仍然不好。

Claude Code前幾天宣布支持100萬token的上下文窗口，大家都很振奮，包括我，這很好。

但我們怎樣才能擁有無限的記憶？至少是持續學習問題——怎樣才能不忘記？

我覺得這比怎么構建協作智能體更重要，如果我們在這方面取得突破，會更有價值。

我們需要很多智能體，恰恰是因為一個智能體記不住所有事情，需要拆分任務。

如果一個智能體能記住所有事情，做完這個任務還不忘記上一個任務，那所有工作就可以交給這一個智能體完成。

作為個人助手，有一個能記住所有事情的助手，總比協調多個智能體更方便。

Allen：你還有一篇我很感興趣的論文——《大語言模型中的特異性》，發現模型特有的特征在改寫、翻譯、摘要之后仍然保留。

你覺得這些“指紋”到底在度量什么？是預訓練數據、訓練后的風格、解碼行為，還是更底層的結構性因素？

劉壯：這篇論文做的是同樣的分類任務——給定一段文本，讓一個獨立的神經網絡判斷它是由哪個語言模型生成的。

我們發現準確率可以非常高，在五個候選模型的情況下可以達到99%。

當時對我們來說也挺出乎意料的。

但現在我認為大家越來越接受一件事：語言模型生成的文本里確實存在線索，即使不是AI研究者的普通人也能判斷出大概是哪個模型寫的。

現在這不再那么令人驚訝了，因為每家公司都有自己的策略來最大化用戶參與度，導致模型輸出了不同的風格。

到底是什么造成了這些差異？我認為每家提供商對風格的選擇非常關鍵——系統提示，我們看不到他們的系統提示，他們有沒有讓模型輸出詳細或簡潔，有沒有用列表？

后訓練策略也有很大影響，不同公司的后訓練方式不同，他們招募標注員的方式、評分標準都會有系統性差異，這些都會鼓勵不同的行為模式。

預訓練也有影響，每家公司的預訓練數據來源不同，有些側重編程和數學推理，有些優化通用知識覆蓋。

令人遺憾的是，我們不知道這些差異各自貢獻多少。

總體來說，我認為后訓練和系統提示的設計是造成差異的主要原因，占大部分比重。

Ravid：你怎么看預訓練這件事？預訓練、中訓練、后訓練這種劃分會繼續存在嗎？

編者注：中訓練（mid-training）是近年來工業界出現的一個新階段，介于預訓練和后訓練之間，主要目的是在更高質量的數據上繼續訓練、或者擴展模型的上下文長度，而不引入人類偏好標注。
后訓練（post-training）則泛指在預訓練完成后，通過人類反饋強化學習（RLHF）、監督微調（SFT）等方式，讓模型更符合人類偏好、更安全、更有用。

劉壯：我認為預訓練和中訓練彼此更相似，都和后訓練有所不同。

后訓練的獎勵信號是不同的，因為它涉及到人類判斷和人類偏好。

預訓練和中訓練本質上都是自回歸，只是數據風格和上下文長度不同。

中訓練是個比較新的概念，幾年前我們只有預訓練和后訓練，現在多了一個中訓練。

中訓練或許是一種臨時狀態，因為中訓練的核心是擴展上下文長度、引入更高質量的數據

我沒有這些公司的內部信息，但我覺得這可能是一種妥協——我們沒有足夠的算力始終在超長上下文上訓練、始終在最高質量數據上訓練。

所以預訓練和中訓練可以統稱為“預訓練”，引號里的那種。

后訓練不同，因為它涉及人類對模型行為的主動引導，這種區別不會消失。

但我希望未來還有另一個階段——針對每個用戶定制的持續訓練，定制偏好、記憶需求、使用風格，那會非常好。

Ravid：你怎么看持續學習？是像自監督學習那樣從不同視角的差異里學習？

還是針對特定任務，有了新數據再解決特定問題？

劉壯：我認為持續學習不太是關于增強能力的。我更愿意把它看作更好的記憶。

這些模型已有的能力已經很好了，它們能解出大多數人解不了的數學題。

我們需要的是讓模型記住每個人的個性習慣——我會如何回應某些事件？我有哪些基本原則？

即使我把自己生活里所有的經歷和偏好都寫在一個Markdown文件里，它還是可能遺漏。

比如我現在有一個全局的Claude MD文件，告訴模型遇到某些情況時要注意什么，但它們經常還是會忽略。

我沒有好的辦法讓這些內容真正“粘”在模型上。

所以我一直認為，持續預訓練更多是關于擁有穩定的記憶、不在小事上犯錯，而不是發展更多能力

是找到在合適場景下使用正確技能的能力，而不是發展更強大的技能。

Ravid：你怎么看這件事？

我好像在LinkedIn或Twitter上看到有人說，有了新的編程智能體，他不再需要學生了，直接告訴智能體想做什么，讓它跑實驗、出結果、寫報告就行了。

你覺得我們會看到更多學生還是更少學生？

劉壯：從教育角度來說，我認為我們需要更多深度投入其中的學生，需要能夠使用AI并進一步推動AI發展的學生。這一點不應該有什么爭議。

從實際項目的角度，我認為答案是一樣的。

只要有合理的資源和時間，我現在可以用Claude Code自己做一個小項目。但這不是全自動的。

我曾經讓它在一兩天內獨立完成一個項目，從構思到實驗到寫論文，但效果不好——

提出的問題很模糊，對我來說沒什么意思；做的實驗不夠全面，只是勉強能支撐結論；我需要反復提示才能把它引到正確的方向。

它忘記事情的頻率也超出我的預期。我讓它一直用某個GPU分區，它可能遵守幾個小時，任務完成后就忘了。

我希望它永不停歇，根據當前實驗結果不斷探索、設計下一個實驗測試新假設，但它就是不聽，有時候會陷入局部最優。

所以我認為它們擅長低層次的任務，在更高層次的研究理解和導航上還不夠好

學生也可以像我一樣，讓Claude Code幫自己提高工作效率。

而且如果他們有正確的心態，不把所有事情都委托給AI，他們仍然會在這個過程中成長，成為好的研究者。

我認為我們需要更多這樣的學生，不是更少。

Ravid：你聽說過嗎，Andrej Karpathy 發布了AutoResearch，就是給一個代碼智能體去優化NanoGPT，讓它連夜跑多個實驗，結果驗證損失確實在下降。

編者注：Andrej Karpathy是前Tesla AI總監、OpenAI聯合創始人，現獨立從事AI教育。
NanoGPT是他開源的一個極簡GPT實現，常被用于教學和研究實驗。
AutoResearch是他探索的一個概念：讓AI智能體自主設計實驗、運行訓練、分析結果，全程無需人工干預。

劉壯：對，對。

Ravid：智能體提出的一個建議是改變隨機種子，然后結果就變好了很多。

我自己也試過類似的事，就是對這個項目做了個很簡單的貝葉斯優化，超參數搜索。

結果發現用更少的迭代次數、更短的時間就能得到更好的結果。

我覺得最終我們需要搞清楚，哪些用法真正有效，哪些還沒到位，哪些只是因為看起來時髦、大家都用，所以我們在浪費時間去提示它。

劉壯：嗯。

Ravid：所以，我同意你的判斷，自主研究目前還沒到那個階段。

未來會不會到，我不知道，也許會。但至少對某些場景，對某些用途，用來開發產品已經相當不錯、接近可用了。

劉壯：嗯，嗯。

Ravid：但在研究方面，還沒到。

劉壯：確實，這也是我的親身體驗。

https://www.the-information-bottleneck.com/what-actually-matters-in-ai-with-zhuang-liu-princeton/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.