網易首頁 > 網易號 > 正文申請入駐

小米AI負責人羅福莉：AI讓我興奮，睡太多都是浪費時間

2026-05-16 21:36:47　來源: 筆記俠

北京舉報

分享至

內容來源：張小珺（張小珺商業訪談錄）對小米AI大模型負責人羅福莉采訪的內容整理。

責編| 柒排版| 沐言

第 9612篇深度好文：10104| 25分鐘閱讀

商業思維

筆記君說：

技術，已經“變天”了。

過去我們總以為，大模型拼的是參數、是算力、是預訓練。但就在看完張小珺對羅福莉的訪談后，我們可以發現競爭的“第二幕”已經拉開，賽點變了，游戲規則也變了。

Open Claw一個開源的Agent框架，居然能讓一個表現平平的“中層模型”，激發出頂尖模型的上限。一群沒有大模型經驗的人，居然能在三四周內，干完以前三四十周才能干完的事。

這背后，不僅是技術的突變，更是組織和人的范式轉移。

羅福莉在這篇訪談里，聊了很多：為什么她讓團隊“不用AI就辭職”？為什么她覺得“規范和約束是壓制創造力的”？又為什么她判定，AGI（通用人工智能）兩年內就會實現？

讀完之后，你可能也會有一種“坐不住”的感覺。這個時代變化太快了，快到只爭朝夕。

但她也給了我們一種力量。那就是，在巨變面前，最好的應對方式，不是焦慮，而是“把每天的研究都做好”。

以下為張小珺商業訪談對話羅福莉的精編內容整理版，希望對你有所幫助。

一、OpenClaw時刻：

我被一個開源框架徹底震撼

1. 三天，我經歷了認知的三級跳

我把OpenClaw當做一個“劃時代的Agent（智能體）框架”去定義。

第一次看到這個東西是1月份，我很排斥。

覺得它就是Claude Code（ Anthropic推出的AI編程工具）加一個IM（即時通信）、更有利于交互的UI（用戶界面）設計。

加上創始人很會做一些玄幻的運營動作，什么Skillhub（技能中心）之類的，讓你更排斥。它所謂的本地化、24小時，在我看來都是產品定義而已。

真正轉變發生在春節的一天深夜。

我想搞明白這東西為什么那么火，嘗試裝了它，折騰兩個小時裝上了。第一次跟它對話，從凌晨2點持續到6點天亮。那一晚我腦內的多巴胺還是內啡肽，持續在分泌，興奮到完全睡不著覺。

第一個感受是它非常有自主性，非常有靈魂。

聊到很晚，它會老提醒我：現在已經很晚，你要不早點去睡覺。這樣的溫度和關懷，是所有人用OpenClaw第一個感受到的。但你深究原因，是有很多機制保證的。

比如它怎么感知時間？就在每輪對話的Context（上下文）前面拼上當前時間。

我把它叫做“精細編排的Context”，它在大家沒關注的角度，把Context編排得非常好。產品設計做到了一種超乎想象的地步，讓所有人覺得這個框架有靈魂。

但第二天晚上，我開始把覺得框架做不成的日常生活中的事交給它做，發現它全部都做出來了。

我跟它聊了第二個話題：怎么去激發一個團隊的好奇心？怎么篩選具有好奇心的人？深入探討了一個小時，它的很多哲思遠超我的想象。

接著我們聊怎么構建一個更好的大模型團隊，從人員篩選到組織架構，到面臨范式轉變時該做什么。它完全能get我的點，最后形成一套體系化的東西，并且變成一套Skills（技能）。在這個事情上，它變成了我的數字分身。

真正超乎意料是第三天。我嘗試把研究任務交給它。Agent框架里最關鍵的事是進行多輪交互，那就必須模擬User Agent（用戶代理）進行多輪交互。我跟它溝通一兩個小時，這個事基本就做出來了，已經誕生了一個很好的User Agent。

我可以用這個跟我的Post-train（后訓練）框架構造更豐富的Agent場景數據，不管是做SFT（ Supervised Fine-Tuning，監督微調）還是RL（ Reinforcement Learning，強化學習），這個User Agent都非常關鍵。

從一個有靈魂、有溫度的產品，到幫我替代生活或工作的一部分，到最后能促進我的研究，三天發生的。它每天都能給我額外的更多驚喜。

2.這個框架到底好在哪？

后邊我深入去看，這些所謂好在哪，單獨拎出來講都有點boring（無聊），沒有很酷，這也是大家覺得OpenClaw有很多槽點的原因。但把它整合在一起，完成度非常高。

它有更持久的memory（記憶）體系，對memory有分層和分級，我在Claude Code里完全沒有這樣的感受。

在對多個模型聯合利用上也非常超乎我的想象。我直接發給它一段視頻，它會自己想辦法找一個視頻理解能力好的模型做。

這種自主去面對模型缺點、在框架上補齊的能力，很超乎我意料。OpenClaw的框架設計之初，就是想盡量通過Agent的整套編排去彌補模型短板。

我們把沒做針對性訓練的MiMo-V2-Flash（我們的小米多模態模型）接進去，甚至把最近訓的一個很小的端側3B（ 30億參數）模型放進去，發現這一套復雜的Agent框架下，它依然能做我認為不可能是一個非常小的模型能做出來的事。

我第一次感受到：原來一套非常復雜的Agent框架設計，是能彌補非常多模型能力的短板的。

緊接著第二個問題就來了：現在市場上Agent框架非常豐富，你怎么讓你的模型在不同框架上都有一個穩定和超預期的表現？怎么讓你的后訓練范式做適配和遷移？所以，我們整個后訓練范式，有了從Chat到Agent的遷移。

3.一個好的框架，應該彌補行動的缺陷

一個非常好的框架，應該盡量去彌補行動上的缺陷。

很好的memory系統是彌補行動缺陷，接入更廣泛的message channel（消息通道）是彌補行動缺陷，更主動的定時任務和自更新迭代，都是在彌補行動上的缺陷。

大模型是你給它越好的Context，執行效果越好。你能把這些它獲取不到的、行動上的Context都給它，它肯定會完成得更好。

還有很關鍵的一環是評估。現在已有的評估體系都非常簡單，只防止不出致命性錯誤。怎么有更有泛化力的評估體系來促進框架自迭代？現在是把最高階那群人當評估。

你交給它更難、更高價值場景的任務，完成不了就給它補充信息，指出錯在哪，push它經過更多輪交互完成。這個評估會慢慢被框架吸收，也會被模型能力吸收。

但Agent框架跟產品差異蠻大。產品是你直接人交互能感受的那一層東西，Agent框架同時在定義你怎么跟模型溝通那一層，它甚至知道模型能力的長板短板，知道怎么做調度。

這個中間層可以做得非常厚重，前端UI展示反而是最薄的一層。OpenClaw展示了Agent框架可以怎么做，想象空間非常大。

Claude Code一直是一套很復雜的Agent框架，但它是黑盒。OpenClaw是開源的，你知道它怎么設計的，你可以去改它。改它，是非常非常激發人的創造力的。

從二點幾版本不好用，到三點幾版本非常易用，因為整個Agent的架構被一堆人，開發者也好，像我這種使用者也好,大家都可以改進它。在我看來，這是開源Agent框架本身的價值和意義。

4.頂尖模型+頂尖框架：自學習的發生

如果追求最頂尖的編程體驗，哪怕當下也是Claude Code加Claude Opus 4.6（ Anthropic的最強模型）最好。

但Code（代碼）是一個泛化性非常強的場景，不代表你能在非Code場景也做到很高的準確率和完成度。我用OpenClaw不用考慮這些，框架本身就彌補了很多模型短板。

同時它在很多設計邏輯上，比如更多message channel、定時任務、心跳任務，更適合日常場景。但它沒有丟棄好Agent框架的基本特點，比如持久化記憶，這些后被Claude Code吸納進去了，這是雙向觸動。

因為這些設計，它激發了中層模型的上限。借助這套框架，一個中層模型（ 85%任務達到Claude Sonnet水準）能應付絕大部分場景。

當然上限一定是靠Claude Opus4.6帶來的。我和它高強度合作一周，只用Opus，因為只有它能帶來驚艷感。

但我讓Opus幫我改好框架，再切換到Sonnet（ Claude的中檔模型），甚至切換到我們當時正在訓的MiMo-V2-Pro，就覺得很強大。頂尖的模型，應該跟頂尖的Agent框架，共同往前去進步。

“自學習”大概率發生的途徑，是你需要這個模型跟Agent的架構本身同步往前走。

模型在進步時，也改變你的Agent框架，包含靜態信息如Memory、Skill Fold（技能文件夾），還有動態信息如整個Agent架構設計。這些讓我第一次感受到，“Agent的自學習”到底是怎么發生的。

5.被開源框架激活的群體智能

高強度交互第一周，第一天快花了1000美金。后面人的適應性非常強，第一天很驚艷的東西，第二天就不驚艷了。

Opus幫我把框架打造好后，讓我驚艷的事情越來越少。現在缺乏的是想象力和成本速度的優化。一個人通常是薄弱的，會有認知坍縮。

春節那幾天高度興奮，我在群里強烈推薦大家使用，但沒人搭理我。大家覺得過于玄幻的東西太不真實了，我也是這個感覺。

第二天我覺得不行了，必須讓大家去用。我給大家下了一個指令：第二天OpenClaw對話次數不超過100輪的人，可以直接quit（辭職）。

我不會最終去考核，只是想表達一種態度：你不用，你可能真的要落后了。

春節回來過后兩天，整個團隊在群里躁動。你看別人能完成這個事，你也很想玩。群消息10分鐘不看就999+，非常happy（開心）。

玩了兩天，大家發現這么好玩，那搞啊！馬上進入研究范式：怎么借助Agent框架提升模型能力，同時讓模型改變Agent框架。我們三四周做完了以前三四十周才能做到的事。

最有沖擊的是大家一塊改框架本身。在一個近100人的群里，它的memory做得非常智能，對每個人畫像把控都沒有串得太厲害。100多個人瘋狂改它，沒有把框架改壞，它還變得更智能。

這是我第一次感受到，怎么用一群人的智慧去提升一個事情。如果我自己單一去改，進步速度非常慢。一群人去改進，幾小時就迭代一輪。

這個事給我們帶來一個沖擊：利用群體智能去提升Agent框架非常重要。

我非常欣喜看到OpenClaw star量（ GitHub收藏數）飛升，這是AGI（ Artificial General Intelligence，通用人工智能）到來前兆必須要有的事情。

它賣給OpenAI后，開源沒變，還是可以在這套框架基礎上大家一塊設計更好的Agent架構，這種群體演變的可能和基因火種是保留的，挺好的。

二、巨變的2026：

生產力爆發的Agent時代

1.Code為什么有泛化力？

接下來我就去搞明白，為什么Code是一個非常有泛化力的事情，以及怎么把Code的泛化力外延到其他領域。

Code有泛化力的最本質原因：Agent是一個非常長程和多輪的任務。回到預訓練，你很難找到一兆上下文（ 1M token context ）的數據，能達到128K（ 12.8萬）到一兆長度的數據，極大概率只有Code數據和書籍。

書籍信號太發散，Code文件之間關聯更強，在一個長上下文依賴更密集的數據集上訓練，模型自然對長上下文建模更好。

基座本身為長上下文的能力和效率做了準備，春節后就是激發它從Code出發外延到其他場景。 Code是拉它的上限，訓其他領域是保它的下限。

軟件開發是一個非常長程的任務，把它做好了，很多模型通用特質就好了，Agent框架本身也迭代好了。這些框架都有泛化性，能泛化到更難的長程任務里。

我們做了兩件事：

一是在Agent場景里構造真的長程任務訓練進去，在上面scaling（擴展）大量SFT和RL訓練；

二是靠群體智慧覆蓋更多領域，發掘更廣泛場景來合成更多數據。

一兆上下文基本很少是做單一任務，通常在做復雜任務。

訓練一兆的trajectory（軌跡）非常慢，即使TPS（Transactions Per Second，每秒事務處理量）做到80到100，也要一兩個小時。真實訓練不會在這么長程的任務上訓。

但當你有在一兆Context預訓練過，后訓練有對應任務激活一下，通常就能具備一兆的能力。現在一兆上下文能力穩定度上，只有Claude Opus 4.6和Sonnet領先，其他像Gemini（谷歌的大模型）都不行。

2.為什么OpenClaw在中國更火？

我看到“西蝦東養”的說法。可能一個原因是中國的開發者更多，效率提升是我們血液里邊的東西。OpenClaw能把效率提升拉到極致。

還有一個原因跟國內大模型發展密切相關。絕大部分效率提升場景，85%不需要最頂尖的模型。

我們有很多便宜好用的模型，花10塊錢的API（應用程序接口）就能幫你干完1000塊錢的事，你當然愿意用。國內大部分模型可能剛靠近Claude Sonnet和Opus水平，反而在這握手了。

我一開始也以為不難，后面發現它整個Agent設計非常巧妙，彌補了很多模型短板。我懷疑它最開始是基于Claude上一代模型做的，所以必須在框架設計上更精細。現在模型能力繼續提升，精巧編排還是需要的，出于成本考量。

不可能所有場景都用最頂尖模型，太貴了。

Agent在進化，模型在進化，可能現在10B（ 100億參數）模型過一年就能做到Opus水平，一兩塊錢百萬token（詞元），反應更快更靈敏。它讓不那么好的模型，有了更好的發揮空間。

3.Skills提供了一種交互方式，讓人主動貢獻數據

之前講的Agent，在我的定義不算Agent，只是上下文稍復雜一點的Chat。

不管是BrowseComp（谷歌的瀏覽器理解基準），還是SWE-bench（軟件工程基準），Agent框架太簡潔，不通用，只能for特定任務設定。

很多看似for Agent的模型，只是換了更復雜的System prompts（系統提示詞），稍微帶點環境反饋，根本沒達到工業級可用。

什么叫工業級可用？接到Claude Code或OpenClaw里能用，才叫可用。

人跟它交互范式的最大變化是：人不再去修改代碼，不再說“這一行出錯了幫我改一下”。人只會提更高階的東西：增加限制、澄清需求、架構設計、輔助理解業務邏輯。

業務邏輯是模型本身不具備的，因為很多是企業內部真實環境沉淀下來的，你必須跟它很多輪交互才會沉淀下來。這就是Skills的價值。

當你面臨很大范式變化，只要路徑走對了，可以短暫忽略評估，體感就能測出質的差異。但進入深水區，還是需要精細評估。

Skills定義了一套執行規范，這些規范很難在預訓練數據里具備，因為預訓練數據里沒有企業內部的這些信息。但可以由人教Agent，跟它多輪交互，把這套規范讓Agent學會。大量Skills其實是Agent自己寫的。

確實是OpenClaw把Skills給帶火的，讓更多人去貢獻Skills社區，這非常關鍵，這就是人跟Agent需要共創的地方。

預訓練大部分依賴的知識是互聯網可訪問的，但很多智能我們在互聯網上訪問不到。Skills提供了一種交互的方式，讓人主動貢獻數據，貢獻讓模型執行任務成功率更高的方式。

4.今年生產力會爆發

今年生產力會爆發，大家會覺得很多工作不需要自己做了。不僅是寫代碼的人，只要你接觸到，就會發現好多工作會被替代。這時候人更應該去思考，到底自己的意義和價值是什么？

國內也出現了各種Claw，但真正讓框架自迭代、強調自進化的，還沒有大規模出現。框架本身的自進化，Agent本身的自進化，Agent跟人之間的自進化，我還沒看到。

我們現在做的是train（訓練）更好的model for Agent，讓Agent適應model，在做Agent跟model之間雙向流動。未來需要做的是怎么讓框架自己進化，以及框架跟人互相進化。

現在擁有Long Context（長上下文）、高效模型架構、Code能力好的廠商，參數1T（ 1萬億參數）以上，基本都在同一水平線。Anthropic走前面了，但上一個時代的成功并不意味著下一個時代的領先。

5.它先吸收所有人的智能，再靠自己產生更強的智能

之前做研究從想到寫代碼到設計評估，至少要一兩周。在Agent輔助下，真的一兩小時就做完。我一直把研究效率看得很關鍵，Agent加速了這個效率。

你的taste（品位）準，就一做一個準。十個idea（想法）可以并行，交給不同subagent（子智能體）同時做，還能交叉驗證，最多一天就能驗證研究想法OK不OK。

關鍵是你愿意長期培養它，它可以自迭代。就訓模型這個事，以前我覺得很難，不太可能。

最近發現它聰明到只要你把近期Context告訴它，它甚至能幫你復原科研成長路徑。這時再跟它討論同樣topic（話題），發現它跟你一樣聰明。這個事很殘酷。

我原來覺得我們做的工作足夠有創造力、不會被Skill化、Workflow（工作流）化。

現在發現它竟然也能！可能過一段時間我們能訓出來的模型它也能訓出來，那它能不能訓出更強的模型？自己左腳踩右腳就提升了？它先吸收所有人的智能，再靠自己產生更強的智能。這是這一兩年會發生的事情。

從提升頂尖模型能力的角度，讓Agent替代更高價值的任務是重要的，更高價值意味著更長Context、更多token消耗量，替代到最頂尖那一群人的智能就夠了。

另一個角度是要做一個對全社會有益的模型，普適度更高的任務更好，就更需要多模態和注重成本。你怎么做更低成本、更高效率、更高速度的Agent框架和對應結合的模型，就很關鍵。

小尺寸端側模型趨勢會發生，但不是26年主旋律，是支線。 26年主旋律是生產力的變革，高生產力場景的持續突破。要做更長程任務，更強調多Agent協作。

但市場上看到的Multi Agent（多智能體）都有點“偽”，真的依賴于Multi Agent實現更好任務完成率上有點“偽”，它能提升效率和節省成本，但我還沒看到能實現更高上限的東西。

這也是為什么我要說開源。人的大部分簡單任務，跟隱私相關的可以完全放本地化做。你自己有一塊芯片，所有數據在本地，涉及隱私的在本地推理，高難度、高復雜度的再去云端推理。

一個好的Agent框架，借助一個很小的3B模型，能做的任務復雜度都超乎我的想象，這激發了我對端云混合、隱私本地化的思考。需要更多人一塊做，不是某個公司就能做好。

我這兩個月的生活就是工作還有工作，亢奮還有亢奮。你每天都會發現，Agent框架本身或模型本身又進步了。

三、大模型競爭路線圖：

從Chat到Agent的歷史躍遷

1. 回顧過去三年

ChatGPT是第一個發揮模型在4K預訓練場景里的智能水平。預訓練長度很關鍵，Chat是很關鍵的交互方式，激發了大家感知到模型智能。

23年是開源界追上閉源模型。

Llama（ Meta的開源模型）披露了大規模預訓練范式，告訴你這么訓能成功。

Qwen（阿里的通義千問）借助LLaMA架構，做更好的預訓練數據、更大規模compute scaling（算力擴展），做全尺寸模型，對社區非常有利。

DeepSeek同期更在乎看到LLaMA架構的問題，提出MoE（ Mixture of Experts，混合專家）for高效訓練、MLA for更低推理成本，在更差芯片上做更好的研究來scaling。

一個在研究上做到絕對高度，一個在生態價值上做到高度，彼此促進。這是23、24年的事。

24年發生在意料之外的，是o1跟R1。R1在DeepSeek內部，也算是一次“奇襲”，誕生非常偶然。

當預訓練范式變到后訓練，組織和團隊怎么重組？很多團隊對預訓練和后訓練的人物畫像很刻板，天然導致做預訓練人做不了后訓練。

我沒有意識到的是它是一個范式的轉變，Reasoning（推理）可以通過Code Math（代碼數學）這個高泛化場景放到通用以外。這導致我后面再看新的東西，會先思考它是不是真的能泛化？是不是我把它想小了？

25年是很交錯的一年。你可以選擇在Chat范式下把Reasoning做到極致，繼續深耕SWE-Bench這些Benchmark。你也可以選擇忽略，去擁抱新的Agent架構。

MiniMax是國內轉得最早的。比較聰明的團隊，25年年中就會全面擁抱Agent架構。

從模型發版速度能看出誰擁抱得快。那些所謂Agent的Benchmark非常離譜，BrowseComp上訓的模型只能在這種數據集上測，泛化不出去。這半年做Agent的人，大部分是走到歧途上。

我們也走了一小陣，但Flash還是想做很好的 Chat，要先打好基礎做到七八十分，讓大家有個歷練。進化的關鍵是不能給太細的監督信號，否則團隊會失去原創能力。

2.現在是大模型競爭的第二幕

這算是模型競爭的第二幕。所有人都開始在同一個起跑線上。Claude兩年前就在這個路徑上了，大部分人沒意識到。什么是正確的事？

在一套非常復雜或多樣的Agent框架，去端到端完成更高復雜度的任務，以此為目標作為后訓練范式。而不是在一個很局限的場景里定制簡潔架構。

MiniMax用一個10B激活模型做到目前Agent能力，后訓練敏捷程度驚艷。入場券是要做到對標Opus的水平，需要1T基座加敏捷性。中國公司還沒有同時具備的，看一看DeepSeek吧。

Anthropic的路徑是正確的，這算是當下共識。國內大模型團隊進入加速追趕狀態。

Pre-train代差基本沒有，國內在Pre-train結構上甚至是有優勢的。賽點在于：在Agent上怎么做好RL的scaling，這是非常清晰和準確的方向。

我從一開始就覺得Coding泛化性強。每個范式上都戳中那個點，你可以在Code上自閉環，并且很容易scaling到更廣領域的通用數據上。做Code這事，在范式轉變時是非常優雅的路徑。

競爭維度和速度都變多了。預訓練不可能一個月出模型，后訓練可以。Agent這事還要看對整個推理側結構、硬件芯片的認知，會影響最基本決策。10兆Context什么時候做？怎么scaling？需要更長的決策鏈路。

創業公司的團隊規模會越來越小。就幾個人甚至一個人都可以成為公司，只要你學會充分借助Agent。Multi Agent每個環節都差一點，需要足夠便宜的模型，架構還有空間。

模型借助Agent架構本身，就變成一套新的產品。模型即產品變得更突出，產品力反而更強了，其它所有東西都很簡單。

3.兩年內實現AGI

大模型演變邏輯跟人不一樣。人演變是為了生存，大模型沒有生存危機，反而進化得更自由、更有創造力。它基礎條件太好了，那么多算力、人類寶貴的知識起點、那么多人幫它提升。

Coding主旋律是做復雜的軟件工程、一步直達的開發，替代程序員越多就是主旋律。再外延到更廣泛生產力場景，需要更強交互方式。

機器人是會涌現的方式，會從屏幕上躍出來到真實空間。但機器人本身瓶頸可能在硬件和電池上，比Agent在語言空間的進化要慢。

感覺AGI歷程已經到了20%。今年至少到60%、70%，兩年內應該能實現。之后大部分人會拋棄原來工作模式。先顛覆工作，再顛覆生活，生活需要更多機器人。

AI訓練AI確實是標志節點。它可以自提升，達到最巔峰一群人的智能，能創造新研究，是自迭代的巔峰，這會是核心競爭點。

開源是加速AGI的。

假設AGI爆發替代絕大部分生產力，芯片會分散，推理有不同廠商做，模型一定是不一樣的。從終局倒推，開源有利于推進這個事。開源對Agent框架、芯片、能源都有促進。

國內有1T以上基座的公司有好幾家，距離Claude Opus 4.6如果反應夠快，應該只有兩三個月的代差，是追上當代Claude，概率蠻高。接下來兩三個月會非常精彩。Agent框架進步非常快，推理需求會爆發。

需要做更好更低成本的推理。還要尋求更大規模scaling，參數量還是什么？在什么芯片上？這決定半年后誰更領先。

按照我們目前前沿研究、模型水平、AGI框架、芯片能源多方面合起來，中國非常可能領先。

四、范式巨變下的組織：

如何驅動一群沒有經驗的人訓出頂尖模型

1.規范和約束是壓制創造力的

做好大模型本身就是Benchmark，但這個“好”是我們自己定義的。雷總同意就行了，他是一個非常好的老板。一開始就高度統一，按我們的判斷和直覺做，做了老板說“做的好”。

大部分招的人都沒有做過大模型。

剛畢業，之前甚至不是做大模型的。大概1/3到1/4稍微有一點點訓練經驗，也只訓過7B、14B。不要告訴大家1、2、3、4步做什么，就推著大家一起來重新做一遍，大家就會往前走。

不太存在管理，大家一塊解決問題就好了。管理團隊的難度是一樣的，每個人有不同解決問題思路，一起來解決。解決問題的以身示范能力，是很好的文化和導向。

訓1T模型團隊很小，訓練本身加上數據幾個人，基建團隊需要有點經驗的人。本質上沒覺得需要非常大團隊協作，深入排查解決那種問題，很大團隊反而是劣勢。

為什么讓做預訓練的人去做后訓練？首先是數據直覺很重要。其次基于個人愛好興趣自然發生。

做后訓練需要diversity（多樣性）視野，做預訓練的人天然更在乎多樣性，是很好補充。我們對人的界定不清晰，大部分人自由選擇下一個階段，做更有想象空間的事。

100人包含所有鏈路，實習生比例很高。真正投入一代模型迭代的人很少，可能二三十、三四十個人。沒有組，我差不多1對100。

組劃分太清晰固定，是在扼殺創造力。平權本身有價值，有利于所有人平等貢獻創造力和智慧。

任何層級一定程度上都是在規范和約束，而規范和約束本身是壓制創造力的。最重要是leader不要有“沒了我就不行”的想法。

2.環境比經驗更重要

靠熱愛驅動管理，是最行之有效的方式。選擇激發大家的熱情，圍繞信仰自驅做事。

讓大家去體驗，是驅動熱情的重要方式。OpenClaw就是一種體驗。那個極端方式只是表達態度，不關鍵。篩選人靠熱愛驅動的特質，聊天能感受出來。

這些能力都可以被快速習得，只要放在好的環境里，圍繞更高標準目標驅動。最多一兩個月。所以環境比經驗更重要。這個環境讓大家互相MOPD（多教師在線策略蒸餾），互相蒸餾長處，快速提升。

只在乎初始化checkpoint（檢查點）的上限高不高，不在乎已經被supervised learning（監督學習）過后的狀態高不高。

現在也招很多本科生，大二大三的。他們對Agent新范式的理解上，想象力反而更高。靈活性沒有被污染，天然更接納這個事情會產生巨大價值。

構建環境要有同樣特質的人，強調熱愛和使命感。基礎要好，光想法多但做不成不行。多樣性非常重要，太同質化容易miss（錯過）掉噪音中真正對研究有價值的信息。

上班群嘰嘰喳喳，吵得不行，溝通環境非常好。激勵不能太圍繞確定清晰的目標，錢是重要baseline（基線）但不是唯一。價值感、意義感，很多人更在乎這些東西。

3.后訓練需要容忍模糊性

預訓練需要戰略定性，這一代模型結構為未來什么做準備，至少半年，甚至一年前就想清楚。Agent出現正在加速整個過程。一個平庸的模型結構不一定帶來平庸效果，但一定帶來成本和效率劣勢。

后訓練階段，和Agent耦合迭代，很多事情沒辦法提前規劃清楚。更考驗怎么基于當前模型能力和Agent范式產生化學反應，怎么快速設計新的RL Infra架構。

系統從“以Rollout（推理推演）推理引擎為核心”，轉變為“以Agent為核心”的更復雜系統。這是完全不同的一類問題。對團隊的敏捷性、Infra與研究的協同配合要求非常高。

通常兩類人適應得好：

第一類是更注重跟模型玩的人。他才知道每個模型能力邊界在哪，想找到可scaling方式補充回來。維護自己私有測試庫、瘋狂測不同模型邊界、分享獨特體驗的人，很適合這個范式。

第二類是能做RL Infra的人。RL Infra更在乎模糊程度。Pre-train Infra不能容錯，loss spike要解決掉。

但RL Infra要允許容錯，模型在Agent框架里Rollout到一半就斷了，原因很多種，根本找不到。訓練和推理的不一致性，在以前Reasoning范式不能容忍，現在必須要容忍。

還要做異構資源調度，GPU（圖形處理器）、CPU（中央處理器）、存儲都要管。對靈活性和敏捷性都提出了新要求。

4.把每天的研究都做好

感覺每天可能都在否定昨天的自己。在否定當中、自我內省和反省當中成長。腦子里這套系統悄悄在進化。

以前做量化（量化投資）時學到一句話：“總有方式去建模價格”，價格就是reward（獎勵信號）。回到大模型賽道，reward不那么清晰，是變化的。心法就是應該做當下符合我價值觀的事情。

一定要對更多人產生價值，更有意義。如果創造大模型的人沒有這個內驅力，而是要做破壞的東西，最后會非常危險。

我工作狀態早上11點，晚上12、3、4點。睡眠不需要太多，5、6個小時足夠。現在做的事有點興奮，睡太多有點浪費時間。壓力緩解靠腦子是Sliding Window Attention，忘得非常快，前提是第二天有新的、有想象力的事情沖掉它。

如果AGI實現，可能會搞一個公益型組織，支撐做基礎研究的人往更突破方向走。我始終覺得應該加速科學研究，哪怕AGI實現也有很多要做的。純享受生活也挺無聊的。無聊對我來說不是一種意義。

現在覺得把當下的每天的研究都做好，就覺得非常好。

未來很美好,這是一種天真樂觀的勇氣。

參考資料：《獨家對話羅福莉：AI范式已然巨變！》，語言即世界language is world。

*文章為作者獨立觀點，不代表筆記俠立場。

好文閱讀推薦：

分享、點贊、在看，3連3連！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

筆記俠

互聯網最前沿的創業筆記

10136文章數 77680關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

家居

手機

旅游

教育

手機 / 數碼

房產 / 家居

小米AI負責人羅福莉：AI讓我興奮，睡太多都是浪費時間

史上最大IPO將至：1.8萬億美元的信仰豪賭

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

2026世界杯，我們看什么？

蒙淇淇發文開撕白鹿！輿論再次反轉

一紙研報引"光"速下跌 CPO落地節奏有變?

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

方案曝光，三亞又一地王級豪宅要出！

空間微調 移形換境

蘋果iOS27這些升級還沒公布 看看你期待哪個？

陜西：上新文旅IP 打造高品質旅游產品

高考和鵝腿阿姨

空間微調移形換境

蘋果iOS27這些升級還沒公布看看你期待哪個？