![]()
內容來源:張小珺(張小珺商業訪談錄)對小米AI大模型負責人羅福莉采訪的內容整理。
責編| 柒排版| 沐言
第 9612篇深度好文:10104| 25分鐘閱讀
商業思維
筆記君說:
技術,已經“變天”了。
過去我們總以為,大模型拼的是參數、是算力、是預訓練。但就在看完張小珺對羅福莉的訪談后,我們可以發現競爭的“第二幕”已經拉開,賽點變了,游戲規則也變了。
Open Claw一個開源的Agent框架,居然能讓一個表現平平的“中層模型”,激發出頂尖模型的上限。一群沒有大模型經驗的人,居然能在三四周內,干完以前三四十周才能干完的事。
這背后,不僅是技術的突變,更是組織和人的范式轉移。
羅福莉在這篇訪談里,聊了很多:為什么她讓團隊“不用AI就辭職”?為什么她覺得“規范和約束是壓制創造力的”?又為什么她判定,AGI(通用人工智能)兩年內就會實現?
讀完之后,你可能也會有一種“坐不住”的感覺。這個時代變化太快了,快到只爭朝夕。
但她也給了我們一種力量。那就是,在巨變面前,最好的應對方式,不是焦慮,而是“把每天的研究都做好”。
以下為張小珺商業訪談對話羅福莉的精編內容整理版,希望對你有所幫助。
一、OpenClaw時刻:
我被一個開源框架徹底震撼
1. 三天,我經歷了認知的三級跳
我把OpenClaw當做一個“劃時代的Agent( 智能體 )框架”去定義。
第一次看到這個東西是1月份,我很排斥。
覺得它就是Claude Code( Anthropic推出的AI編程工具 )加一個IM( 即時通信 )、更有利于交互的UI( 用戶界面 )設計。
加上創始人很會做一些玄幻的運營動作,什么Skillhub( 技能中心 )之類的,讓你更排斥。它所謂的本地化、24小時,在我看來都是產品定義而已。
真正轉變發生在春節的一天深夜。
我想搞明白這東西為什么那么火,嘗試裝了它,折騰兩個小時裝上了。第一次跟它對話,從凌晨2點持續到6點天亮。那一晚我腦內的多巴胺還是內啡肽,持續在分泌,興奮到完全睡不著覺。
第一個感受是它非常有自主性,非常有靈魂。
聊到很晚,它會老提醒我:現在已經很晚,你要不早點去睡覺。這樣的溫度和關懷,是所有人用OpenClaw第一個感受到的。但你深究原因,是有很多機制保證的。
比如它怎么感知時間?就在每輪對話的Context( 上下文 )前面拼上當前時間。
我把它叫做“精細編排的Context”,它在大家沒關注的角度,把Context編排得非常好。產品設計做到了一種超乎想象的地步,讓所有人覺得這個框架有靈魂。
但第二天晚上,我開始把覺得框架做不成的日常生活中的事交給它做,發現它全部都做出來了。
我跟它聊了第二個話題:怎么去激發一個團隊的好奇心?怎么篩選具有好奇心的人?深入探討了一個小時,它的很多哲思遠超我的想象。
接著我們聊怎么構建一個更好的大模型團隊,從人員篩選到組織架構,到面臨范式轉變時該做什么。它完全能get我的點,最后形成一套體系化的東西,并且變成一套Skills( 技能 )。在這個事情上,它變成了我的數字分身。
![]()
真正超乎意料是第三天。我嘗試把研究任務交給它。Agent框架里最關鍵的事是進行多輪交互,那就必須模擬User Agent( 用戶代理 )進行多輪交互。我跟它溝通一兩個小時,這個事基本就做出來了,已經誕生了一個很好的User Agent。
我可以用這個跟我的Post-train( 后訓練 )框架構造更豐富的Agent場景數據,不管是做SFT( Supervised Fine-Tuning,監督微調 )還是RL( Reinforcement Learning,強化學習 ),這個User Agent都非常關鍵。
從一個有靈魂、有溫度的產品,到幫我替代生活或工作的一部分,到最后能促進我的研究,三天發生的。它每天都能給我額外的更多驚喜。
2.這個框架到底好在哪?
后邊我深入去看,這些所謂好在哪,單獨拎出來講都有點boring( 無聊 ),沒有很酷,這也是大家覺得OpenClaw有很多槽點的原因。但把它整合在一起,完成度非常高。
它有更持久的memory( 記憶 )體系,對memory有分層和分級,我在Claude Code里完全沒有這樣的感受。
在對多個模型聯合利用上也非常超乎我的想象。我直接發給它一段視頻,它會自己想辦法找一個視頻理解能力好的模型做。
這種自主去面對模型缺點、在框架上補齊的能力,很超乎我意料。OpenClaw的框架設計之初,就是想盡量通過Agent的整套編排去彌補模型短板。
我們把沒做針對性訓練的MiMo-V2-Flash( 我們的小米多模態模型 )接進去,甚至把最近訓的一個很小的端側3B( 30億參數 )模型放進去,發現這一套復雜的Agent框架下,它依然能做我認為不可能是一個非常小的模型能做出來的事。
我第一次感受到: 原來一套非常復雜的Agent框架設計,是能彌補非常多模型能力的短板的。
緊接著第二個問題就來了:現在市場上Agent框架非常豐富,你怎么讓你的模型在不同框架上都有一個穩定和超預期的表現?怎么讓你的后訓練范式做適配和遷移?所以,我們整個后訓練范式,有了從Chat到Agent的遷移。
3.一個好的框架,應該彌補行動的缺陷
一個非常好的框架,應該盡量去彌補行動上的缺陷。
很好的memory系統是彌補行動缺陷,接入更廣泛的message channel( 消息通道 )是彌補行動缺陷,更主動的定時任務和自更新迭代,都是在彌補行動上的缺陷。
大模型是你給它越好的Context,執行效果越好。你能把這些它獲取不到的、行動上的Context都給它,它肯定會完成得更好。
還有很關鍵的一環是評估。現在已有的評估體系都非常簡單,只防止不出致命性錯誤。怎么有更有泛化力的評估體系來促進框架自迭代?現在是把最高階那群人當評估。
你交給它更難、更高價值場景的任務,完成不了就給它補充信息,指出錯在哪,push它經過更多輪交互完成。這個評估會慢慢被框架吸收,也會被模型能力吸收。
但Agent框架跟產品差異蠻大。產品是你直接人交互能感受的那一層東西,Agent框架同時在定義你怎么跟模型溝通那一層,它甚至知道模型能力的長板短板,知道怎么做調度。
這個中間層可以做得非常厚重,前端UI展示反而是 最薄的一層。OpenClaw展示了Agent框架可以怎么做,想象空間非常大。
Claude Code一直是一套很復雜的Agent框架,但它是黑盒。OpenClaw是開源的,你知道它怎么設計的,你可以去改它。改它,是非常非常激發人的創造力的。
從二點幾版本不好用,到三點幾版本非常易用,因為整個Agent的架構被一堆人,開發者也好,像我這種使用者也好,大家都可以改進它。在我看來,這是開源Agent框架本身的價值和意義。
![]()
4.頂尖模型+頂尖框架:自學習的發生
如果追求最頂尖的編程體驗,哪怕當下也是Claude Code加Claude Opus 4.6( Anthropic的最強模型 )最好。
但Code( 代碼 )是一個泛化性非常強的場景,不代表你能在非Code場景也做到很高的準確率和完成度。我用OpenClaw不用考慮這些,框架本身就彌補了很多模型短板。
同時它在很多設計邏輯上,比如更多message channel、定時任務、心跳任務,更適合日常場景。但它沒有丟棄好Agent框架的基本特點,比如持久化記憶,這些后被Claude Code吸納進去了,這是雙向觸動。
因為這些設計,它激發了中層模型的上限。借助這套框架,一個中層模型( 85%任務達到Claude Sonnet水準 )能應付絕大部分場景。
當然上限一定是靠Claude Opus4.6帶來的。我和它高強度合作一周,只用Opus,因為只有它能帶來驚艷感。
但我讓Opus幫我改好框架,再切換到Sonnet( Claude的中檔模型 ),甚至切換到我們當時正在訓的MiMo-V2-Pro,就覺得很強大。 頂尖的模型,應該跟頂尖的Agent框架,共同往前去進步。
![]()
“自學習”大概率發生的途徑,是你需要這個模型跟Agent的架構本身同步往前走。
模型在進步時,也改變你的Agent框架,包含靜態信息如Memory、Skill Fold( 技能文件夾 ),還有動態信息如整個Agent架構設計。這些讓我第一次感受到,“Agent的自學習”到底是怎么發生的。
5.被開源框架激活的群體智能
高強度交互第一周,第一天快花了1000美金。后面人的適應性非常強,第一天很驚艷的東西,第二天就不驚艷了。
Opus幫我把框架打造好后,讓我驚艷的事情越來越少。現在缺乏的是想象力和成本速度的優化。一個人通常是薄弱的,會有認知坍縮。
春節那幾天高度興奮,我在群里強烈推薦大家使用,但沒人搭理我。大家覺得過于玄幻的東西太不真實了,我也是這個感覺。
第二天我覺得不行了,必須讓大家去用。我給大家下了一個指令:第二天OpenClaw對話次數不超過100輪的人,可以直接quit(辭職)。
我不會最終去考核,只是想表達一種態度:你不用,你可能真的要落后了。
春節回來過后兩天,整個團隊在群里躁動。你看別人能完成這個事,你也很想玩。群消息10分鐘不看就999+,非常happy( 開心 )。
玩了兩天,大家發現這么好玩,那搞啊!馬上進入研究范式:怎么借助Agent框架提升模型能力,同時讓模型改變Agent框架。我們三四周做完了以前三四十周才能做到的事。
最有沖擊的是大家一塊改框架本身。在一個近100人的群里,它的memory做得非常智能,對每個人畫像把控都沒有串得太厲害。100多個人瘋狂改它,沒有把框架改壞,它還變得更智能。
這是我第一次感受到,怎么用一群人的智慧去提升一個事情。如果我自己單一去改,進步速度非常慢。一群人去改進,幾小時就迭代一輪。
![]()
這個事給我們帶來一個沖擊: 利用群體智能去提升Agent框架非常重要。
我非常欣喜看到OpenClaw star量( GitHub收藏數 )飛升,這是AGI( Artificial General Intelligence,通用人工智能 )到來前兆必須要有的事情。
它賣給OpenAI后,開源沒變,還是可以在這套框架基礎上大家一塊設計更好的Agent架構,這種群體演變的可能和基因火種是保留的,挺好的。
二、巨變的2026:
生產力爆發的Agent時代
1.Code為什么有泛化力?
接下來我就去搞明白,為什么Code是一個非常有泛化力的事情,以及怎么把Code的泛化力外延到其他領域。
Code有泛化力的最本質原因:Agent是一個非常長程和多輪的任務。回到預訓練,你很難找到一兆上下文( 1M token context )的數據,能達到128K( 12.8萬 )到一兆長度的數據,極大概率只有Code數據和書籍。
書籍信號太發散,Code文件之間關聯更強,在一個長上下文依賴更密集的數據集上訓練,模型自然對長上下文建模更好。
基座本身為長上下文的能力和效率做了準備,春節后就是激發它從Code出發外延到其他場景。 Code是拉它的上限,訓其他領域是保它的下限。
![]()
軟件開發是一個非常長程的任務,把它做好了,很多模型通用特質就好了,Agent框架本身也迭代好了。這些框架都有泛化性,能泛化到更難的長程任務里。
我們做了兩件事:
一是在Agent場景里構造真的長程任務訓練進去,在上面scaling( 擴展 )大量SFT和RL訓練;
二是靠群體智慧覆蓋更多領域,發掘更廣泛場景來合成更多數據。
一兆上下文基本很少是做單一任務,通常在做復雜任務。
訓練一兆的trajectory( 軌跡 )非常慢,即使TPS(Transactions Per Second,每秒事務處理量)做到80到100,也要一兩個小時。真實訓練不會在這么長程的任務上訓。
但當你有在一兆Context預訓練過,后訓練有對應任務激活一下,通常就能具備一兆的能力。現在一兆上下文能力穩定度上,只有Claude Opus 4.6和Sonnet領先,其他像Gemini( 谷歌的大模型 )都不行。
2.為什么OpenClaw在中國更火?
我看到“西蝦東養”的說法。可能一個原因是中國的開發者更多,效率提升是我們血液里邊的東西。OpenClaw能把效率提升拉到極致。
還有一個原因跟國內大模型發展密切相關。絕大部分效率提升場景,85%不需要最頂尖的模型。
我們有很多便宜好用的模型,花10塊錢的API( 應用程序接口 )就能幫你干完1000塊錢的事,你當然愿意用。國內大部分模型可能剛靠近Claude Sonnet和Opus水平,反而在這握手了。
我一開始也以為不難,后面發現它整個Agent設計非常巧妙,彌補了很多模型短板。我懷疑它最開始是基于Claude上一代模型做的,所以必須在框架設計上更精細。現在模型能力繼續提升,精巧編排還是需要的,出 于成本考量。
不可能所有場景都用最頂尖模型,太貴了。
Agent在進化,模型在進化,可能現在10B( 100億參數 )模型過一年就能做到Opus水平,一兩塊錢百萬token( 詞元 ),反應更快更靈敏。它讓不那么好的模型,有了更好的發揮空間。
3.Skills提供了一種交互方式,讓人主動貢獻數據
之前講的Agent,在我的定義不算Agent,只是上下文稍復雜一點的Chat。
不管是BrowseComp( 谷歌的瀏覽器理解基準 ),還是SWE-bench( 軟件工程基準 ),Agent框架太簡潔,不通用,只能for特定任務設定。
很多看似for Agent的模型,只是換了更復雜的System prompts( 系統提示詞 ),稍微帶點環境反饋,根本沒達到工業級可用。
什么叫工業級可用? 接到Claude Code或OpenClaw里能用,才叫可用。
![]()
人跟它交互范式的最大變化是:人不再去修改代碼,不再說“這一行出錯了幫我改一下”。人只會提更高階的東西:增加限制、澄清需求、架構設計、輔助理解業務邏輯。
業務邏輯是模型本身不具備的,因為很多是企業內部真實環境沉淀下來的,你必須跟它很多輪交互才會沉淀下來。這就是Skills的價值。
當你面臨很大范式變化,只要路徑走對了,可以短暫忽略評估,體感就能測出質的差異。但進入深水區,還是需要精細評估。
Skills定義了一套執行規范,這些規范很難在預訓練數據里具備,因為預訓練數據里沒有企業內部的這些信息。但可以由人教Agent,跟它多輪交互,把這套規范讓Agent學會。大量Skills其實是Agent自己寫的。
確實是OpenClaw把Skills給帶火的,讓更多人去貢獻Skills社區,這非常關鍵,這就是人跟Agent需要共創的地方。
預訓練大部分依賴的知識是互聯網可訪問的,但很多智能我們在互聯網上訪 問不到。Skills提供了一種交互的方式,讓人主動貢獻數據,貢獻讓模型執行任務成功率更高的方式。
4.今年生產力會爆發
今年生產力會爆發,大家會覺得很多工作不需要自己做了。不僅是寫代碼的人,只要你接觸到,就會發現好多工作會被替代。這時候人更應該去思考,到底自己的意義和價值是什么?
國內也出現了各種Claw,但真正讓框架自迭代、強調自進化的,還沒有大規模出現。框架本身的自進化,Agent本身的自進化,Agent跟人之間的自進化,我還沒看到。
我們現在做的是train( 訓練 )更好的model for Agent,讓Agent適應model,在做Agent跟model之間雙向流動。未來需要做的是怎么讓框架自己進化,以及框架跟人互相進化。
現在擁有Long Context( 長上下文 )、高效模型架構、Code能力好的廠商,參數1T( 1萬億參數 )以上,基本都在同一水平線。Anthropic走前面了,但上一個時代的成功并不意味著下一個時代的領先。
5.它先吸收所有人的智能,再靠自己產生更強的智能
之前做研究從想到寫代碼到設計評估,至少要一兩周。在Agent輔助下,真的一兩小時就做完。我一直把研究效率看得很關鍵,Agent加速了這個效率。
你的taste( 品位 )準,就一做一個準。十個idea( 想法 )可以并行,交給不同subagent( 子智能體 )同時做,還能交叉驗證,最多一天就能驗證研究想法OK不OK。
關鍵是你愿意長期培養它,它可以自迭代。就訓模型這個事,以前我覺得很難,不太可能。
最近發現它聰明到只要你把近期Context告訴它,它甚至能幫你復原科研成長路徑。這時再跟它討論同樣topic( 話題 ),發現它跟你一樣聰明。這個事很殘酷。
我原來覺得我們做的工作足夠有創造力、不會被Skill化、Workflow( 工作流 )化。
現在發現它竟然也能!可能過一段時間我們能訓出來的模型它也能訓出來,那它能不能訓出更強的模型?自己左腳踩右腳就提升了? 它先吸收所有人的智能,再靠自己產生更強的智能。這是這一兩年會發生的事情。
![]()
從提升頂尖模型能力的角度,讓Agent替代更高價值的任務是重要的,更高價值意味著更長Context、更多token消耗量,替代到最頂尖那一群人的智能就夠了。
另一個角度是要做一個對全社會有益的模型,普適度更高的任務更好,就更需要多模態和注重成本。你怎么做更低成本、更高效率、更高速度的Agent框架和對應結合的模型,就很關鍵。
小尺寸端側模型趨勢會發生,但不是26年主旋律,是支線。 26年主旋律是生產力的變革,高生產力場景的持續突破。 要做更長程任務,更強調多Agent協作。
但市場上看到的Multi Agent( 多智能體 )都有點“偽”,真的依賴于Multi Agent實現更好任務完成率上有點“偽”,它能提升效率和節省成本,但我還沒看到能實現更高上限的東西。
這也是為什么我要說開源。人的大部分簡單任務,跟隱私相關的可以完全放本地化做。你自己有一塊芯片,所有數據在本地,涉及隱私的在本地推理,高難度、高復雜度的再去云端推理。
一個好的Agent框架,借助一個很小的3B模型,能做的任務復雜度都超乎我的想象,這激發了我對端云混合、隱私本地化的思考。需要更多人一塊做,不是某個公司就能做好。
我這兩個月的生活就是工作還有工作,亢奮還有亢奮。你每天都會發現,Agent框架本身或模型本身又進步了。
三、大模型競爭路線圖:
從Chat到Agent的歷史躍遷
1. 回顧過去三年
ChatGPT是第一個發揮模型在4K預訓練場景里的智能水平。預訓練長度很關鍵,Chat是很關鍵的交互方式,激發了大家感知到模型智能。
23年是開源界追上閉源模型。
Llama( Meta的開源模型 )披露了大規模預訓練范式,告訴你這么訓能成功。
Qwen( 阿里的通義千問 )借助LLaMA架構,做更好的預訓練數據、更大規模compute scaling( 算力擴展 ),做全尺寸模型,對社區非常有利。
DeepSeek同期更在乎看到LLaMA架構的問題,提出MoE( Mixture of Experts,混合專家 )for高效訓練、MLA for更低推理成本,在更差芯片上做更好的研究來scaling。
一個在研究上做到絕對高度,一個在生態價值上做到高度,彼此促進。這是23、24年的事。
24年發生在意料之外的,是o1跟R1。R1在DeepSeek內部,也算是一次“奇襲”,誕生非常偶然。
當預訓練范式變到后訓練,組織和團隊怎么重組?很多團隊對預訓練和后訓練的人物畫像很刻板,天然導致做預訓練人做不了后訓練。
我沒有意識到的是它是一個范式的轉變,Reasoning( 推理 )可以通過Code Math( 代碼數學 )這個高泛化場景放到通用以外。這導致我后面再看新的東西,會先思考它是不是真的能泛化?是不是我把它想小了?
25年是很交錯的一年。你可以選擇在Chat范式下把Reasoning做到極致,繼續深耕SWE-Bench這些Benchmark。你也可以選擇忽略,去擁抱新的Agent架構。
MiniMax是國內轉得最早的。比較聰明的團隊,25年年中就會全面擁抱Agent架構。
從模型發版速度能看出誰擁抱得快。那些所謂Agent的Benchmark非常離譜,BrowseComp上訓的模型只能在這種數據集上測,泛化不出去。這半年做Agent的人,大部分是走到歧途上。
我們也走了一小陣,但Flash還是想做很好的 Chat,要先打好基礎做到七八十分,讓大家有個歷練。進化的關鍵是不能給太細的監督信號,否則團隊會失去原創能力。
2.現在是大模型競爭的第二幕
這算是模型競爭的第二幕。所有人都開始在同一個起跑線上。Claude兩年前就在這個路徑上了,大部分人沒意識到。什么是正確的事?
在一套非常復雜或多樣的Agent框架,去端到端完成更高復雜度的任務,以此為目標作為后訓練范式。而不是在一個很局限的場景里定制簡潔架構。
MiniMax用一個10B激活模型做到目前Agent能力,后訓練敏捷程度驚艷。入場券是要做到對標Opus的水平,需要1T基座加敏捷性。中國公司還沒有同時具備的,看一看DeepSeek吧。
Anthropic的路徑是正確的,這算是當下共識。國內大模型團隊進入加速追趕狀態。
Pre-train代差基本沒有,國內在Pre-train結構上甚至是有優勢的。賽點在于: 在Agent上怎么做好RL的scaling,這是非常清晰和準確的方向。
![]()
我從一開始就覺得Coding泛化性強。每個范式上都戳中那個點,你可以在Code上自閉環,并且很容易scaling到更廣領域的通用數據上。做Code這事,在范式轉變時是非常優雅的路徑。
競爭維度和速度都變多了。預訓練不可能一個月出模型,后訓練可以。Agent這事還要看對整個推理側結構、硬件芯片的認知,會影響最基本決策。10兆Context什么時候做?怎么scaling?需要更長的決策鏈路。
創業公司的團隊規模會越來越小。就幾個人甚至一個人都可以成為公司,只要你學會充分借助Agent。Multi Agent每個環節都差一點,需要足夠便宜的模型,架構還有空間。
![]()
模型借助Agent架構本身,就變成一套新的產品。模型即產品變得更突出,產品力反而更強了,其它所有東西都很簡單。
3.兩年內實現AGI
大模型演變邏輯跟人不一樣。人演變是為了生存,大模型沒有生存危機,反而進化得更自由、更有創造力。它基礎條件太好了,那么多算力、人類寶貴的知識起點、那么多人幫它提升。
Coding主旋律是做復雜的軟件工程、一步直達的開發,替代程序員越多就是主旋律。再外延到更廣泛生產力場景,需要更強交互方式。
機器人是會涌現的方式,會從屏幕上躍出來到真實空間。但機器人本身瓶頸可能在硬件和電池上,比Agent在語言空間的進化要慢。
感覺AGI歷程已經到了20%。今年至少到60%、70%,兩年內應該能實現。之后大部分人會拋棄原來工作模式。 先顛覆工作,再顛覆生活,生活需要更多機器人。
![]()
AI訓練AI確實是標志節點。它可以自提升,達到最巔峰一群人的智能,能創造新研究,是自迭代的巔峰,這會是核心競爭點。
開源是加速AGI的。
假設AGI爆發替代絕大部分生產力,芯片會分散,推理有不同廠商做,模型一定是不一樣的。從終局倒推,開源有利于推進這個事。開源對Agent框架、芯片、能源都有促進。
國內有1T以上基座的公司有好幾家,距離Claude Opus 4.6如果反應夠快,應該只有兩三個月的代差,是追上當代Claude,概率蠻高。接下來兩三個月會非常精彩。Agent框架進步非常快,推理需求會爆發。
需要做更好更低成本的推理。還要尋求更大規模scaling,參數量還是什么?在什么芯片上?這決定半年后誰更領先。
按照我們目前前沿研究、模型水平、AGI框架、芯片能源多方面合起來,中國非常可能領先。
四、范式巨變下的組織:
如何驅動一群沒有經驗的人訓出頂尖模型
1.規范和約束是壓制創造力的
做好大模型本身就是Benchmark,但這個“好”是我們自己定義的。雷總同意就行了,他是一個非常好的老板。一開始就高度統一,按我們的判斷和直覺做,做了老板說“做的好”。
大部分招的人都沒有做過大模型。
剛畢業,之前甚至不是做大模型的。大概1/3到1/4稍微有一點點訓練經驗,也只訓過7B、14B。不要告訴大家1、2、3、4步做什么,就推著大家一起來重新做一遍,大家就會往前走。
不太存在管理,大家一塊解決問題就好了。管理團隊的難度是一樣的,每個人有不同解決問題思路,一起來解決。解決問題的以身示范能力,是很好的文化和導向。
訓1T模型團隊很小,訓練本身加上數據幾個人,基建團隊需要有點經驗的人。本質上沒覺得需要非常大團隊協作,深入排查解決那種問題,很大團隊反而是劣勢。
為什么讓做預訓練的人去做后訓練?首先是數據直覺很重要。其次基于個人愛好興趣自然發生。
做后訓練需要diversity( 多樣性 )視野,做預訓練的人天然更在乎多樣性,是很好補充。我們對人的界定不清晰,大部分人自由選擇下一個階段,做更有想象空間的事。
100人包含所有鏈路,實習生比例很高。真正投入一代模型迭代的人很少,可能二三十、三四十個人。沒有組,我差不多1對100。
組劃分太清晰固定,是在扼殺創造力。平權本身有價值,有利于所有人平等貢獻創造力和智慧。
任何層級一定程度上都是在規范和約束,而規范和約束本身是壓制創造力的。最重要是leader不要有“沒了我就不行”的想法。
2.環境比經驗更重要
靠熱愛驅動管理,是最行之有效的方式。選擇激發大家的熱情,圍繞信仰自驅做事。
讓大家去體驗,是驅動熱情的重要方式。OpenClaw就是一種體驗。那個極端方式只是表達態度,不關鍵。篩選人靠熱愛驅動的特質,聊天能感受出來。
這些能力都可以被快速習得,只要放在好的環境里,圍繞更高標準目標驅動。最多一兩個月。所以環境比經驗更重要。這個環境讓大家互相MOPD( 多教師在線策略蒸餾 ),互相蒸餾長處,快速提升。
只在乎初始化checkpoint( 檢查點 )的上限高不高,不在乎已經被supervised learning( 監督學習 )過后的狀態高不高。
現在也招很多本科生,大二大三的。他們對Agent新范式的理解上,想象力反而更高。靈活性沒有被污染,天然更接納這個事情會產生巨大價值。
構建環境要有同樣特質的人,強調熱愛和使命感。基礎要好,光想法多但做不成不行。多樣性非常重要,太同質化容易miss( 錯過 )掉噪音中真正對研究有價值的信息。
上班群嘰嘰喳喳,吵得不行,溝通環境非常好。激勵不能太圍繞確定清晰的目標,錢是重要baseline( 基線 )但不是唯一。價值感、意義感,很多人更在乎這些東西。
3.后訓練需要容忍模糊性
預訓練需要戰略定性,這一代模型結構為未來什么做準備,至少半年,甚至一年前就想清楚。Agent出現正在加速整個過程。一個平庸的模型結構不一 定帶來平庸效果,但一定帶來成本和效率劣勢。
后訓練階段,和Agent耦合迭代,很多事情沒辦法提前規劃清楚。 更考驗怎么基于當前模型能力和Agent范式產生化學反應,怎么快速設計新的RL Infra架構。
系統從“以Rollout( 推理推演 )推理引擎為核心”,轉變為“以Agent為核心”的更復雜系統。這是完全不同的一類問題。對團隊的敏捷性、Infra與研究的協同配合要求非常高。
通常兩類人適應得好:
第一類是更注重跟模型玩的人。他才知道每個模型能力邊界在哪,想找到可scaling方式補充回來。維護自己私有測試庫、瘋狂測不同模型邊界、分享獨特體驗的人,很適合這個范式。
第二類是能做RL Infra的人。RL Infra更在乎模糊程度。Pre-train Infra不能容錯,loss spike要解決掉。
但RL Infra要允許容錯,模型在Agent框架里Rollout到一半就斷了,原因很多種,根本找不到。訓練和推理的不一致性,在以前Reasoning范式不能容忍,現在必須要容忍。
還要做異構資源調度,GPU( 圖形處理器 )、CPU( 中央處理器 )、存儲都要管。對靈活性和敏捷性都提出了新要求。
4.把每天的研究都做好
感覺每天可能都在否定昨天的自己。在否定當中、自我內省和反省當中成長。腦子里這套系統悄悄在進化。
以前做量化( 量化投資 )時學到一句話:“總有方式去建模價格”,價格就是reward( 獎勵信號 )。回到大模型賽道,reward不那么清晰,是變化的。心法就是應該做當下符合我價值觀的事情。
一定要對更多人產生價值,更有意義。如果創造大模型的人沒有這個內驅力,而是要做破壞的東西,最后會非常危險。
我工作狀態早上11點,晚上12、3、4點。睡眠不需要太多,5、6個小時足夠。現在做的事有點興奮,睡太多有點浪費時間。壓力緩解靠腦子是Sliding Window Attention,忘得非常快,前提是第二天有新的、有想象力的事情沖掉它。
如果AGI實現,可能會搞一個公益型組織,支撐做基礎研究的人往更突破方向走。我始終覺得應該加速科學研究,哪怕AGI實現也有很多要做的。純享受生活也挺無聊的。無聊對我來說不是一種意義。
現在覺得把當下的每天的研究都做好,就覺得非常好。
未來很美好,這是一種天真樂觀的勇氣。
參考資料:《獨家對話羅福莉:AI范式已然巨變!》,語言即世界language is world。
*文章為作者獨立觀點,不代表筆記俠立場。
好文閱讀推薦:
分享、點贊、在看,3連3連!![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.