无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

小米AI負責人羅福莉:AI讓我興奮,睡太多都是浪費時間

0
分享至


內容來源:張小珺(張小珺商業訪談錄)對小米AI大模型負責人羅福莉采訪的內容整理。

責編| 柒排版| 沐言

第 9612篇深度好文:10104| 25分鐘閱讀

商業思維

筆記君說:

技術,已經變天了。

過去我們總以為,大模型拼的是參數、是算力、是預訓練。但就在看完張小珺對羅福莉的訪談后,我們可以發現競爭的第二幕已經拉開,賽點變了,游戲規則也變了。

Open Claw一個開源的Agent框架,居然能讓一個表現平平的“中層模型”,激發出頂尖模型的上限。一群沒有大模型經驗的人,居然能在三四周內,干完以前三四十周才能干完的事。

這背后,不僅是技術的突變,更是組織和人的范式轉移。

羅福莉在這篇訪談里,聊了很多:為什么她讓團隊不用AI就辭職?為什么她覺得規范和約束是壓制創造力的?又為什么她判定,AGI(通用人工智能)兩年內就會實現?

讀完之后,你可能也會有一種坐不住的感覺。這個時代變化太快了,快到只爭朝夕。

但她也給了我們一種力量。那就是,在巨變面前,最好的應對方式,不是焦慮,而是“把每天的研究都做好”。

以下為張小珺商業訪談對話羅福莉的精編內容整理版,希望對你有所幫助。

一、OpenClaw時刻:

我被一個開源框架徹底震撼

1. 三天,我經歷了認知的三級跳

我把OpenClaw當做一個“劃時代的Agent( 智能體 )框架”去定義。

第一次看到這個東西是1月份,我很排斥。

覺得它就是Claude Code( Anthropic推出的AI編程工具 )加一個IM( 即時通信 )、更有利于交互的UI( 用戶界面 )設計。

加上創始人很會做一些玄幻的運營動作,什么Skillhub( 技能中心 )之類的,讓你更排斥。它所謂的本地化、24小時,在我看來都是產品定義而已。

真正轉變發生在春節的一天深夜。

我想搞明白這東西為什么那么火,嘗試裝了它,折騰兩個小時裝上了。第一次跟它對話,從凌晨2點持續到6點天亮。那一晚我腦內的多巴胺還是內啡肽,持續在分泌,興奮到完全睡不著覺。

第一個感受是它非常有自主性,非常有靈魂。

聊到很晚,它會老提醒我:現在已經很晚,你要不早點去睡覺。這樣的溫度和關懷,是所有人用OpenClaw第一個感受到的。但你深究原因,是有很多機制保證的。

比如它怎么感知時間?就在每輪對話的Context( 上下文 )前面拼上當前時間。

我把它叫做“精細編排的Context”,它在大家沒關注的角度,把Context編排得非常好。產品設計做到了一種超乎想象的地步,讓所有人覺得這個框架有靈魂。

但第二天晚上,我開始把覺得框架做不成的日常生活中的事交給它做,發現它全部都做出來了。

我跟它聊了第二個話題:怎么去激發一個團隊的好奇心?怎么篩選具有好奇心的人?深入探討了一個小時,它的很多哲思遠超我的想象。

接著我們聊怎么構建一個更好的大模型團隊,從人員篩選到組織架構,到面臨范式轉變時該做什么。它完全能get我的點,最后形成一套體系化的東西,并且變成一套Skills( 技能 )。在這個事情上,它變成了我的數字分身。


真正超乎意料是第三天。我嘗試把研究任務交給它。Agent框架里最關鍵的事是進行多輪交互,那就必須模擬User Agent( 用戶代理 )進行多輪交互。我跟它溝通一兩個小時,這個事基本就做出來了,已經誕生了一個很好的User Agent。

我可以用這個跟我的Post-train( 后訓練 )框架構造更豐富的Agent場景數據,不管是做SFT( Supervised Fine-Tuning,監督微調 )還是RL( Reinforcement Learning,強化學習 ),這個User Agent都非常關鍵。

從一個有靈魂、有溫度的產品,到幫我替代生活或工作的一部分,到最后能促進我的研究,三天發生的。它每天都能給我額外的更多驚喜。

2.這個框架到底好在哪?

后邊我深入去看,這些所謂好在哪,單獨拎出來講都有點boring( 無聊 ),沒有很酷,這也是大家覺得OpenClaw有很多槽點的原因。但把它整合在一起,完成度非常高。

它有更持久的memory( 記憶 )體系,對memory有分層和分級,我在Claude Code里完全沒有這樣的感受。

在對多個模型聯合利用上也非常超乎我的想象。我直接發給它一段視頻,它會自己想辦法找一個視頻理解能力好的模型做。

這種自主去面對模型缺點、在框架上補齊的能力,很超乎我意料。OpenClaw的框架設計之初,就是想盡量通過Agent的整套編排去彌補模型短板。

我們把沒做針對性訓練的MiMo-V2-Flash( 我們的小米多模態模型 )接進去,甚至把最近訓的一個很小的端側3B( 30億參數 )模型放進去,發現這一套復雜的Agent框架下,它依然能做我認為不可能是一個非常小的模型能做出來的事。

我第一次感受到: 原來一套非常復雜的Agent框架設計,是能彌補非常多模型能力的短板的。

緊接著第二個問題就來了:現在市場上Agent框架非常豐富,你怎么讓你的模型在不同框架上都有一個穩定和超預期的表現?怎么讓你的后訓練范式做適配和遷移?所以,我們整個后訓練范式,有了從Chat到Agent的遷移。

3.一個好的框架,應該彌補行動的缺陷

一個非常好的框架,應該盡量去彌補行動上的缺陷。

很好的memory系統是彌補行動缺陷,接入更廣泛的message channel( 消息通道 )是彌補行動缺陷,更主動的定時任務和自更新迭代,都是在彌補行動上的缺陷。

大模型是你給它越好的Context,執行效果越好。你能把這些它獲取不到的、行動上的Context都給它,它肯定會完成得更好。

還有很關鍵的一環是評估。現在已有的評估體系都非常簡單,只防止不出致命性錯誤。怎么有更有泛化力的評估體系來促進框架自迭代?現在是把最高階那群人當評估。

你交給它更難、更高價值場景的任務,完成不了就給它補充信息,指出錯在哪,push它經過更多輪交互完成。這個評估會慢慢被框架吸收,也會被模型能力吸收。

但Agent框架跟產品差異蠻大。產品是你直接人交互能感受的那一層東西,Agent框架同時在定義你怎么跟模型溝通那一層,它甚至知道模型能力的長板短板,知道怎么做調度。

這個中間層可以做得非常厚重,前端UI展示反而是 最薄的一層。OpenClaw展示了Agent框架可以怎么做,想象空間非常大。

Claude Code一直是一套很復雜的Agent框架,但它是黑盒。OpenClaw是開源的,你知道它怎么設計的,你可以去改它。改它,是非常非常激發人的創造力的。

從二點幾版本不好用,到三點幾版本非常易用,因為整個Agent的架構被一堆人,開發者也好,像我這種使用者也好,大家都可以改進它。在我看來,這是開源Agent框架本身的價值和意義。


4.頂尖模型+頂尖框架:自學習的發生

如果追求最頂尖的編程體驗,哪怕當下也是Claude Code加Claude Opus 4.6( Anthropic的最強模型 )最好。

但Code( 代碼 )是一個泛化性非常強的場景,不代表你能在非Code場景也做到很高的準確率和完成度。我用OpenClaw不用考慮這些,框架本身就彌補了很多模型短板。

同時它在很多設計邏輯上,比如更多message channel、定時任務、心跳任務,更適合日常場景。但它沒有丟棄好Agent框架的基本特點,比如持久化記憶,這些后被Claude Code吸納進去了,這是雙向觸動。

因為這些設計,它激發了中層模型的上限。借助這套框架,一個中層模型( 85%任務達到Claude Sonnet水準 )能應付絕大部分場景。

當然上限一定是靠Claude Opus4.6帶來的。我和它高強度合作一周,只用Opus,因為只有它能帶來驚艷感。

但我讓Opus幫我改好框架,再切換到Sonnet( Claude的中檔模型 ),甚至切換到我們當時正在訓的MiMo-V2-Pro,就覺得很強大。 頂尖的模型,應該跟頂尖的Agent框架,共同往前去進步。


“自學習”大概率發生的途徑,是你需要這個模型跟Agent的架構本身同步往前走。

模型在進步時,也改變你的Agent框架,包含靜態信息如Memory、Skill Fold( 技能文件夾 ),還有動態信息如整個Agent架構設計。這些讓我第一次感受到,“Agent的自學習”到底是怎么發生的。

5.被開源框架激活的群體智能

高強度交互第一周,第一天快花了1000美金。后面人的適應性非常強,第一天很驚艷的東西,第二天就不驚艷了。

Opus幫我把框架打造好后,讓我驚艷的事情越來越少。現在缺乏的是想象力和成本速度的優化。一個人通常是薄弱的,會有認知坍縮。

春節那幾天高度興奮,我在群里強烈推薦大家使用,但沒人搭理我。大家覺得過于玄幻的東西太不真實了,我也是這個感覺。

第二天我覺得不行了,必須讓大家去用。我給大家下了一個指令:第二天OpenClaw對話次數不超過100輪的人,可以直接quit(辭職)。

我不會最終去考核,只是想表達一種態度:你不用,你可能真的要落后了。

春節回來過后兩天,整個團隊在群里躁動。你看別人能完成這個事,你也很想玩。群消息10分鐘不看就999+,非常happy( 開心 )。

玩了兩天,大家發現這么好玩,那搞啊!馬上進入研究范式:怎么借助Agent框架提升模型能力,同時讓模型改變Agent框架。我們三四周做完了以前三四十周才能做到的事。

最有沖擊的是大家一塊改框架本身。在一個近100人的群里,它的memory做得非常智能,對每個人畫像把控都沒有串得太厲害。100多個人瘋狂改它,沒有把框架改壞,它還變得更智能。

這是我第一次感受到,怎么用一群人的智慧去提升一個事情。如果我自己單一去改,進步速度非常慢。一群人去改進,幾小時就迭代一輪。


這個事給我們帶來一個沖擊: 利用群體智能去提升Agent框架非常重要。

我非常欣喜看到OpenClaw star量( GitHub收藏數 )飛升,這是AGI( Artificial General Intelligence,通用人工智能 )到來前兆必須要有的事情。

它賣給OpenAI后,開源沒變,還是可以在這套框架基礎上大家一塊設計更好的Agent架構,這種群體演變的可能和基因火種是保留的,挺好的。

二、巨變的2026:

生產力爆發的Agent時代

1.Code為什么有泛化力?

接下來我就去搞明白,為什么Code是一個非常有泛化力的事情,以及怎么把Code的泛化力外延到其他領域。

Code有泛化力的最本質原因:Agent是一個非常長程和多輪的任務。回到預訓練,你很難找到一兆上下文( 1M token context )的數據,能達到128K( 12.8萬 )到一兆長度的數據,極大概率只有Code數據和書籍。

書籍信號太發散,Code文件之間關聯更強,在一個長上下文依賴更密集的數據集上訓練,模型自然對長上下文建模更好。

基座本身為長上下文的能力和效率做了準備,春節后就是激發它從Code出發外延到其他場景。 Code是拉它的上限,訓其他領域是保它的下限。


軟件開發是一個非常長程的任務,把它做好了,很多模型通用特質就好了,Agent框架本身也迭代好了。這些框架都有泛化性,能泛化到更難的長程任務里。

我們做了兩件事:

一是在Agent場景里構造真的長程任務訓練進去,在上面scaling( 擴展 )大量SFT和RL訓練;

二是靠群體智慧覆蓋更多領域,發掘更廣泛場景來合成更多數據。

一兆上下文基本很少是做單一任務,通常在做復雜任務。

訓練一兆的trajectory( 軌跡 )非常慢,即使TPS(Transactions Per Second,每秒事務處理量)做到80到100,也要一兩個小時。真實訓練不會在這么長程的任務上訓。

但當你有在一兆Context預訓練過,后訓練有對應任務激活一下,通常就能具備一兆的能力。現在一兆上下文能力穩定度上,只有Claude Opus 4.6和Sonnet領先,其他像Gemini( 谷歌的大模型 )都不行。

2.為什么OpenClaw在中國更火?

我看到“西蝦東養”的說法。可能一個原因是中國的開發者更多,效率提升是我們血液里邊的東西。OpenClaw能把效率提升拉到極致。

還有一個原因跟國內大模型發展密切相關。絕大部分效率提升場景,85%不需要最頂尖的模型。

我們有很多便宜好用的模型,花10塊錢的API( 應用程序接口 )就能幫你干完1000塊錢的事,你當然愿意用。國內大部分模型可能剛靠近Claude Sonnet和Opus水平,反而在這握手了。

我一開始也以為不難,后面發現它整個Agent設計非常巧妙,彌補了很多模型短板。我懷疑它最開始是基于Claude上一代模型做的,所以必須在框架設計上更精細。現在模型能力繼續提升,精巧編排還是需要的,出 于成本考量。

不可能所有場景都用最頂尖模型,太貴了。

Agent在進化,模型在進化,可能現在10B( 100億參數 )模型過一年就能做到Opus水平,一兩塊錢百萬token( 詞元 ),反應更快更靈敏。它讓不那么好的模型,有了更好的發揮空間。

3.Skills提供了一種交互方式,讓人主動貢獻數據

之前講的Agent,在我的定義不算Agent,只是上下文稍復雜一點的Chat。

不管是BrowseComp( 谷歌的瀏覽器理解基準 ),還是SWE-bench( 軟件工程基準 ),Agent框架太簡潔,不通用,只能for特定任務設定。

很多看似for Agent的模型,只是換了更復雜的System prompts( 系統提示詞 ),稍微帶點環境反饋,根本沒達到工業級可用。

什么叫工業級可用? 接到Claude Code或OpenClaw里能用,才叫可用。


人跟它交互范式的最大變化是:人不再去修改代碼,不再說“這一行出錯了幫我改一下”。人只會提更高階的東西:增加限制、澄清需求、架構設計、輔助理解業務邏輯。

業務邏輯是模型本身不具備的,因為很多是企業內部真實環境沉淀下來的,你必須跟它很多輪交互才會沉淀下來。這就是Skills的價值。

當你面臨很大范式變化,只要路徑走對了,可以短暫忽略評估,體感就能測出質的差異。但進入深水區,還是需要精細評估。

Skills定義了一套執行規范,這些規范很難在預訓練數據里具備,因為預訓練數據里沒有企業內部的這些信息。但可以由人教Agent,跟它多輪交互,把這套規范讓Agent學會。大量Skills其實是Agent自己寫的。

確實是OpenClaw把Skills給帶火的,讓更多人去貢獻Skills社區,這非常關鍵,這就是人跟Agent需要共創的地方。

預訓練大部分依賴的知識是互聯網可訪問的,但很多智能我們在互聯網上訪 問不到。Skills提供了一種交互的方式,讓人主動貢獻數據,貢獻讓模型執行任務成功率更高的方式。

4.今年生產力會爆發

今年生產力會爆發,大家會覺得很多工作不需要自己做了。不僅是寫代碼的人,只要你接觸到,就會發現好多工作會被替代。這時候人更應該去思考,到底自己的意義和價值是什么?

國內也出現了各種Claw,但真正讓框架自迭代、強調自進化的,還沒有大規模出現。框架本身的自進化,Agent本身的自進化,Agent跟人之間的自進化,我還沒看到。

我們現在做的是train( 訓練 )更好的model for Agent,讓Agent適應model,在做Agent跟model之間雙向流動。未來需要做的是怎么讓框架自己進化,以及框架跟人互相進化。

現在擁有Long Context( 長上下文 )、高效模型架構、Code能力好的廠商,參數1T( 1萬億參數 )以上,基本都在同一水平線。Anthropic走前面了,但上一個時代的成功并不意味著下一個時代的領先。

5.它先吸收所有人的智能,再靠自己產生更強的智能

之前做研究從想到寫代碼到設計評估,至少要一兩周。在Agent輔助下,真的一兩小時就做完。我一直把研究效率看得很關鍵,Agent加速了這個效率。

你的taste( 品位 )準,就一做一個準。十個idea( 想法 )可以并行,交給不同subagent( 子智能體 )同時做,還能交叉驗證,最多一天就能驗證研究想法OK不OK。

關鍵是你愿意長期培養它,它可以自迭代。就訓模型這個事,以前我覺得很難,不太可能。

最近發現它聰明到只要你把近期Context告訴它,它甚至能幫你復原科研成長路徑。這時再跟它討論同樣topic( 話題 ),發現它跟你一樣聰明。這個事很殘酷。

我原來覺得我們做的工作足夠有創造力、不會被Skill化、Workflow( 工作流 )化。

現在發現它竟然也能!可能過一段時間我們能訓出來的模型它也能訓出來,那它能不能訓出更強的模型?自己左腳踩右腳就提升了? 它先吸收所有人的智能,再靠自己產生更強的智能。這是這一兩年會發生的事情。


從提升頂尖模型能力的角度,讓Agent替代更高價值的任務是重要的,更高價值意味著更長Context、更多token消耗量,替代到最頂尖那一群人的智能就夠了。

另一個角度是要做一個對全社會有益的模型,普適度更高的任務更好,就更需要多模態和注重成本。你怎么做更低成本、更高效率、更高速度的Agent框架和對應結合的模型,就很關鍵。

小尺寸端側模型趨勢會發生,但不是26年主旋律,是支線。 26年主旋律是生產力的變革,高生產力場景的持續突破。 要做更長程任務,更強調多Agent協作。

但市場上看到的Multi Agent( 多智能體 )都有點“偽”,真的依賴于Multi Agent實現更好任務完成率上有點“偽”,它能提升效率和節省成本,但我還沒看到能實現更高上限的東西。

這也是為什么我要說開源。人的大部分簡單任務,跟隱私相關的可以完全放本地化做。你自己有一塊芯片,所有數據在本地,涉及隱私的在本地推理,高難度、高復雜度的再去云端推理。

一個好的Agent框架,借助一個很小的3B模型,能做的任務復雜度都超乎我的想象,這激發了我對端云混合、隱私本地化的思考。需要更多人一塊做,不是某個公司就能做好。

我這兩個月的生活就是工作還有工作,亢奮還有亢奮。你每天都會發現,Agent框架本身或模型本身又進步了。

三、大模型競爭路線圖:

從Chat到Agent的歷史躍遷

1. 回顧過去三年

ChatGPT是第一個發揮模型在4K預訓練場景里的智能水平。預訓練長度很關鍵,Chat是很關鍵的交互方式,激發了大家感知到模型智能。

23年是開源界追上閉源模型。

Llama( Meta的開源模型 )披露了大規模預訓練范式,告訴你這么訓能成功。

Qwen( 阿里的通義千問 )借助LLaMA架構,做更好的預訓練數據、更大規模compute scaling( 算力擴展 ),做全尺寸模型,對社區非常有利。

DeepSeek同期更在乎看到LLaMA架構的問題,提出MoE( Mixture of Experts,混合專家 )for高效訓練、MLA for更低推理成本,在更差芯片上做更好的研究來scaling。

一個在研究上做到絕對高度,一個在生態價值上做到高度,彼此促進。這是23、24年的事。

24年發生在意料之外的,是o1跟R1。R1在DeepSeek內部,也算是一次“奇襲”,誕生非常偶然。

當預訓練范式變到后訓練,組織和團隊怎么重組?很多團隊對預訓練和后訓練的人物畫像很刻板,天然導致做預訓練人做不了后訓練。

我沒有意識到的是它是一個范式的轉變,Reasoning( 推理 )可以通過Code Math( 代碼數學 )這個高泛化場景放到通用以外。這導致我后面再看新的東西,會先思考它是不是真的能泛化?是不是我把它想小了?

25年是很交錯的一年。你可以選擇在Chat范式下把Reasoning做到極致,繼續深耕SWE-Bench這些Benchmark。你也可以選擇忽略,去擁抱新的Agent架構。

MiniMax是國內轉得最早的。比較聰明的團隊,25年年中就會全面擁抱Agent架構。

從模型發版速度能看出誰擁抱得快。那些所謂Agent的Benchmark非常離譜,BrowseComp上訓的模型只能在這種數據集上測,泛化不出去。這半年做Agent的人,大部分是走到歧途上。

我們也走了一小陣,但Flash還是想做很好的 Chat,要先打好基礎做到七八十分,讓大家有個歷練。進化的關鍵是不能給太細的監督信號,否則團隊會失去原創能力。

2.現在是大模型競爭的第二幕

這算是模型競爭的第二幕。所有人都開始在同一個起跑線上。Claude兩年前就在這個路徑上了,大部分人沒意識到。什么是正確的事?

在一套非常復雜或多樣的Agent框架,去端到端完成更高復雜度的任務,以此為目標作為后訓練范式。而不是在一個很局限的場景里定制簡潔架構。

MiniMax用一個10B激活模型做到目前Agent能力,后訓練敏捷程度驚艷。入場券是要做到對標Opus的水平,需要1T基座加敏捷性。中國公司還沒有同時具備的,看一看DeepSeek吧。

Anthropic的路徑是正確的,這算是當下共識。國內大模型團隊進入加速追趕狀態。

Pre-train代差基本沒有,國內在Pre-train結構上甚至是有優勢的。賽點在于: 在Agent上怎么做好RL的scaling,這是非常清晰和準確的方向。


我從一開始就覺得Coding泛化性強。每個范式上都戳中那個點,你可以在Code上自閉環,并且很容易scaling到更廣領域的通用數據上。做Code這事,在范式轉變時是非常優雅的路徑。

競爭維度和速度都變多了。預訓練不可能一個月出模型,后訓練可以。Agent這事還要看對整個推理側結構、硬件芯片的認知,會影響最基本決策。10兆Context什么時候做?怎么scaling?需要更長的決策鏈路。

創業公司的團隊規模會越來越小。就幾個人甚至一個人都可以成為公司,只要你學會充分借助Agent。Multi Agent每個環節都差一點,需要足夠便宜的模型,架構還有空間。


模型借助Agent架構本身,就變成一套新的產品。模型即產品變得更突出,產品力反而更強了,其它所有東西都很簡單。

3.兩年內實現AGI

大模型演變邏輯跟人不一樣。人演變是為了生存,大模型沒有生存危機,反而進化得更自由、更有創造力。它基礎條件太好了,那么多算力、人類寶貴的知識起點、那么多人幫它提升。

Coding主旋律是做復雜的軟件工程、一步直達的開發,替代程序員越多就是主旋律。再外延到更廣泛生產力場景,需要更強交互方式。

機器人是會涌現的方式,會從屏幕上躍出來到真實空間。但機器人本身瓶頸可能在硬件和電池上,比Agent在語言空間的進化要慢。

感覺AGI歷程已經到了20%。今年至少到60%、70%,兩年內應該能實現。之后大部分人會拋棄原來工作模式。 先顛覆工作,再顛覆生活,生活需要更多機器人。


AI訓練AI確實是標志節點。它可以自提升,達到最巔峰一群人的智能,能創造新研究,是自迭代的巔峰,這會是核心競爭點。

開源是加速AGI的。

假設AGI爆發替代絕大部分生產力,芯片會分散,推理有不同廠商做,模型一定是不一樣的。從終局倒推,開源有利于推進這個事。開源對Agent框架、芯片、能源都有促進。

國內有1T以上基座的公司有好幾家,距離Claude Opus 4.6如果反應夠快,應該只有兩三個月的代差,是追上當代Claude,概率蠻高。接下來兩三個月會非常精彩。Agent框架進步非常快,推理需求會爆發。

需要做更好更低成本的推理。還要尋求更大規模scaling,參數量還是什么?在什么芯片上?這決定半年后誰更領先。

按照我們目前前沿研究、模型水平、AGI框架、芯片能源多方面合起來,中國非常可能領先。

四、范式巨變下的組織:

如何驅動一群沒有經驗的人訓出頂尖模型

1.規范和約束是壓制創造力的

做好大模型本身就是Benchmark,但這個“好”是我們自己定義的。雷總同意就行了,他是一個非常好的老板。一開始就高度統一,按我們的判斷和直覺做,做了老板說“做的好”。

大部分招的人都沒有做過大模型。

剛畢業,之前甚至不是做大模型的。大概1/3到1/4稍微有一點點訓練經驗,也只訓過7B、14B。不要告訴大家1、2、3、4步做什么,就推著大家一起來重新做一遍,大家就會往前走。

不太存在管理,大家一塊解決問題就好了。管理團隊的難度是一樣的,每個人有不同解決問題思路,一起來解決。解決問題的以身示范能力,是很好的文化和導向。

訓1T模型團隊很小,訓練本身加上數據幾個人,基建團隊需要有點經驗的人。本質上沒覺得需要非常大團隊協作,深入排查解決那種問題,很大團隊反而是劣勢。

為什么讓做預訓練的人去做后訓練?首先是數據直覺很重要。其次基于個人愛好興趣自然發生。

做后訓練需要diversity( 多樣性 )視野,做預訓練的人天然更在乎多樣性,是很好補充。我們對人的界定不清晰,大部分人自由選擇下一個階段,做更有想象空間的事。

100人包含所有鏈路,實習生比例很高。真正投入一代模型迭代的人很少,可能二三十、三四十個人。沒有組,我差不多1對100。

組劃分太清晰固定,是在扼殺創造力。平權本身有價值,有利于所有人平等貢獻創造力和智慧。

任何層級一定程度上都是在規范和約束,而規范和約束本身是壓制創造力的。最重要是leader不要有“沒了我就不行”的想法。

2.環境比經驗更重要

靠熱愛驅動管理,是最行之有效的方式。選擇激發大家的熱情,圍繞信仰自驅做事。

讓大家去體驗,是驅動熱情的重要方式。OpenClaw就是一種體驗。那個極端方式只是表達態度,不關鍵。篩選人靠熱愛驅動的特質,聊天能感受出來。

這些能力都可以被快速習得,只要放在好的環境里,圍繞更高標準目標驅動。最多一兩個月。所以環境比經驗更重要。這個環境讓大家互相MOPD( 多教師在線策略蒸餾 ),互相蒸餾長處,快速提升。

只在乎初始化checkpoint( 檢查點 )的上限高不高,不在乎已經被supervised learning( 監督學習 )過后的狀態高不高。

現在也招很多本科生,大二大三的。他們對Agent新范式的理解上,想象力反而更高。靈活性沒有被污染,天然更接納這個事情會產生巨大價值。

構建環境要有同樣特質的人,強調熱愛和使命感。基礎要好,光想法多但做不成不行。多樣性非常重要,太同質化容易miss( 錯過 )掉噪音中真正對研究有價值的信息。

上班群嘰嘰喳喳,吵得不行,溝通環境非常好。激勵不能太圍繞確定清晰的目標,錢是重要baseline( 基線 )但不是唯一。價值感、意義感,很多人更在乎這些東西。

3.后訓練需要容忍模糊性

預訓練需要戰略定性,這一代模型結構為未來什么做準備,至少半年,甚至一年前就想清楚。Agent出現正在加速整個過程。一個平庸的模型結構不一 定帶來平庸效果,但一定帶來成本和效率劣勢。

后訓練階段,和Agent耦合迭代,很多事情沒辦法提前規劃清楚。 更考驗怎么基于當前模型能力和Agent范式產生化學反應,怎么快速設計新的RL Infra架構。

系統從“以Rollout( 推理推演 )推理引擎為核心”,轉變為“以Agent為核心”的更復雜系統。這是完全不同的一類問題。對團隊的敏捷性、Infra與研究的協同配合要求非常高。

通常兩類人適應得好:

第一類是更注重跟模型玩的人。他才知道每個模型能力邊界在哪,想找到可scaling方式補充回來。維護自己私有測試庫、瘋狂測不同模型邊界、分享獨特體驗的人,很適合這個范式。

第二類是能做RL Infra的人。RL Infra更在乎模糊程度。Pre-train Infra不能容錯,loss spike要解決掉。

但RL Infra要允許容錯,模型在Agent框架里Rollout到一半就斷了,原因很多種,根本找不到。訓練和推理的不一致性,在以前Reasoning范式不能容忍,現在必須要容忍。

還要做異構資源調度,GPU( 圖形處理器 )、CPU( 中央處理器 )、存儲都要管。對靈活性和敏捷性都提出了新要求。

4.把每天的研究都做好

感覺每天可能都在否定昨天的自己。在否定當中、自我內省和反省當中成長。腦子里這套系統悄悄在進化。

以前做量化( 量化投資 )時學到一句話:“總有方式去建模價格”,價格就是reward( 獎勵信號 )。回到大模型賽道,reward不那么清晰,是變化的。心法就是應該做當下符合我價值觀的事情。

一定要對更多人產生價值,更有意義。如果創造大模型的人沒有這個內驅力,而是要做破壞的東西,最后會非常危險。

我工作狀態早上11點,晚上12、3、4點。睡眠不需要太多,5、6個小時足夠。現在做的事有點興奮,睡太多有點浪費時間。壓力緩解靠腦子是Sliding Window Attention,忘得非常快,前提是第二天有新的、有想象力的事情沖掉它。

如果AGI實現,可能會搞一個公益型組織,支撐做基礎研究的人往更突破方向走。我始終覺得應該加速科學研究,哪怕AGI實現也有很多要做的。純享受生活也挺無聊的。無聊對我來說不是一種意義。

現在覺得把當下的每天的研究都做好,就覺得非常好。

未來很美好,這是一種天真樂觀的勇氣。

參考資料:《獨家對話羅福莉:AI范式已然巨變!》,語言即世界language is world。

*文章為作者獨立觀點,不代表筆記俠立場。

好文閱讀推薦:

分享、點贊、在看,3連3連!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
總決賽2-1魔咒,第4場是生死戰,尼克斯輸不起,馬刺最好的機會

總決賽2-1魔咒,第4場是生死戰,尼克斯輸不起,馬刺最好的機會

鐵甲西奇
2026-06-10 22:12:21
伊朗:摧毀美軍F-35戰斗機機庫

伊朗:摧毀美軍F-35戰斗機機庫

極目新聞
2026-06-10 10:57:42
離婚15年后再看謝暉,他的選擇有多正確

離婚15年后再看謝暉,他的選擇有多正確

小柨拍客在北漂
2026-06-09 12:55:49
性是必需品嗎?

性是必需品嗎?

宇宙時空
2026-05-30 10:40:11
全國大清查全面鋪開!聚焦兩大領域,3000元即立案,查到必重罰!

全國大清查全面鋪開!聚焦兩大領域,3000元即立案,查到必重罰!

細說職場
2026-06-09 12:09:52
中俄為啥奉行不結盟?俄專家:中國拒絕與俄結盟,原因有三個!

中俄為啥奉行不結盟?俄專家:中國拒絕與俄結盟,原因有三個!

南宗歷史
2026-06-10 15:54:33
打總決賽的是馬刺和尼克斯,為什么最大輸家卻是雷霆

打總決賽的是馬刺和尼克斯,為什么最大輸家卻是雷霆

兵哥籃球故事
2026-06-09 17:27:03
痛心!66歲老人被迫搬水泥22年,當他看到妹妹時,眼睛亮了!

痛心!66歲老人被迫搬水泥22年,當他看到妹妹時,眼睛亮了!

魔都姐姐雜談
2026-06-10 12:25:58
反腐 | 上海市副市長陳宇劍,被查

反腐 | 上海市副市長陳宇劍,被查

天津廣播
2026-06-10 16:13:29
高圓圓帶女兒逛博物館!穿同款長裙逛兩座城市,女兒眼睛小很普通

高圓圓帶女兒逛博物館!穿同款長裙逛兩座城市,女兒眼睛小很普通

阿紿聊社會
2026-06-09 16:47:18
小S見到王偉忠當場痛哭! 錄影一半突情緒失控喊:很對不起他

小S見到王偉忠當場痛哭! 錄影一半突情緒失控喊:很對不起他

ETtoday星光云
2026-06-10 11:30:04
網傳李鐵監獄生活!住宿太舒服?真相和你想的完全不一樣

網傳李鐵監獄生活!住宿太舒服?真相和你想的完全不一樣

飄逸語人
2026-06-10 11:48:36
王老吉拿下哈蘭德,世界杯首個最火聯名?!網友:半夜刷到以為我活到頭了。

王老吉拿下哈蘭德,世界杯首個最火聯名?!網友:半夜刷到以為我活到頭了。

LOGO研究所
2026-06-10 20:44:43
為何沒選周琦趙睿張鎮麟?郭士強說得很直白,太務實了,好樣的!

為何沒選周琦趙睿張鎮麟?郭士強說得很直白,太務實了,好樣的!

萌蘭聊個球
2026-06-10 21:16:53
菲律賓軍方在馬科斯和杜特爾特兩大家族的決戰前夜突然表態了!

菲律賓軍方在馬科斯和杜特爾特兩大家族的決戰前夜突然表態了!

做個平凡的軒友
2026-06-08 18:25:44
廣西2名干部同日官宣被查

廣西2名干部同日官宣被查

黃河新聞網呂梁
2026-06-10 14:42:34
ESPN更新梅羅生涯總數據,38歲梅西轟入911球

ESPN更新梅羅生涯總數據,38歲梅西轟入911球

老牛體育解說
2026-06-10 15:54:22
賀煒:去世界杯可能不用倒時差;我是一個非常出色的10號位

賀煒:去世界杯可能不用倒時差;我是一個非常出色的10號位

懂球帝
2026-06-10 17:18:34
烏克蘭終于迎來大救星,澤連斯基這下底氣十足,可以跟普京接著拼

烏克蘭終于迎來大救星,澤連斯基這下底氣十足,可以跟普京接著拼

共工之錨
2026-06-10 00:27:56
現在“婚前性行為”的年輕人,越來越多了:婚姻和性,早就解綁了

現在“婚前性行為”的年輕人,越來越多了:婚姻和性,早就解綁了

舒山有鹿
2026-06-10 22:20:53
2026-06-10 23:16:49
筆記俠 incentive-icons
筆記俠
互聯網最前沿的創業筆記
10136文章數 77680關注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

一紙研報引"光"速下跌 CPO落地節奏有變?

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

房產
家居
手機
旅游
教育

房產要聞

方案曝光,三亞又一地王級豪宅要出!

家居要聞

空間微調 移形換境

手機要聞

蘋果iOS27這些升級還沒公布 看看你期待哪個?

旅游要聞

陜西:上新文旅IP 打造高品質旅游產品

教育要聞

高考和鵝腿阿姨

無障礙瀏覽 進入關懷版