網易首頁 > 網易號 > 正文 申請入駐

Meta發布Muse Spark:華人天團廢墟重建,最恨Llama的果然是小扎自己

0
分享至


作者 | 貓貓頭
郵箱 | cathy@pingwest.com

在Llama徹底“崩盤”后,Meta創始人兼CEO扎克伯格親手拆除過去的團隊、架構并徹底走向“反Llama”路線,砸百億建起華人科學家為主的AI研發天團。今天,在9個月后,在整個硅谷關注以及不少的冷嘲熱諷下,他和這個全新團隊終于交出了首個模型作品,試圖證明一整套從零搭建的AI棧跑通了。

4月8日,Meta正式發布了MSL(Meta Superintelligence Labs)成立以來的第一個模型Muse Spark。九個月前Alexandr Wang加入Meta擔任首席AI官,帶著從OpenAI挖來的一眾華人核心研究員,推翻了整個Llama時代的技術棧——新基礎設施、新架構、新數據管道,全部從零開始。Muse Spark就是這套新棧的第一個產出,現在它已經直接上線驅動Meta AI。


在Llama 4因benchmark造假風波陷入被動的背景下,這是Meta的一次全面重啟。

1

Muse Spark是什么

它是個處處和Llama反著來的模型:

一個被刻意設計得小巧、輕量、高響應速度的原生多模態推理閉源模型。

先看它的核心能力:

  1. 原生多模態:不是把視覺編碼器硬縫到文本模型上的"拼接式"架構。從預訓練階段起,文本、圖像、語音就在同一個高維特征空間里訓練。這意味著它處理圖片不需要先翻譯成文字描述,而是直接從像素級別提取信息。

  2. Visual Chain of Thought(VCoT,視覺思維鏈):傳統的思維鏈推理是純文本的,模型在文字里逐步拆解問題。Muse Spark把這個機制引入了視覺空間——它能在圖像中"思考",自主構建視覺元素之間的空間和邏輯關系。

  3. Contemplating Mode(沉思模式):對標Gemini Deep Think和GPT Pro的極限推理模式。區別在于它不是單線串行推理,而是在后臺同時拉起多個并行運算的子agent,各自處理任務的不同維度,最后由主控系統融合結果。沉思模式下Humanity's Last Exam達到58%,FrontierScience Research達到38%。

  4. 工具調用和多agent編排:原生支持,不是后期拼上去的。

目前Muse Spark已在meta.ai和Meta AI app上線,Contemplating Mode逐步灰度中,同時向少量合作伙伴開放私有API預覽。


1

技術亮點:華人天團都是怎么說的

今天MSL團隊幾乎集體在X上發帖,幾個關鍵信息值得注意:

Meta官方博客放出了一個極其重要的數據:在預訓練階段,新棧達到同等能力水平所需的算力比上一代Llama 4 Maverick減少了超過一個數量級。不是百分之幾十的優化,是10倍以上的效率提升。博客原文稱"over an order of magnitude less compute",并且"significantly more efficient than the leading base models available for comparison"——甚至比其他家的基座模型都高效。

Alexandr Wang的九條thread里最重要的一句話:"we saw predictable scaling across pretraining, RL, & test-time reasoning." 預訓練、強化學習、測試時推理,三條線都看到了可預測的scaling——這可能比任何benchmark數字都重要。它意味著這套棧不是調出來的一個lucky shot,而是一個scaling曲線平滑的系統。


首席科學家趙晟佳(@shengjia_zhao)的描述更具體:這個模型的訓練路徑是"端到端的教育"——school(預訓練)、homework(RL)、on-the-job training(產品部署后的持續學習)。他強調"we just got started"。

RL部分有個很有意思的技術細節。畢樹超(@shuchaobi)提到了訓練中最痛苦的部分:大規模RL的不穩定性,以及"fighting reward hacking"——對抗獎勵機制作弊。但官方博客顯示他們最終把RL跑到了"smooth, predictable gains"的狀態,pass@1和pass@16都呈log-linear增長,而且在未見過的評測集上也能平滑泛化。


更有意思的是RL訓練中出現的"相變"現象:團隊在訓練時引入了thinking time penalty(思考時間懲罰),模型先是通過更長的思考來提升表現,然后在懲罰壓力下學會了"思想壓縮"——用更少的token解決同樣的問題,之后又再次延伸推理以達到更高性能。Ananya Kumar(@ananyaku)在帖中稱這個過程"pretty neat"。

Ananya放出的另一組圖表顯示了多agent推理的關鍵insight:多個agent并行推理,在相同延遲下能達到比單agent更高的性能。換句話說,Contemplating Mode不只是"讓模型想得更久",而是"讓多個模型同時想不同的事"。


余家輝(@jhyuxm)作為多模態底座的總架構師,說了一句很有意思的話:"It's been a fulfilling journey not just building the model, but the team and culture behind it." 建模型是一回事,建團隊和文化是另一回事——他們在九個月里兩件事同時干了。


Jason Wei(@_jasonwei)的回憶最有畫面感:"第一周我們在食堂吃了一頓漫長的晚餐,暢想研究方向,然后回到桌前寫了一個基本的inference llama腳本。現在我們有了一套相當完整的技術棧,第一個模型已經發布。"


1

Benchmark:什么領先不領先,回到牌桌先

再來看看benchmark數據:

  • HealthBench Hard(極高難度醫學問答):Muse Spark 42.8,GPT-5.4是40.1,Gemini 3.1 Pro只有20.6,Claude Opus 4.6只有14.8。絕對領先,接近其他模型的兩到三倍。

  • CharXiv Reasoning(科研論文圖表深度理解):86.4,全行業最高。

  • SWE-bench Pro(真實軟件工程任務):55.0%,超過Claude Opus 4.6的51.9%。

  • Artificial Analysis綜合智能指數:52分,而GPT-5.4和Gemini 3.1 Pro都是57分。

Meta想借此說明:Muse Spark在醫療多模態和科研圖表理解這兩個需要"真正看懂圖"的領域,已經是毫無爭議的第一。在代碼工程上也進入了第一梯隊。

不過,目前它綜合能力距離GPT-5.4和Gemini 3.1 Pro還有5分的差距,純文本高級推理方面也還沒撼動Anthropic和Google的積累。

這樣的表現繼續引來一些批評,Ndea的cofounder Fran?ois Chollet直接稱Muse Spark"已經看起來是個令人失望的模型",他認為模型過度優化了公開benchmark,犧牲了實際可用性——而Alexandr Wang的回應很克制:承認模型在ARC AGI 2等評測上表現不佳,并強調這些數據已主動公開。

Chollet的質疑不是沒有道理。Llama 4時代Meta就因benchmark造假風波傷過一次信譽。這次Muse Spark在Artificial Analysis綜合指數上仍落后GPT-5.4和Gemini 3.1 Pro五分,醫療和科研圖表上的斷檔領先,是否來自對特定benchmark的定向優化,還是原生多模態架構帶來的真實能力?這個問題需要更多第三方獨立測試來回答。

Muse Spark當然重要,但它最重要的意義不在于今天的benchmark分數。

從這個模型的設計,到這些研究員此次重點介紹的技術亮點,一切都指向對Llama的反對:Llama 4的大潰敗在扎克伯格眼里是個要徹底翻篇的事情,所以不只是它的開源路線,它的模型架構要改,更重要的是它整個訓練基礎設施都得給它掀翻了。此次這幾位核心作者的x發文,看起來都在圍繞底層技術棧的重構來介紹。Muse Spark這次發布也讓人更明白扎克伯格挖來Alexander Wang的目的。

最恨Llama的還得是扎克伯格自己,他必須得全盤給它推翻,在廢墟里重建。


此次的發布也是Meta招兵買馬后那支華人天團交出的第一個模型。余家輝(前OpenAI感知團隊負責人、GPT-4o核心開發者)、趙晟佳(前OpenAI合成數據研發領頭人、ChatGPT聯合創作者)、任泓宇(前OpenAI o1/o3推理核心貢獻者)、畢樹超(前OpenAI多模態后訓練負責人)、林紀(前OpenAI核心優化專家)——這些被Meta用上億美元的簽字費挖過來的AI科學家,在紙面上自然是一個明星團隊,他們必須先用一個模型讓Meta回到牌桌上。這是扎克伯格的當務之急。

扎克伯格在九個月前交給他們的是一張白紙。今天他們交出的答案其實更多是一整套預訓練、RL、測試時推理的完整棧,并且——關鍵在這——scaling曲線是平滑的、可預測的。

更大的模型已經在路上了。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1930年,紅軍6人執法隊被襲,全部犧牲,20年后,舉報者自投羅網

1930年,紅軍6人執法隊被襲,全部犧牲,20年后,舉報者自投羅網

歷來都很現實
2024-06-17 22:44:58
震驚!ASML總裁炮轟中國,稱中國光刻機研發將摧毀全球產業鏈!

震驚!ASML總裁炮轟中國,稱中國光刻機研發將摧毀全球產業鏈!

虎哥閑聊
2026-04-19 08:54:56
提取26歲孫女細胞!活至122歲!91歲物理學家線粒體移植

提取26歲孫女細胞!活至122歲!91歲物理學家線粒體移植

時光派長壽觀察
2026-04-20 12:58:24
中介曬出通話記錄,4年前業主沒110萬不賣,如今房子只值56萬

中介曬出通話記錄,4年前業主沒110萬不賣,如今房子只值56萬

映射生活的身影
2026-04-19 23:05:55
追夢:很希望科爾下賽季能繼續執教勇士,但我認為不太可能了

追夢:很希望科爾下賽季能繼續執教勇士,但我認為不太可能了

懂球帝
2026-04-21 13:00:08
日艦硬闖臺海三天后,賴清德通告全球,語氣很囂張,蔣萬安不忍了

日艦硬闖臺海三天后,賴清德通告全球,語氣很囂張,蔣萬安不忍了

書紀文譚
2026-04-20 19:19:26
致5死29傷、經濟損失約1136萬元!哈同高速較大道路交通事故調查報告:雨天超速行駛車輛失控,部分乘客未系安全帶加重傷亡后果

致5死29傷、經濟損失約1136萬元!哈同高速較大道路交通事故調查報告:雨天超速行駛車輛失控,部分乘客未系安全帶加重傷亡后果

大象新聞
2026-04-21 12:55:38
終極較量!對日反擊戰,全面打響了!

終極較量!對日反擊戰,全面打響了!

大嘴說天下
2026-04-20 22:40:03
身家一年暴漲560億元成“惠州首富” 勝宏科技創始人陳濤:加速擴充高端產能

身家一年暴漲560億元成“惠州首富” 勝宏科技創始人陳濤:加速擴充高端產能

每日經濟新聞
2026-04-21 11:13:18
NBA同戰績選秀抽簽:爵士勝國王,鵜鶘勝獨行俠,火箭勝騎士

NBA同戰績選秀抽簽:爵士勝國王,鵜鶘勝獨行俠,火箭勝騎士

懂球帝
2026-04-21 14:26:06
華子30+10無緣今日最佳!約基奇24+15+8落選,只因哈登狂刷里程碑

華子30+10無緣今日最佳!約基奇24+15+8落選,只因哈登狂刷里程碑

你的籃球頻道
2026-04-21 13:34:39
重大轉折!特朗普官宣:伊朗同意交出濃縮鈾,自己將親赴伊斯蘭堡

重大轉折!特朗普官宣:伊朗同意交出濃縮鈾,自己將親赴伊斯蘭堡

矚望云霄
2026-04-20 17:47:22
毛主席警衛員講述:想進中南海見毛主席,只有3個人可以自由通行

毛主席警衛員講述:想進中南海見毛主席,只有3個人可以自由通行

老范談史
2026-04-20 23:46:03
悲催!網傳陜西一女子因丈夫婚內出軌后輕生,逝者已40天未入土…

悲催!網傳陜西一女子因丈夫婚內出軌后輕生,逝者已40天未入土…

火山詩話
2026-04-21 06:02:18
一”字跌停英維克最新回應

一”字跌停英維克最新回應

每日經濟新聞
2026-04-21 11:44:31
這五個號碼千萬不要接,一旦接聽,銀行卡里的錢都可能秒沒

這五個號碼千萬不要接,一旦接聽,銀行卡里的錢都可能秒沒

笑熬漿糊111
2026-04-20 00:05:15
鼓勵60歲“男孩”再就業,卻讓86年的人“滾出”工廠

鼓勵60歲“男孩”再就業,卻讓86年的人“滾出”工廠

迷世書童H9527
2026-04-21 11:08:41
4月21日A股猛料:國務院高層重要發言!利好3板塊將迎價量齊升!

4月21日A股猛料:國務院高層重要發言!利好3板塊將迎價量齊升!

丁丁鯉史紀
2026-04-21 10:36:26
日本9偶像「脫衣玩野球拳」離譜處分出爐!女偶像遭開鍘 男偶像全沒事

日本9偶像「脫衣玩野球拳」離譜處分出爐!女偶像遭開鍘 男偶像全沒事

ETtoday星光云
2026-04-20 15:00:12
全員“梓涵”消失不見,老師崩潰!新一批爛大街名字再次來襲

全員“梓涵”消失不見,老師崩潰!新一批爛大街名字再次來襲

譚老師地理大課堂
2026-04-12 20:21:47
2026-04-21 18:03:00
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
3024文章數 10491關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

"武漢高啟強"黃大發一審被判死刑 涉多起暴力強拆事件

頭條要聞

"武漢高啟強"黃大發一審被判死刑 涉多起暴力強拆事件

體育要聞

62歲,成為中國足壇最火的人

娛樂要聞

周潤發時隔16年再賣樓,變現數億資產

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

家居
旅游
手機
公開課
軍事航空

家居要聞

詩意光影 窺見自然之境

旅游要聞

恐高人群福音!四川一景區推出“凌波微步”版低空纜車 景區回應

手機要聞

一代經典星宇橙成絕唱!iPhone 18 Pro四色新鮮出爐:紅色預定年度爆款

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普公開對伊開戰真正原因

無障礙瀏覽 進入關懷版