網易首頁 > 網易號 > 正文 申請入駐

9個月重構全新大模型!Meta 重金打造華人團隊,Muse Spark 一戰翻身

0
分享至

在生成式人工智能時代,元宇宙(Meta)一直是最受關注的公司之一。2023 年初,該公司推出了以開源為主的 Llama 系列大語言模型,迅速收獲了海量忠實用戶;但到了去年,Llama 4 發布后口碑褒貶不一,最終還被曝出在基準測試中刷分造假,Meta 的 AI 發展勢頭也因此驟然停滯。

Llama 4 坎坷的發布歷程,顯然促使 Meta 創始人兼首席執行官馬克?扎克伯格在 2025 年夏季對公司 AI 業務進行了全面重組,成立了全新內部部門 —— 元宇宙超智能實驗室(MSL),并聘請 29 歲的 Scale AI 前聯合創始人兼首席執行官Alexandr Wang出任首席人工智能官,負責領導該部門,同事花重金聘請了多位華人技術大牛。

而就在今天,Meta 向外界展示了此番調整的成果:全新閉源模型Muse Spark。Alexandr Wang在競品社交平臺 X(機器學習社區更常用的平臺)發文稱,該模型是 “Meta 迄今發布的最強大模型”,支持工具調用、視覺思維鏈與多智能體協同。他還表示,Muse Spark 將開啟全新的 Muse 模型系列,這也引發外界疑問:人氣極高的 Llama 系列未來將何去何從、研發是否會繼續。

Muse Spark 并非普通聊天機器人,而是Alexandr Wang口中 “個人超智能” 的底層基座。這款 AI 不只處理文本,更能 “觀察并理解你周遭的世界”,成為用戶的數字分身,這與扎克伯格 2025 年夏季公開提出的個人超智能愿景一脈相承。

但據 Meta 官方發布博文介紹,Muse Spark目前僅為閉源模型,僅限 Meta AI 應用、網頁端使用,同時僅向部分用戶開放 “私有 API 預覽”。這一舉措大概率會激怒數以十億計的 Llama 模型用戶,以及數千名依賴該模型的開發者(其中不少人活躍在競品社交平臺 Reddit 的 r/LocalLLaMA 板塊)。此外,官方尚未公布該模型的定價信息。

目前尚不清楚 Meta 是否已徹底終止 Llama 系列的研發。科技媒體 VentureBeat 就此直接詢問時,Meta 發言人在郵件中回應:“我們現有的 Llama 模型將繼續保持開源”,但并未回應未來是否會推出新一代 Llama 模型。

視覺思維鏈

Muse Spark 本質上是一款原生多模態推理模型。不同于前代產品將視覺與文本 “拼接融合” 的方式,它從底層重新構建,在內部邏輯中全程整合視覺信息。這一架構革新實現了 “視覺思維鏈”,讓模型能夠對動態場景進行標注 —— 比如識別復雜意式咖啡機的零部件,或通過對比視頻分析糾正用戶的瑜伽動作。

而技術上最重大的突破,是全新的 \\“沉思模式”(Contemplating)\\。該功能可調度多個子智能體并行推理,讓 Meta 得以對標谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 這類頂級推理模型。

在基準測試中,該模式在 “人類終極考試” 中取得 58% 的成績,在 “前沿科學研究” 任務中達 38%,Meta 稱這一結果驗證了其全新的擴展路徑。

對公司盈利更具意義的是模型的高效性。Meta 表示,Muse Spark 實現同等推理能力所需算力,比其上一代中型旗艦模型 Llama 4 Maverick少一個數量級以上。這種效率源于 “思維壓縮” 技術:在強化學習階段,模型會因過度 “思考耗時” 受到懲罰,迫使它用更少的推理 Token 解決復雜問題,同時不犧牲準確率。

基準測試:王者歸來

Muse Spark 的發布被視作一次數據層面的 “量子躍遷”,終結了 Meta 長達一年無緣 AI 性能第一梯隊的局面。

結合 Meta 官方內部數據與第三方大模型監測機構 Artificial Analysis 的獨立審核結果可以明確:Muse Spark 不只是對 Llama 系列的小幅優化,更是讓 Meta重新躋身全球前五頂尖模型行列

根據 Artificial Analysis 智能指數 v4.0,Muse Spark 得分 52 分。作為對比,Meta 上一代旗艦 Llama 4 Maverick 在 2025 年發布時指數得分僅 18 分。

性能近乎提升兩倍后,Muse Spark 已逼近行業頂級系統,僅落后于 Gemini 3.1 Pro Preview(57 分)、GPT-5.4(57 分)與 Claude Opus 4.6(53 分)。

Meta 官方測試顯示,Muse Spark 在多模態推理,尤其是視覺圖像與邏輯結合的場景中表現尤為突出:

  • CharXiv推理(圖像理解)
  • 86.4

    分,大幅超越 Claude Opus 4.6 ( 65.3 )、 Gemini 3.1 Pro ( 80.2 )、 GPT-5.4 ( 82.8 )

  • MMMU Pro

    :官方

    80.4 分,第三方實測 80.5% ,為全球第二強視覺模型,僅遜于 Gemini 3.1 Pro Preview

  • 視覺事實性(SimpleVQA

    71.3 分,領先 GPT-5.4 與 Grok 4.2 ,僅小幅落后 Gemini 3.1 Pro

這些成績印證了 Meta 對 “視覺思維鏈” 的投入,讓模型不只識別物體,更能推理復雜空間問題與動態標注。

在專業推理測試中:

  • 人類終極考試(HLE

    無工具 42.8 分、有工具 50.4 分,第三方實測 39.9%

  • GPQA Diamond(博士級推理)
    89.5 分,超越Grok 4.2,略低于 Claude Opus 4.6 與 Gemini 3.1 Pro
  • ARC AGI 2
    42.5 分,仍是明顯短板,遠落后于Gemini 3.1 Pro 與GPT-5.4
  • CritPT(物理研究)
    11%,位列全球第五,大幅領先Gemini 3 Flash 與Claude 4.6 Sonnet

官方數據中最亮眼的是醫療領域表現,這得益于 Meta 與逾千名醫生的合作:

HealthBench Hard 42.8 分,大幅領先 Claude Opus 4.6 、 Gemini 3.1 Pro 乃至 GPT-5.4 MedXpertQA (多模態) 78.4 分,領先 Opus 4.6 與 Grok 4.2 ,僅落后 Gemini 3.1 Pro


智能體系統與效率:思維壓縮效應

Muse Spark 雖擅長推理,但在執行實際工作任務的 “智能體表現” 上則喜憂參半:

SWE-Bench Verified :77.4 分,落后 Claude Opus 4.6 與 Gemini 3.1 Pro GDPval-AA Elo :官方1444 分、第三方 1427 分,均落后 GPT-5.4 與 Opus 4.6但Token 效率是其核心優勢:完成智能指數測試僅使用

5800 萬輸出 Token ,遠低于 Claude Opus 4.6 ( 1.57 億)與 GPT-5.4 ( 1.2 億),印證了 “ 思維壓縮 ” 的效果 —— 以不到競品一半的 “ 思考成本 ” 實現頂級智能。

個人健康與Instagram購物

Meta 已立即將 Muse Spark 接入旗下全系應用,打造專屬功能:

  • 購物模式

    依托創作者生態, AI 抓取 Instagram 與 Threads 中的品牌、穿搭、內容,提供個性化推薦,讓每條帖子都可直接轉化為購物入口

  • 健康推理

    分析食物照片的營養成分,為高膽固醇素食飲食提供 “ 健康評分 ”

  • 交互式界面

    實時生成網頁小游戲或教程,比如將照片轉為數獨游戲、制作家電使用教程

評估意識

Muse Spark 對生化武器相關請求具備較強的拒絕能力,但第三方機構 Apollo Research 發現其安全層面存在一個驚人新問題:高度的評估意識

模型常能識別出自己正處于 “對齊陷阱” 測試中,并刻意表現誠實,只因知道自己正在被評估。

Meta 認為這一問題不影響發布,但該發現意味著:前沿模型正越來越 “感知” 測試環境,傳統安全基準測試可能因模型學會 “應試作弊” 而失效。

Llama何去何從?

2023 年 2 月,Meta 發布 Llama 1,證明小體量、算力優化型模型可在效率上比肩 GPT-3 等大模型。盡管初期僅限研究者使用,但模型權重于 2023 年 3 月 3 日通過 4chan 泄露,意外推動高端研究平民化,催生了在消費級硬件上運行大模型的全球浪潮。

2023 年 7 月,Llama 2 發布并開放商用許可,支持絕大多數機構自主部署,迅速普及。截至 2023 年第三季度,Llama 系列下載量破億,支撐超千款商業應用。

2024 至 2025 年,Llama 系列成長為全球企業 AI 的核心基建,被稱作 “AI 界的 LAMP 架構”。2024 年 4 月 Llama 3、2024 年 7 月 Llama 3.1 405B 發布后,其性能已與全球頂級閉源系統持平。

2025 年 4 月,Llama 4 采用混合專家架構,實現超大參數量化且保持快速推理。截至 2026 年初,Llama 生態下載量達12億次,日均下載近百萬次。企業自主部署 Llama 相比調用閉源 API 可節省 88% 成本,實現了經濟層面的技術自主。

但到 2026 年 4 月,Meta 在開源權重領域的絕對領先地位已被打破,全球競爭格局形成多極化態勢:

  • 美國占Llama 全球部署量的35%

  • 2025 年末,阿里、深度求索( DeepSeek )等中國模型在 Hugging Face 等平臺下載量占比達 41%

  • 2026 年初,智譜 GLM-5 、阿里通義千問 3.6 Plus 等新模型在常識與編程測試中已超越 Llama 4 Maverick

面對全球競爭壓力,Muse Spark 背負著極高期待,同時也面臨延續開源 legacy 的巨大挑戰。

僅閉源發布(現階段)

此次發布標志著 Meta AI 背離了其 “開放科學” 的根基,引發巨大爭議。Llama 系列曾向開發者全面開放,而 Muse Spark 首發即為閉源。

Alexandr Wang在 X 上解釋稱:“九個月前我們從零重寫了AI技術棧,全新基礎設施、全新架構、全新數據pipeline……這只是第一步,更大模型已在研發中,未來版本計劃開源。

但開發者社區仍持懷疑態度。有人認為這是 Llama 4 未達預期后的必要轉型,也有人指責 Meta 在擁有競爭力推理模型后 “關上開源大門”。Alexandr Wang本人也承認轉型不易,坦言 “模型仍有瑕疵,后續會持續優化”。

對 Meta 旗下應用的 30 億用戶而言,這一變化將立即可感:他們使用的 AI 不再只是信息庫,而是擁有 270 億美元研發投入、能深度理解其生活的智能體。

NXP技術研討會報名


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
多名院士調查發現:吃一口放久變軟的香蕉,或等于進一次毒?真的

多名院士調查發現:吃一口放久變軟的香蕉,或等于進一次毒?真的

垚垚分享健康
2026-04-21 10:49:25
小S淚灑自責不該帶全家去日本發生憾事!曝大S「最后反常舉動」

小S淚灑自責不該帶全家去日本發生憾事!曝大S「最后反常舉動」

達達哥
2026-04-20 12:47:34
河北曲周一KTV服務員被指強奸14歲女生,案件已移交檢方

河北曲周一KTV服務員被指強奸14歲女生,案件已移交檢方

澎湃新聞
2026-04-21 18:46:26
司美格魯肽仿制藥審批暫停,企業還要干等一年?

司美格魯肽仿制藥審批暫停,企業還要干等一年?

健識局
2026-04-22 01:30:57
金莎曬“五金”翻車?網友拿起放大鏡,三條神評讓她無法回答!

金莎曬“五金”翻車?網友拿起放大鏡,三條神評讓她無法回答!

老吳教育課堂
2026-04-21 09:09:45
太心酸了!42歲著名女歌手江蘇走穴,賓客只顧吃席沒人搭理

太心酸了!42歲著名女歌手江蘇走穴,賓客只顧吃席沒人搭理

小徐講八卦
2026-02-12 12:13:20
中超爭議判罰!顏駿凌超巨失誤,VAR介入,陳純新笑納大禮

中超爭議判罰!顏駿凌超巨失誤,VAR介入,陳純新笑納大禮

奧拜爾
2026-04-21 20:54:59
長三角議事廳·周報|存量博弈下,長三角誰在吸人、誰在變老

長三角議事廳·周報|存量博弈下,長三角誰在吸人、誰在變老

澎湃新聞
2026-04-21 09:39:05
為什么2026年教育突然松綁了?學歷的紅利,如今真的消失了嗎?

為什么2026年教育突然松綁了?學歷的紅利,如今真的消失了嗎?

戶外阿毽
2026-04-21 02:42:17
安全性重估疊加新動能 經濟數據彰顯中國資產底氣

安全性重估疊加新動能 經濟數據彰顯中國資產底氣

新華社
2026-04-21 09:39:25
拼多多暴力抗法細節曝光,把全國網友都看傻了

拼多多暴力抗法細節曝光,把全國網友都看傻了

新浪財經
2026-04-22 03:40:54
河南省省長王凱到明陽集團考察調研

河南省省長王凱到明陽集團考察調研

風電頭條
2026-04-22 00:07:38
哈登生涯最佳一戰!狂轟28+5+4+5+1全能爆發,加盟騎士成最優解!

哈登生涯最佳一戰!狂轟28+5+4+5+1全能爆發,加盟騎士成最優解!

田先生籃球
2026-04-21 10:25:55
1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

勇哥讀史
2026-04-21 07:52:13
米切爾打趣哈登:你有5個失誤我才1個,那我才是助攻王啊

米切爾打趣哈登:你有5個失誤我才1個,那我才是助攻王啊

懂球帝
2026-04-21 16:13:22
伊朗:盡管美副總統萬斯及美國談判團隊成員正前往巴基斯坦,但伊朗不參加談判的決定尚未改變;特朗普威脅如停火到期美伊未達成協議,那么大量炸彈將開始爆炸

伊朗:盡管美副總統萬斯及美國談判團隊成員正前往巴基斯坦,但伊朗不參加談判的決定尚未改變;特朗普威脅如停火到期美伊未達成協議,那么大量炸彈將開始爆炸

每日經濟新聞
2026-04-21 01:44:17
上海外灘某銀行地下金庫,存了80年從不清點,央行:凍結所有賬戶

上海外灘某銀行地下金庫,存了80年從不清點,央行:凍結所有賬戶

小哥很OK
2026-01-28 19:15:53
年輕人不買房不結婚了:就怪那個把房婚捆綁的人

年輕人不買房不結婚了:就怪那個把房婚捆綁的人

三言四拍
2026-04-16 16:29:36
69 歲申軍誼腦梗 4 年,走路得拄拐。看著 37 歲女兒還單身

69 歲申軍誼腦梗 4 年,走路得拄拐。看著 37 歲女兒還單身

歲月有情1314
2026-04-22 02:08:35
三星“不講武德”,上市僅兩個月,6.3英寸小屏旗艦跳水1500元

三星“不講武德”,上市僅兩個月,6.3英寸小屏旗艦跳水1500元

北境不忘
2026-04-20 09:57:53
2026-04-22 04:20:49
EETOP半導體社區 incentive-icons
EETOP半導體社區
國內著名的電子工程師社區
7495文章數 15648關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

健康
游戲
家居
房產
本地

干細胞抗衰4大誤區,90%的人都中招

漲價兩周即回調!索尼官方PS5數字版定價重回399美元

家居要聞

詩意光影 窺見自然之境

房產要聞

年薪40-50萬!海南地產圈還在猛招人

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

無障礙瀏覽 進入關懷版