網易首頁 > 網易號 > 正文申請入駐

9個月重構全新大模型！Meta 重金打造華人團隊，Muse Spark 一戰翻身

2026-04-09 08:35:47　來源: EETOP半導體社區

北京舉報

分享至

在生成式人工智能時代，元宇宙（Meta）一直是最受關注的公司之一。2023 年初，該公司推出了以開源為主的 Llama 系列大語言模型，迅速收獲了海量忠實用戶；但到了去年，Llama 4 發布后口碑褒貶不一，最終還被曝出在基準測試中刷分造假，Meta 的 AI 發展勢頭也因此驟然停滯。

Llama 4 坎坷的發布歷程，顯然促使 Meta 創始人兼首席執行官馬克?扎克伯格在 2025 年夏季對公司 AI 業務進行了全面重組，成立了全新內部部門 —— 元宇宙超智能實驗室（MSL），并聘請 29 歲的 Scale AI 前聯合創始人兼首席執行官Alexandr Wang出任首席人工智能官，負責領導該部門，同事花重金聘請了多位華人技術大牛。

而就在今天，Meta 向外界展示了此番調整的成果：全新閉源模型Muse Spark。Alexandr Wang在競品社交平臺 X（機器學習社區更常用的平臺）發文稱，該模型是 “Meta 迄今發布的最強大模型”，支持工具調用、視覺思維鏈與多智能體協同。他還表示，Muse Spark 將開啟全新的 Muse 模型系列，這也引發外界疑問：人氣極高的 Llama 系列未來將何去何從、研發是否會繼續。

Muse Spark 并非普通聊天機器人，而是Alexandr Wang口中 “個人超智能” 的底層基座。這款 AI 不只處理文本，更能 “觀察并理解你周遭的世界”，成為用戶的數字分身，這與扎克伯格 2025 年夏季公開提出的個人超智能愿景一脈相承。

但據 Meta 官方發布博文介紹，Muse Spark目前僅為閉源模型，僅限 Meta AI 應用、網頁端使用，同時僅向部分用戶開放 “私有 API 預覽”。這一舉措大概率會激怒數以十億計的 Llama 模型用戶，以及數千名依賴該模型的開發者（其中不少人活躍在競品社交平臺 Reddit 的 r/LocalLLaMA 板塊）。此外，官方尚未公布該模型的定價信息。

目前尚不清楚 Meta 是否已徹底終止 Llama 系列的研發。科技媒體 VentureBeat 就此直接詢問時，Meta 發言人在郵件中回應：“我們現有的 Llama 模型將繼續保持開源”，但并未回應未來是否會推出新一代 Llama 模型。

視覺思維鏈

Muse Spark 本質上是一款原生多模態推理模型。不同于前代產品將視覺與文本 “拼接融合” 的方式，它從底層重新構建，在內部邏輯中全程整合視覺信息。這一架構革新實現了 “視覺思維鏈”，讓模型能夠對動態場景進行標注 —— 比如識別復雜意式咖啡機的零部件，或通過對比視頻分析糾正用戶的瑜伽動作。

而技術上最重大的突破，是全新的 \\“沉思模式”（Contemplating）\\。該功能可調度多個子智能體并行推理，讓 Meta 得以對標谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 這類頂級推理模型。

在基準測試中，該模式在 “人類終極考試” 中取得 58% 的成績，在 “前沿科學研究” 任務中達 38%，Meta 稱這一結果驗證了其全新的擴展路徑。

對公司盈利更具意義的是模型的高效性。Meta 表示，Muse Spark 實現同等推理能力所需算力，比其上一代中型旗艦模型 Llama 4 Maverick少一個數量級以上。這種效率源于 “思維壓縮” 技術：在強化學習階段，模型會因過度 “思考耗時” 受到懲罰，迫使它用更少的推理 Token 解決復雜問題，同時不犧牲準確率。

基準測試：王者歸來

Muse Spark 的發布被視作一次數據層面的 “量子躍遷”，終結了 Meta 長達一年無緣 AI 性能第一梯隊的局面。

結合 Meta 官方內部數據與第三方大模型監測機構 Artificial Analysis 的獨立審核結果可以明確：Muse Spark 不只是對 Llama 系列的小幅優化，更是讓 Meta重新躋身全球前五頂尖模型行列。

根據 Artificial Analysis 智能指數 v4.0，Muse Spark 得分 52 分。作為對比，Meta 上一代旗艦 Llama 4 Maverick 在 2025 年發布時指數得分僅 18 分。

性能近乎提升兩倍后，Muse Spark 已逼近行業頂級系統，僅落后于 Gemini 3.1 Pro Preview（57 分）、GPT-5.4（57 分）與 Claude Opus 4.6（53 分）。

Meta 官方測試顯示，Muse Spark 在多模態推理，尤其是視覺圖像與邏輯結合的場景中表現尤為突出：

CharXiv推理（圖像理解）

86.4
分，大幅超越 Claude Opus 4.6 （ 65.3 ）、 Gemini 3.1 Pro （ 80.2 ）、 GPT-5.4 （ 82.8 ）
MMMU Pro
：官方
80.4 分，第三方實測 80.5% ，為全球第二強視覺模型，僅遜于 Gemini 3.1 Pro Preview
視覺事實性（SimpleVQA
71.3 分，領先 GPT-5.4 與 Grok 4.2 ，僅小幅落后 Gemini 3.1 Pro

這些成績印證了 Meta 對 “視覺思維鏈” 的投入，讓模型不只識別物體，更能推理復雜空間問題與動態標注。

在專業推理測試中：

人類終極考試（HLE
無工具 42.8 分、有工具 50.4 分，第三方實測 39.9%
GPQA Diamond（博士級推理）
89.5 分，超越Grok 4.2，略低于 Claude Opus 4.6 與 Gemini 3.1 Pro
ARC AGI 2
42.5 分，仍是明顯短板，遠落后于Gemini 3.1 Pro 與GPT-5.4
CritPT（物理研究）
11%，位列全球第五，大幅領先Gemini 3 Flash 與Claude 4.6 Sonnet

官方數據中最亮眼的是醫療領域表現，這得益于 Meta 與逾千名醫生的合作：

HealthBench Hard 42.8 分，大幅領先 Claude Opus 4.6 、 Gemini 3.1 Pro 乃至 GPT-5.4 MedXpertQA （多模態） 78.4 分，領先 Opus 4.6 與 Grok 4.2 ，僅落后 Gemini 3.1 Pro

智能體系統與效率：思維壓縮效應

Muse Spark 雖擅長推理，但在執行實際工作任務的 “智能體表現” 上則喜憂參半：

SWE-Bench Verified ：77.4 分，落后 Claude Opus 4.6 與 Gemini 3.1 Pro GDPval-AA Elo ：官方1444 分、第三方 1427 分，均落后 GPT-5.4 與 Opus 4.6但Token 效率是其核心優勢：完成智能指數測試僅使用

5800 萬輸出 Token ，遠低于 Claude Opus 4.6 （ 1.57 億）與 GPT-5.4 （ 1.2 億），印證了 “ 思維壓縮 ” 的效果 —— 以不到競品一半的 “ 思考成本 ” 實現頂級智能。

個人健康與Instagram購物

Meta 已立即將 Muse Spark 接入旗下全系應用，打造專屬功能：

購物模式
依托創作者生態， AI 抓取 Instagram 與 Threads 中的品牌、穿搭、內容，提供個性化推薦，讓每條帖子都可直接轉化為購物入口
健康推理
分析食物照片的營養成分，為高膽固醇素食飲食提供 “ 健康評分 ”
交互式界面
實時生成網頁小游戲或教程，比如將照片轉為數獨游戲、制作家電使用教程

評估意識

Muse Spark 對生化武器相關請求具備較強的拒絕能力，但第三方機構 Apollo Research 發現其安全層面存在一個驚人新問題：高度的“評估意識”。

模型常能識別出自己正處于 “對齊陷阱” 測試中，并刻意表現誠實，只因知道自己正在被評估。

Meta 認為這一問題不影響發布，但該發現意味著：前沿模型正越來越 “感知” 測試環境，傳統安全基準測試可能因模型學會 “應試作弊” 而失效。

Llama何去何從？

2023 年 2 月，Meta 發布 Llama 1，證明小體量、算力優化型模型可在效率上比肩 GPT-3 等大模型。盡管初期僅限研究者使用，但模型權重于 2023 年 3 月 3 日通過 4chan 泄露，意外推動高端研究平民化，催生了在消費級硬件上運行大模型的全球浪潮。

2023 年 7 月，Llama 2 發布并開放商用許可，支持絕大多數機構自主部署，迅速普及。截至 2023 年第三季度，Llama 系列下載量破億，支撐超千款商業應用。

2024 至 2025 年，Llama 系列成長為全球企業 AI 的核心基建，被稱作 “AI 界的 LAMP 架構”。2024 年 4 月 Llama 3、2024 年 7 月 Llama 3.1 405B 發布后，其性能已與全球頂級閉源系統持平。

2025 年 4 月，Llama 4 采用混合專家架構，實現超大參數量化且保持快速推理。截至 2026 年初，Llama 生態下載量達12億次，日均下載近百萬次。企業自主部署 Llama 相比調用閉源 API 可節省 88% 成本，實現了經濟層面的技術自主。

但到 2026 年 4 月，Meta 在開源權重領域的絕對領先地位已被打破，全球競爭格局形成多極化態勢：

美國占Llama 全球部署量的35%
2025 年末，阿里、深度求索（ DeepSeek ）等中國模型在 Hugging Face 等平臺下載量占比達 41%
2026 年初，智譜 GLM-5 、阿里通義千問 3.6 Plus 等新模型在常識與編程測試中已超越 Llama 4 Maverick

面對全球競爭壓力，Muse Spark 背負著極高期待，同時也面臨延續開源 legacy 的巨大挑戰。

僅閉源發布（現階段）

此次發布標志著 Meta AI 背離了其 “開放科學” 的根基，引發巨大爭議。Llama 系列曾向開發者全面開放，而 Muse Spark 首發即為閉源。

Alexandr Wang在 X 上解釋稱：“九個月前我們從零重寫了AI技術棧，全新基礎設施、全新架構、全新數據pipeline……這只是第一步，更大模型已在研發中，未來版本計劃開源。”

但開發者社區仍持懷疑態度。有人認為這是 Llama 4 未達預期后的必要轉型，也有人指責 Meta 在擁有競爭力推理模型后 “關上開源大門”。Alexandr Wang本人也承認轉型不易，坦言 “模型仍有瑕疵，后續會持續優化”。

對 Meta 旗下應用的 30 億用戶而言，這一變化將立即可感：他們使用的 AI 不再只是信息庫，而是擁有 270 億美元研發投入、能深度理解其生活的智能體。

NXP技術研討會報名

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.