網易首頁 > 網易號 > 正文申請入駐

實測混元Hy3 preview：混元再出發，中型模型的務實之戰

2026-04-23 17:22:18　來源: 鈦媒體APP

北京舉報

分享至

編者按：本文為 Hy3 preview 評測，評測環境為WorkBuddy，評測內容基于真實任務執行結果。本次共測試三個場景：事實審計員、文檔可視化、深度研究。

Hy3 preview終于來了。

剛剛，騰訊混元宣布發布 Hy3 preview ，Hy3 preview 發布前的幾個小時，混元還悄悄換了一個新Logo。對于一個強調“重新出發”的團隊來說，這個細節也不算意外。

“幫我查一下最近三個月AI領域的高管變動，對比5個不同背景的信源，列出已知事實和矛盾點，給出信度評分。”

根據騰訊內部對Hy3 preview 的功能定位——多步驟、多信源、需自主規劃，筆者自設了這樣一句測試指令。模型在約7分鐘內完成了多輪搜索、信息交叉驗證和結構化輸出。

這只是其中一個典型場景。筆者本次共測試了三個場景，分別是多信源核驗、文檔可視化、深度研究三個維度，從不同切面評估這款產品在知識工作場景中的實用性和邊界。

背景與產品解析

2025年以來，中國大模型廠商的敘事出現了一次集體轉向。頭部廠商相繼從“對標GPT-4”“刷新基準測試榜單”的軍備競賽，轉向“在真實業務場景中跑通”“降低單位任務成本”的務實路徑。

騰訊混元團隊在這一背景下，選擇了一個明確的產品定位：不追參數第一，聚焦實用性和性價比。

混元團隊近期多次提及“下半場”概念，首席AI科學家姚順雨曾表示：“AI發展的上半場，核心是訓練大于評估；下半場，評估大于訓練。”姚順雨認為，上半場的競爭在于誰能把模型訓練得更大、更強，成為頂級的“做題家”；而下半場的競爭在于誰能讓模型在真實業務場景、真實系統中經得起檢驗，成為真正的“上下文學習者”——即使用戶給足了信息，模型依然需要具備從中學習并應用的能力。

在Hy3 preview發布時，姚順雨進一步表示：“Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發布，獲得來自開源社區和用戶的真實反饋，幫助我們提升Hy3正式版的實用性。”

這一理念直接指向了當前大模型落地的核心痛點：不是模型不夠強，而是強在“記憶”、弱在“應用”。

本次騰訊發布的 Hy3 preview，正是混元團隊在這一理念下推出的第一個版本——騰訊混元在團隊、架構、基礎設施重新整合后的產物。

根據官方披露，2026年2月，騰訊混元重建了預訓練和強化學習的基礎設施，并確立了模型追求實用性的三個原則：其一，能力體系化，不推崇"偏科"，即使是代碼智能體的單一應用，也涉及推理、長文、指令、對話、代碼、工具等多種能力的深度協同；其二，評測真實性，主動跳出易被"刷榜"的公開榜單，通過自建題目、最新考試、人工評測、產品眾測等多種方式評估模型的"真實戰斗力"；其三，性價比追求，深度協同模型架構和推理框架的設計，大幅降低任務成本，讓智能"用得起、用得好"。

根據官方披露的信息，Hy3 preview 的核心參數如下：

295B總參/21B激活參數的組合，意味著 Hy3 preview 處于“中型模型”區間。相比千億參數以上的超大模型，這一尺寸在部署成本和推理效率上具備明顯優勢。

MoE（Mixture of Experts）的核心邏輯是“按需激活”——每次推理只調用部分專家網絡。這一設計可以實現“參數量大但推理成本可控”的效果，符合“實用性”和“性價比”的定位。

Hy3 preview 聲稱實現了快慢思考的融合，即在簡單任務上快速響應，在復雜任務上啟動深度推理。256K（約25萬Token）的上下文窗口，在同尺寸模型中處于較高水平。官方將其定位為"混元迄今最智能的模型"，Hy3 preview 于4月23日正式發布并同步開源，在復雜推理、指令遵循、上下文學習、代碼、智能體等能力及推理性能上實現了大幅提升。

實測驗證

本次評測選取三個典型場景，事實審計員、文檔可視化和深度研究。

事實審計員

任務類型：多信源交叉核驗

測試指令：

調研關于“最近三個月AI領域高管變動”的傳聞，對比至少5個不同背景的權威信源，列出已知事實和邏輯沖突點，并給出信度評分。

執行結果：

執行耗時：約7分鐘信源覆蓋：CNBC（權威財經）、WIRED（科技深度）、The Verge（科技媒體）、鈦媒體等（中文科技財經）、Mint（國際科技）

評測維度評分：

實測發現的主要事件：

1. OpenAI高管離職潮（高信度）：Kevin Weil、Bill Peebles、Srinivas Narayanan三人于4月中旬同日離職，Sora關停，Prism項目終止并入Codex

2. xAI創始人集體離職（中等信度）：2026年2-3月，11位聯合創始人全部離職

3. 理想汽車高管變動（中等信度）：郎咸朋于2026年2月14日離職

4. 蘋果CEO更替（待驗證）：約翰·特納斯接替庫克，英文主流媒體未廣泛報道，信源可靠性存疑

結論：模型在多信源檢索和結構化輸出方面表現穩定，但在信息交叉驗證時存在“收得多、核得少”的傾向——對可疑信息（如"蘋果CEO更替"缺乏英文信源佐證）未能主動標注風險。但同時也未能識別蘋果CEO更替這一信息實際上可信度較高，該信息蘋果官網已經進行了官宣。這一能力短板在嚴肅的事實核查場景中需要關注。

文檔可視化

任務類型：財報PDF轉動態儀表盤

測試指令：

將附件的騰訊2025年年度財務報告PDF轉化為一個深色主題HTML動態儀表盤，具體要求如下：

核心約束：嚴格基于年報原文數據，禁止引入任何外部信息如年報中未提及某項數據，明確標注"年報未披露"而非虛構所有數字以年報為準，不進行二次計算數據分析要求：提取近三年核心財務數據（營收/凈利潤/毛利率），做三年對比分析主要業務板塊的收入結構（按業務線拆分）標注關鍵財務指標的變化趨勢（增長/下降/持平）視覺要求：深色主題，專業金融風格（參考彭博終端配色）數字入場動畫：關鍵數據從0滾動增長至實際值（數字脈動效果）交互效果：鼠標懸停關鍵指標時顯示詳細數據（決策艙掃描效果）包含數據來源標注：每項數據標注對應年報頁碼輸出要求：單HTML文件，內嵌CSS和JavaScript 響應式設計，適配PC端展示代碼結構清晰，便于后續修改

執行結果：

執行耗時：約20分鐘輸出成果：騰訊2025年年報HTML動態儀表盤成果截圖（部分）：

評測維度評分：

結論：AI輔助財經內容生產正從“文本生成”向“數據可視化自動化”進階。該工具在數據處理、視覺呈現、交互設計三個層面的完成度已達到可發布至財經媒體報道的合格線。推薦指數4.5/5.0。

可優化方向：

三年對比數據可視化不足，缺乏長期趨勢折線圖；業務分部占比缺乏餅圖或堆疊柱狀圖；移動端適配有待完善。

深度研究

任務類型：產業研究報告生成

測試指令：

以“AI訓練成本下降趨勢及其對產業格局的影響”為主題，進行深度研究分析，輸出結構化報告，要求覆蓋成本驅動因素、數據支撐、產業格局影響，投資機會與風險、未來趨勢判斷，區分事實陳述和觀點分析，對關鍵數據注明來源。

執行結果：

執行耗時：約5分鐘信源覆蓋：共引用6個一手信源，包括Stanford HAI 2025報告、Epoch AI研究論文(arXiv:2405.21015)、央視新聞報道、中國信通院報告等報告規模：約4500字，包含3張數據表格、6個主要章節、20+個細分論點報告地址：Tencent Cloud CodeBuddy

評測維度評分：

結論：模型在深度研究的框架搭建、信源檢索與標注、結構化輸出上表現優秀，能夠生成符合專業標準的研究報告。但在產業洞察的深度（如對中國AI芯片廠商的具體分析）、風險提示的全面性上仍有提升空間。

適用場景建議：

? 快速搭建研究報告框架 ? 檢索和整理公開信源 ? 生成結構化分析報告 ?? 需謹慎：具體投資標的推薦、未公開數據的推測、前瞻性判斷（需人工復核）

產品組合拳：模型+Agent框架

根據騰訊內部測試的公開反饋，Hy3 preview 在以下四個緯度獲得了相對積極的評價：

在國內大模型競爭格局中，混元本次的定位可以概括為：“不做第一，但求好用”。從參數規模看，295B總參/21B激活參數定位于中等尺寸區間，與“大杯”產品存在差異，但規模控制帶來了更好的推理效率。

從場景定位看，Coding和Agent場景是明確的主打方向。這一選擇與Agent經濟的崛起趨勢相吻合——當模型的價值越來越多地體現在“作為Agent的大腦”而非“直接回答用戶問題”時，響應速度、任務完成率、多步驟穩定性，比單純的基準測試分數更重要。

從生態角度看，混元與WorkBuddy的結合構成了“模型+Agent框架”的組合，模型能力可以在真實業務場景中持續錘煉，場景反饋可以持續反哺模型優化。

官方數據顯示，在CodeBuddy與WorkBuddy產品上，Hy3 preview首token延遲降低54%、端到端時長降低47%、成功率提升至99.99%+。實際用戶環境中，已穩定驅動最長495步的復雜Agent工作流，覆蓋文檔處理、數據分析、知識檢索、MCP工具鏈編排等多樣化辦公場景。整體推理效率提升40%，成本相比上一代模型大幅下降。

在商業化定價上，騰訊云TokenHub平臺顯示，Hy3 preview輸入價格最低1.2元/百萬tokens，輸出價格最低4元/百萬tokens，并推出個人版最低28元/月的Token Plan套餐——這為評測稿此前提及的"性價比優勢"提供了可量化的基準參照。

目前，Hy3 preview已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等產品首發上線，微信公眾號、和平精英、騰訊新聞等多個主線產品也在陸續接入。

Hy3 preview 的發布，更像是一個信號，而非一個結論。它標志著騰訊混元在經歷團隊重組、架構重構后，選擇了一條更務實的路徑——不再追逐榜單上的“第一”，而是追求實際場景中的“好用”。

在本文測試未涉及到的性價比中，官方公布的內部測試可作為參考：騰訊內部測試顯示，騰訊文檔AI PPT生成成功率提升20%、耗時縮短20%；和平精英AI NPC角色扮演穩定性獲得業務團隊高度評價；QQ AI助手數學推理表現提升尤為明顯；元寶深度Co-Design后用戶意圖理解與內容質量全面提升。

上述數據為混元“性價比優勢”提供了一定的內部佐證，但跨廠商的橫向對比仍需在后續評測中進一步驗證。

結語

從更宏觀的視角看，Hy3 preview 的出現，是整個大模型行業轉向的一個縮影。

過去兩年，國內外的大模型競爭本質上是一場基礎設施競賽——誰能訓得更大、算得更快、數據更多，誰就站在了排行榜的前列。但這場競賽正在迎來邊際效益遞減的節點：當GPT-4級別的能力已經"白菜化"，當推理成本以每年數倍的速度下降，純粹的參數軍備競賽開始失去意義。

下一個競爭維度，正在轉向任務完成率、工具調用穩定性、長程推理的可靠性——換句話說，是“能不能真正干活”，而不是“能不能在考卷上拿高分”。這恰好是 Hy3 preview 所押注的方向。

對于騰訊混元來說，這次重新出發面臨的挑戰不只是技術層面的。在競爭對手已積累大量真實用戶反饋的背景下，如何快速積累高質量的任務數據、如何在騰訊龐大的業務生態中找到“模型錘煉”的最佳路徑，將直接決定混元能否在下半場建立真正的差異化。

WorkBuddy 作為面向知識工作者的 Agent 框架，理論上是一個理想的“練兵場”——用戶的真實任務場景足夠復雜、反饋足夠直接。但換個角度來看，“模型在框架中不斷進化”這一愿景的實現，還取決于數據閉環的質量、人工反饋的密度，以及騰訊是否愿意在這條路上保持足夠的耐心。

Hy3 preview 是第一步，能否兌現“務實主義”的承諾，要看后續正式版本的真實表現——以及它在更大規模用戶場景中經受檢驗之后的樣子。（本文首發鈦媒體APP，作者 | AGI Signal，編輯 | 秦聰慧）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.