云知聲發(fā)布U2大模型，可自主拆解并完成100+步復(fù)雜真實工作流

2026-06-08 09:21:14　來源: DoNews

北京舉報

分享至

DoNews6月8日消息，剛剛，云知聲正式發(fā)布新一代通用大語言模型——U2。

作為面向個人、開發(fā)者與組織打造的原生智能體大模型，U2的技術(shù)主張極為純粹：高智能密度 × 高Token價值。它不再盲目堆疊參數(shù)，而是追求高智能密度，用更少激活資源承載更強(qiáng)能力；不再簡單比拼輸出長度，而是追求高Token 價值，讓每一次調(diào)用都更接近交付結(jié)果。

與傳統(tǒng)大模型更偏向單輪問答或短鏈路生成不同，U2 更強(qiáng)調(diào)面向真實任務(wù)的連續(xù)執(zhí)行能力。在復(fù)雜辦公、軟件工程、深度研究與多工具協(xié)同場景中，U2 能夠自主拆解并推進(jìn) 100+ 步復(fù)雜工作流，將需求理解、任務(wù)規(guī)劃、環(huán)境交互、工具調(diào)用、過程糾錯與結(jié)果驗收串聯(lián)為完整閉環(huán)，從“給出答案”進(jìn)一步走向“完成任務(wù)”。

權(quán)威評測進(jìn)入第一梯隊

在最新發(fā)布的一系列國內(nèi)外權(quán)威能力評測中， U2已經(jīng)在多個關(guān)鍵能力方向進(jìn)入主流大模型第一梯隊：

在衡量知識與復(fù)雜推理能力的 GPQA Diamond 上，U2 取得 87.9 分，超過 GLM-5.1、Hy3 preview、DeepSeek-V4-Flash（High）和 MiniMax M2.7，展現(xiàn)出對高難度知識問題的穩(wěn)定理解、推理與求解能力。

在衡量真實軟件工程能力的 SWE-Bench Verified 上，U2 取得 75 分，進(jìn)入主流模型第一梯隊。

而在面向自主 Agent 端到端執(zhí)行能力的 Claw-Eval（pass@3）上，U2 取得 76.9 分，超過 Hy3 preview、DeepSeek-V4-Flash（High）和 MiniMax M2.7，進(jìn)一步驗證了其在工具調(diào)用、流程編排與任務(wù)交付中的穩(wěn)定表現(xiàn)。

在面向真實辦公與知識工作交付能力的 GDPval 上，U2 取得 72.9 分，展現(xiàn)出扎實的專業(yè)辦公能力。相比傳統(tǒng)問答式評測，GDPval 更關(guān)注模型能否完成真實工作場景中的高價值交付，包括資料分析、報告撰寫、表格處理、圖表生成、幻燈片制作等典型辦公任務(wù)。

這組成績背后，傳遞出一個重要信號：U2并不是以單點能力取勝，而是在推理、代碼、Agent和辦公交付等多項關(guān)鍵能力上形成了系統(tǒng)性表現(xiàn)。

讓模型原生能力進(jìn)入真實工作流

對云知聲而言，U2 不只是一個模型代號，更是我們對 AI 2.0 時代大模型價值的重新思考。我們認(rèn)為，衡量今天的大模型價值，不能再單純比拼參數(shù)規(guī)模和內(nèi)容生成長度。當(dāng) AI 真正進(jìn)入真實工作流，用戶關(guān)心的不再只是模型能否給出一個漂亮回答，而是它能否真正把任務(wù)完成。

因此，U2 從設(shè)計之初，就不是一個單純面向聊天場景的通用模型，而是一款面向任務(wù)執(zhí)行的原生智能體大模型。

要讓模型真正完成任務(wù)，僅靠更大的參數(shù)并不夠。真實工作流往往復(fù)雜、動態(tài)且長鏈路：模型既要能夠快速理解目標(biāo)、拆解任務(wù)、搜索路徑，也要能在關(guān)鍵節(jié)點進(jìn)行邏輯校準(zhǔn)、約束檢查和結(jié)果驗證。傳統(tǒng)顯式思維鏈雖然具備較強(qiáng)可解釋性，但往往需要生成大量中間推理文本，帶來更高 Token 消耗與推理延遲；而完全依賴隱空間推理，雖然效率更高，卻可能在復(fù)雜任務(wù)中出現(xiàn)邏輯漂移，缺乏足夠的可控性與驗證能力。

為了解決這一矛盾，U2 創(chuàng)新引入混合思考機(jī)制。它并不是在顯式 CoT 與隱式推理之間二選一，而是在同一推理過程中，根據(jù)任務(wù)階段、復(fù)雜度和不確定性動態(tài)切換思考形態(tài)。

在任務(wù)早期，U2 優(yōu)先在隱空間中進(jìn)行高效探索，完成路徑搜索、任務(wù)拆解、候選方案生成與執(zhí)行規(guī)劃，避免把每一步中間思考都解碼為可見 Token；當(dāng)任務(wù)進(jìn)入關(guān)鍵判斷、復(fù)雜約束處理或結(jié)果收斂階段，模型則切換到顯式推理，通過可讀、可校驗的推理過程完成邏輯校準(zhǔn)、過程驗證與最終決策。

進(jìn)一步地，U2引入可控隱空間展開（Bounded Latent Rollout）與熵感知切換（Entropy-aware Switching）機(jī)制，使模型能夠根據(jù)推理過程中的不確定性動態(tài)調(diào)整思考方式：當(dāng)隱式探索穩(wěn)定時，模型保持高效推理；當(dāng)不確定性升高、推理路徑可能發(fā)散時，則及時回到顯式思維鏈，通過確定性 Token 完成精準(zhǔn)推導(dǎo)與結(jié)果收斂。

這意味著，U2 并不是簡單縮短思維鏈，而是重構(gòu)了模型的思考分工：把開放探索、路徑規(guī)劃等高消耗環(huán)節(jié)更多內(nèi)化到隱空間，把邏輯驗證、約束校準(zhǔn)和結(jié)果收斂留給顯式推理。由此，U2 能夠在減少無效推理步驟和冗余中間文本的同時，保持復(fù)雜任務(wù)中的可靠性與可控性，實現(xiàn)“少 Token，深思考”。

在知識底座上，U2 進(jìn)一步通過高知識密度數(shù)據(jù)精篩提純技術(shù)，過濾重復(fù)、低質(zhì)與幻覺數(shù)據(jù)，完成知識點級精煉萃取；并結(jié)合稀疏知識編碼與知識蒸餾架構(gòu)，壓縮模型冗余參數(shù)，將高價值知識能力固化到更高效的模型結(jié)構(gòu)中。

在任務(wù)執(zhí)行層面，U2 引入 Agent-Harness 協(xié)同訓(xùn)練范式。我們認(rèn)為，Harness 不應(yīng)只是外部套殼，而應(yīng)該與模型能力共同進(jìn)化。因此，U2 將模型原生 Agent 能力提升與 Harness 迭代優(yōu)化納入同一訓(xùn)練閉環(huán)：一方面，Harness 根據(jù) U2 的模型特點持續(xù)優(yōu)化任務(wù)執(zhí)行鏈路；另一方面，真實任務(wù)中產(chǎn)生的高質(zhì)量執(zhí)行軌跡，又反過來強(qiáng)化模型的任務(wù)規(guī)劃、工具調(diào)用、過程糾錯和結(jié)果驗收能力。

而這一系列完整的閉環(huán)，最終要落到一套務(wù)實的訓(xùn)練體系上。我們沒有讓 U2 只盯著正確答案死記硬背，而是通過課程學(xué)習(xí)、過程監(jiān)督、軌跡對比與多維獎勵，教會它在復(fù)雜任務(wù)中如何規(guī)劃、執(zhí)行、糾錯、驗收。配合 Agent-Harness 協(xié)同演進(jìn)，U2 能夠在真實任務(wù)軌跡中持續(xù)強(qiáng)化長鏈路執(zhí)行能力，真正從“能聊天”走向“能完成任務(wù)”。

三大核心能力

圍繞真實任務(wù)交付，U2重點強(qiáng)化了Reasoning、Coding和Agent三大核心能力。

在Reasoning方面，U2強(qiáng)調(diào)低偏差執(zhí)行和長程邏輯穩(wěn)定性。面對復(fù)雜、多步驟任務(wù)時，模型不僅要能回答局部問題，更要能夠持續(xù)保持目標(biāo)一致，動態(tài)權(quán)衡預(yù)算、時間、約束條件和可行路徑，最終輸出更優(yōu)方案。

在Coding方面，U2不再局限于代碼生成，而是面向端到端工程交付。它能夠根據(jù)自然語言需求生成代碼，也能夠理解多文件項目結(jié)構(gòu)，保持接口、依賴和調(diào)用邏輯一致，并在環(huán)境調(diào)試和自主Debug中持續(xù)推進(jìn)任務(wù)完成。

在Agent方面，U2重點提升了多工具協(xié)同、長流程編排和環(huán)境交互能力。面對開放式目標(biāo)，它能夠拆解任務(wù)優(yōu)先級，理解API能力邊界，組合調(diào)用不同工具，并根據(jù)外部系統(tǒng)反饋調(diào)整執(zhí)行策略。

這三類能力共同構(gòu)成了U2的任務(wù)交付閉環(huán)：先理解和規(guī)劃，再執(zhí)行和協(xié)作，最后校驗和交付。也正因為如此，U2更適合被放到真實工作場景中檢驗，而不是只停留在單輪對話或單點能力展示中。

目前，U2 已經(jīng)正式上線云知聲Token Hub，全面面向個人、開發(fā)者及組織開放。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.