DoNews6月8日消息,剛剛,云知聲正式發(fā)布新一代通用大語言模型——U2。
![]()
作為面向個人、開發(fā)者與組織打造的原生智能體大模型,U2的技術(shù)主張極為純粹:高智能密度 × 高Token價值。它不再盲目堆疊參數(shù),而是追求高智能密度,用更少激活資源承載更強(qiáng)能力;不再簡單比拼輸出長度,而是追求高Token 價值,讓每一次調(diào)用都更接近交付結(jié)果。
與傳統(tǒng)大模型更偏向單輪問答或短鏈路生成不同,U2 更強(qiáng)調(diào)面向真實任務(wù)的連續(xù)執(zhí)行能力。在復(fù)雜辦公、軟件工程、深度研究與多工具協(xié)同場景中,U2 能夠自主拆解并推進(jìn) 100+ 步復(fù)雜工作流,將需求理解、任務(wù)規(guī)劃、環(huán)境交互、工具調(diào)用、過程糾錯與結(jié)果驗收串聯(lián)為完整閉環(huán),從“給出答案”進(jìn)一步走向“完成任務(wù)”。
權(quán)威評測進(jìn)入第一梯隊
在最新發(fā)布的一系列國內(nèi)外權(quán)威能力評測中, U2已經(jīng)在多個關(guān)鍵能力方向進(jìn)入主流大模型第一梯隊:
![]()
在衡量知識與復(fù)雜推理能力的 GPQA Diamond 上,U2 取得 87.9 分,超過 GLM-5.1、Hy3 preview、DeepSeek-V4-Flash(High)和 MiniMax M2.7,展現(xiàn)出對高難度知識問題的穩(wěn)定理解、推理與求解能力。
在衡量真實軟件工程能力的 SWE-Bench Verified 上,U2 取得 75 分,進(jìn)入主流模型第一梯隊。
而在面向自主 Agent 端到端執(zhí)行能力的 Claw-Eval(pass@3) 上,U2 取得 76.9 分,超過 Hy3 preview、DeepSeek-V4-Flash(High)和 MiniMax M2.7,進(jìn)一步驗證了其在工具調(diào)用、流程編排與任務(wù)交付中的穩(wěn)定表現(xiàn)。
在面向真實辦公與知識工作交付能力的 GDPval 上,U2 取得 72.9 分,展現(xiàn)出扎實的專業(yè)辦公能力。相比傳統(tǒng)問答式評測,GDPval 更關(guān)注模型能否完成真實工作場景中的高價值交付,包括資料分析、報告撰寫、表格處理、圖表生成、幻燈片制作等典型辦公任務(wù)。
這組成績背后,傳遞出一個重要信號:U2并不是以單點能力取勝,而是在推理、代碼、Agent和辦公交付等多項關(guān)鍵能力上形成了系統(tǒng)性表現(xiàn)。
讓模型原生能力進(jìn)入真實工作流
對云知聲而言,U2 不只是一個模型代號,更是我們對 AI 2.0 時代大模型價值的重新思考。我們認(rèn)為,衡量今天的大模型價值,不能再單純比拼參數(shù)規(guī)模和內(nèi)容生成長度。當(dāng) AI 真正進(jìn)入真實工作流,用戶關(guān)心的不再只是模型能否給出一個漂亮回答,而是它能否真正把任務(wù)完成。
因此,U2 從設(shè)計之初,就不是一個單純面向聊天場景的通用模型,而是一款面向任務(wù)執(zhí)行的原生智能體大模型。
要讓模型真正完成任務(wù),僅靠更大的參數(shù)并不夠。真實工作流往往復(fù)雜、動態(tài)且長鏈路:模型既要能夠快速理解目標(biāo)、拆解任務(wù)、搜索路徑,也要能在關(guān)鍵節(jié)點進(jìn)行邏輯校準(zhǔn)、約束檢查和結(jié)果驗證。傳統(tǒng)顯式思維鏈雖然具備較強(qiáng)可解釋性,但往往需要生成大量中間推理文本,帶來更高 Token 消耗與推理延遲;而完全依賴隱空間推理,雖然效率更高,卻可能在復(fù)雜任務(wù)中出現(xiàn)邏輯漂移,缺乏足夠的可控性與驗證能力。
為了解決這一矛盾,U2 創(chuàng)新引入混合思考機(jī)制。它并不是在顯式 CoT 與隱式推理之間二選一,而是在同一推理過程中,根據(jù)任務(wù)階段、復(fù)雜度和不確定性動態(tài)切換思考形態(tài)。
在任務(wù)早期,U2 優(yōu)先在隱空間中進(jìn)行高效探索,完成路徑搜索、任務(wù)拆解、候選方案生成與執(zhí)行規(guī)劃,避免把每一步中間思考都解碼為可見 Token;當(dāng)任務(wù)進(jìn)入關(guān)鍵判斷、復(fù)雜約束處理或結(jié)果收斂階段,模型則切換到顯式推理,通過可讀、可校驗的推理過程完成邏輯校準(zhǔn)、過程驗證與最終決策。
進(jìn)一步地,U2引入可控隱空間展開(Bounded Latent Rollout)與熵感知切換(Entropy-aware Switching)機(jī)制,使模型能夠根據(jù)推理過程中的不確定性動態(tài)調(diào)整思考方式:當(dāng)隱式探索穩(wěn)定時,模型保持高效推理;當(dāng)不確定性升高、推理路徑可能發(fā)散時,則及時回到顯式思維鏈,通過確定性 Token 完成精準(zhǔn)推導(dǎo)與結(jié)果收斂。
這意味著,U2 并不是簡單縮短思維鏈,而是重構(gòu)了模型的思考分工:把開放探索、路徑規(guī)劃等高消耗環(huán)節(jié)更多內(nèi)化到隱空間,把邏輯驗證、約束校準(zhǔn)和結(jié)果收斂留給顯式推理。由此,U2 能夠在減少無效推理步驟和冗余中間文本的同時,保持復(fù)雜任務(wù)中的可靠性與可控性,實現(xiàn)“少 Token,深思考”。
在知識底座上,U2 進(jìn)一步通過高知識密度數(shù)據(jù)精篩提純技術(shù),過濾重復(fù)、低質(zhì)與幻覺數(shù)據(jù),完成知識點級精煉萃取;并結(jié)合稀疏知識編碼與知識蒸餾架構(gòu),壓縮模型冗余參數(shù),將高價值知識能力固化到更高效的模型結(jié)構(gòu)中。
在任務(wù)執(zhí)行層面,U2 引入 Agent-Harness 協(xié)同訓(xùn)練范式。我們認(rèn)為,Harness 不應(yīng)只是外部套殼,而應(yīng)該與模型能力共同進(jìn)化。因此,U2 將模型原生 Agent 能力提升與 Harness 迭代優(yōu)化納入同一訓(xùn)練閉環(huán):一方面,Harness 根據(jù) U2 的模型特點持續(xù)優(yōu)化任務(wù)執(zhí)行鏈路;另一方面,真實任務(wù)中產(chǎn)生的高質(zhì)量執(zhí)行軌跡,又反過來強(qiáng)化模型的任務(wù)規(guī)劃、工具調(diào)用、過程糾錯和結(jié)果驗收能力。
而這一系列完整的閉環(huán),最終要落到一套務(wù)實的訓(xùn)練體系上。我們沒有讓 U2 只盯著正確答案死記硬背,而是通過課程學(xué)習(xí)、過程監(jiān)督、軌跡對比與多維獎勵,教會它在復(fù)雜任務(wù)中如何規(guī)劃、執(zhí)行、糾錯、驗收。配合 Agent-Harness 協(xié)同演進(jìn),U2 能夠在真實任務(wù)軌跡中持續(xù)強(qiáng)化長鏈路執(zhí)行能力,真正從“能聊天”走向“能完成任務(wù)”。
三大核心能力
圍繞真實任務(wù)交付,U2重點強(qiáng)化了Reasoning、Coding和Agent三大核心能力。
在Reasoning方面,U2強(qiáng)調(diào)低偏差執(zhí)行和長程邏輯穩(wěn)定性。面對復(fù)雜、多步驟任務(wù)時,模型不僅要能回答局部問題,更要能夠持續(xù)保持目標(biāo)一致,動態(tài)權(quán)衡預(yù)算、時間、約束條件和可行路徑,最終輸出更優(yōu)方案。
在Coding方面,U2不再局限于代碼生成,而是面向端到端工程交付。它能夠根據(jù)自然語言需求生成代碼,也能夠理解多文件項目結(jié)構(gòu),保持接口、依賴和調(diào)用邏輯一致,并在環(huán)境調(diào)試和自主Debug中持續(xù)推進(jìn)任務(wù)完成。
在Agent方面,U2重點提升了多工具協(xié)同、長流程編排和環(huán)境交互能力。面對開放式目標(biāo),它能夠拆解任務(wù)優(yōu)先級,理解API能力邊界,組合調(diào)用不同工具,并根據(jù)外部系統(tǒng)反饋調(diào)整執(zhí)行策略。
這三類能力共同構(gòu)成了U2的任務(wù)交付閉環(huán):先理解和規(guī)劃,再執(zhí)行和協(xié)作,最后校驗和交付。也正因為如此,U2更適合被放到真實工作場景中檢驗,而不是只停留在單輪對話或單點能力展示中。
目前,U2 已經(jīng)正式上線云知聲Token Hub,全面面向個人、開發(fā)者及組織開放。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.