无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)測(cè)混元Hy3 preview:騰訊AI,終于能打了?

0
分享至


代碼能跑,復(fù)雜邏輯會(huì)翻車。

AIX財(cái)經(jīng)(AIXcaijing)原創(chuàng)

作者| 雷晶

編輯| 金玙璠

AI圈近期動(dòng)作頻頻,騰訊混元Hy3 preview也正式亮相。

4月23日,騰訊混元正式發(fā)布并開(kāi)源了新一代語(yǔ)言模型Hy3 preview。據(jù)官網(wǎng)介紹,該模型采用快慢思考融合的混合專家架構(gòu),總參數(shù)295B、激活參數(shù)21B,最大支持256K上下文長(zhǎng)度。這是被官方稱為混元迄今最智能的模型。

三個(gè)月前,姚順雨帶著ReAct框架和OpenAI的實(shí)戰(zhàn)經(jīng)驗(yàn)加入騰訊,主導(dǎo)完成了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的重構(gòu)。Hy3 preview是重建后的首份答卷。官方表示,該模型在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼生成及智能體等能力均實(shí)現(xiàn)大幅提升。

從官方披露的數(shù)據(jù)和評(píng)測(cè)結(jié)果來(lái)看,Hy3 preview在多項(xiàng)基礎(chǔ)測(cè)試中展現(xiàn)出亮眼的實(shí)力,雖然未必在所有維度都達(dá)到行業(yè)頂尖水準(zhǔn),但足以滿足多數(shù)場(chǎng)景下的實(shí)用需求。

在實(shí)際運(yùn)行效率和穩(wěn)定性方面,Hy3 preview也有所突破。官方數(shù)據(jù)顯示,這款模型的首Token延遲降低54%,端到端時(shí)長(zhǎng)降低47%,大幅提升了響應(yīng)速度。同時(shí),任務(wù)成功率也有所提升,已能穩(wěn)定驅(qū)動(dòng)復(fù)雜的Agent工作流,覆蓋文檔處理、數(shù)據(jù)分析等多種業(yè)務(wù)場(chǎng)景。

此外,它的推理成本也有所下降。在騰訊云API輸入低至1.2元/百萬(wàn)Tokens,個(gè)人套餐最低28元/月,在同尺寸模型中屬于最低價(jià)梯隊(duì)。目前,Hy3 preview已在騰訊云、元寶、WorkBuddy等騰訊核心產(chǎn)品中上線。

接下來(lái),我們將根據(jù)官方提到的四個(gè)方向,實(shí)測(cè)混元大模型在實(shí)際應(yīng)用中的表現(xiàn)。

01.

推理能力:復(fù)雜邏輯能拆解,陷阱識(shí)別仍需加強(qiáng)

我們首先測(cè)試了模型的推理能力。邏輯推理題是網(wǎng)友最喜歡拿來(lái)測(cè)模型“智商”的類型之一。在這一環(huán)節(jié)中,我們先用經(jīng)典的“洗車問(wèn)題”在元寶內(nèi)進(jìn)行測(cè)試。


在這個(gè)經(jīng)典陷阱題中,Hy3 preview起初并未答對(duì)。它給出了條理清晰的推理來(lái)建議步行,而忽視了重點(diǎn)在于“洗車”。在再次提醒需要洗車后,它才給出正確答案。

需要注意的是,在其他網(wǎng)友的實(shí)測(cè)中,Hy3 preview出現(xiàn)過(guò)能直接答對(duì)的情況,說(shuō)明它的陷阱識(shí)別能力穩(wěn)定性不足。

我們?cè)賮?lái)試一道腦筋急轉(zhuǎn)彎題。在這個(gè)問(wèn)題中,需要理解現(xiàn)實(shí)邏輯,碎了、煎了、吃了的是同一批雞蛋。但Hy3 preview沒(méi)有意識(shí)到這一點(diǎn),它認(rèn)為煎了的雞蛋依然存在,可以吃掉。


隨后,我們加大難度,用一道推導(dǎo)過(guò)程更為復(fù)雜的邏輯題來(lái)考驗(yàn)它。這道題的難點(diǎn)在于沒(méi)有直接的定位信息,需要靠隱性條件來(lái)做排除,容易遺漏關(guān)鍵信息。


在這一場(chǎng)景中,Hy3 preview給出了正確答案。它先逐條拆解線索、提煉人物與職業(yè)的互斥關(guān)系,再通過(guò)排除法鎖定身份。接著,它依次確定部分崗位的歸屬,再結(jié)合規(guī)則逐步補(bǔ)全。

綜合來(lái)看,Hy3 preview常規(guī)理性邏輯推演能力較強(qiáng),但逆向思維、陷阱識(shí)別與生活場(chǎng)景變通思考能力仍有不足。面對(duì)陷阱類腦筋急轉(zhuǎn)彎時(shí),容易局限于字面常規(guī)邏輯,忽略題目陷阱與現(xiàn)實(shí)場(chǎng)景,反應(yīng)欠佳。但在面對(duì)條件隱蔽、推導(dǎo)繁瑣的復(fù)雜邏輯推理題時(shí),它能夠拆解線索,層層推演,邏輯分析和分步推導(dǎo)能力表現(xiàn)扎實(shí)。

02.

上下文學(xué)習(xí)和指令遵循 :提取信息,干擾場(chǎng)景下表現(xiàn)穩(wěn)定

這一環(huán)節(jié)考驗(yàn)?zāi)P偷膬蓚€(gè)基本功:能否抓住真正的指令,以及能否快速理解指令。

騰訊在官方博客中給出了項(xiàng)目規(guī)劃、旅游總結(jié)、讀書記錄等五個(gè)場(chǎng)景,我們選取兩個(gè)場(chǎng)景來(lái)實(shí)測(cè)。

場(chǎng)景一:內(nèi)容雜亂的會(huì)議紀(jì)要信息提取

我們給了一段混亂的會(huì)議錄音轉(zhuǎn)寫,混雜著插話、跑題、反復(fù)修正等情況,要求其摘錄三類信息。


Hy3 preview給出的答案準(zhǔn)確地列出了這三類信息,信息抓取能力表現(xiàn)不錯(cuò)。

場(chǎng)景二:理解并遵循新的語(yǔ)言規(guī)則

我們自創(chuàng)了一個(gè)簡(jiǎn)單的語(yǔ)言,通過(guò)實(shí)例向它展示規(guī)則,并給它三個(gè)新的句子讓它翻譯。


在這一輪中,Hy3 preview能夠準(zhǔn)確完成相關(guān)要求,每個(gè)細(xì)節(jié)都能按規(guī)則執(zhí)行。

綜合來(lái)看,Hy3 preview能理解指令要求,有效排除干擾信息,適合繁雜信息干擾、信息抓取等實(shí)用場(chǎng)景。

03.

代碼和智能體:工具調(diào)用較成熟,任務(wù)交付完整性不足

代碼能力與智能體能力,是評(píng)判一款A(yù)I助手是否好用的重要維度。這既考驗(yàn)?zāi)P蛯?duì)用戶需求的理解深度,也檢驗(yàn)Agent在多步驟任務(wù)中的規(guī)劃、工具調(diào)用及任務(wù)閉環(huán)能力。這一環(huán)節(jié),我們?yōu)閃orkBuddy(騰訊旗下AI助手)設(shè)計(jì)了三個(gè)任務(wù)。

第一個(gè)任務(wù),我們要求WorkBuddy爬取五個(gè)城市近一年的空氣狀況,并基于空氣質(zhì)量數(shù)據(jù)生成一份分析報(bào)告。


從頁(yè)面呈現(xiàn)來(lái)看,成品表現(xiàn)合格。季節(jié)切換、雷達(dá)圖、趨勢(shì)圖、相關(guān)性熱力圖等板塊結(jié)構(gòu)完整,視覺(jué)呈現(xiàn)有序,圖表也具備基本的交互功能。這表明它在前端呈現(xiàn)這一層面的執(zhí)行力達(dá)標(biāo)。

但問(wèn)題主要有兩個(gè),一是由于數(shù)據(jù)獲取階段受阻,Hy3 preview只拿到了224天的有效數(shù)據(jù),缺口較大,影響了后續(xù)表格的可信度;二是提示詞中明確要求寫一段分析結(jié)論,Hy3 preview雖在頁(yè)面上保留了對(duì)應(yīng)板塊的區(qū)域,但實(shí)際內(nèi)容是一片空白。這意味著,它有任務(wù)閉環(huán)意識(shí),但最終的交付能力仍有不足。

第二個(gè)任務(wù),我們讓它搭建一個(gè)貪吃蛇小游戲。

最終結(jié)果較為成熟,畫面精美、邏輯完整,可以正常運(yùn)行。但需要指出的是,貪吃蛇屬于規(guī)則封閉類任務(wù),需求明確且無(wú)需調(diào)用外部數(shù)據(jù),評(píng)價(jià)標(biāo)準(zhǔn)比較明確,是智能體較擅長(zhǎng)的應(yīng)用場(chǎng)景。WorkBuddy在該任務(wù)中的表現(xiàn)只能體現(xiàn)在舒適區(qū)內(nèi)的能力,驗(yàn)證了其具有一定的實(shí)用價(jià)值。


第三個(gè)任務(wù),我們將難度提高,讓它分析一個(gè)開(kāi)放式復(fù)雜任務(wù):分析AI Coding行業(yè)的商業(yè)模式演變,盤點(diǎn)2023年至今的發(fā)展歷程,并找出行業(yè)關(guān)鍵轉(zhuǎn)折點(diǎn)及核心驅(qū)動(dòng)因素。

這是一個(gè)開(kāi)放式復(fù)雜任務(wù),沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)答案,成果質(zhì)量取決于Agent的判斷力、信息篩選能力與表達(dá)能力。

在執(zhí)行層面,WorkBuddy能夠自動(dòng)調(diào)用多個(gè)工具,先修訂執(zhí)行計(jì)劃、再落地推進(jìn)計(jì)劃,整個(gè)過(guò)程大概耗時(shí)半個(gè)小時(shí)。


但最終結(jié)果并不算驚艷,它只是搭建了一個(gè)基礎(chǔ)框架,實(shí)際內(nèi)容不夠扎實(shí)??梢钥闯?,雖然它掌握了拆解研究問(wèn)題的方法,卻不懂得如何將這些維度進(jìn)一步提煉為有價(jià)值的研究論點(diǎn)。

總的來(lái)說(shuō),WorkBuddy已具備日常編碼助手該有的能力,但在復(fù)雜任務(wù)的深度執(zhí)行和最終交付上,還有提升空間。

04.

自然對(duì)話:AI味明顯減弱

最后,我們?cè)賮?lái)看看元寶有沒(méi)有“人味”。這一輪通過(guò)兩個(gè)場(chǎng)景來(lái)測(cè)試:閑聊對(duì)話與創(chuàng)意寫作。

場(chǎng)景一:閑聊對(duì)話

官方文檔中提到,Hy3 preview更能理解用戶的傾訴意圖,能承接用戶情緒,避免說(shuō)教式、模板化的回復(fù)。


實(shí)際測(cè)試下來(lái),Hy3 preview的表現(xiàn)確實(shí)貼合這一定位。它沒(méi)有一上來(lái)就羅列一堆建議,而是先客觀分析背后的可能原因,再詢問(wèn)是否遇到什么事情。整體語(yǔ)氣溫和,較有分寸,有閑聊場(chǎng)景里的自然感。

場(chǎng)景二:創(chuàng)意寫作

在這一環(huán)節(jié)中,我們?cè)O(shè)計(jì)了兩個(gè)任務(wù),考驗(yàn)它的敘事與表達(dá)能力。

我們先讓它寫一個(gè)主角全程未出場(chǎng),但讀者讀完能清晰知道他是誰(shuí)、經(jīng)歷了什么、為何重要的故事。


元寶交出的成品,全文邏輯自洽、敘事流暢,完成度較高,幾乎讀不出AI寫作常見(jiàn)的套路感。

接著,我們?cè)僮屗7隆睹鞒切┦聝骸返奈娘L(fēng),撰寫其他朝代的人物歷史故事。

AI寫作時(shí)容易將文風(fēng)復(fù)刻表現(xiàn)為刻板的模仿,僅停留照搬行文框架,而不能吃透文章風(fēng)格。但從生成結(jié)果來(lái)看,Hy3 preview文風(fēng)復(fù)刻能力較強(qiáng),整體符合要求。它抓住了原書通俗講史的風(fēng)格,較好地呈現(xiàn)了整個(gè)故事。


這一輪評(píng)測(cè),最讓人意外。整體來(lái)看,Hy3 preview在自然語(yǔ)言的表達(dá)上,已經(jīng)擺脫了正確卻無(wú)味的套路腔,能夠?qū)懗隹勺x性較高的文本。

05.

結(jié)語(yǔ)

四個(gè)維度測(cè)下來(lái),Hy3 preview給人的感覺(jué)是“穩(wěn)而不驚”。

它沒(méi)有在某一項(xiàng)上拿出碾壓式的表現(xiàn),但它也幾乎沒(méi)有明顯的短板。放在整個(gè)國(guó)內(nèi)大模型的排位里,它未必是最驚艷的一款,但符合能干活的實(shí)用型模型標(biāo)準(zhǔn)。

把視角拉遠(yuǎn)一點(diǎn),Hy3 preview真正的意義或許并不在模型本身。

過(guò)去兩年,騰訊在大模型戰(zhàn)場(chǎng)上較為被動(dòng)。今年1月底,馬化騰在年會(huì)上公開(kāi)承認(rèn),騰訊AI動(dòng)作慢了。技術(shù)節(jié)奏相對(duì)較慢、沒(méi)有一個(gè)能讓外界記住的標(biāo)桿模型,是騰訊面臨的兩大問(wèn)題。而Hy3 preview的發(fā)布,讓騰訊的AI故事有了轉(zhuǎn)折點(diǎn),也讓騰訊有了整個(gè)生態(tài)都能用的AI模型。

目前Hy3 preview還只是一個(gè)預(yù)覽版本,開(kāi)源社區(qū)的反饋還在收集中,元寶、QQ、騰訊文檔等產(chǎn)品的實(shí)際調(diào)用體驗(yàn)也還需要時(shí)間檢驗(yàn)。據(jù)官方披露,后續(xù)會(huì)發(fā)布參數(shù)規(guī)模更大的模型。

但至少,騰訊AI已經(jīng)開(kāi)始撕掉過(guò)去兩年“被動(dòng)”的標(biāo)簽了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大英唯一“皇阿瑪”,凱恩賽后將隊(duì)友聚集在一起舉行“朝會(huì)”

大英唯一“皇阿瑪”,凱恩賽后將隊(duì)友聚集在一起舉行“朝會(huì)”

懂球帝
2026-07-02 03:37:07
會(huì)場(chǎng)爆發(fā)激烈交鋒,巴拿馬對(duì)中方窮追不舍,中國(guó)大使火力全開(kāi)怒懟

會(huì)場(chǎng)爆發(fā)激烈交鋒,巴拿馬對(duì)中方窮追不舍,中國(guó)大使火力全開(kāi)怒懟

阿晭評(píng)論哥
2026-07-01 14:56:35
“地天板”!2倍牛股江化微,午后“秒”漲停

“地天板”!2倍牛股江化微,午后“秒”漲停

新浪財(cái)經(jīng)
2026-07-02 13:55:40
共享妻子換取生活費(fèi),因錢財(cái)糾紛與情感產(chǎn)生矛盾,母女慘遭殺害

共享妻子換取生活費(fèi),因錢財(cái)糾紛與情感產(chǎn)生矛盾,母女慘遭殺害

易玄
2026-07-02 12:08:38
重慶談判時(shí),蔣介石決定讓毛主席擔(dān)任新疆省長(zhǎng),主席的回應(yīng)真高明

重慶談判時(shí),蔣介石決定讓毛主席擔(dān)任新疆省長(zhǎng),主席的回應(yīng)真高明

芊芊子吟
2026-07-02 07:35:05
入夏后,少買黃瓜茄子,多吃8種“堿性菜”,鮮嫩營(yíng)養(yǎng),應(yīng)季而食

入夏后,少買黃瓜茄子,多吃8種“堿性菜”,鮮嫩營(yíng)養(yǎng),應(yīng)季而食

美食店主
2026-06-30 08:19:55
如果人到了老年還好色,足以證明這人有極強(qiáng)的生命力

如果人到了老年還好色,足以證明這人有極強(qiáng)的生命力

喵咪文化
2026-06-21 20:15:06
空警-500現(xiàn)身巴基斯坦測(cè)試,120億防務(wù)大單傳聞開(kāi)始落地?

空警-500現(xiàn)身巴基斯坦測(cè)試,120億防務(wù)大單傳聞開(kāi)始落地?

戰(zhàn)域筆墨
2026-07-02 15:13:07
亞馬爾女友:我和亞馬爾通過(guò)社媒相識(shí),見(jiàn)面之前聊了很久

亞馬爾女友:我和亞馬爾通過(guò)社媒相識(shí),見(jiàn)面之前聊了很久

懂球帝
2026-07-01 21:16:31
港股小米集團(tuán)-W漲超5%

港股小米集團(tuán)-W漲超5%

每日經(jīng)濟(jì)新聞
2026-07-02 14:24:12
布魯查加:梅西狀態(tài)如20歲,希望帶阿根廷超越我們

布魯查加:梅西狀態(tài)如20歲,希望帶阿根廷超越我們

老曁科普
2026-07-02 00:57:44
明天世界杯3場(chǎng)前瞻:西班牙別急著吹,葡萄牙要防加時(shí)

明天世界杯3場(chǎng)前瞻:西班牙別急著吹,葡萄牙要防加時(shí)

寶哥精彩賽事
2026-07-02 12:10:23
捐588萬(wàn)出家!慧閔師父見(jiàn)女心切,因傷病無(wú)力干活被寺廟勸返紅塵

捐588萬(wàn)出家!慧閔師父見(jiàn)女心切,因傷病無(wú)力干活被寺廟勸返紅塵

時(shí)尚的弄潮
2026-07-02 05:11:39
客戶反映空調(diào)不涼快,師傅上門傻眼了:老人怕淋壞外機(jī),竟將其裹了個(gè)嚴(yán)嚴(yán)實(shí)實(shí),安裝維修空調(diào)10年了第一次見(jiàn)

客戶反映空調(diào)不涼快,師傅上門傻眼了:老人怕淋壞外機(jī),竟將其裹了個(gè)嚴(yán)嚴(yán)實(shí)實(shí),安裝維修空調(diào)10年了第一次見(jiàn)

天津人
2026-07-01 22:25:53
中日之戰(zhàn)明日打響,渡邊:以我們的實(shí)力完全可以贏

中日之戰(zhàn)明日打響,渡邊:以我們的實(shí)力完全可以贏

刺猬籃球
2026-07-02 12:28:21
熱刺1億簽托納利,封死曼聯(lián)低價(jià)買人之路!5大中場(chǎng)目標(biāo)預(yù)計(jì)都加價(jià)

熱刺1億簽托納利,封死曼聯(lián)低價(jià)買人之路!5大中場(chǎng)目標(biāo)預(yù)計(jì)都加價(jià)

羅米的曼聯(lián)博客
2026-07-02 07:21:29
巴西世界杯遇挪威克星,維尼修斯有望終結(jié)不勝紀(jì)錄

巴西世界杯遇挪威克星,維尼修斯有望終結(jié)不勝紀(jì)錄

遁走的兩輪
2026-07-02 09:27:00
毛主席視察南泥灣,王震用燒雞款待,飯后疑惑主席為何帶走雞架

毛主席視察南泥灣,王震用燒雞款待,飯后疑惑主席為何帶走雞架

嘮叨說(shuō)歷史
2026-07-02 13:55:41
當(dāng)韓紅被推進(jìn)糞坑

當(dāng)韓紅被推進(jìn)糞坑

人格志
2026-07-02 03:30:47
630GB,蘋果要哭了。。。

630GB,蘋果要哭了。。。

放毒
2026-07-02 14:19:01
2026-07-02 20:00:49
AIX財(cái)經(jīng) incentive-icons
AIX財(cái)經(jīng)
AI新時(shí)代,財(cái)經(jīng)新觀察。
73文章數(shù) 23223關(guān)注度
往期回顧 全部

科技要聞

馬斯克不承認(rèn),但SpaceX就該造AI手機(jī)

頭條要聞

患罕見(jiàn)病被背進(jìn)考場(chǎng)男生考出643分 想報(bào)考中醫(yī)藥專業(yè)

頭條要聞

患罕見(jiàn)病被背進(jìn)考場(chǎng)男生考出643分 想報(bào)考中醫(yī)藥專業(yè)

體育要聞

韓國(guó)人,為什么恨透了洪明甫?

娛樂(lè)要聞

眾星祝福祖國(guó),曾沛慈原形畢露?

財(cái)經(jīng)要聞

千億茶市場(chǎng)無(wú)贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

小鵬MONA L03 智能化水平拉滿 還有玩法多樣的巧思大空間

態(tài)度原創(chuàng)

游戲
時(shí)尚
健康
本地
公開(kāi)課

《殺毒少女》正式推出 反病毒主題防御射擊新游

月入3萬(wàn),時(shí)代紅利砸向文科生

這4類消化病患者 吃粘食管住嘴

本地新聞

這場(chǎng)穿越酉陽(yáng)的光影之旅,張張都是壁紙!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版