網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Qwen3.7-Max，我覺得應(yīng)該叫Ultra，很強(qiáng)

2026-05-22 21:59:24　來源: AI異類

北京舉報

分享至

印象里，Qwen模型，一向是盲測表現(xiàn)更好的。

蒙上眼睛，不說別的，只看效果；真實環(huán)境里，拋開先入為主的偏見，是騾子是馬拉出來溜溜。

阿里最近發(fā)了新模型，Qwen3.7-Max。

在Arena全球大模型盲測總榜上，Qwen3.7-Max排到了全球第五，國產(chǎn)第一。

超過Kimi-K2.6，超過DeepSeek-v4-pro，超過GLM-5.1。和GPT、Claude、Gemini那幾位的差距也很小。

盲測這個東西，水分相對少。

模型叫什么名字、誰家出的，評測者看不到，純粹靠回答質(zhì)量打分。

能在這種榜單上沖到這個位置，說明真有點東西。

連夜把Qwen3.7-Max接進(jìn)了我的測試環(huán)境，給大家說說感受。

https://chat.qwen.ai/

01修了幾個真Bug，編程能力很頂

這幾年做AI應(yīng)用開發(fā)，從GPT-3.5時代一路用過來，見過太多模型在宣傳文案里封神，一上真實項目就露怯。

所以我評測模型的方式很簡單：丟給它真實的爛攤子。

看看遇到Bug的時候，能不能搞得定。

我直接把最近遇到的問題拿了過來。

是一個開源項目里，擱置了兩周的一個Issue，關(guān)于Python異步任務(wù)內(nèi)存泄漏的問題。

Qwen3.7-Max跑第一輪的時候，我沒有太高預(yù)期。

但它給出的異步泄漏診斷出乎我意料地準(zhǔn)。

它沒有泛泛地說用weakref或者gc.collect，而是直接指出了問題可能出現(xiàn)在某個具體的事件循環(huán)上下文里，協(xié)程對象沒有被正確銷毀。

我按照它的建議加了兩個補(bǔ)丁，bug消失了，內(nèi)存曲線穩(wěn)住了。

第二個是遇到的React白屏問題，我自己排查了好久，找人幫忙也沒搞定。

那個Bug其實挺惡心，涉及到useEffect的依賴數(shù)組和子組件渲染時序的交織問題。

我見過Claude Opus 4.7給出的解決方案，偏重理論推導(dǎo)。

Qwen3.7-Max的解法更工程化，它甚至建議我在某個關(guān)鍵位置加一段防御性代碼，在特定條件下重繪。

這個手法很老練，像是寫了8年前端的老手會用的招數(shù)。

代碼質(zhì)量不錯，unsafe塊用得也很克制。

我翻了翻它的測評數(shù)據(jù)，指標(biāo)都非常好，和實際測試的效果也是匹配的：

在編程智能體方面，Qwen3.7-Max在Terminal Bench 2.0-Terminus得分69.7，超過了DeepSeek-v4-pro-Max、Claude-Opus4.6等一眾模型；

在MCP-Atlas、MCP-Mark、Skillbench等現(xiàn)實能力測試?yán)?，超越GLM5.1、Kimi-K2.6等，創(chuàng)下國產(chǎn)新高；

推理能力上，Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等推理核心測評中，均超越了Claude-Opus4.6及所有國產(chǎn)模型；在多語言理解和翻譯的WMT24++、MAXIFE評測中領(lǐng)先。

這個數(shù)據(jù)結(jié)構(gòu)很有意思。

Claude在英文為主的代碼倉庫上依然強(qiáng)，但Qwen在多語言尤其是中英文混合的代碼場景里已經(jīng)反超。

我的實際體驗也印證了這一點，在處理國內(nèi)某些混雜著中文注釋、拼音變量名、英文文檔的技術(shù)棧時，Qwen3.7-Max的適應(yīng)性的確更好。

02推理能力這件事，奧數(shù)題和人類考試都測過了

編程能力的提升往往伴隨推理能力的增強(qiáng)。

這兩個能力在底層是相通的，都需要模型具備長鏈路的邏輯推導(dǎo)和工具調(diào)用能力。

Qwen3.7-Max在數(shù)學(xué)推理HMMT 2026 Feb評測里拿了98.0分，超過了Kimi-K2.6。

在IMOAnswerBench這個奧數(shù)級別評測里是90.5分，超過了DeepSeek-V4-Pro-Max。

還有一個更硬核的測試叫人類最后的考試HLE，涵蓋數(shù)學(xué)、物理、化學(xué)等多學(xué)科的高難度問題，它也超過了Claude Opus 4.7。

我用自己的方式驗證了一下。我找了一道2025年全國高中數(shù)學(xué)聯(lián)賽的幾何題，還找了一道北大物理學(xué)院某次作業(yè)里的熱力學(xué)問題。這兩道題都挺偏，不太可能在訓(xùn)練數(shù)據(jù)里高頻出現(xiàn)。

Qwen3.7-Max做幾何題的時候，輔助線選得不錯，三步推下來思路清晰。

最終也能得出正確答案。

物理題它完成得更好，從狀態(tài)方程推導(dǎo)到熵變計算，整個過程邏輯閉環(huán)。

思考過程很嚴(yán)謹(jǐn)全面，雖然多了一些相關(guān)但不必要的內(nèi)容，但勝在算無遺漏。

相比之下，我之前測過的Kimi-K2.6在這道物理題上卡在了中間步驟，DeepSeek-v4-pro計算過程正確但最后答案單位寫錯了。

就推理的完整度和細(xì)節(jié)把握來說，Qwen3.7-Max是目前國產(chǎn)模型里我體驗過的最強(qiáng)者。

這背后其實有一個技術(shù)點值得說。

Qwen3.7-Max是面向智能體Agent全新設(shè)計的架構(gòu)。

傳統(tǒng)大模型擅長對話和單輪問答，但Agent需要多步推理、工具調(diào)用、結(jié)果驗證、錯誤修正。

這個鏈條越長，對模型的要求越高。

Qwen3.7-Max能處理超長程的智能體復(fù)雜任務(wù)，說明它在記憶保持、狀態(tài)跟蹤、目標(biāo)維持這些底層能力上確實做了針對性優(yōu)化。

03從做網(wǎng)站到優(yōu)化內(nèi)核，都不在話下

嘗試了一下用Qwen3.7-Max畫網(wǎng)站、做表格，效果比之前更上了個臺階。

我讓模擬科研網(wǎng)站，做一個動態(tài)的神經(jīng)網(wǎng)絡(luò)監(jiān)測結(jié)構(gòu)，數(shù)值要實時變化、可調(diào)整。

之前的Qwen以及其他模型，能把表面功夫做到位，但交互細(xì)節(jié)會欠缺。

今天做的版本，明顯比其他模型更好了。

動態(tài)呈現(xiàn)，數(shù)據(jù)和邏輯的嚴(yán)謹(jǐn)性，都比較令人滿意。

做表格，當(dāng)然效果也不錯。

可視化追蹤看板，完成度也非常高。

能夠把跨行業(yè)的數(shù)據(jù)，具體的計算公式和新數(shù)據(jù)處理辦法，在一個看板上都搞明白。

用代碼能力和數(shù)學(xué)能力為基礎(chǔ)，在應(yīng)用中去解決這些場景化的問題，可以說都是更強(qiáng)的技術(shù)能力的下方。

阿里給Qwen3.7-Max布置了一個極端任務(wù)。

他們在平頭哥真武M890芯片上，一個模型訓(xùn)練時從未接觸過的全新硬件平臺，要求Qwen3.7-Max自主完成推理內(nèi)核的優(yōu)化。

起始條件非?？量蹋簺]有任何性能分析數(shù)據(jù)，沒有硬件文檔，沒有新架構(gòu)的示例內(nèi)核。只有一個空白工作空間，里面有一段任務(wù)描述、一個SGLang Triton參考實現(xiàn)和評測腳本。

Qwen3.7-Max從零開始，持續(xù)編程了35個小時。

它獨立進(jìn)行了432次內(nèi)核評估，1158次工具調(diào)用，完全自主地完成了編寫、編譯、性能分析與迭代改進(jìn)的全流程。

最終優(yōu)化后的推理內(nèi)核，比官方的SGLang Triton參考實現(xiàn)快了10倍。

測試軌跡里有個細(xì)節(jié)特別打動我。

在運行超過30小時后，模型仍然發(fā)現(xiàn)了有效的優(yōu)化點，甚至主動發(fā)起了一次架構(gòu)重設(shè)計。

說明它不是在執(zhí)行一個預(yù)設(shè)的固定腳本，而是在整個過程中持續(xù)保持目標(biāo)感，不斷尋找改進(jìn)空間。

這種長周期自主迭代能力，放在真實開發(fā)環(huán)境里，很有價值了。

比如現(xiàn)在接手的遺留系統(tǒng)可能需要重構(gòu)，涉及幾百個文件，前后要改兩星期。傳統(tǒng)做法是你自己寫方案，拆解成多個小任務(wù)，讓AI分別完成，你來串聯(lián)。

但如果模型能像Qwen3.7-Max這樣，給你干滿35個小時，自己調(diào)試、自己跑測試、自己發(fā)現(xiàn)問題再優(yōu)化，那你基本上只需要最后驗收就行了。

當(dāng)然這里也有局限性。35小時連續(xù)運行，API調(diào)用成本不低。

而且這個任務(wù)雖然復(fù)雜，但目標(biāo)相對明確，就是優(yōu)化推理內(nèi)核。

真實世界的需求往往更模糊，需要來回溝通確認(rèn)。

但從技術(shù)演進(jìn)的方向看，這條路是對的。模型正在從回答問題走向解決問題，從輔助工具走向自主執(zhí)行者。

04千問的加速度

過去三個月，千問旗艦?zāi)Ｐ偷巳齻€大版本。

3月20日Qwen3.5-Max-Preview亮相，4月20日Qwen3.6-Max-Preview登場，5月20日Qwen3.7-Max正式發(fā)布。

中小模型的表現(xiàn)，也值得說說。

開源的Qwen3.6-27B和Qwen3.6-35B-A3B，在HuggingFace上登頂全球開源大模型榜首。

Unsloth的創(chuàng)始人5月13日還在社交媒體上，展示了他基于千問的魔改成果，說明這個模型的潛力和可塑性得到了社區(qū)認(rèn)可。

我自己的服務(wù)器上跑的是Qwen3.6-27B的量化版本，顯存占用大概14GB，在一塊消費級顯卡上就能跑。

代碼補(bǔ)全、輕量級Agent任務(wù)都夠用，響應(yīng)速度也快。

這種以小勝大的路線，對中小開發(fā)者和企業(yè)來說意義更大，不是每個人都有幾十張A100。

調(diào)用量數(shù)據(jù)，也能說明問題。

Qwen3.6-Plus在OpenRouter平臺上的日調(diào)用量突破了1.4萬億Token，打破了平臺單日單模型調(diào)用量的全球紀(jì)錄。

只覺得，似乎從硅谷到歐洲，從中東到東南亞，都在買中國模型的Token。

注意到一個變化。

半年前參加技術(shù)會議，大家討論的都是Claude和GPT。

現(xiàn)在同一個圈子，千問、Kimi也成為了高頻詞。

在編程場景里，Claude依然是標(biāo)桿，但千問在很多細(xì)分任務(wù)上已經(jīng)不輸甚至反超。

尤其是在中文為主的技術(shù)文檔和代碼混合場景里，國產(chǎn)模型的天然優(yōu)勢開始顯現(xiàn)。

阿里幾個月前成立了ATH，打通芯片、云、模型、應(yīng)用幾個層面。

這也是我比較期待的，因為大模型的研發(fā)從來不單單是算法問題，它也需要芯片層的算子優(yōu)化，需要云基礎(chǔ)設(shè)施的調(diào)度配合，需要應(yīng)用層的反饋閉環(huán)。

把這幾個層次捏在一起，才可能跑出更快的迭代速度和更及時的調(diào)整驗證。

從最早的規(guī)則引擎到深度學(xué)習(xí)，從CNN到Transformer，每次技術(shù)躍遷都會產(chǎn)生新的贏家和輸家。

大模型前兩年，國內(nèi)外的差距一度拉得很大。

去年這個時候，國產(chǎn)模型在SWE-bench上的分?jǐn)?shù)還在20分上下徘徊，Claude和GPT已經(jīng)是40分以上。

今年5月，Qwen3.7-Max在部分編程評測中已經(jīng)能和Claude Opus 4.7掰手腕，在多語言場景甚至領(lǐng)先。

https://qwen.ai/

這次千問3.7的發(fā)布，讓我看到幾個清晰的信號。

第一，編程能力已經(jīng)成為大模型競爭的核心戰(zhàn)場。

第二，Agent是下一個確定性的方向。

第三，全棧協(xié)同的體系優(yōu)勢正在顯現(xiàn)。

接下來的看點，我覺得還是在于生態(tài)。

阿里的優(yōu)勢在于有云、有芯片、有應(yīng)用場景，現(xiàn)在足夠活躍的第三方開發(fā)者生態(tài)也在發(fā)展。

千問開源策略的持續(xù)推進(jìn)，可能會成為撬動這個生態(tài)的支點。

不管是寫代碼、做數(shù)據(jù)分析，還是日常的信息整理，Qwen3.7-Max驅(qū)動的各類應(yīng)用已經(jīng)開始落地。

這可能就是LLM x Agent時代最讓人興奮的地方。

技術(shù)不再高高在上，它變成了每個人都可以調(diào)用的能力。

有一個開放且扎實的底座，叫千問。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

小男孩經(jīng)過多次思考后終于跳上平臺，網(wǎng)友：看到了小時候的自己

學(xué)申論的談妹 2026-05-29 03:00:38
185 跟貼 185
杭州公園引入“黑科技”：一天抓7000多只蚊子！“河邊坐一個半小時沒被咬”“我都想買一個放家里”

都市快報橙柿互動 2026-05-29 09:17:46
5477 跟貼 5477

NBA｜馬刺再勝雷霆追平系列賽，一場定勝負(fù)的西決要來了

澎湃新聞 2026-05-29 11:02:27
95 跟貼 95

再被曝光“圈路收費”的瀘沽湖景區(qū)：已開通過境車輛專用通道

南方都市報 2026-05-29 17:10:06
1041 跟貼 1041
官方通報低保老人被貸款20萬

看看新聞Knews 2026-05-29 15:25:38
1148 跟貼 1148

神舟二十二號載人飛船順利撤離空間站組合體

央視新聞客戶端 2026-05-29 14:55:45
1231 跟貼 1231

稻城亞丁景區(qū)問題，最新通報

云南網(wǎng)絡(luò)廣播電視臺 2026-05-29 09:45:59
1249 跟貼 1249
優(yōu)衣庫等品牌收集非必要個人信息被通報

封面新聞 2026-05-29 12:10:44
1842 跟貼 1842

網(wǎng)線被人拔斷、傳感器被阻斷，瓦斯監(jiān)測為何失效？

中國新聞周刊 2026-05-29 13:28:03
82 跟貼 82
“張雪機(jī)車”位列超級桿位賽第二名

央視新聞客戶端 2026-05-29 21:06:29
34 跟貼 34
歐盟官員：中國占全球制造業(yè)的份額已從6%增長到30%

澎湃新聞 2026-05-29 14:22:13
318 跟貼 318
貴州大學(xué)招聘管理崗引質(zhì)疑，要求配偶須是本校在職博士，校方：不是“蘿卜崗”

封面新聞 2026-05-29 16:08:24
44 跟貼 44
安世中國獨立運營體系已基本完成搭建

財聯(lián)社 2026-05-29 10:57:08
923 跟貼 923
諾基亞發(fā)布首款微聊手機(jī)，售價199元，可視頻通話，但連不了WiFi

上觀新聞 2026-05-29 14:54:16
262 跟貼 262
收評：創(chuàng)業(yè)板指跌2.11% 大消費板塊走強(qiáng)

證券時報 2026-05-29 15:22:05
692 跟貼 692
幼兒園集中用餐新規(guī)：飯菜燒熟到食用不得超2小時

央視新聞 2026-05-29 16:10:22
678 跟貼 678
從5G、5G-A到6G，新一代通信網(wǎng)加速到來

極目新聞 2026-05-29 07:05:19
418 跟貼 418
貓咪與蝴蝶玩耍的溫馨一幕，網(wǎng)友:這畫面太治愈了#睡個好覺

環(huán)球網(wǎng)資訊 2026-05-29 22:13:10
7 跟貼 7
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
0 跟貼 0
電車，是時候交養(yǎng)路費了

第一財經(jīng)資訊 2026-05-29 10:11:25
0 跟貼 0
日韓股市雙雙創(chuàng)收盤歷史新高

財聯(lián)社 2026-05-29 14:48:18
0 跟貼 0
失去信號的那一刻，我終于找回了自己

時光慢郵啊 2026-05-30 00:45:20
0 跟貼 0
“僵尸”殘疾車占滿上街沿居民呼吁：趕緊清

上觀新聞 2026-05-30 00:44:27
0 跟貼 0

蘭州相親現(xiàn)場：35+女士站成排，男士都繞著走，評論區(qū)全是大實話

AI異類

從硅谷到中關(guān)村，AI信息與測評

188文章數(shù) 8關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

家居

健康

藝術(shù)

軍事航空

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Qwen3.7-Max，我覺得應(yīng)該叫Ultra，很強(qiáng)

Claude Opus 4.8凌晨突發(fā)上線

釋永信被判24年 中國佛教協(xié)會：完全是咎由自取

釋永信被判24年 中國佛教協(xié)會：完全是咎由自取

即使是文班亞馬，也做不到這件事

奚夢瑤何猷君將于6月在法國舉行婚禮

近3個月跌超20% 黃金"猴市"下的眾生相

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

山東省家庭教育志愿服務(wù)總隊公益大講堂膠州巡講落幕

云棲 舒展如流云

嘗試干細(xì)胞療法如何避免踩坑？

吳湖帆小品冊頁

中方公布參加香會陣容 幾大議題受到關(guān)注

Qwen3.7-Max，我覺得應(yīng)該叫Ultra，很強(qiáng)

釋永信被判24年中國佛教協(xié)會：完全是咎由自取

釋永信被判24年中國佛教協(xié)會：完全是咎由自取

900V+3.2秒破百領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

云棲舒展如流云

嘗試干細(xì)胞療法如何避免踩坑？

中方公布參加香會陣容幾大議題受到關(guān)注