无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Qwen3.7-Max,我覺得應(yīng)該叫Ultra,很強(qiáng)

0
分享至


印象里,Qwen模型,一向是盲測表現(xiàn)更好的。

蒙上眼睛,不說別的,只看效果;真實環(huán)境里,拋開先入為主的偏見,是騾子是馬拉出來溜溜。

阿里最近發(fā)了新模型,Qwen3.7-Max。

在Arena全球大模型盲測總榜上,Qwen3.7-Max排到了全球第五,國產(chǎn)第一。


超過Kimi-K2.6,超過DeepSeek-v4-pro,超過GLM-5.1。和GPT、Claude、Gemini那幾位的差距也很小。

盲測這個東西,水分相對少。

模型叫什么名字、誰家出的,評測者看不到,純粹靠回答質(zhì)量打分。

能在這種榜單上沖到這個位置,說明真有點東西。

連夜把Qwen3.7-Max接進(jìn)了我的測試環(huán)境,給大家說說感受。


https://chat.qwen.ai/

01修了幾個真Bug,編程能力很頂

這幾年做AI應(yīng)用開發(fā),從GPT-3.5時代一路用過來,見過太多模型在宣傳文案里封神,一上真實項目就露怯。

所以我評測模型的方式很簡單:丟給它真實的爛攤子。

看看遇到Bug的時候,能不能搞得定。


我直接把最近遇到的問題拿了過來。

是一個開源項目里,擱置了兩周的一個Issue,關(guān)于Python異步任務(wù)內(nèi)存泄漏的問題。

Qwen3.7-Max跑第一輪的時候,我沒有太高預(yù)期。

但它給出的異步泄漏診斷出乎我意料地準(zhǔn)。

它沒有泛泛地說用weakref或者gc.collect,而是直接指出了問題可能出現(xiàn)在某個具體的事件循環(huán)上下文里,協(xié)程對象沒有被正確銷毀。

我按照它的建議加了兩個補(bǔ)丁,bug消失了,內(nèi)存曲線穩(wěn)住了。


第二個是遇到的React白屏問題,我自己排查了好久,找人幫忙也沒搞定。

那個Bug其實挺惡心,涉及到useEffect的依賴數(shù)組和子組件渲染時序的交織問題。

我見過Claude Opus 4.7給出的解決方案,偏重理論推導(dǎo)。

Qwen3.7-Max的解法更工程化,它甚至建議我在某個關(guān)鍵位置加一段防御性代碼,在特定條件下重繪。

這個手法很老練,像是寫了8年前端的老手會用的招數(shù)。


代碼質(zhì)量不錯,unsafe塊用得也很克制。

我翻了翻它的測評數(shù)據(jù),指標(biāo)都非常好,和實際測試的效果也是匹配的:

在編程智能體方面,Qwen3.7-Max在Terminal Bench 2.0-Terminus得分69.7,超過了DeepSeek-v4-pro-Max、Claude-Opus4.6等一眾模型;

在MCP-Atlas、MCP-Mark、Skillbench等現(xiàn)實能力測試?yán)?,超越GLM5.1、Kimi-K2.6等,創(chuàng)下國產(chǎn)新高;

推理能力上,Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等推理核心測評中,均超越了Claude-Opus4.6及所有國產(chǎn)模型;在多語言理解和翻譯的WMT24++、MAXIFE評測中領(lǐng)先。

這個數(shù)據(jù)結(jié)構(gòu)很有意思。

Claude在英文為主的代碼倉庫上依然強(qiáng),但Qwen在多語言尤其是中英文混合的代碼場景里已經(jīng)反超。

我的實際體驗也印證了這一點,在處理國內(nèi)某些混雜著中文注釋、拼音變量名、英文文檔的技術(shù)棧時,Qwen3.7-Max的適應(yīng)性的確更好。

02推理能力這件事,奧數(shù)題和人類考試都測過了

編程能力的提升往往伴隨推理能力的增強(qiáng)。

這兩個能力在底層是相通的,都需要模型具備長鏈路的邏輯推導(dǎo)和工具調(diào)用能力。

Qwen3.7-Max在數(shù)學(xué)推理HMMT 2026 Feb評測里拿了98.0分,超過了Kimi-K2.6。

在IMOAnswerBench這個奧數(shù)級別評測里是90.5分,超過了DeepSeek-V4-Pro-Max。

還有一個更硬核的測試叫人類最后的考試HLE,涵蓋數(shù)學(xué)、物理、化學(xué)等多學(xué)科的高難度問題,它也超過了Claude Opus 4.7。

我用自己的方式驗證了一下。我找了一道2025年全國高中數(shù)學(xué)聯(lián)賽的幾何題,還找了一道北大物理學(xué)院某次作業(yè)里的熱力學(xué)問題。這兩道題都挺偏,不太可能在訓(xùn)練數(shù)據(jù)里高頻出現(xiàn)。


Qwen3.7-Max做幾何題的時候,輔助線選得不錯,三步推下來思路清晰。

最終也能得出正確答案。

物理題它完成得更好,從狀態(tài)方程推導(dǎo)到熵變計算,整個過程邏輯閉環(huán)。


思考過程很嚴(yán)謹(jǐn)全面,雖然多了一些相關(guān)但不必要的內(nèi)容,但勝在算無遺漏。


相比之下,我之前測過的Kimi-K2.6在這道物理題上卡在了中間步驟,DeepSeek-v4-pro計算過程正確但最后答案單位寫錯了。

就推理的完整度和細(xì)節(jié)把握來說,Qwen3.7-Max是目前國產(chǎn)模型里我體驗過的最強(qiáng)者。

這背后其實有一個技術(shù)點值得說。

Qwen3.7-Max是面向智能體Agent全新設(shè)計的架構(gòu)。

傳統(tǒng)大模型擅長對話和單輪問答,但Agent需要多步推理、工具調(diào)用、結(jié)果驗證、錯誤修正。

這個鏈條越長,對模型的要求越高。

Qwen3.7-Max能處理超長程的智能體復(fù)雜任務(wù),說明它在記憶保持、狀態(tài)跟蹤、目標(biāo)維持這些底層能力上確實做了針對性優(yōu)化。

03從做網(wǎng)站到優(yōu)化內(nèi)核,都不在話下

嘗試了一下用Qwen3.7-Max畫網(wǎng)站、做表格,效果比之前更上了個臺階。

我讓模擬科研網(wǎng)站,做一個動態(tài)的神經(jīng)網(wǎng)絡(luò)監(jiān)測結(jié)構(gòu),數(shù)值要實時變化、可調(diào)整。

之前的Qwen以及其他模型,能把表面功夫做到位,但交互細(xì)節(jié)會欠缺。


今天做的版本,明顯比其他模型更好了。

動態(tài)呈現(xiàn),數(shù)據(jù)和邏輯的嚴(yán)謹(jǐn)性,都比較令人滿意。

做表格,當(dāng)然效果也不錯。


可視化追蹤看板,完成度也非常高。

能夠把跨行業(yè)的數(shù)據(jù),具體的計算公式和新數(shù)據(jù)處理辦法,在一個看板上都搞明白。

用代碼能力和數(shù)學(xué)能力為基礎(chǔ),在應(yīng)用中去解決這些場景化的問題,可以說都是更強(qiáng)的技術(shù)能力的下方。


阿里給Qwen3.7-Max布置了一個極端任務(wù)。

他們在平頭哥真武M890芯片上,一個模型訓(xùn)練時從未接觸過的全新硬件平臺,要求Qwen3.7-Max自主完成推理內(nèi)核的優(yōu)化。

起始條件非??量蹋簺]有任何性能分析數(shù)據(jù),沒有硬件文檔,沒有新架構(gòu)的示例內(nèi)核。只有一個空白工作空間,里面有一段任務(wù)描述、一個SGLang Triton參考實現(xiàn)和評測腳本。

Qwen3.7-Max從零開始,持續(xù)編程了35個小時。

它獨立進(jìn)行了432次內(nèi)核評估,1158次工具調(diào)用,完全自主地完成了編寫、編譯、性能分析與迭代改進(jìn)的全流程。


最終優(yōu)化后的推理內(nèi)核,比官方的SGLang Triton參考實現(xiàn)快了10倍。

測試軌跡里有個細(xì)節(jié)特別打動我。

在運行超過30小時后,模型仍然發(fā)現(xiàn)了有效的優(yōu)化點,甚至主動發(fā)起了一次架構(gòu)重設(shè)計。

說明它不是在執(zhí)行一個預(yù)設(shè)的固定腳本,而是在整個過程中持續(xù)保持目標(biāo)感,不斷尋找改進(jìn)空間。

這種長周期自主迭代能力,放在真實開發(fā)環(huán)境里,很有價值了。

比如現(xiàn)在接手的遺留系統(tǒng)可能需要重構(gòu),涉及幾百個文件,前后要改兩星期。傳統(tǒng)做法是你自己寫方案,拆解成多個小任務(wù),讓AI分別完成,你來串聯(lián)。

但如果模型能像Qwen3.7-Max這樣,給你干滿35個小時,自己調(diào)試、自己跑測試、自己發(fā)現(xiàn)問題再優(yōu)化,那你基本上只需要最后驗收就行了。

當(dāng)然這里也有局限性。35小時連續(xù)運行,API調(diào)用成本不低。

而且這個任務(wù)雖然復(fù)雜,但目標(biāo)相對明確,就是優(yōu)化推理內(nèi)核。

真實世界的需求往往更模糊,需要來回溝通確認(rèn)。

但從技術(shù)演進(jìn)的方向看,這條路是對的。模型正在從回答問題走向解決問題,從輔助工具走向自主執(zhí)行者。

04千問的加速度

過去三個月,千問旗艦?zāi)P偷巳齻€大版本。

3月20日Qwen3.5-Max-Preview亮相,4月20日Qwen3.6-Max-Preview登場,5月20日Qwen3.7-Max正式發(fā)布。


中小模型的表現(xiàn),也值得說說。

開源的Qwen3.6-27B和Qwen3.6-35B-A3B,在HuggingFace上登頂全球開源大模型榜首。

Unsloth的創(chuàng)始人5月13日還在社交媒體上,展示了他基于千問的魔改成果,說明這個模型的潛力和可塑性得到了社區(qū)認(rèn)可。

我自己的服務(wù)器上跑的是Qwen3.6-27B的量化版本,顯存占用大概14GB,在一塊消費級顯卡上就能跑。

代碼補(bǔ)全、輕量級Agent任務(wù)都夠用,響應(yīng)速度也快。

這種以小勝大的路線,對中小開發(fā)者和企業(yè)來說意義更大,不是每個人都有幾十張A100。

調(diào)用量數(shù)據(jù),也能說明問題。

Qwen3.6-Plus在OpenRouter平臺上的日調(diào)用量突破了1.4萬億Token,打破了平臺單日單模型調(diào)用量的全球紀(jì)錄。

只覺得,似乎從硅谷到歐洲,從中東到東南亞,都在買中國模型的Token。

注意到一個變化。

半年前參加技術(shù)會議,大家討論的都是Claude和GPT。


現(xiàn)在同一個圈子,千問、Kimi也成為了高頻詞。

在編程場景里,Claude依然是標(biāo)桿,但千問在很多細(xì)分任務(wù)上已經(jīng)不輸甚至反超。

尤其是在中文為主的技術(shù)文檔和代碼混合場景里,國產(chǎn)模型的天然優(yōu)勢開始顯現(xiàn)。

阿里幾個月前成立了ATH,打通芯片、云、模型、應(yīng)用幾個層面。

這也是我比較期待的,因為大模型的研發(fā)從來不單單是算法問題,它也需要芯片層的算子優(yōu)化,需要云基礎(chǔ)設(shè)施的調(diào)度配合,需要應(yīng)用層的反饋閉環(huán)。

把這幾個層次捏在一起,才可能跑出更快的迭代速度和更及時的調(diào)整驗證。

05

從最早的規(guī)則引擎到深度學(xué)習(xí),從CNN到Transformer,每次技術(shù)躍遷都會產(chǎn)生新的贏家和輸家。

大模型前兩年,國內(nèi)外的差距一度拉得很大。

去年這個時候,國產(chǎn)模型在SWE-bench上的分?jǐn)?shù)還在20分上下徘徊,Claude和GPT已經(jīng)是40分以上。

今年5月,Qwen3.7-Max在部分編程評測中已經(jīng)能和Claude Opus 4.7掰手腕,在多語言場景甚至領(lǐng)先。


https://qwen.ai/

這次千問3.7的發(fā)布,讓我看到幾個清晰的信號。

第一,編程能力已經(jīng)成為大模型競爭的核心戰(zhàn)場。

第二,Agent是下一個確定性的方向。

第三,全棧協(xié)同的體系優(yōu)勢正在顯現(xiàn)。

接下來的看點,我覺得還是在于生態(tài)。

阿里的優(yōu)勢在于有云、有芯片、有應(yīng)用場景,現(xiàn)在足夠活躍的第三方開發(fā)者生態(tài)也在發(fā)展。

千問開源策略的持續(xù)推進(jìn),可能會成為撬動這個生態(tài)的支點。


不管是寫代碼、做數(shù)據(jù)分析,還是日常的信息整理,Qwen3.7-Max驅(qū)動的各類應(yīng)用已經(jīng)開始落地。

這可能就是LLM x Agent時代最讓人興奮的地方。

技術(shù)不再高高在上,它變成了每個人都可以調(diào)用的能力。

有一個開放且扎實的底座,叫千問。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
蘭州相親現(xiàn)場:35+女士站成排,男士都繞著走,評論區(qū)全是大實話

蘭州相親現(xiàn)場:35+女士站成排,男士都繞著走,評論區(qū)全是大實話

譚談社會
2026-05-24 23:20:37
卡爾·榮格揭示:女人真正想念你時,不會頻繁打擾,只會發(fā)出這兩個沉默信號

卡爾·榮格揭示:女人真正想念你時,不會頻繁打擾,只會發(fā)出這兩個沉默信號

心理觀察局
2026-05-29 06:57:05
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
當(dāng)你接觸的人多了,你會明白如果一個人還在穿5年前的衣服,只說明這幾個問題

當(dāng)你接觸的人多了,你會明白如果一個人還在穿5年前的衣服,只說明這幾個問題

LULU生活家
2026-05-29 19:07:23
范迪克很沮喪!利物浦再遭重?fù)?科納特免費離隊

范迪克很沮喪!利物浦再遭重?fù)?科納特免費離隊

溫柔且自由
2026-05-30 00:50:01
中方已讀不回,巴拿馬外長大鬧聯(lián)合國會場,向中方索要“尊重”

中方已讀不回,巴拿馬外長大鬧聯(lián)合國會場,向中方索要“尊重”

健身狂人
2026-05-28 19:09:39
人類滅絕已成定局?科學(xué)家算出人類滅絕日期,我們還能幸存多久?

人類滅絕已成定局?科學(xué)家算出人類滅絕日期,我們還能幸存多久?

蜉蝣說
2026-05-28 19:49:46
沒想到,為竇靖童埋下心病的竇唯,如今竟給了所有人一個“驚喜”

沒想到,為竇靖童埋下心病的竇唯,如今竟給了所有人一個“驚喜”

娛瓜醬
2026-05-29 16:07:46
看完網(wǎng)友的三觀炸裂經(jīng)歷,下巴都驚掉地上了!

看完網(wǎng)友的三觀炸裂經(jīng)歷,下巴都驚掉地上了!

夜深愛雜談
2026-05-29 07:53:20
與張嘉益吻戲最多的女演員37歲未婚,靠《主角》走紅

與張嘉益吻戲最多的女演員37歲未婚,靠《主角》走紅

暖心萌阿菇?jīng)?/span>
2026-05-30 00:28:58
人生就是一場烏龍:9個讓你笑完又沉默的真實瞬間

人生就是一場烏龍:9個讓你笑完又沉默的真實瞬間

李晨云
2026-05-10 13:13:00
科斯秋克豪取紅土15連勝,法網(wǎng)將戰(zhàn)斯瓦泰克

科斯秋克豪取紅土15連勝,法網(wǎng)將戰(zhàn)斯瓦泰克

賽場速報局
2026-05-30 00:31:03
拉莫斯收購塞維利亞告吹:報價砍半后,賣方直接離場

拉莫斯收購塞維利亞告吹:報價砍半后,賣方直接離場

元氣滿分吖
2026-05-29 00:35:12
孟暉任湖北省教育廳廳長 周靜不再擔(dān)任

孟暉任湖北省教育廳廳長 周靜不再擔(dān)任

中國經(jīng)濟(jì)網(wǎng)
2026-05-29 09:44:03
5月29日俄烏最新:戰(zhàn)場上的轉(zhuǎn)折還需要多久?

5月29日俄烏最新:戰(zhàn)場上的轉(zhuǎn)折還需要多久?

西樓飲月
2026-05-29 17:15:02
不放人不行,被警告后菲才意識到,中國境內(nèi)有至少十幾萬菲律賓人

不放人不行,被警告后菲才意識到,中國境內(nèi)有至少十幾萬菲律賓人

阿龍聊軍事
2026-05-29 12:14:58
唯一幸存者!被雷劈后身上遍布雷擊紋,站友:手機(jī)救了他

唯一幸存者!被雷劈后身上遍布雷擊紋,站友:手機(jī)救了他

新浪財經(jīng)
2026-05-05 10:43:16
異性之間,我59歲那年才察覺到一個規(guī)律,男人長期對一個女人有感覺,無條件寵你,無非兩種可能

異性之間,我59歲那年才察覺到一個規(guī)律,男人長期對一個女人有感覺,無條件寵你,無非兩種可能

心理觀察局
2026-05-11 09:39:07
日本“女帝”重信房子:曾令全球恐懼,暴捶以色列20年,她有多狠

日本“女帝”重信房子:曾令全球恐懼,暴捶以色列20年,她有多狠

春風(fēng)秋雨
2026-05-26 19:55:06
女學(xué)霸發(fā)明“咯噔字體”,老師低分警告:別用個性挑戰(zhàn)考試底線

女學(xué)霸發(fā)明“咯噔字體”,老師低分警告:別用個性挑戰(zhàn)考試底線

蝴蝶花雨話教育
2026-05-07 00:05:04
2026-05-30 01:08:49
AI異類 incentive-icons
AI異類
從硅谷到中關(guān)村,AI信息與測評
188文章數(shù) 8關(guān)注度
往期回顧 全部

科技要聞

Claude Opus 4.8凌晨突發(fā)上線

頭條要聞

釋永信被判24年 中國佛教協(xié)會:完全是咎由自取

頭條要聞

釋永信被判24年 中國佛教協(xié)會:完全是咎由自取

體育要聞

即使是文班亞馬,也做不到這件事

娛樂要聞

奚夢瑤何猷君將于6月在法國舉行婚禮

財經(jīng)要聞

近3個月跌超20% 黃金"猴市"下的眾生相

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

教育
家居
健康
藝術(shù)
軍事航空

教育要聞

山東省家庭教育志愿服務(wù)總隊公益大講堂膠州巡講落幕

家居要聞

云棲 舒展如流云

嘗試干細(xì)胞療法如何避免踩坑?

藝術(shù)要聞

吳湖帆小品冊頁

軍事要聞

中方公布參加香會陣容 幾大議題受到關(guān)注

無障礙瀏覽 進(jìn)入關(guān)懷版