網易首頁 > 網易號 > 正文申請入駐

三個月連更三版后，Qwen3.7-Max好像更會干活了

2026-05-25 11:34:01　來源: 知危

浙江舉報

分享至

大模型正取代 APP 成為互聯網的新入口。

但不同的是，過去，APP 可以依靠快速迭代，一周一個版本，去承接用戶的需求和反饋，模型升級卻沒法這樣。

放眼國內外的模型，一次升級，往往需要積攢很長時間，因為其中牽涉到訓練數據，訓練策略和安全邊界等多種底層架構的優化。換句話說，模型越大，迭代起來就越重。

但現在，千問正試圖打破這個一成不變的節奏。

從 3 月的 Qwen3.5-Max-Preview，到 4 月的 Qwen3.6-Max-Preview，再到 5 月新鮮出爐的 Qwen3.7-Max，千問旗艦模型在三個月內連續更新了三個版本，基本是在用 App 時代的速度做旗艦模型。

當然，AI 發展到 Agent 的階段，我們不再像 App 時代一樣關心某個具體的功能，而是關注模型能不能做好廣泛而又繁雜的各種事。

所以速度本身不是答案，真正的問題是，這種高頻迭代，是否真的轉化成了 Agent 能力？

整體來看，在 Artificial Analysis 新鮮出爐的智力指標中，Qwen3.7-Max 沖進前五，拿下了國產榜首，即使跟撞檔期的 Gemini-3.5-Flash 相比，也領先了一個身位。

而在更具體的官方跑分表里，它展現出了更多面的優勢，不是單點刷榜，而是結構更完整的能力覆蓋。

和 Claude Opus-4.6 Max 等 5 個前沿模型對比，共 41 項測試，Qwen3.7-Max 拿下了半數榜首位置；在 Coding Agent 里 8 項拿到 5 個第一，在 STEM 推理里 7 項拿到 5 個第一，在多語言里 8 項拿到 5 個第一。

更關鍵的是，它在 MCP-Mark、Skillbench、MRCR-v2 128k、Kernel Bench L3 這些更接近真實任務執行的指標上提升明顯，說明它在調用工具，處理長任務，完成復雜交付時能夠更好地調度 Agent 互相配合。

在垂直一些的編程任務上，它在 SWE-Pro、SWE-Multilingual、SciCode、QwenSVG 等評測中也進入了頭部梯隊，放到真實工程任務中，這就是代碼理解和修復能力的體現。

值得一提的是，這些成績來自多種智能體框架，也就意味著，無論是各種 Claw，還是什么 Code，評測中的能力都能夠進行遷移和泛化。

單看紙面數據，Qwen3.7-Max 無愧大廠之名。但跑分只是評測的入口，遠不到終點。

一個模型最終能不能成為任務入口，取決于它在日常問題里是否穩定，在復雜任務里是否能持續推進，在生產場景里是否能交付結果。

為此，我們提前內測了一把。

先拿最基礎的邏輯推理題試試它，像是“洗車店離我 50 米，是走路還是開車去洗車？”，或者小數比大小等經典的誤導題。

好消息是他基本都能拿捏，壞消息是這些問題都已經進題庫了，看思維鏈就能發現，這些已經被模型識別為了經典的邏輯陷阱，它會采用更取巧的推理捷徑。

但其實相比結果，推理過程要更耐人尋味一點，因為單純的背題其實不具備泛化能力，如果沒有把推理能力訓練到位，哪怕邏輯一樣，只要換個情景，該露餡還會露餡。

這里千問的表現就非常穩健，無論是錯誤的對象引導，關系推理，還是字符級的操作，或者結合世界知識的視角變化，它都能妥善處理，在思考過程中將條件和用到的方法理清楚，盤明白，并不是單純的背題庫。

這些普通的任務雖然容易，但也并非雞肋，管窺知豹，只有指令遵循，常識判斷的能力夯實了，上面才能接各種 Harness 的約束框架，去跑更復雜的長線任務。

接下來，我們先接入阿里的 AI 編程工具 Qoder 試試，因為同一個生態下，自家的模型往往有相應的適配和優化，運行起來一般效率會更高。

先來個簡單的物理模擬試試水，單個物理效果模擬太常見了，這里讓它做個合集，風洞布料，軟體液體一起上，看看它組織的調度情況是否合理。

在給出想要的效果，簡單描述后，千問會生成一份計劃書，里面對開發的步驟和用到的標準做了詳細的規劃，對于不同的物理效果，參照現有的技術棧進行不同的方案設計。

提示詞：
請做一個單文件版本的物理模擬網頁，模擬效果：風洞，布料，軟體，液體，以合適的形態；
要求：只輸出一個 index.html，CSS 和 JS 全部寫在 index.html 內。

就效果來看，它將項目設計成了一個物理實驗室，不同的模擬效果對應不同的實驗。

無論是風洞模擬，還是布料模擬，它都考慮到了性能問題，采用了更節省資源的方案，比如用 Verlet 積分彈簧網格去模擬布料，這樣能夠提高運行時的幀數，實際拖拽和切割起來，反饋也要更絲滑一些。

我們繼續上難度，直接從 GitHub 拉一個現成的開源項目給它，讓它輔助我們理解倉庫，方便后續開發。在拉到本地后，千問就彈出了提示，問要不要調用插件，構建整個項目的 wiki 系統。

在確認后，它就開始忙活了，整個耗時幾十分鐘，遠超我的預期，但結果也同樣超預期，尤其是它對整個倉庫的梳理，細致入微。

其中不但有框架性的架構，而且針對核心模塊，配置管理，部署安裝都有對應的操作說明，特別是每個章節中涉及源代碼的地方都有引用，不明白的地方點擊后就能跳轉到對應文件的函數片段，算是做到了有據可循。

接著我發現，項目本身只有 Windows 的安裝包，Mac 和 Linux 都需要自己源碼部署，也就是命令行啟動。于是我直接讓千問根據 wiki，分析出可行的打包方案，給我構建一個 Mac 上的啟動入口。很快，確定好方案后，它就交付了入口，點擊后就能直接啟動，足以見得，wiki 的合理構建對于后續的開發能節省大量算力。

提示詞：
我不想在終端中喚起項目，再打開 webui，給我換個簡易的方案，現在的環境是 Mac，Apple 的 CPU。

除此之外，咱們之前說過，Qwen3.7-Max 對市面上的 Agent 框架都有良好的泛化能力，所謂好模型不挑框架，我們也試著把它接入了第三方的 Agent 框架中，發現任務表現依然很出色。

案例我們選擇了美國戰爭部最近解密的 UAP（不明異常現象，UFO 的官方稱呼）文件。

整套文件 1.22GB 大小，共有 118 份文檔，28 段視頻以及 14 張圖片，而且其中部分 PDF 文檔還是掃描件，文字排版和圖片混合，很不清晰，但為了充分壓榨 Qwen3.7-Max 的性能，我們還是強制要求了逐份整理分析。

千問意識到這是一項非常復雜的任務，它先調用提前安裝好的技能組，先行設計了一套可落地的研究方案，內容涵蓋從解壓到最終驗證的 7 個階段，在手動刪改部分細節后，它就開始執行了。

首先我們讓它整理了這上百份文件，根據內容進行提取，解析，建立元數據索引。為了方便查閱，直接接入了 IM 軟件，讓它把成品交付到工作空間。

提示詞
美國戰爭部披露了 UAP 相關的解密資料，非常多。
資料壓縮包在本地，解壓，逐份分析，進行深度解析；
在飛書云盤中新建相應文件夾，飛書有對應的文檔，表格，多維表格，中間的交付物，以合適的格式放到飛書云盤中，追求可視化；
分類并按合適的專業框架進行梳理，生成匯總目錄，生成專業的學術風格的報告，嚴謹，再生成銳評版總結，可以發散一點。
生成 slides，對調查結果進行展示，要求符合主題，去除 AI 味，選擇合適的設計 skill。
生成落地頁，要求符合主題，展示此次研究的概覽和成果；內嵌地球儀，用于展示事件發生的地點，可互動。生成完檢查一下，看功能是否正常。

它拉出來的數據表格相當規整，而且針對我特別提到的坐標問題，額外整理了一份地理事件庫，其中區域，經緯坐標，傳感器乃至重要性都標注得很清晰。

接下來，針對整理出的數據，讓它出具兩份報告，一份正經的，一份銳評一些的。在正經版的報告中，它調用 Python 腳本提前生成了圖表，避免了純文本表格的視覺單調性，而且相比文生圖也更加精準，不容易出數據紕漏。

值得注意的是，兩份報告的長度都非常給力，都在萬字以上，而且不是空洞的堆砌，每個章節都能對原文件進行回溯。怕我看不明白，最后還按學術風格整理了一份術語對照表，就格式和流程來看，已經非常嚴謹了。

任務繼續，針對后面要交付的匯總文檔和 PPT，落地頁等展示內容，它判斷到這些都共用剛才整理的數據源，且互不干擾，所以就新建了 4 個子 Agent 并行執行，效率拉滿。

當然，快歸快，能不能用還得看交付物的質量。就 PPT 的審美來看，跟主題結合的色調和風格都基本到位，而且還復用了報告中生成的圖表，這在長線任務中是非常重要的一環。

而最驚喜的是落地頁的展示效果，在充分調用不同的 Skill 組合后，整個頁面的設計更有人味兒，排版組織合理，表格能篩選，時間軸有對應，互動的二級菜單也有準確的內容呼出。

在確認后，它就開始忙活了，整個耗時幾十分鐘，遠超我的預期，但結果也同樣超預期，尤其是它對整個倉庫的梳理，細致入微。

提示詞：
我不想在終端中喚起項目，再打開 webui，給我換個簡易的方案，現在的環境是 Mac，Apple 的 CPU。

案例我們選擇了美國戰爭部最近解密的 UAP（不明異常現象，UFO 的官方稱呼）文件。

首先我們讓它整理了這上百份文件，根據內容進行提取，解析，建立元數據索引。為了方便查閱，直接接入了 IM 軟件，讓它把成品交付到工作空間。

提示詞
美國戰爭部披露了 UAP 相關的解密資料，非常多。
資料壓縮包在本地，解壓，逐份分析，進行深度解析；
在飛書云盤中新建相應文件夾，飛書有對應的文檔，表格，多維表格，中間的交付物，以合適的格式放到飛書云盤中，追求可視化；
分類并按合適的專業框架進行梳理，生成匯總目錄，生成專業的學術風格的報告，嚴謹，再生成銳評版總結，可以發散一點。
生成 slides，對調查結果進行展示，要求符合主題，去除 AI 味，選擇合適的設計 skill。
生成落地頁，要求符合主題，展示此次研究的概覽和成果；內嵌地球儀，用于展示事件發生的地點，可互動。生成完檢查一下，看功能是否正常。

不得不提的是，這一套流程走完，消耗了將近一個小時，算是很長的任務了，但千問并沒有出現卡殼或者上下文爆炸的情況，交付物的效果都有十分不錯的亮點。從這也能看出，作為 Agent 框架的底座，它還是非常合格的。

總的來說，Qwen3.7-Max 最值得關注的，不只是一次模型分數的提升，讓它來到了國產榜首，而是它開始呈現出更強的任務執行感，踏實做事的實在感。

從千問 3.5 開始，阿里就朝著智能體的方向一路狂奔。幾個月前，新成立的 ATH，也是在集合芯片，模型，以及應用等多面力量，去深耕模型能力的多模態，繼而打通智能體的全鏈路。

特別是在月更的夸張效率下，模型優化的迭代更快了，這意味著你今天用的時候吐槽的 BUG，下個月發新版可能就被填平了。

最為關鍵的是，受限于模型的能力，我們總是需要搭建各種復雜的限制性工程，去讓 AI 做事，讓它指哪打哪。

但其中的絕大多數工程可能都只是過渡手段，因為隨著迭代閉環的重復，模型會不斷內化這些工程，將其吸收為自身能力的一部分。

就像未來的圖像編輯可能不再需要精通 PS 一樣，那個不再需要復雜框架，LLM 一力降百會的時代，也會在模型迭代中越來越近。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.