![]()
大模型正取代 APP 成為互聯網的新入口。
但不同的是,過去,APP 可以依靠快速迭代,一周一個版本,去承接用戶的需求和反饋,模型升級卻沒法這樣。
放眼國內外的模型,一次升級,往往需要積攢很長時間,因為其中牽涉到訓練數據,訓練策略和安全邊界等多種底層架構的優化。換句話說,模型越大,迭代起來就越重。
![]()
但現在,千問正試圖打破這個一成不變的節奏。
從 3 月的 Qwen3.5-Max-Preview,到 4 月的 Qwen3.6-Max-Preview,再到 5 月新鮮出爐的 Qwen3.7-Max,千問旗艦模型在三個月內連續更新了三個版本,基本是在用 App 時代的速度做旗艦模型。
當然,AI 發展到 Agent 的階段,我們不再像 App 時代一樣關心某個具體的功能,而是關注模型能不能做好廣泛而又繁雜的各種事 。
所以速度本身不是答案,真正的問題是,這種高頻迭代,是否真的轉化成了 Agent 能力?
整體來看,在 Artificial Analysis 新鮮出爐的智力指標中,Qwen3.7-Max 沖進前五,拿下了國產榜首,即使跟撞檔期的 Gemini-3.5-Flash 相比,也領先了一個身位。
![]()
而在更具體的官方跑分表里,它展現出了更多面的優勢,不是單點刷榜,而是結構更完整的能力覆蓋。
和 Claude Opus-4.6 Max 等 5 個前沿模型對比,共 41 項測試,Qwen3.7-Max 拿下了半數榜首位置;在 Coding Agent 里 8 項拿到 5 個第一,在 STEM 推理里 7 項拿到 5 個第一,在多語言里 8 項拿到 5 個第一。
![]()
更關鍵的是,它在 MCP-Mark、Skillbench、MRCR-v2 128k、Kernel Bench L3 這些更接近真實任務執行的指標上提升明顯,說明它在調用工具,處理長任務,完成復雜交付時能夠更好地調度 Agent 互相配合。
在垂直一些的編程任務上,它在 SWE-Pro、SWE-Multilingual、SciCode、QwenSVG 等評測中也進入了頭部梯隊,放到真實工程任務中,這就是代碼理解和修復能力的體現。
值得一提的是,這些成績來自多種智能體框架,也就意味著,無論是各種 Claw,還是什么 Code,評測中的能力都能夠進行遷移和泛化。
![]()
單看紙面數據,Qwen3.7-Max 無愧大廠之名。但跑分只是評測的入口,遠不到終點。
一個模型最終能不能成為任務入口,取決于它在日常問題里是否穩定,在復雜任務里是否能持續推進,在生產場景里是否能交付結果。
為此,我們提前內測了一把。
先拿最基礎的邏輯推理題試試它,像是“洗車店離我 50 米,是走路還是開車去洗車?”,或者小數比大小等經典的誤導題。
![]()
好消息是他基本都能拿捏,壞消息是這些問題都已經進題庫了,看思維鏈就能發現,這些已經被模型識別為了經典的邏輯陷阱,它會采用更取巧的推理捷徑。
但其實相比結果,推理過程要更耐人尋味一點,因為單純的背題其實不具備泛化能力,如果沒有把推理能力訓練到位,哪怕邏輯一樣,只要換個情景,該露餡還會露餡。
這里千問的表現就非常穩健,無論是錯誤的對象引導,關系推理,還是字符級的操作,或者結合世界知識的視角變化,它都能妥善處理,在思考過程中將條件和用到的方法理清楚,盤明白,并不是單純的背題庫。
這些普通的任務雖然容易,但也并非雞肋,管窺知豹,只有指令遵循,常識判斷的能力夯實了,上面才能接各種 Harness 的約束框架,去跑更復雜的長線任務。
![]()
接下來,我們先接入阿里的 AI 編程工具 Qoder 試試,因為同一個生態下,自家的模型往往有相應的適配和優化,運行起來一般效率會更高。
先來個簡單的物理模擬試試水,單個物理效果模擬太常見了,這里讓它做個合集,風洞布料,軟體液體一起上,看看它組織的調度情況是否合理。
在給出想要的效果,簡單描述后,千問會生成一份計劃書,里面對開發的步驟和用到的標準做了詳細的規劃,對于不同的物理效果,參照現有的技術棧進行不同的方案設計。
提示詞:
請做一個單文件版本的物理模擬網頁,模擬效果:風洞,布料,軟體,液體,以合適的形態;
要求:只輸出一個 index.html,CSS 和 JS 全部寫在 index.html 內。
![]()
就效果來看,它將項目設計成了一個物理實驗室,不同的模擬效果對應不同的實驗。
無論是風洞模擬,還是布料模擬,它都考慮到了性能問題,采用了更節省資源的方案,比如用 Verlet 積分彈簧網格去模擬布料,這樣能夠提高運行時的幀數,實際拖拽和切割起來,反饋也要更絲滑一些。
我們繼續上難度,直接從 GitHub 拉一個現成的開源項目給它,讓它輔助我們理解倉庫,方便后續開發。在拉到本地后,千問就彈出了提示,問要不要調用插件,構建整個項目的 wiki 系統。
![]()
在確認后,它就開始忙活了,整個耗時幾十分鐘,遠超我的預期,但結果也同樣超預期,尤其是它對整個倉庫的梳理,細致入微。
![]()
其中不但有框架性的架構,而且針對核心模塊,配置管理,部署安裝都有對應的操作說明,特別是每個章節中涉及源代碼的地方都有引用,不明白的地方點擊后就能跳轉到對應文件的函數片段,算是做到了有據可循。
接著我發現,項目本身只有 Windows 的安裝包,Mac 和 Linux 都需要自己源碼部署,也就是命令行啟動。于是我直接讓千問根據 wiki,分析出可行的打包方案,給我構建一個 Mac 上的啟動入口。很快,確定好方案后,它就交付了入口,點擊后就能直接啟動,足以見得,wiki 的合理構建對于后續的開發能節省大量算力。
提示詞:
我不想在終端中喚起項目,再打開 webui,給我換個簡易的方案,現在的環境是 Mac,Apple 的 CPU。
![]()
除此之外,咱們之前說過,Qwen3.7-Max 對市面上的 Agent 框架都有良好的泛化能力,所謂好模型不挑框架,我們也試著把它接入了第三方的 Agent 框架中,發現任務表現依然很出色。
![]()
案例我們選擇了美國戰爭部最近解密的 UAP( 不明異常現象,UFO 的官方稱呼 )文件。
整套文件 1.22GB 大小,共有 118 份文檔,28 段視頻以及 14 張圖片,而且其中部分 PDF 文檔還是掃描件,文字排版和圖片混合,很不清晰,但為了充分壓榨 Qwen3.7-Max 的性能,我們還是強制要求了逐份整理分析。
![]()
千問意識到這是一項非常復雜的任務,它先調用提前安裝好的技能組,先行設計了一套可落地的研究方案,內容涵蓋從解壓到最終驗證的 7 個階段,在手動刪改部分細節后,它就開始執行了。
首先我們讓它整理了這上百份文件,根據內容進行提取,解析,建立元數據索引。為了方便查閱,直接接入了 IM 軟件,讓它把成品交付到工作空間。
提示詞
美國戰爭部披露了 UAP 相關的解密資料,非常多。
資料壓縮包在本地,解壓,逐份分析,進行深度解析;
在飛書云盤中新建相應文件夾,飛書有對應的文檔,表格,多維表格,中間的交付物,以合適的格式放到飛書云盤中,追求可視化;
分類并按合適的專業框架進行梳理,生成匯總目錄,生成專業的學術風格的報告,嚴謹,再生成銳評版總結,可以發散一點。
生成 slides,對調查結果進行展示,要求符合主題,去除 AI 味,選擇合適的設計 skill。
生成落地頁,要求符合主題,展示此次研究的概覽和成果;內嵌地球儀,用于展示事件發生的地點,可互動。生成完檢查一下,看功能是否正常。
![]()
它拉出來的數據表格相當規整,而且針對我特別提到的坐標問題,額外整理了一份地理事件庫,其中區域,經緯坐標,傳感器乃至重要性都標注得很清晰。
![]()
接下來,針對整理出的數據,讓它出具兩份報告,一份正經的,一份銳評一些的。在正經版的報告中,它調用 Python 腳本提前生成了圖表,避免了純文本表格的視覺單調性,而且相比文生圖也更加精準,不容易出數據紕漏。
值得注意的是,兩份報告的長度都非常給力,都在萬字以上,而且不是空洞的堆砌,每個章節都能對原文件進行回溯。怕我看不明白,最后還按學術風格整理了一份術語對照表,就格式和流程來看,已經非常嚴謹了。
![]()
任務繼續,針對后面要交付的匯總文檔和 PPT,落地頁等展示內容,它判斷到這些都共用剛才整理的數據源,且互不干擾,所以就新建了 4 個子 Agent 并行執行,效率拉滿。
當然,快歸快,能不能用還得看交付物的質量。就 PPT 的審美來看,跟主題結合的色調和風格都基本到位,而且還復用了報告中生成的圖表,這在長線任務中是非常重要的一環。
![]()
而最驚喜的是落地頁的展示效果,在充分調用不同的 Skill 組合后,整個頁面的設計更有人味兒,排版組織合理,表格能篩選,時間軸有對應,互動的二級菜單也有準確的內容呼出。
我們繼續上難度,直接從 GitHub 拉一個現成的開源項目給它,讓它輔助我們理解倉庫,方便后續開發。在拉到本地后,千問就彈出了提示,問要不要調用插件,構建整個項目的 wiki 系統。
![]()
在確認后,它就開始忙活了,整個耗時幾十分鐘,遠超我的預期,但結果也同樣超預期,尤其是它對整個倉庫的梳理,細致入微。
![]()
其中不但有框架性的架構,而且針對核心模塊,配置管理,部署安裝都有對應的操作說明,特別是每個章節中涉及源代碼的地方都有引用,不明白的地方點擊后就能跳轉到對應文件的函數片段,算是做到了有據可循。
接著我發現,項目本身只有 Windows 的安裝包,Mac 和 Linux 都需要自己源碼部署,也就是命令行啟動。于是我直接讓千問根據 wiki,分析出可行的打包方案,給我構建一個 Mac 上的啟動入口。很快,確定好方案后,它就交付了入口,點擊后就能直接啟動,足以見得,wiki 的合理構建對于后續的開發能節省大量算力。
提示詞:
我不想在終端中喚起項目,再打開 webui,給我換個簡易的方案,現在的環境是 Mac,Apple 的 CPU。
![]()
除此之外,咱們之前說過,Qwen3.7-Max 對市面上的 Agent 框架都有良好的泛化能力,所謂好模型不挑框架,我們也試著把它接入了第三方的 Agent 框架中,發現任務表現依然很出色。
![]()
案例我們選擇了美國戰爭部最近解密的 UAP( 不明異常現象,UFO 的官方稱呼 )文件。
整套文件 1.22GB 大小,共有 118 份文檔,28 段視頻以及 14 張圖片,而且其中部分 PDF 文檔還是掃描件,文字排版和圖片混合,很不清晰,但為了充分壓榨 Qwen3.7-Max 的性能,我們還是強制要求了逐份整理分析。
![]()
千問意識到這是一項非常復雜的任務,它先調用提前安裝好的技能組,先行設計了一套可落地的研究方案,內容涵蓋從解壓到最終驗證的 7 個階段,在手動刪改部分細節后,它就開始執行了。
首先我們讓它整理了這上百份文件,根據內容進行提取,解析,建立元數據索引。為了方便查閱,直接接入了 IM 軟件,讓它把成品交付到工作空間。
提示詞
美國戰爭部披露了 UAP 相關的解密資料,非常多。
資料壓縮包在本地,解壓,逐份分析,進行深度解析;
在飛書云盤中新建相應文件夾,飛書有對應的文檔,表格,多維表格,中間的交付物,以合適的格式放到飛書云盤中,追求可視化;
分類并按合適的專業框架進行梳理,生成匯總目錄,生成專業的學術風格的報告,嚴謹,再生成銳評版總結,可以發散一點。
生成 slides,對調查結果進行展示,要求符合主題,去除 AI 味,選擇合適的設計 skill。
生成落地頁,要求符合主題,展示此次研究的概覽和成果;內嵌地球儀,用于展示事件發生的地點,可互動。生成完檢查一下,看功能是否正常。
![]()
它拉出來的數據表格相當規整,而且針對我特別提到的坐標問題,額外整理了一份地理事件庫,其中區域,經緯坐標,傳感器乃至重要性都標注得很清晰。
![]()
接下來,針對整理出的數據,讓它出具兩份報告,一份正經的,一份銳評一些的。在正經版的報告中,它調用 Python 腳本提前生成了圖表,避免了純文本表格的視覺單調性,而且相比文生圖也更加精準,不容易出數據紕漏。
值得注意的是,兩份報告的長度都非常給力,都在萬字以上,而且不是空洞的堆砌,每個章節都能對原文件進行回溯。怕我看不明白,最后還按學術風格整理了一份術語對照表,就格式和流程來看,已經非常嚴謹了。
![]()
任務繼續,針對后面要交付的匯總文檔和 PPT,落地頁等展示內容,它判斷到這些都共用剛才整理的數據源,且互不干擾,所以就新建了 4 個子 Agent 并行執行,效率拉滿。
當然,快歸快,能不能用還得看交付物的質量。就 PPT 的審美來看,跟主題結合的色調和風格都基本到位,而且還復用了報告中生成的圖表,這在長線任務中是非常重要的一環。
![]()
而最驚喜的是落地頁的展示效果,在充分調用不同的 Skill 組合后,整個頁面的設計更有人味兒,排版組織合理,表格能篩選,時間軸有對應,互動的二級菜單也有準確的內容呼出。
不得不提的是,這一套流程走完,消耗了將近一個小時,算是很長的任務了,但千問并沒有出現卡殼或者上下文爆炸的情況,交付物的效果都有十分不錯的亮點。從這也能看出,作為 Agent 框架的底座,它還是非常合格的。
![]()
總的來說,Qwen3.7-Max 最值得關注的,不只是一次模型分數的提升,讓它來到了國產榜首,而是它開始呈現出更強的任務執行感,踏實做事的實在感。
![]()
從千問 3.5 開始,阿里就朝著智能體的方向一路狂奔。幾個月前,新成立的 ATH,也是在集合芯片,模型,以及應用等多面力量,去深耕模型能力的多模態,繼而打通智能體的全鏈路。
特別是在月更的夸張效率下,模型優化的迭代更快了,這意味著你今天用的時候吐槽的 BUG,下個月發新版可能就被填平了。
最為關鍵的是,受限于模型的能力,我們總是需要搭建各種復雜的限制性工程,去讓 AI 做事,讓它指哪打哪。
但其中的絕大多數工程可能都只是過渡手段,因為隨著迭代閉環的重復,模型會不斷內化這些工程,將其吸收為自身能力的一部分。
就像未來的圖像編輯可能不再需要精通 PS 一樣,那個不再需要復雜框架,LLM 一力降百會的時代,也會在模型迭代中越來越近。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.