无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

三個月連更三版后,Qwen3.7-Max好像更會干活了

0
分享至



大模型正取代 APP 成為互聯網的新入口。

但不同的是,過去,APP 可以依靠快速迭代,一周一個版本,去承接用戶的需求和反饋,模型升級卻沒法這樣。

放眼國內外的模型,一次升級,往往需要積攢很長時間,因為其中牽涉到訓練數據,訓練策略和安全邊界等多種底層架構的優化。換句話說,模型越大,迭代起來就越重。



但現在,千問正試圖打破這個一成不變的節奏。

從 3 月的 Qwen3.5-Max-Preview,到 4 月的 Qwen3.6-Max-Preview,再到 5 月新鮮出爐的 Qwen3.7-Max,千問旗艦模型在三個月內連續更新了三個版本,基本是在用 App 時代的速度做旗艦模型。

當然,AI 發展到 Agent 的階段,我們不再像 App 時代一樣關心某個具體的功能,而是關注模型能不能做好廣泛而又繁雜的各種事 。

所以速度本身不是答案,真正的問題是,這種高頻迭代,是否真的轉化成了 Agent 能力?

整體來看,在 Artificial Analysis 新鮮出爐的智力指標中,Qwen3.7-Max 沖進前五,拿下了國產榜首,即使跟撞檔期的 Gemini-3.5-Flash 相比,也領先了一個身位。



而在更具體的官方跑分表里,它展現出了更多面的優勢,不是單點刷榜,而是結構更完整的能力覆蓋。

和 Claude Opus-4.6 Max 等 5 個前沿模型對比,共 41 項測試,Qwen3.7-Max 拿下了半數榜首位置;在 Coding Agent 里 8 項拿到 5 個第一,在 STEM 推理里 7 項拿到 5 個第一,在多語言里 8 項拿到 5 個第一。



更關鍵的是,它在 MCP-Mark、Skillbench、MRCR-v2 128k、Kernel Bench L3 這些更接近真實任務執行的指標上提升明顯,說明它在調用工具,處理長任務,完成復雜交付時能夠更好地調度 Agent 互相配合。

在垂直一些的編程任務上,它在 SWE-Pro、SWE-Multilingual、SciCode、QwenSVG 等評測中也進入了頭部梯隊,放到真實工程任務中,這就是代碼理解和修復能力的體現。

值得一提的是,這些成績來自多種智能體框架,也就意味著,無論是各種 Claw,還是什么 Code,評測中的能力都能夠進行遷移和泛化。



單看紙面數據,Qwen3.7-Max 無愧大廠之名。但跑分只是評測的入口,遠不到終點。

一個模型最終能不能成為任務入口,取決于它在日常問題里是否穩定,在復雜任務里是否能持續推進,在生產場景里是否能交付結果。

為此,我們提前內測了一把。

先拿最基礎的邏輯推理題試試它,像是“洗車店離我 50 米,是走路還是開車去洗車?”,或者小數比大小等經典的誤導題。



好消息是他基本都能拿捏,壞消息是這些問題都已經進題庫了,看思維鏈就能發現,這些已經被模型識別為了經典的邏輯陷阱,它會采用更取巧的推理捷徑。

但其實相比結果,推理過程要更耐人尋味一點,因為單純的背題其實不具備泛化能力,如果沒有把推理能力訓練到位,哪怕邏輯一樣,只要換個情景,該露餡還會露餡。

這里千問的表現就非常穩健,無論是錯誤的對象引導,關系推理,還是字符級的操作,或者結合世界知識的視角變化,它都能妥善處理,在思考過程中將條件和用到的方法理清楚,盤明白,并不是單純的背題庫。

這些普通的任務雖然容易,但也并非雞肋,管窺知豹,只有指令遵循,常識判斷的能力夯實了,上面才能接各種 Harness 的約束框架,去跑更復雜的長線任務。



接下來,我們先接入阿里的 AI 編程工具 Qoder 試試,因為同一個生態下,自家的模型往往有相應的適配和優化,運行起來一般效率會更高。

先來個簡單的物理模擬試試水,單個物理效果模擬太常見了,這里讓它做個合集,風洞布料,軟體液體一起上,看看它組織的調度情況是否合理。

在給出想要的效果,簡單描述后,千問會生成一份計劃書,里面對開發的步驟和用到的標準做了詳細的規劃,對于不同的物理效果,參照現有的技術棧進行不同的方案設計。

提示詞:
請做一個單文件版本的物理模擬網頁,模擬效果:風洞,布料,軟體,液體,以合適的形態;
要求:只輸出一個 index.html,CSS 和 JS 全部寫在 index.html 內。



就效果來看,它將項目設計成了一個物理實驗室,不同的模擬效果對應不同的實驗。


無論是風洞模擬,還是布料模擬,它都考慮到了性能問題,采用了更節省資源的方案,比如用 Verlet 積分彈簧網格去模擬布料,這樣能夠提高運行時的幀數,實際拖拽和切割起來,反饋也要更絲滑一些。

我們繼續上難度,直接從 GitHub 拉一個現成的開源項目給它,讓它輔助我們理解倉庫,方便后續開發。在拉到本地后,千問就彈出了提示,問要不要調用插件,構建整個項目的 wiki 系統。



在確認后,它就開始忙活了,整個耗時幾十分鐘,遠超我的預期,但結果也同樣超預期,尤其是它對整個倉庫的梳理,細致入微。



其中不但有框架性的架構,而且針對核心模塊,配置管理,部署安裝都有對應的操作說明,特別是每個章節中涉及源代碼的地方都有引用,不明白的地方點擊后就能跳轉到對應文件的函數片段,算是做到了有據可循。

接著我發現,項目本身只有 Windows 的安裝包,Mac 和 Linux 都需要自己源碼部署,也就是命令行啟動。于是我直接讓千問根據 wiki,分析出可行的打包方案,給我構建一個 Mac 上的啟動入口。很快,確定好方案后,它就交付了入口,點擊后就能直接啟動,足以見得,wiki 的合理構建對于后續的開發能節省大量算力。

提示詞:
我不想在終端中喚起項目,再打開 webui,給我換個簡易的方案,現在的環境是 Mac,Apple 的 CPU。



除此之外,咱們之前說過,Qwen3.7-Max 對市面上的 Agent 框架都有良好的泛化能力,所謂好模型不挑框架,我們也試著把它接入了第三方的 Agent 框架中,發現任務表現依然很出色。



案例我們選擇了美國戰爭部最近解密的 UAP( 不明異常現象,UFO 的官方稱呼 )文件。

整套文件 1.22GB 大小,共有 118 份文檔,28 段視頻以及 14 張圖片,而且其中部分 PDF 文檔還是掃描件,文字排版和圖片混合,很不清晰,但為了充分壓榨 Qwen3.7-Max 的性能,我們還是強制要求了逐份整理分析。



千問意識到這是一項非常復雜的任務,它先調用提前安裝好的技能組,先行設計了一套可落地的研究方案,內容涵蓋從解壓到最終驗證的 7 個階段,在手動刪改部分細節后,它就開始執行了。

首先我們讓它整理了這上百份文件,根據內容進行提取,解析,建立元數據索引。為了方便查閱,直接接入了 IM 軟件,讓它把成品交付到工作空間。

提示詞
美國戰爭部披露了 UAP 相關的解密資料,非常多。
資料壓縮包在本地,解壓,逐份分析,進行深度解析;
在飛書云盤中新建相應文件夾,飛書有對應的文檔,表格,多維表格,中間的交付物,以合適的格式放到飛書云盤中,追求可視化;
分類并按合適的專業框架進行梳理,生成匯總目錄,生成專業的學術風格的報告,嚴謹,再生成銳評版總結,可以發散一點。
生成 slides,對調查結果進行展示,要求符合主題,去除 AI 味,選擇合適的設計 skill。
生成落地頁,要求符合主題,展示此次研究的概覽和成果;內嵌地球儀,用于展示事件發生的地點,可互動。生成完檢查一下,看功能是否正常。



它拉出來的數據表格相當規整,而且針對我特別提到的坐標問題,額外整理了一份地理事件庫,其中區域,經緯坐標,傳感器乃至重要性都標注得很清晰。



接下來,針對整理出的數據,讓它出具兩份報告,一份正經的,一份銳評一些的。在正經版的報告中,它調用 Python 腳本提前生成了圖表,避免了純文本表格的視覺單調性,而且相比文生圖也更加精準,不容易出數據紕漏。

值得注意的是,兩份報告的長度都非常給力,都在萬字以上,而且不是空洞的堆砌,每個章節都能對原文件進行回溯。怕我看不明白,最后還按學術風格整理了一份術語對照表,就格式和流程來看,已經非常嚴謹了。



任務繼續,針對后面要交付的匯總文檔和 PPT,落地頁等展示內容,它判斷到這些都共用剛才整理的數據源,且互不干擾,所以就新建了 4 個子 Agent 并行執行,效率拉滿。

當然,快歸快,能不能用還得看交付物的質量。就 PPT 的審美來看,跟主題結合的色調和風格都基本到位,而且還復用了報告中生成的圖表,這在長線任務中是非常重要的一環。



而最驚喜的是落地頁的展示效果,在充分調用不同的 Skill 組合后,整個頁面的設計更有人味兒,排版組織合理,表格能篩選,時間軸有對應,互動的二級菜單也有準確的內容呼出。

我們繼續上難度,直接從 GitHub 拉一個現成的開源項目給它,讓它輔助我們理解倉庫,方便后續開發。在拉到本地后,千問就彈出了提示,問要不要調用插件,構建整個項目的 wiki 系統。



在確認后,它就開始忙活了,整個耗時幾十分鐘,遠超我的預期,但結果也同樣超預期,尤其是它對整個倉庫的梳理,細致入微。



其中不但有框架性的架構,而且針對核心模塊,配置管理,部署安裝都有對應的操作說明,特別是每個章節中涉及源代碼的地方都有引用,不明白的地方點擊后就能跳轉到對應文件的函數片段,算是做到了有據可循。

接著我發現,項目本身只有 Windows 的安裝包,Mac 和 Linux 都需要自己源碼部署,也就是命令行啟動。于是我直接讓千問根據 wiki,分析出可行的打包方案,給我構建一個 Mac 上的啟動入口。很快,確定好方案后,它就交付了入口,點擊后就能直接啟動,足以見得,wiki 的合理構建對于后續的開發能節省大量算力。

提示詞:
我不想在終端中喚起項目,再打開 webui,給我換個簡易的方案,現在的環境是 Mac,Apple 的 CPU。



除此之外,咱們之前說過,Qwen3.7-Max 對市面上的 Agent 框架都有良好的泛化能力,所謂好模型不挑框架,我們也試著把它接入了第三方的 Agent 框架中,發現任務表現依然很出色。



案例我們選擇了美國戰爭部最近解密的 UAP( 不明異常現象,UFO 的官方稱呼 )文件。

整套文件 1.22GB 大小,共有 118 份文檔,28 段視頻以及 14 張圖片,而且其中部分 PDF 文檔還是掃描件,文字排版和圖片混合,很不清晰,但為了充分壓榨 Qwen3.7-Max 的性能,我們還是強制要求了逐份整理分析。



千問意識到這是一項非常復雜的任務,它先調用提前安裝好的技能組,先行設計了一套可落地的研究方案,內容涵蓋從解壓到最終驗證的 7 個階段,在手動刪改部分細節后,它就開始執行了。

首先我們讓它整理了這上百份文件,根據內容進行提取,解析,建立元數據索引。為了方便查閱,直接接入了 IM 軟件,讓它把成品交付到工作空間。

提示詞
美國戰爭部披露了 UAP 相關的解密資料,非常多。
資料壓縮包在本地,解壓,逐份分析,進行深度解析;
在飛書云盤中新建相應文件夾,飛書有對應的文檔,表格,多維表格,中間的交付物,以合適的格式放到飛書云盤中,追求可視化;
分類并按合適的專業框架進行梳理,生成匯總目錄,生成專業的學術風格的報告,嚴謹,再生成銳評版總結,可以發散一點。
生成 slides,對調查結果進行展示,要求符合主題,去除 AI 味,選擇合適的設計 skill。
生成落地頁,要求符合主題,展示此次研究的概覽和成果;內嵌地球儀,用于展示事件發生的地點,可互動。生成完檢查一下,看功能是否正常。



它拉出來的數據表格相當規整,而且針對我特別提到的坐標問題,額外整理了一份地理事件庫,其中區域,經緯坐標,傳感器乃至重要性都標注得很清晰。



接下來,針對整理出的數據,讓它出具兩份報告,一份正經的,一份銳評一些的。在正經版的報告中,它調用 Python 腳本提前生成了圖表,避免了純文本表格的視覺單調性,而且相比文生圖也更加精準,不容易出數據紕漏。

值得注意的是,兩份報告的長度都非常給力,都在萬字以上,而且不是空洞的堆砌,每個章節都能對原文件進行回溯。怕我看不明白,最后還按學術風格整理了一份術語對照表,就格式和流程來看,已經非常嚴謹了。



任務繼續,針對后面要交付的匯總文檔和 PPT,落地頁等展示內容,它判斷到這些都共用剛才整理的數據源,且互不干擾,所以就新建了 4 個子 Agent 并行執行,效率拉滿。

當然,快歸快,能不能用還得看交付物的質量。就 PPT 的審美來看,跟主題結合的色調和風格都基本到位,而且還復用了報告中生成的圖表,這在長線任務中是非常重要的一環。



而最驚喜的是落地頁的展示效果,在充分調用不同的 Skill 組合后,整個頁面的設計更有人味兒,排版組織合理,表格能篩選,時間軸有對應,互動的二級菜單也有準確的內容呼出。

不得不提的是,這一套流程走完,消耗了將近一個小時,算是很長的任務了,但千問并沒有出現卡殼或者上下文爆炸的情況,交付物的效果都有十分不錯的亮點。從這也能看出,作為 Agent 框架的底座,它還是非常合格的。



總的來說,Qwen3.7-Max 最值得關注的,不只是一次模型分數的提升,讓它來到了國產榜首,而是它開始呈現出更強的任務執行感,踏實做事的實在感。



從千問 3.5 開始,阿里就朝著智能體的方向一路狂奔。幾個月前,新成立的 ATH,也是在集合芯片,模型,以及應用等多面力量,去深耕模型能力的多模態,繼而打通智能體的全鏈路。

特別是在月更的夸張效率下,模型優化的迭代更快了,這意味著你今天用的時候吐槽的 BUG,下個月發新版可能就被填平了。

最為關鍵的是,受限于模型的能力,我們總是需要搭建各種復雜的限制性工程,去讓 AI 做事,讓它指哪打哪。

但其中的絕大多數工程可能都只是過渡手段,因為隨著迭代閉環的重復,模型會不斷內化這些工程,將其吸收為自身能力的一部分。

就像未來的圖像編輯可能不再需要精通 PS 一樣,那個不再需要復雜框架,LLM 一力降百會的時代,也會在模型迭代中越來越近。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不忍心告訴你:有房無貸打工,和有房有貸打工,完全是兩種人生

不忍心告訴你:有房無貸打工,和有房有貸打工,完全是兩種人生

舒山有鹿
2026-06-13 11:42:54
曾任正部級干部馬天水,撤職后回老家弟弟不愿收留,死因令人唏噓

曾任正部級干部馬天水,撤職后回老家弟弟不愿收留,死因令人唏噓

元哥說歷史
2026-06-13 13:45:05
她29歲中央委員、37歲省委書記,41歲主動到縣里任職

她29歲中央委員、37歲省委書記,41歲主動到縣里任職

數字化看世界
2026-05-31 17:37:58
記者:隨著張慶鵬離任以及劉家成到隊,北控決心要進行大變革

記者:隨著張慶鵬離任以及劉家成到隊,北控決心要進行大變革

懂球帝
2026-06-13 22:40:03
中方最后一刻放棄36架圖-22M3,外媒曝光訂單取消內幕

中方最后一刻放棄36架圖-22M3,外媒曝光訂單取消內幕

激情與榮耀并存
2026-06-13 07:10:52
玄學提醒:你永遠不要操心你孩子的命運,看完這段話讓你釋懷

玄學提醒:你永遠不要操心你孩子的命運,看完這段話讓你釋懷

金沛的國學筆記
2026-05-13 10:55:09
WTT,14日單打比賽:國乒遺憾失利,韓國隊包攬冠亞軍

WTT,14日單打比賽:國乒遺憾失利,韓國隊包攬冠亞軍

范動舍長
2026-06-14 02:41:23
大伯供我讀大學,我年薪80萬,他急用30萬,老婆二話不說轉了60萬

大伯供我讀大學,我年薪80萬,他急用30萬,老婆二話不說轉了60萬

千秋文化
2026-06-13 19:37:29
高志凱預言:全球金融危機將至,殺傷力超互聯網泡沫十倍

高志凱預言:全球金融危機將至,殺傷力超互聯網泡沫十倍

涼湫瑾言
2026-06-14 03:50:49
沙特狂買190萬輛中國車!這一次,美國日本這次真坐不住了。

沙特狂買190萬輛中國車!這一次,美國日本這次真坐不住了。

小馬姨
2026-06-12 10:13:30
我加班三天沒洗碗,婆婆拍照發給我母親,我母親:想要退貨晚了

我加班三天沒洗碗,婆婆拍照發給我母親,我母親:想要退貨晚了

茶余飯后故事會
2026-06-11 19:46:09
俄軍日均投放300枚航彈,打擊距離可達150公里

俄軍日均投放300枚航彈,打擊距離可達150公里

縱擁千千晚星
2026-06-14 05:04:21
完了,我竟然開始心疼上海大學的周某某了

完了,我竟然開始心疼上海大學的周某某了

老張侃詩詞
2026-06-13 09:30:06
百草枯發明者李德軍現狀:女兒喝百草枯喪命,70歲仍不斷救人贖罪

百草枯發明者李德軍現狀:女兒喝百草枯喪命,70歲仍不斷救人贖罪

王姐懶人家常菜
2026-06-14 02:56:54
男單小將首進S500決賽,國羽5勝1負,澳洲賽沖4金!附賽程

男單小將首進S500決賽,國羽5勝1負,澳洲賽沖4金!附賽程

佑銘羽球
2026-06-14 02:45:09
林高遠王曼昱戀情真相曝光,31歲近況解釋淡出國乒原因

林高遠王曼昱戀情真相曝光,31歲近況解釋淡出國乒原因

殘夢斷憶
2026-06-13 00:56:06
勇士隊獲得備受矚目的1.12億美元側翼重大交易更新!

勇士隊獲得備受矚目的1.12億美元側翼重大交易更新!

夜白侃球
2026-06-13 15:34:25
哈里認慫了?查爾斯患癌后父子同框,一個細節讓整個英國王室炸鍋

哈里認慫了?查爾斯患癌后父子同框,一個細節讓整個英國王室炸鍋

全球奇趣娛樂八卦
2026-06-13 18:09:33
“把兒子當外人整呢”,一根破爛眼鏡腿,讓人心疼高考男生處境

“把兒子當外人整呢”,一根破爛眼鏡腿,讓人心疼高考男生處境

澤澤先生
2026-06-13 21:43:34
美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

澎湃新聞
2026-06-12 17:40:29
2026-06-14 06:04:49
知危 incentive-icons
知危
投資不立危墻之下
588文章數 1841關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

本地
數碼
家居
公開課
軍事航空

本地新聞

AK劉彰邂逅河北南大港濕地

數碼要聞

綠聯推出DXP 6800/8800 Ultra NAS:雙萬兆雙雷電4,PCIe擴展

家居要聞

空間微調 移形換境

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版