![]()
智東西
作者 陳駿達
編輯 心緣
智東西4月20日報道,今天,阿里發布了其下一代旗艦模型的早期預覽版:Qwen3.6-Max-Preview。在第三方評測榜單Artificial Analysis的智能指數排名中,Qwen3.6-Max-Preview的得分為52分,小幅超過GLM-5.1、MiniMax-M2.7,成為這一榜單上得分最高的國產模型。
![]()
阿里并未披露這一模型的過多技術細節,比如參數量、支持何種模態等等。不過根據我們的初步體驗,這應該是一個純文本模型,支持思考和非思考模式,不支持圖像等多模態內容。
與之前發布的Qwen3.6-Plus相比,Qwen3.6-Max-Preview模型在智能體編程、世界知識和指令遵循方面均有明顯可感的提升。
比如,我們讓兩個模型分別打造了一個3D賽車游戲。Qwen3.6-Max-Preview打造的項目,雖然談不上精美,但核心運行邏輯正常,是一個還不錯的原型,后續可以基于這一項目進行迭代。
![]()
Qwen3.6-Plus的結果基本沒有可玩性,畫面粗糙,暫時還沒在這一任務中展現出從0到1完成項目的能力。
![]()
Qwen3.6-Max-Preview還支持preserve_thinking功能,也就是在消息中保留所有前序輪次的思考內容。這一功能推薦用于智能體任務。
阿里上一次更新旗艦模型是在1個月前,當時發布的模型是Qwen3.5-Max-Preview,也是預覽版。今天發布的Qwen3.6-Max-Preview已在Qwen Studio上線供用戶體驗,同時也很快將上線阿里云百煉API。
體驗鏈接:https://chat.qwen.ai/
一、智能體編程能力有提升,實測能one-shot復刻“macOS”
據阿里介紹,Qwen3.6-Max-Preview最大的性能提升在于智能體編程能力。
在六項主流編程基準測試(SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench和SciCode)中,Qwen3.6-Max-Preview取得了最高得分。這些測試覆蓋了真實軟件工程、終端與命令行交互、綜合編程技能、OpenClaw類Agent以及科學計算等核心能力。
![]()
智東西第一時間用幾個案例考察了Qwen3.6-Max-Preview的智能體編程能力,也就是其理解用戶高層次需求,自主規劃任務實現路徑,并最終交付完整項目的能力。
案例1:模擬macOS桌面環境
提示詞:生成一個macOS桌面環境,包含文件管理、瀏覽器、筆記等核心功能。
拿到這一任務后,Qwen3.6-Max-Preview首先進行了規劃,它意識到了自己無法構建真實的操作系統或完整復刻,但可通過前端技術呈現其視覺與交互特征,并據此設定了可行的任務目標,包括重點實現外觀與行為的仿真。
使用過程中,能感覺到Qwen3.6-Max-Preview的token效率不錯,沒有浪費過多的token在無謂的反復思考和自我核驗上,而是很快進行到正式的開發環節。
Qwen3.6-Max-Preview用大概3分鐘完成了原型的開發。其模擬出的macOS桌面效果逼真,交互方式與原版差異不大,瀏覽器功能也可以正常使用。
![]()
同樣的任務交給Qwen3.6-Plus,它也能做出個大概的外觀,甚至還配上了壁紙,乍一看效果更好。但實際使用后,Qwen3.6-Plus打造的系統還有不少bug,像是瀏覽器、便簽這樣的系統“應用”是無法正常運行的。
![]()
這兩個模型的差異在于,Qwen3.6-Max-Preview能勝任更復雜的項目,考慮全面,而Plus更適合快速做原型,在具體的細節實現上還沒有完全做到位。
案例2:打造MarkDown編輯器
如果說上方的這一案例更像是開放性的開發任務,那么下面這一案例則對技術要求做了十分詳細的規定,不僅考察模型的編程能力,也對指令遵循提出了要求。
提示詞:
![]()
Qwen3.6-Max-Preview和Qwen3.6-Plus都在理解提示詞上花了不少時間,最終Qwen3.6-Plus先行交付了開發結果。其實,一開始Qwen3.6-Plus未能實現右側的實時渲染和代碼塊功能,是在我們再次要求后才實現的,體現出它對仍然存在忽視部分提示詞要求的可能。
![]()
Qwen3.6-Max-Preview則一次性完成了下方這一編輯器的開發,提示詞中定義的快捷鍵、鏈接插入功能、代碼塊功能等都正常運轉,并在示例文本中得到體現,讓用戶可以一眼了解這一編輯器所支持的核心功能。
![]()
這一案例證明,在需要精確遵循復雜指令的任務中,Qwen3.6-Max-Preview表現更優,體現出更強的指令理解與交付能力;而Qwen3.6-Plus雖然速度占優,但對細節的遺漏增加了溝通與修正成本。
其實,測試智能體編程能力的最佳場景,是將模型接入Claude Code或是OpenClaw這樣的Agent,在本地進行大型項目的開發,不過由于Qwen3.6-Max-Preview的API暫未完全開放,我們并未進行這一測試。
二、成功破解洗車難題,講解復雜論文深入淺出
除了智能體編程能力之外,我們也對Qwen3.6-Max-Preview的其他能力維度做了考察。
比如,在邏輯推理方面,它可以看穿洗車店難題中的陷阱,直接給出判斷:“既然目的是洗車,那肯定是開車去呀——畢竟車得過去才能洗嘛。”
![]()
長文本能力方面,我們向Qwen3.6-Max-Preview甩了一篇復雜的大模型基礎設施相關的論文,讓它通俗地解釋這篇論文的核心內容。這類任務不僅要求模型能捕捉長上下文中的核心信息,也考察了其邏輯理解與語境轉換能力。
拿到任務后,Qwen3.6-Max-Preview決定用交通調度的類比來拆解這篇論文的核心思想。它的幾個類比都較為準確,也抓住了論文提出的核心問題與解決思路,用詞中沒有堆砌原文的大量術語,而是做了解釋,讓非技術背景的讀者也能理解這篇論文的內容。
![]()
結語:頭部開源玩家,重新思考開源戰略
目前,阿里已推出千問3.6系列的多個版本,包括Qwen3.6-Max-Preview、Qwen3.6-Plus、Qwen3.6-Flash,并開源了Qwen3.6-35B-A3B。值得注意的是,此前阿里旗下的Max系列模型(如Qwen3-Max)也屬于開源范疇。
從這一新模式來看,阿里似乎調整了其開源策略:僅將小尺寸模型開源,而將超大參數量或高性能版本保留為商用產品。
這種“開源小尺寸+商業化大尺寸”的混合模式,正逐漸成為許多大模型廠商的共同選擇。它或許也代表著開源生態與商業利益之間的一次再平衡。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.