網易首頁 > 網易號 > 正文申請入駐

Qwen3.6超大杯來了！我用這個“半成品”模型，親手造了一個macOS桌面

2026-04-20 19:08:36　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯心緣

智東西4月20日報道，今天，阿里發布了其下一代旗艦模型的早期預覽版：Qwen3.6-Max-Preview。在第三方評測榜單Artificial Analysis的智能指數排名中，Qwen3.6-Max-Preview的得分為52分，小幅超過GLM-5.1、MiniMax-M2.7，成為這一榜單上得分最高的國產模型。

阿里并未披露這一模型的過多技術細節，比如參數量、支持何種模態等等。不過根據我們的初步體驗，這應該是一個純文本模型，支持思考和非思考模式，不支持圖像等多模態內容。

與之前發布的Qwen3.6-Plus相比，Qwen3.6-Max-Preview模型在智能體編程、世界知識和指令遵循方面均有明顯可感的提升。

比如，我們讓兩個模型分別打造了一個3D賽車游戲。Qwen3.6-Max-Preview打造的項目，雖然談不上精美，但核心運行邏輯正常，是一個還不錯的原型，后續可以基于這一項目進行迭代。

Qwen3.6-Plus的結果基本沒有可玩性，畫面粗糙，暫時還沒在這一任務中展現出從0到1完成項目的能力。

Qwen3.6-Max-Preview還支持preserve_thinking功能，也就是在消息中保留所有前序輪次的思考內容。這一功能推薦用于智能體任務。

阿里上一次更新旗艦模型是在1個月前，當時發布的模型是Qwen3.5-Max-Preview，也是預覽版。今天發布的Qwen3.6-Max-Preview已在Qwen Studio上線供用戶體驗，同時也很快將上線阿里云百煉API。

體驗鏈接：https://chat.qwen.ai/

一、智能體編程能力有提升，實測能one-shot復刻“macOS”

據阿里介紹，Qwen3.6-Max-Preview最大的性能提升在于智能體編程能力。

在六項主流編程基準測試（SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench和SciCode）中，Qwen3.6-Max-Preview取得了最高得分。這些測試覆蓋了真實軟件工程、終端與命令行交互、綜合編程技能、OpenClaw類Agent以及科學計算等核心能力。

智東西第一時間用幾個案例考察了Qwen3.6-Max-Preview的智能體編程能力，也就是其理解用戶高層次需求，自主規劃任務實現路徑，并最終交付完整項目的能力。

案例1：模擬macOS桌面環境

提示詞：生成一個macOS桌面環境，包含文件管理、瀏覽器、筆記等核心功能。

拿到這一任務后，Qwen3.6-Max-Preview首先進行了規劃，它意識到了自己無法構建真實的操作系統或完整復刻，但可通過前端技術呈現其視覺與交互特征，并據此設定了可行的任務目標，包括重點實現外觀與行為的仿真。

使用過程中，能感覺到Qwen3.6-Max-Preview的token效率不錯，沒有浪費過多的token在無謂的反復思考和自我核驗上，而是很快進行到正式的開發環節。

Qwen3.6-Max-Preview用大概3分鐘完成了原型的開發。其模擬出的macOS桌面效果逼真，交互方式與原版差異不大，瀏覽器功能也可以正常使用。

同樣的任務交給Qwen3.6-Plus，它也能做出個大概的外觀，甚至還配上了壁紙，乍一看效果更好。但實際使用后，Qwen3.6-Plus打造的系統還有不少bug，像是瀏覽器、便簽這樣的系統“應用”是無法正常運行的。

這兩個模型的差異在于，Qwen3.6-Max-Preview能勝任更復雜的項目，考慮全面，而Plus更適合快速做原型，在具體的細節實現上還沒有完全做到位。

案例2：打造MarkDown編輯器

如果說上方的這一案例更像是開放性的開發任務，那么下面這一案例則對技術要求做了十分詳細的規定，不僅考察模型的編程能力，也對指令遵循提出了要求。

提示詞：

Qwen3.6-Max-Preview和Qwen3.6-Plus都在理解提示詞上花了不少時間，最終Qwen3.6-Plus先行交付了開發結果。其實，一開始Qwen3.6-Plus未能實現右側的實時渲染和代碼塊功能，是在我們再次要求后才實現的，體現出它對仍然存在忽視部分提示詞要求的可能。

Qwen3.6-Max-Preview則一次性完成了下方這一編輯器的開發，提示詞中定義的快捷鍵、鏈接插入功能、代碼塊功能等都正常運轉，并在示例文本中得到體現，讓用戶可以一眼了解這一編輯器所支持的核心功能。

這一案例證明，在需要精確遵循復雜指令的任務中，Qwen3.6-Max-Preview表現更優，體現出更強的指令理解與交付能力；而Qwen3.6-Plus雖然速度占優，但對細節的遺漏增加了溝通與修正成本。

其實，測試智能體編程能力的最佳場景，是將模型接入Claude Code或是OpenClaw這樣的Agent，在本地進行大型項目的開發，不過由于Qwen3.6-Max-Preview的API暫未完全開放，我們并未進行這一測試。

二、成功破解洗車難題，講解復雜論文深入淺出

除了智能體編程能力之外，我們也對Qwen3.6-Max-Preview的其他能力維度做了考察。

比如，在邏輯推理方面，它可以看穿洗車店難題中的陷阱，直接給出判斷：“既然目的是洗車，那肯定是開車去呀——畢竟車得過去才能洗嘛。”

長文本能力方面，我們向Qwen3.6-Max-Preview甩了一篇復雜的大模型基礎設施相關的論文，讓它通俗地解釋這篇論文的核心內容。這類任務不僅要求模型能捕捉長上下文中的核心信息，也考察了其邏輯理解與語境轉換能力。

拿到任務后，Qwen3.6-Max-Preview決定用交通調度的類比來拆解這篇論文的核心思想。它的幾個類比都較為準確，也抓住了論文提出的核心問題與解決思路，用詞中沒有堆砌原文的大量術語，而是做了解釋，讓非技術背景的讀者也能理解這篇論文的內容。

結語：頭部開源玩家，重新思考開源戰略

目前，阿里已推出千問3.6系列的多個版本，包括Qwen3.6-Max-Preview、Qwen3.6-Plus、Qwen3.6-Flash，并開源了Qwen3.6-35B-A3B。值得注意的是，此前阿里旗下的Max系列模型（如Qwen3-Max）也屬于開源范疇。

從這一新模式來看，阿里似乎調整了其開源策略：僅將小尺寸模型開源，而將超大參數量或高性能版本保留為商用產品。

這種“開源小尺寸+商業化大尺寸”的混合模式，正逐漸成為許多大模型廠商的共同選擇。它或許也代表著開源生態與商業利益之間的一次再平衡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.