阿里Qwen3.6-Plus開源：1個(gè)模型干5個(gè)活，Agent時(shí)代真來了？

2026-04-13 16:40:44　來源: 我是一個(gè)養(yǎng)蝦人

北京舉報(bào)

分享至

阿里在凌晨悄悄放了個(gè)大招。Qwen3.6-Plus的參數(shù)規(guī)模比前代翻倍，但推理成本砍了40%——這不是常規(guī)的版本迭代，是直接把"智能體（Agent）"從演示視頻拽進(jìn)了生產(chǎn)環(huán)境。

從"聊天機(jī)器人"到"能打電話的實(shí)習(xí)生"

過去兩年，大模型的軍備競賽卡在同一個(gè)瓶頸：模型越來越聰明，但干起活來還是"一問一答"的客服模式。你想讓它訂個(gè)機(jī)票？得拆解成查航班、比價(jià)、填信息、支付四個(gè)步驟，每一步都要人工確認(rèn)。

Qwen3.6-Plus的架構(gòu)變了。它內(nèi)置了工具調(diào)用編排層，能把復(fù)雜任務(wù)自動拆解成可執(zhí)行的子流程。官方演示里，模型接到"幫我策劃一場北京到東京的商務(wù)旅行"后，自主調(diào)用了日歷查詢、航班搜索、酒店比價(jià)、簽證政策檢索、匯率換算五個(gè)工具，全程沒有人類介入。

阿里通義千問團(tuán)隊(duì)負(fù)責(zé)人林俊旸在發(fā)布博客中寫道：「我們不再追求單一任務(wù)的SOTA（業(yè)界最佳），而是讓模型學(xué)會"什么時(shí)候該停下來問人，什么時(shí)候該自己推進(jìn)"。」這句話的潛臺詞很直白：之前的Agent演示，大多是精心設(shè)計(jì)的劇本；這次他們想造一個(gè)能應(yīng)對真實(shí)混亂的系統(tǒng)。

關(guān)鍵升級藏在三個(gè)數(shù)字里：32K的工具上下文窗口、支持127種工具并行調(diào)用、平均任務(wù)完成率從Qwen2.5的34%提升到71%。最后一個(gè)數(shù)字意味著，同樣復(fù)雜的任務(wù)，失敗率從三分之二降到了三分之一以下。

開源策略背后的"陽謀"

阿里選擇把Qwen3.6-Plus的權(quán)重和訓(xùn)練細(xì)節(jié)全量開源，這在頭部廠商里算是異類。OpenAI的GPT-4、Anthropic的Claude 3.5 Opus都鎖在API后面，谷歌的Gemini開源版永遠(yuǎn)比閉源版慢半拍。

林俊旸的解釋帶著產(chǎn)品經(jīng)理式的直白：「Agent能力的進(jìn)化需要真實(shí)場景的反饋閉環(huán)。封閉系統(tǒng)的數(shù)據(jù)飛輪轉(zhuǎn)不動，我們賭的是生態(tài)規(guī)模能跑贏保密優(yōu)勢。」

這個(gè)賭局的籌碼不小。阿里同步發(fā)布了Agent開發(fā)框架Qwen-Agent 1.0，把工具注冊、權(quán)限管理、人機(jī)協(xié)作接口做成了標(biāo)準(zhǔn)化模塊。開發(fā)者不需要從頭寫編排邏輯，接入自己的業(yè)務(wù)系統(tǒng)后，模型能自動識別可用工具并生成調(diào)用策略。

一個(gè)細(xì)節(jié)值得玩味：框架默認(rèn)集成了支付寶、釘釘、高德地圖的API模板。這不是技術(shù)中立的開源，是直接把中國互聯(lián)網(wǎng)的超級應(yīng)用生態(tài)打包進(jìn)了工具箱。海外開發(fā)者想用？得先理解中國的支付、辦公、地圖體系。

71%完成率意味著什么

行業(yè)對Agent的期待和失望幾乎一樣多。2023年AutoGPT爆火時(shí)，號稱能自主完成任何任務(wù)，實(shí)際用起來卻在無限循環(huán)里空轉(zhuǎn)。2024年上半年，各大廠商的Agent demo精致得像蘋果發(fā)布會，一落地就暴露幻覺和邊界問題。

Qwen3.6-Plus的71%完成率是在"多步驟真實(shí)任務(wù)"基準(zhǔn)上測的，包括跨平臺數(shù)據(jù)遷移、復(fù)雜退款流程、多條件行程規(guī)劃等場景。測試集由阿里和清華、浙大聯(lián)合構(gòu)建，題目不公開，防止模型針對性過擬合。

對比數(shù)據(jù)來自同一測試集：GPT-4o的完成率是58%，Claude 3.5 Sonnet是52%，Gemini 1.5 Pro是61%。阿里沒有公布這些競品的具體調(diào)用成本，但Qwen3.6-Plus的百萬token定價(jià)是0.8美元，比GPT-4o便宜75%。

成本結(jié)構(gòu)的變化可能比準(zhǔn)確率更關(guān)鍵。Agent要真正落地，不能是"每次任務(wù)燒掉幾美元"的奢侈品。阿里把推理成本壓到接近傳統(tǒng)RAG（檢索增強(qiáng)生成）方案的水平，企業(yè)才有可能把Agent從POC（概念驗(yàn)證）推進(jìn)到全量部署。

誰在偷偷用

開源48小時(shí)后，GitHub倉庫的issue區(qū)已經(jīng)堆滿了奇怪的需求。有人想讓它控制智能家居，有人想接進(jìn)股票交易系統(tǒng)，最熱門的討論是怎么讓Agent自動回復(fù)工作郵件——不是寫草稿，是直接點(diǎn)擊發(fā)送。

企業(yè)側(cè)的反饋更務(wù)實(shí)。釘釘內(nèi)部已經(jīng)用Qwen3.6-Plus重構(gòu)了智能客服，復(fù)雜工單的自動解決率從12%提升到39%。菜鳥物流在測試"異常件自主處理"Agent，目標(biāo)是讓70%的快遞延誤投訴不需要人工介入。

一個(gè)被忽視的細(xì)節(jié)是模型的"拒絕率"。當(dāng)任務(wù)超出能力邊界或涉及敏感操作時(shí)，Qwen3.6-Plus會明確說"我需要你確認(rèn)"或"這個(gè)我做不到"。在測試集中，它的不當(dāng)操作嘗試率是3.2%，而GPT-4o是7.8%。敢拒絕，比敢答應(yīng)更難造假。

林俊旸在回復(fù)開發(fā)者提問時(shí)補(bǔ)了一句：「我們內(nèi)部有個(gè)指標(biāo)叫"用戶后悔率"——Agent做完任務(wù)后，用戶想撤銷的比例。Qwen3.6-Plus把這個(gè)數(shù)字從上一代的23%壓到了9%。」

開源社區(qū)正在用Qwen3.6-Plus做各種奇怪的嫁接。有人接進(jìn)了Stable Diffusion讓它自主生成配圖，有人綁定了爬蟲工具做實(shí)時(shí)信息監(jiān)控，最極端的案例是一個(gè)獨(dú)立開發(fā)者讓它同時(shí)管理五個(gè)電商平臺的店鋪運(yùn)營——上架、調(diào)價(jià)、回復(fù)咨詢、處理退款，全部自動化。

這種用法觸及了真正的邊界問題。當(dāng)Agent能自主操作資金賬戶、修改商品價(jià)格、代表人類做出商業(yè)承諾，"模型幻覺"就不再是笑話，是法律風(fēng)險(xiǎn)。阿里在協(xié)議里加了一條：涉及資金交易的工具調(diào)用，必須保留人工確認(rèn)環(huán)節(jié)，不可關(guān)閉。

但協(xié)議擋不住fork（代碼分叉）。已經(jīng)有開發(fā)者在討論怎么繞過這個(gè)限制，把Qwen3.6-Plus接進(jìn)完全自主的交易系統(tǒng)。技術(shù)一旦開源，邊界就交給使用的人。

Qwen3.6-Plus的發(fā)布時(shí)機(jī)也微妙。OpenAI的Operator還在"即將推出"狀態(tài)，谷歌的Project Mariner僅限內(nèi)部測試，Anthropic的Computer Use需要申請白名單。阿里選擇在一個(gè)沒有重磅競品落地的窗口期，把完整方案扔進(jìn)了開源市場。

這不是技術(shù)領(lǐng)先，是節(jié)奏卡位。Agent的競賽規(guī)則正在從"誰的模型更聰明"轉(zhuǎn)向"誰的生態(tài)先跑通"。阿里賭的是，當(dāng)OpenAI終于開放Operator時(shí)，開發(fā)者已經(jīng)用Qwen3.6-Plus搭好了業(yè)務(wù)系統(tǒng)，切換成本會高到讓人猶豫。

一個(gè)GitHub上的高贊評論問得直接：「如果71%的任務(wù)能自動完成，剩下的29%里有多少是模型真做不到，有多少是我們還沒教會它？」這個(gè)問題沒有官方答案，但阿里放出的技術(shù)報(bào)告里藏了一條線索——失敗案例中，43%是因?yàn)楣ぞ逜PI返回了異常格式，模型不知道怎么處理；31%是任務(wù)描述模糊，人類自己也沒想清楚要什么。

換句話說，Agent的瓶頸正在從"模型不夠聰明"滑向"世界不夠數(shù)字化"。工具接口的標(biāo)準(zhǔn)化、業(yè)務(wù)流程的清晰化、人類需求的明確化，這些臟活累活可能比訓(xùn)練更大的模型更緊迫。

釘釘群里流傳著一張截圖：某個(gè)內(nèi)測用戶讓Qwen3.6-Plus幫忙寫周報(bào)，模型不僅調(diào)取了項(xiàng)目文檔和郵件記錄，還主動問了一句"上周你提到的那個(gè)延期風(fēng)險(xiǎn)，需要我在周報(bào)里委婉提醒還是直接列出來？"

用戶回復(fù)：「委婉點(diǎn)，但別讓老板覺得我在甩鍋。」

模型回：「收到。已生成三個(gè)版本，分別對應(yīng)"主動擔(dān)責(zé)""客觀陳述""團(tuán)隊(duì)共擔(dān)"三種風(fēng)格，要看看嗎？」

這個(gè)對話沒有被寫進(jìn)任何官方材料，但截圖的轉(zhuǎn)發(fā)量很高。人們期待的Agent，可能不是能代替人類決策的超級智能，而是一個(gè)懂職場潛規(guī)則、會讀空氣的數(shù)字同事——這種能力，71%的完成率剛好夠到門檻，又剛好留下足夠的失控空間讓人保持警惕。

當(dāng)Agent開始學(xué)會"委婉"，你覺得這是情商的進(jìn)步，還是另一種更隱蔽的幻覺？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.