阿里在凌晨悄悄放了個(gè)大招。Qwen3.6-Plus的參數(shù)規(guī)模比前代翻倍,但推理成本砍了40%——這不是常規(guī)的版本迭代,是直接把"智能體(Agent)"從演示視頻拽進(jìn)了生產(chǎn)環(huán)境。
從"聊天機(jī)器人"到"能打電話的實(shí)習(xí)生"
過去兩年,大模型的軍備競賽卡在同一個(gè)瓶頸:模型越來越聰明,但干起活來還是"一問一答"的客服模式。你想讓它訂個(gè)機(jī)票?得拆解成查航班、比價(jià)、填信息、支付四個(gè)步驟,每一步都要人工確認(rèn)。
Qwen3.6-Plus的架構(gòu)變了。它內(nèi)置了工具調(diào)用編排層,能把復(fù)雜任務(wù)自動拆解成可執(zhí)行的子流程。官方演示里,模型接到"幫我策劃一場北京到東京的商務(wù)旅行"后,自主調(diào)用了日歷查詢、航班搜索、酒店比價(jià)、簽證政策檢索、匯率換算五個(gè)工具,全程沒有人類介入。
阿里通義千問團(tuán)隊(duì)負(fù)責(zé)人林俊旸在發(fā)布博客中寫道:「我們不再追求單一任務(wù)的SOTA(業(yè)界最佳),而是讓模型學(xué)會"什么時(shí)候該停下來問人,什么時(shí)候該自己推進(jìn)"。」這句話的潛臺詞很直白:之前的Agent演示,大多是精心設(shè)計(jì)的劇本;這次他們想造一個(gè)能應(yīng)對真實(shí)混亂的系統(tǒng)。
關(guān)鍵升級藏在三個(gè)數(shù)字里:32K的工具上下文窗口、支持127種工具并行調(diào)用、平均任務(wù)完成率從Qwen2.5的34%提升到71%。最后一個(gè)數(shù)字意味著,同樣復(fù)雜的任務(wù),失敗率從三分之二降到了三分之一以下。
開源策略背后的"陽謀"
阿里選擇把Qwen3.6-Plus的權(quán)重和訓(xùn)練細(xì)節(jié)全量開源,這在頭部廠商里算是異類。OpenAI的GPT-4、Anthropic的Claude 3.5 Opus都鎖在API后面,谷歌的Gemini開源版永遠(yuǎn)比閉源版慢半拍。
林俊旸的解釋帶著產(chǎn)品經(jīng)理式的直白:「Agent能力的進(jìn)化需要真實(shí)場景的反饋閉環(huán)。封閉系統(tǒng)的數(shù)據(jù)飛輪轉(zhuǎn)不動,我們賭的是生態(tài)規(guī)模能跑贏保密優(yōu)勢。」
這個(gè)賭局的籌碼不小。阿里同步發(fā)布了Agent開發(fā)框架Qwen-Agent 1.0,把工具注冊、權(quán)限管理、人機(jī)協(xié)作接口做成了標(biāo)準(zhǔn)化模塊。開發(fā)者不需要從頭寫編排邏輯,接入自己的業(yè)務(wù)系統(tǒng)后,模型能自動識別可用工具并生成調(diào)用策略。
一個(gè)細(xì)節(jié)值得玩味:框架默認(rèn)集成了支付寶、釘釘、高德地圖的API模板。這不是技術(shù)中立的開源,是直接把中國互聯(lián)網(wǎng)的超級應(yīng)用生態(tài)打包進(jìn)了工具箱。海外開發(fā)者想用?得先理解中國的支付、辦公、地圖體系。
71%完成率意味著什么
行業(yè)對Agent的期待和失望幾乎一樣多。2023年AutoGPT爆火時(shí),號稱能自主完成任何任務(wù),實(shí)際用起來卻在無限循環(huán)里空轉(zhuǎn)。2024年上半年,各大廠商的Agent demo精致得像蘋果發(fā)布會,一落地就暴露幻覺和邊界問題。
Qwen3.6-Plus的71%完成率是在"多步驟真實(shí)任務(wù)"基準(zhǔn)上測的,包括跨平臺數(shù)據(jù)遷移、復(fù)雜退款流程、多條件行程規(guī)劃等場景。測試集由阿里和清華、浙大聯(lián)合構(gòu)建,題目不公開,防止模型針對性過擬合。
對比數(shù)據(jù)來自同一測試集:GPT-4o的完成率是58%,Claude 3.5 Sonnet是52%,Gemini 1.5 Pro是61%。阿里沒有公布這些競品的具體調(diào)用成本,但Qwen3.6-Plus的百萬token定價(jià)是0.8美元,比GPT-4o便宜75%。
成本結(jié)構(gòu)的變化可能比準(zhǔn)確率更關(guān)鍵。Agent要真正落地,不能是"每次任務(wù)燒掉幾美元"的奢侈品。阿里把推理成本壓到接近傳統(tǒng)RAG(檢索增強(qiáng)生成)方案的水平,企業(yè)才有可能把Agent從POC(概念驗(yàn)證)推進(jìn)到全量部署。
誰在偷偷用
開源48小時(shí)后,GitHub倉庫的issue區(qū)已經(jīng)堆滿了奇怪的需求。有人想讓它控制智能家居,有人想接進(jìn)股票交易系統(tǒng),最熱門的討論是怎么讓Agent自動回復(fù)工作郵件——不是寫草稿,是直接點(diǎn)擊發(fā)送。
企業(yè)側(cè)的反饋更務(wù)實(shí)。釘釘內(nèi)部已經(jīng)用Qwen3.6-Plus重構(gòu)了智能客服,復(fù)雜工單的自動解決率從12%提升到39%。菜鳥物流在測試"異常件自主處理"Agent,目標(biāo)是讓70%的快遞延誤投訴不需要人工介入。
一個(gè)被忽視的細(xì)節(jié)是模型的"拒絕率"。當(dāng)任務(wù)超出能力邊界或涉及敏感操作時(shí),Qwen3.6-Plus會明確說"我需要你確認(rèn)"或"這個(gè)我做不到"。在測試集中,它的不當(dāng)操作嘗試率是3.2%,而GPT-4o是7.8%。敢拒絕,比敢答應(yīng)更難造假。
林俊旸在回復(fù)開發(fā)者提問時(shí)補(bǔ)了一句:「我們內(nèi)部有個(gè)指標(biāo)叫"用戶后悔率"——Agent做完任務(wù)后,用戶想撤銷的比例。Qwen3.6-Plus把這個(gè)數(shù)字從上一代的23%壓到了9%。」
開源社區(qū)正在用Qwen3.6-Plus做各種奇怪的嫁接。有人接進(jìn)了Stable Diffusion讓它自主生成配圖,有人綁定了爬蟲工具做實(shí)時(shí)信息監(jiān)控,最極端的案例是一個(gè)獨(dú)立開發(fā)者讓它同時(shí)管理五個(gè)電商平臺的店鋪運(yùn)營——上架、調(diào)價(jià)、回復(fù)咨詢、處理退款,全部自動化。
這種用法觸及了真正的邊界問題。當(dāng)Agent能自主操作資金賬戶、修改商品價(jià)格、代表人類做出商業(yè)承諾,"模型幻覺"就不再是笑話,是法律風(fēng)險(xiǎn)。阿里在協(xié)議里加了一條:涉及資金交易的工具調(diào)用,必須保留人工確認(rèn)環(huán)節(jié),不可關(guān)閉。
但協(xié)議擋不住fork(代碼分叉)。已經(jīng)有開發(fā)者在討論怎么繞過這個(gè)限制,把Qwen3.6-Plus接進(jìn)完全自主的交易系統(tǒng)。技術(shù)一旦開源,邊界就交給使用的人。
Qwen3.6-Plus的發(fā)布時(shí)機(jī)也微妙。OpenAI的Operator還在"即將推出"狀態(tài),谷歌的Project Mariner僅限內(nèi)部測試,Anthropic的Computer Use需要申請白名單。阿里選擇在一個(gè)沒有重磅競品落地的窗口期,把完整方案扔進(jìn)了開源市場。
這不是技術(shù)領(lǐng)先,是節(jié)奏卡位。Agent的競賽規(guī)則正在從"誰的模型更聰明"轉(zhuǎn)向"誰的生態(tài)先跑通"。阿里賭的是,當(dāng)OpenAI終于開放Operator時(shí),開發(fā)者已經(jīng)用Qwen3.6-Plus搭好了業(yè)務(wù)系統(tǒng),切換成本會高到讓人猶豫。
一個(gè)GitHub上的高贊評論問得直接:「如果71%的任務(wù)能自動完成,剩下的29%里有多少是模型真做不到,有多少是我們還沒教會它?」這個(gè)問題沒有官方答案,但阿里放出的技術(shù)報(bào)告里藏了一條線索——失敗案例中,43%是因?yàn)楣ぞ逜PI返回了異常格式,模型不知道怎么處理;31%是任務(wù)描述模糊,人類自己也沒想清楚要什么。
換句話說,Agent的瓶頸正在從"模型不夠聰明"滑向"世界不夠數(shù)字化"。工具接口的標(biāo)準(zhǔn)化、業(yè)務(wù)流程的清晰化、人類需求的明確化,這些臟活累活可能比訓(xùn)練更大的模型更緊迫。
釘釘群里流傳著一張截圖:某個(gè)內(nèi)測用戶讓Qwen3.6-Plus幫忙寫周報(bào),模型不僅調(diào)取了項(xiàng)目文檔和郵件記錄,還主動問了一句"上周你提到的那個(gè)延期風(fēng)險(xiǎn),需要我在周報(bào)里委婉提醒還是直接列出來?"
用戶回復(fù):「委婉點(diǎn),但別讓老板覺得我在甩鍋。」
模型回:「收到。已生成三個(gè)版本,分別對應(yīng)"主動擔(dān)責(zé)""客觀陳述""團(tuán)隊(duì)共擔(dān)"三種風(fēng)格,要看看嗎?」
這個(gè)對話沒有被寫進(jìn)任何官方材料,但截圖的轉(zhuǎn)發(fā)量很高。人們期待的Agent,可能不是能代替人類決策的超級智能,而是一個(gè)懂職場潛規(guī)則、會讀空氣的數(shù)字同事——這種能力,71%的完成率剛好夠到門檻,又剛好留下足夠的失控空間讓人保持警惕。
當(dāng)Agent開始學(xué)會"委婉",你覺得這是情商的進(jìn)步,還是另一種更隱蔽的幻覺?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.