亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里Qwen3.6-Plus開源:1個(gè)模型干5個(gè)活,Agent時(shí)代真來了?

0
分享至

阿里在凌晨悄悄放了個(gè)大招。Qwen3.6-Plus的參數(shù)規(guī)模比前代翻倍,但推理成本砍了40%——這不是常規(guī)的版本迭代,是直接把"智能體(Agent)"從演示視頻拽進(jìn)了生產(chǎn)環(huán)境。

從"聊天機(jī)器人"到"能打電話的實(shí)習(xí)生"

過去兩年,大模型的軍備競賽卡在同一個(gè)瓶頸:模型越來越聰明,但干起活來還是"一問一答"的客服模式。你想讓它訂個(gè)機(jī)票?得拆解成查航班、比價(jià)、填信息、支付四個(gè)步驟,每一步都要人工確認(rèn)。

Qwen3.6-Plus的架構(gòu)變了。它內(nèi)置了工具調(diào)用編排層,能把復(fù)雜任務(wù)自動拆解成可執(zhí)行的子流程。官方演示里,模型接到"幫我策劃一場北京到東京的商務(wù)旅行"后,自主調(diào)用了日歷查詢、航班搜索、酒店比價(jià)、簽證政策檢索、匯率換算五個(gè)工具,全程沒有人類介入。

阿里通義千問團(tuán)隊(duì)負(fù)責(zé)人林俊旸在發(fā)布博客中寫道:「我們不再追求單一任務(wù)的SOTA(業(yè)界最佳),而是讓模型學(xué)會"什么時(shí)候該停下來問人,什么時(shí)候該自己推進(jìn)"。」這句話的潛臺詞很直白:之前的Agent演示,大多是精心設(shè)計(jì)的劇本;這次他們想造一個(gè)能應(yīng)對真實(shí)混亂的系統(tǒng)。

關(guān)鍵升級藏在三個(gè)數(shù)字里:32K的工具上下文窗口、支持127種工具并行調(diào)用、平均任務(wù)完成率從Qwen2.5的34%提升到71%。最后一個(gè)數(shù)字意味著,同樣復(fù)雜的任務(wù),失敗率從三分之二降到了三分之一以下。

開源策略背后的"陽謀"

阿里選擇把Qwen3.6-Plus的權(quán)重和訓(xùn)練細(xì)節(jié)全量開源,這在頭部廠商里算是異類。OpenAI的GPT-4、Anthropic的Claude 3.5 Opus都鎖在API后面,谷歌的Gemini開源版永遠(yuǎn)比閉源版慢半拍。

林俊旸的解釋帶著產(chǎn)品經(jīng)理式的直白:「Agent能力的進(jìn)化需要真實(shí)場景的反饋閉環(huán)。封閉系統(tǒng)的數(shù)據(jù)飛輪轉(zhuǎn)不動,我們賭的是生態(tài)規(guī)模能跑贏保密優(yōu)勢。」

這個(gè)賭局的籌碼不小。阿里同步發(fā)布了Agent開發(fā)框架Qwen-Agent 1.0,把工具注冊、權(quán)限管理、人機(jī)協(xié)作接口做成了標(biāo)準(zhǔn)化模塊。開發(fā)者不需要從頭寫編排邏輯,接入自己的業(yè)務(wù)系統(tǒng)后,模型能自動識別可用工具并生成調(diào)用策略。

一個(gè)細(xì)節(jié)值得玩味:框架默認(rèn)集成了支付寶、釘釘、高德地圖的API模板。這不是技術(shù)中立的開源,是直接把中國互聯(lián)網(wǎng)的超級應(yīng)用生態(tài)打包進(jìn)了工具箱。海外開發(fā)者想用?得先理解中國的支付、辦公、地圖體系。

71%完成率意味著什么

行業(yè)對Agent的期待和失望幾乎一樣多。2023年AutoGPT爆火時(shí),號稱能自主完成任何任務(wù),實(shí)際用起來卻在無限循環(huán)里空轉(zhuǎn)。2024年上半年,各大廠商的Agent demo精致得像蘋果發(fā)布會,一落地就暴露幻覺和邊界問題。

Qwen3.6-Plus的71%完成率是在"多步驟真實(shí)任務(wù)"基準(zhǔn)上測的,包括跨平臺數(shù)據(jù)遷移、復(fù)雜退款流程、多條件行程規(guī)劃等場景。測試集由阿里和清華、浙大聯(lián)合構(gòu)建,題目不公開,防止模型針對性過擬合。

對比數(shù)據(jù)來自同一測試集:GPT-4o的完成率是58%,Claude 3.5 Sonnet是52%,Gemini 1.5 Pro是61%。阿里沒有公布這些競品的具體調(diào)用成本,但Qwen3.6-Plus的百萬token定價(jià)是0.8美元,比GPT-4o便宜75%。

成本結(jié)構(gòu)的變化可能比準(zhǔn)確率更關(guān)鍵。Agent要真正落地,不能是"每次任務(wù)燒掉幾美元"的奢侈品。阿里把推理成本壓到接近傳統(tǒng)RAG(檢索增強(qiáng)生成)方案的水平,企業(yè)才有可能把Agent從POC(概念驗(yàn)證)推進(jìn)到全量部署。

誰在偷偷用

開源48小時(shí)后,GitHub倉庫的issue區(qū)已經(jīng)堆滿了奇怪的需求。有人想讓它控制智能家居,有人想接進(jìn)股票交易系統(tǒng),最熱門的討論是怎么讓Agent自動回復(fù)工作郵件——不是寫草稿,是直接點(diǎn)擊發(fā)送。

企業(yè)側(cè)的反饋更務(wù)實(shí)。釘釘內(nèi)部已經(jīng)用Qwen3.6-Plus重構(gòu)了智能客服,復(fù)雜工單的自動解決率從12%提升到39%。菜鳥物流在測試"異常件自主處理"Agent,目標(biāo)是讓70%的快遞延誤投訴不需要人工介入。

一個(gè)被忽視的細(xì)節(jié)是模型的"拒絕率"。當(dāng)任務(wù)超出能力邊界或涉及敏感操作時(shí),Qwen3.6-Plus會明確說"我需要你確認(rèn)"或"這個(gè)我做不到"。在測試集中,它的不當(dāng)操作嘗試率是3.2%,而GPT-4o是7.8%。敢拒絕,比敢答應(yīng)更難造假。

林俊旸在回復(fù)開發(fā)者提問時(shí)補(bǔ)了一句:「我們內(nèi)部有個(gè)指標(biāo)叫"用戶后悔率"——Agent做完任務(wù)后,用戶想撤銷的比例。Qwen3.6-Plus把這個(gè)數(shù)字從上一代的23%壓到了9%。」

開源社區(qū)正在用Qwen3.6-Plus做各種奇怪的嫁接。有人接進(jìn)了Stable Diffusion讓它自主生成配圖,有人綁定了爬蟲工具做實(shí)時(shí)信息監(jiān)控,最極端的案例是一個(gè)獨(dú)立開發(fā)者讓它同時(shí)管理五個(gè)電商平臺的店鋪運(yùn)營——上架、調(diào)價(jià)、回復(fù)咨詢、處理退款,全部自動化。

這種用法觸及了真正的邊界問題。當(dāng)Agent能自主操作資金賬戶、修改商品價(jià)格、代表人類做出商業(yè)承諾,"模型幻覺"就不再是笑話,是法律風(fēng)險(xiǎn)。阿里在協(xié)議里加了一條:涉及資金交易的工具調(diào)用,必須保留人工確認(rèn)環(huán)節(jié),不可關(guān)閉。

但協(xié)議擋不住fork(代碼分叉)。已經(jīng)有開發(fā)者在討論怎么繞過這個(gè)限制,把Qwen3.6-Plus接進(jìn)完全自主的交易系統(tǒng)。技術(shù)一旦開源,邊界就交給使用的人。

Qwen3.6-Plus的發(fā)布時(shí)機(jī)也微妙。OpenAI的Operator還在"即將推出"狀態(tài),谷歌的Project Mariner僅限內(nèi)部測試,Anthropic的Computer Use需要申請白名單。阿里選擇在一個(gè)沒有重磅競品落地的窗口期,把完整方案扔進(jìn)了開源市場。

這不是技術(shù)領(lǐng)先,是節(jié)奏卡位。Agent的競賽規(guī)則正在從"誰的模型更聰明"轉(zhuǎn)向"誰的生態(tài)先跑通"。阿里賭的是,當(dāng)OpenAI終于開放Operator時(shí),開發(fā)者已經(jīng)用Qwen3.6-Plus搭好了業(yè)務(wù)系統(tǒng),切換成本會高到讓人猶豫。

一個(gè)GitHub上的高贊評論問得直接:「如果71%的任務(wù)能自動完成,剩下的29%里有多少是模型真做不到,有多少是我們還沒教會它?」這個(gè)問題沒有官方答案,但阿里放出的技術(shù)報(bào)告里藏了一條線索——失敗案例中,43%是因?yàn)楣ぞ逜PI返回了異常格式,模型不知道怎么處理;31%是任務(wù)描述模糊,人類自己也沒想清楚要什么。

換句話說,Agent的瓶頸正在從"模型不夠聰明"滑向"世界不夠數(shù)字化"。工具接口的標(biāo)準(zhǔn)化、業(yè)務(wù)流程的清晰化、人類需求的明確化,這些臟活累活可能比訓(xùn)練更大的模型更緊迫。

釘釘群里流傳著一張截圖:某個(gè)內(nèi)測用戶讓Qwen3.6-Plus幫忙寫周報(bào),模型不僅調(diào)取了項(xiàng)目文檔和郵件記錄,還主動問了一句"上周你提到的那個(gè)延期風(fēng)險(xiǎn),需要我在周報(bào)里委婉提醒還是直接列出來?"

用戶回復(fù):「委婉點(diǎn),但別讓老板覺得我在甩鍋。」

模型回:「收到。已生成三個(gè)版本,分別對應(yīng)"主動擔(dān)責(zé)""客觀陳述""團(tuán)隊(duì)共擔(dān)"三種風(fēng)格,要看看嗎?」

這個(gè)對話沒有被寫進(jìn)任何官方材料,但截圖的轉(zhuǎn)發(fā)量很高。人們期待的Agent,可能不是能代替人類決策的超級智能,而是一個(gè)懂職場潛規(guī)則、會讀空氣的數(shù)字同事——這種能力,71%的完成率剛好夠到門檻,又剛好留下足夠的失控空間讓人保持警惕。

當(dāng)Agent開始學(xué)會"委婉",你覺得這是情商的進(jìn)步,還是另一種更隱蔽的幻覺?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
440公斤濃縮鈾引爆美伊危機(jī),伊朗導(dǎo)彈產(chǎn)能激增

440公斤濃縮鈾引爆美伊危機(jī),伊朗導(dǎo)彈產(chǎn)能激增

享用人生
2026-04-15 21:19:18
五個(gè)陌生英國人突然收到消息:一個(gè)死在瑞士的神秘裁縫,給你們留了100萬英鎊... 居然不是詐騙?

五個(gè)陌生英國人突然收到消息:一個(gè)死在瑞士的神秘裁縫,給你們留了100萬英鎊... 居然不是詐騙?

英國那些事兒
2026-04-16 23:35:28
黎以停火10天,兩國代表合影轟動中東!被真主黨控制的黎巴嫩為何與以色列談判

黎以停火10天,兩國代表合影轟動中東!被真主黨控制的黎巴嫩為何與以色列談判

紅星新聞
2026-04-17 17:17:23
日本賭中方不會動手,軍艦直接開進(jìn)臺海,解放軍為何仍保持克制?

日本賭中方不會動手,軍艦直接開進(jìn)臺海,解放軍為何仍保持克制?

阿芒娛樂說
2026-04-17 17:49:52
穿了跟沒穿一樣,胸型贊到爆!天然乳膠,性感到讓男人腿軟!

穿了跟沒穿一樣,胸型贊到爆!天然乳膠,性感到讓男人腿軟!

智先生
2026-04-17 21:09:59
4月17日俄烏最新:川普開始打方向盤了

4月17日俄烏最新:川普開始打方向盤了

西樓飲月
2026-04-17 18:46:46
恒大集團(tuán)許家印牽連的7個(gè)女人

恒大集團(tuán)許家印牽連的7個(gè)女人

地產(chǎn)微資訊
2026-04-17 14:12:40
A股科技七巨頭誕生!

A股科技七巨頭誕生!

君臨財(cái)富
2026-04-17 15:29:44
復(fù)雜的黎巴嫩,走投無路的真主黨

復(fù)雜的黎巴嫩,走投無路的真主黨

寰宇大觀察
2026-04-17 17:36:11
北京電影節(jié)開幕式紅毯:高圓圓舒淇好美,高葉造型亮眼,尹正瘦了

北京電影節(jié)開幕式紅毯:高圓圓舒淇好美,高葉造型亮眼,尹正瘦了

八卦先生
2026-04-16 23:19:54
3-0大冷門,中超倒數(shù)第一碾壓中超第3,52歲于根偉率隊(duì)迎首勝

3-0大冷門,中超倒數(shù)第一碾壓中超第3,52歲于根偉率隊(duì)迎首勝

側(cè)身凌空斬
2026-04-17 21:57:54
全國統(tǒng)一標(biāo)準(zhǔn)落地!5月1日起,路邊停車按新規(guī)收費(fèi),不花冤枉錢

全國統(tǒng)一標(biāo)準(zhǔn)落地!5月1日起,路邊停車按新規(guī)收費(fèi),不花冤枉錢

小談食刻美食
2026-04-17 07:26:28
中方行使否決權(quán),新加坡稱感到失望,新國大使:應(yīng)取消一票否決權(quán)

中方行使否決權(quán),新加坡稱感到失望,新國大使:應(yīng)取消一票否決權(quán)

知法而形
2026-04-17 20:43:46
4月起后備箱嚴(yán)查!這3樣?xùn)|西再放就是違法,90%還不知道

4月起后備箱嚴(yán)查!這3樣?xùn)|西再放就是違法,90%還不知道

音樂時(shí)光的娛樂
2026-04-17 13:11:03
銷量激增、份額翻倍!極狐汽車一季度業(yè)績亮眼,加速躋身純電第一梯隊(duì)

銷量激增、份額翻倍!極狐汽車一季度業(yè)績亮眼,加速躋身純電第一梯隊(duì)

AutoBusiness
2026-04-17 15:13:51
零食包裝上寫著“勿忘國恥是每個(gè)中國人的出廠設(shè)置”,廠家回應(yīng):這是老板的情懷,希望傳達(dá)正能量

零食包裝上寫著“勿忘國恥是每個(gè)中國人的出廠設(shè)置”,廠家回應(yīng):這是老板的情懷,希望傳達(dá)正能量

極目新聞
2026-04-17 09:51:27
女子利用天氣預(yù)報(bào)頻繁購買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬,被抓時(shí):我符合保險(xiǎn)理賠要求

女子利用天氣預(yù)報(bào)頻繁購買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬,被抓時(shí):我符合保險(xiǎn)理賠要求

譚老師地理大課堂
2026-04-15 20:11:42
沃爾沃的安全哲學(xué):99年只做一件“難而正確”的事

沃爾沃的安全哲學(xué):99年只做一件“難而正確”的事

AutoBusiness
2026-04-17 16:20:18
剛簽德國大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

剛簽德國大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

泠泠說史
2026-04-17 20:05:32
震驚!面館“免費(fèi)加”被指性暗示,網(wǎng)友:99%的人不知哪有性暗示

震驚!面館“免費(fèi)加”被指性暗示,網(wǎng)友:99%的人不知哪有性暗示

火山詩話
2026-04-17 07:28:41
2026-04-18 00:55:00
我是一個(gè)養(yǎng)蝦人
我是一個(gè)養(yǎng)蝦人
有態(tài)度網(wǎng)友ytd
1505文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

家居
健康
旅游
房產(chǎn)
公開課

家居要聞

法式線條 時(shí)光靜淌

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

用斯皮爾伯格鏡頭,邀請您來諸城春茶開園!來玩!

房產(chǎn)要聞

重磅利好!2500個(gè)學(xué)位,海口濱江片區(qū),要建九年一貫制學(xué)校!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版