網易首頁 > 網易號 > 正文 申請入駐

實測Qwen3.6-27B:4分鐘做了個跑酷游戲,驗證碼識別正確率超90%

0
分享至


智東西
編譯 楊京麗
編輯 陳駿達

智東西4月23日報道,昨晚,阿里通義千問團隊宣布開源Qwen3.6-27B——一款270億參數的稠密多模態模型,支持思考與非思考模式。

與阿里上一代開源模型Qwen3.5-397B-A17B相比,Qwen3.6-27B以1/15的參數規模,在SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0以及SkillsBench上實現了反超,其編程能力提升明顯,同時還具備較強的文本和多模態推理能力。

與相似尺寸的Gemma 4-31B模型對比,Qwen3.6-27B在大部分維度上,展現出較大領先優勢。


隨著Qwen3.6-27B的發布,阿里稱Qwen3.6系列已完整發布,包括開源模型Qwen3.6-35B-A3B和閉源模型Qwen3.6-Plus、Qwen3.6-Max-Preview。

阿里云百煉平臺上,現在已經可以看到Qwen3.6-27B的價格,每百萬Token輸入價格3元,輸出價格18元。由于Qwen3.6-27B是稠密模型,價格并不便宜。


Qwen3.6-27B現已上線Qwen Studio,并以開源權重形式發布于Hugging Face和ModelScope,阿里云百煉API即將上線,屆時將支持preserve_thinking功能以適配智能體任務。該模型也可接入OpenClaw、Claude Code、Qwen Code等主流第三方編程助手。


體驗地址:
https://chat.qwen.ai/

開源地址:
https://huggingface.co/Qwen/Qwen3.6-27B
https://modelscope.cn/models/Qwen/Qwen3.6-27B

一、編程能力:界面美觀、功能完備,復雜需求一次到位

官方對比了Qwen3.6-27B和Qwen3.5-397B-A17B,在編程基準上,Qwen3.6-27B在多方面領先:SWE-bench Verified(77.2 vs. 76.2)、SWE-bench Pro(53.5 vs. 50.9)、Terminal-Bench 2.0(59.3 vs. 52.5)以及SkillsBench(48.2 vs. 30.0)。在推理任務上,Qwen3.6-27B 在GPQA Diamond上取得了87.8的成績,略次于Qwen3.5-397B-A17B的88.4。


為直觀驗證Qwen3.6-27B編程能力,智東西進行了如下的幾個測試。

首先,我們先讓它做了一個跑酷小游戲,測試其編程和前端能力,要求滿足角色動作、關卡要素、道具系統、UI設計等多維度約束。


它用時四分鐘左右,寫完了1200多行代碼。從實測結果來看,游戲設計與前端實現上,Qwen3.6-27B基本還原了提示詞中列舉的全部核心要素:玩家的跳躍、二段跳等均已實現,添加了無人機、針刺等障礙物,能量電池、金幣、磁鐵等均可拾取。美術風格符合設定,UI層完整展示了血量、分數、速度、距離等指標,游戲可玩性強


細節層面仍存在一些小問題,針刺懸浮在天上有點怪;吃到電池后,沒有能量條顯示;撞到箱子,就自動過去了,沒有扣除血量。

另外,我們還讓Qwen3.6-27B制作了個人記賬應用,考察的是模型應用開發能力和對閉環設計的理解,包括統計邏輯怎么算、數據怎么持久化、異常輸入怎么攔截,比寫一個靜態頁面要復雜得多。


在應用開發上,Qwen3.6-27B的表現相對穩健。生成的應用完整實現了記錄的增刪改查、按月份篩選、總收入/總支出/結余的統計以及近7天收支趨勢圖表,刷新頁面后數據沒有丟失,說明localStorage持久化已正確實現。

唯一的小Bug是刷新頁面后,7日收支柱狀圖一度不顯示,再記一筆賬后恢復,屬于“初始渲染時機”問題。模型在異步狀態初始化的順序上,沒處理到位。從界面上看,這個記賬應用視覺設計較為簡約,是一套偏實用向的標準控件組合。業務邏輯維度上,它把一個日常工具該有的數據流、統計邏輯與異常處理都串起來了,對于應用開發全流程的理解比較清晰。

之后,我們還讓它做了個新聞網站前端設計,看起來還是有模有樣的。


Qwen3.6-27B自行規劃,分了科技、財經、體育、娛樂、健康五大板塊,設有國內新聞和國際新聞,界面右側,還展示了熱門排行、標簽、北京的天氣,甚至把商業化都想好了,留出了廣告的位置。界面條理清晰,內容完整,可視化效果好,模型對“一個新聞網站長什么樣”有較為成熟的認知。

二、多模態能力:識別驗證碼、找不同,通通拿下

作為原生多模態模型,Qwen3.6-27B支持視覺語言思考與非思考模式,可處理圖像、視頻與文本的聯合理解,覆蓋視覺推理、文檔理解、視覺問答等場景,能力基本上與Qwen3.5-397B-A17B想當。


針對多模態能力,我們也對Qwen3.6-27B進行了測試,首先讓它識別了下面這幾個驗證碼。


可以看到,它較為清楚的判斷出了絕大多數驗證碼,只有第八個0AIs,他把s認成了6,其他都判斷的比較準確,同時也注明了自己不確定的部分。這種帶置信度反饋的識別方式,對后續的自動化校驗鏈路更友好,下游系統可以基于置信度決定是否自動通過。


展開思考過程,我們可以看到它多次確認圖8的驗證碼0AIs,最后一位它在b和6之間反復糾結,被旁邊字母干擾,在錯誤的道路上越走越遠了,而正確答案s自始至終沒有進入過它的候選集。

這樣看下來,Qwen3.6-27B的圖像識別和推理能力還是過關的,得到相對模糊的反饋后,還需進行人工驗證。

另外,我們還讓Qwen3.6-27B進行了“找不同”測試,讓它看看左右兩張圖有什么區別。


Qwen3.6-27B識別出了5處差異,不同難度的不同點都注意到了:鳥窩、打開的書、燈籠、顏色差異,還有墻上的掛飾,這個我自己一開始都沒注意到。


值得注意的是,它的思考過程非常簡單,簡單比對就完成了分析,而且描述也很清晰,展示出模型的較強的視覺識別與推理能力

結語:阿里開源戰略漸趨聚焦,27B模型瞄準開發者核心需求

Qwen3.6系列的發布,折射出阿里在開源策略的轉向。此前,阿里曾開源從幾十億參數量到數千億參數量的各種模型,但本次Qwen3.6系列僅開源了小尺寸MoE模型和稠密模型,體現出其開源戰略的聚焦。

此類小模型面向開發者、研究者及小團隊,可以直接本地部署,或在其基礎上做進一步研究和微調。Qwen3.6-27B恰好卡在了這個需求的中心位置。

開源社區對這一尺寸的模型呼聲很高;從實際價值看,27B的稠密模型也更能滿足開發者對部署靈活性和可控性的現實要求。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
新款豐田卡羅拉渲染圖:運動感全面升級

新款豐田卡羅拉渲染圖:運動感全面升級

味健的汽車
2026-04-23 09:30:08
戰海牛,申花逃過紅牌!足協臨陣換裁判,讓爭議判罰背后疑云重重

戰海牛,申花逃過紅牌!足協臨陣換裁判,讓爭議判罰背后疑云重重

體壇鑒春秋
2026-04-23 17:47:58
翻車了!山東泰山鐵了心要換馬德魯加,球迷:早該動手了!

翻車了!山東泰山鐵了心要換馬德魯加,球迷:早該動手了!

生活新鮮市
2026-04-23 18:16:46
回暖!上海明日陽光回歸,周一直沖 28℃

回暖!上海明日陽光回歸,周一直沖 28℃

魯中晨報
2026-04-23 20:28:51
趕緊給菲律賓送油送糧送化肥

趕緊給菲律賓送油送糧送化肥

安安說
2026-04-23 11:44:51
濕氣不除,越積越毒!1個祛濕高招,無濕一身輕,脾胃氣血跑起來

濕氣不除,越積越毒!1個祛濕高招,無濕一身輕,脾胃氣血跑起來

LULU生活家
2026-04-22 19:07:11
經歷三次離婚后我才懂:所有夫妻關系破裂,都源于這三個原因

經歷三次離婚后我才懂:所有夫妻關系破裂,都源于這三個原因

千秋文化
2026-03-01 22:12:24
季后賽大變天!誕生5組1-1,3組2-0!真能奪冠的球隊,就這兩支了

季后賽大變天!誕生5組1-1,3組2-0!真能奪冠的球隊,就這兩支了

籃球掃地僧
2026-04-23 20:51:31
警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

田先生籃球
2026-04-23 10:07:58
艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
知乎高贊帖!為什么女兒反應這么強烈?

知乎高贊帖!為什么女兒反應這么強烈?

丫頭舫
2026-04-23 10:17:08
巴薩天塌了!亞馬爾罰點球拉傷肌肉:賽季報銷休5周 或影響世界杯

巴薩天塌了!亞馬爾罰點球拉傷肌肉:賽季報銷休5周 或影響世界杯

風過鄉
2026-04-23 06:22:05
毛主席曾預言:這兩個國家將來對中國最大威脅,如今果然應驗

毛主席曾預言:這兩個國家將來對中國最大威脅,如今果然應驗

鍋鍋愛歷史
2026-03-27 10:28:43
就差1秒!特朗普欲發射核武器,軍方強行攔截,拒絕為總統扣扳機

就差1秒!特朗普欲發射核武器,軍方強行攔截,拒絕為總統扣扳機

諦聽骨語本尊
2026-04-23 15:14:03
不可思議!現在的大學校園里有個很明顯的現象:男女生根本不談戀愛

不可思議!現在的大學校園里有個很明顯的現象:男女生根本不談戀愛

市井大實話
2026-04-23 09:24:57
前瞻:丁俊暉與趙心童對攻是下策,需亂局和障礙球讓對手掉進陷阱

前瞻:丁俊暉與趙心童對攻是下策,需亂局和障礙球讓對手掉進陷阱

楊華評論
2026-04-23 19:50:42
普洱市人民醫院18名護士長集體涉案:是全員貪腐還是有人被迫背鍋

普洱市人民醫院18名護士長集體涉案:是全員貪腐還是有人被迫背鍋

天天熱點見聞
2026-04-23 12:13:06
官方回應女子腳踹保安被反扇 “公安部門介入已經立案” 律師解讀保安行為是否屬于正當防衛

官方回應女子腳踹保安被反扇 “公安部門介入已經立案” 律師解讀保安行為是否屬于正當防衛

閃電新聞
2026-04-22 22:53:15
千萬養蝦人的終極夢想!全球首個「養蝦本」帶你懶人養蝦開箱即食

千萬養蝦人的終極夢想!全球首個「養蝦本」帶你懶人養蝦開箱即食

機器之心Pro
2026-04-22 11:49:22
栽得一點不冤!華晨宇撫仙湖演唱會被叫停,百億身家也救不了他

栽得一點不冤!華晨宇撫仙湖演唱會被叫停,百億身家也救不了他

草莓解說體育
2026-04-23 18:22:58
2026-04-23 21:35:02
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11676文章數 117037關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

特朗普"狂怒"稱滅掉了伊朗軍隊 美國官員:不 并沒有

頭條要聞

特朗普"狂怒"稱滅掉了伊朗軍隊 美國官員:不 并沒有

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

藝術
旅游
數碼
教育
公開課

藝術要聞

她辭掉高管,花20年自費100萬:這本書,救了山西“正在消失的壁畫”

旅游要聞

渝見遵義!遵義文旅在重慶“一會一節”發出“清涼邀請函”

數碼要聞

銘凡M1 Lite-125U迷你主機發售,2119元起

教育要聞

藏不住了!海淀這所名校附中憑啥成為“大贏家”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版