4月3日,全球權威大模型盲測榜單LMArena旗下的Code Arena公布了最新排名。先說結論全球第二是什么水平Code Arena:編程模型的"奧林匹克"全球第二,中國第一與Claude的差距為什么是編程模型編程是AI落地的"黃金場景"阿里的戰略布局價格優勢:2元vs幾百元成本差十倍企業級市場更重要與豆包形成國產AI雙雄兩個賽道,兩個冠軍與國外競爭格局的變化實際體驗如何程序員的反饋適合什么場景對普通人的影響如果你是程序員如果你是開發者團隊負責人如果你是AI從業者理性看待結尾
阿里Qwen3.6-Plus登頂中國最強編程模型,全球排名第二。超越了OpenAI的o3-mini、o1等模型,僅次于Claude。
國產編程模型,終于能跟國際頂尖玩家正面剛了。
阿里千問3.6登頂編程模型榜單,說明國產AI在編程這個核心場景上實現了從"跟跑"到"并跑"的跨越。
5個核心發現:
1. Code Arena全球第二,中國第一
2. 超越OpenAI o3-mini、o1等模型
3. 編程表現接近Claude
4. 價格優勢明顯:2元就能買到百萬級"AI架構師"
5. 權威盲測認證,比廠商跑分更有說服力
適合:程序員、開發者、技術團隊負責人、關注國產AI發展的從業者。
不適合:認為國產AI永遠追不上國外的悲觀派、覺得AI編程是噱頭的保守派。
LMArena是全球最知名的大模型評測平臺。它的特點是盲測:評測者不知道背后是哪個模型,只能根據實際效果打分。
這比廠商自己發布的跑分靠譜多了。沒有作弊空間,全憑實力說話。
Code Arena是LMArena旗下的子榜單,專門評測AI編程能力。評測方式是讓模型寫代碼、debug、解釋代碼,然后由真人程序員打分。
能在Code Arena拿高分,說明這個模型真的能幫程序員解決問題。
Qwen3.6-Plus的成績:
- 全球排名:第二
- 得分:1452分
- 超越:OpenAI的o3-mini、o1等模型
- 僅次于:Claude
這是中國模型在編程能力榜單上的最高排名。
之前國產模型在通用能力上進步很快,但在編程這個專業領域,一直落后于OpenAI和Claude。現在終于追上來了。
我一個做AI產品的朋友說:"編程是AI落地的核心場景之一。能在編程模型上追上Claude,說明國產AI的底層能力真的起來了。"
官方的說法是"編程表現接近全球最強編程模型Claude系列"。
我的理解是:Claude還是第一,但差距已經大幅縮小。在某些場景下,Qwen3.6-Plus可能已經能替代Claude。
考慮到價格差距,這種"接近"已經很有競爭力了。
大廠為什么都在死磕編程模型?
因為程序員是AI工具的完美用戶:
- 技術敏感,愿意嘗試新工具
- 問題明確,代碼要么對要么錯
- 效率提升可以直接量化
- 付費能力強,企業和個人都愿意買單
GitHub Copilot一年收入幾億美元,證明了編程助手這個市場有多大。
誰能做出最好的編程模型,誰就能拿下開發者生態。
阿里在AI上的投入一直很大,但之前更多是在通用大模型上發力。
這次Qwen3.6-Plus在編程能力上的突破,說明阿里找到了差異化競爭的突破口。
不是跟OpenAI拼通用能力,而是在特定場景(編程)上做深做透。
這是聰明的策略。通用大模型很難超越GPT-4,但在細分領域,國產模型完全有機會領先。
Qwen3.6-Plus的最大優勢,除了能力,還有價格。
據媒體報道,Qwen3.6-Plus的價格是"2元就能買到百萬級AI架構師的服務"。
相比之下,Claude的API費用要貴得多。同樣是寫代碼,用Claude一個月可能要幾百塊,用Qwen3.6-Plus可能只要幾十塊。
效果差不多,成本差十倍。
對于個人開發者和小團隊來說,這是很大的吸引力。
個人開發者看價格,企業客戶看效果+成本。
如果Qwen3.6-Plus能在企業級功能(如代碼審查、安全檢測、私有部署)上做得足夠好,很多企業愿意從Copilot或Claude遷移過來。
畢竟,能省90%的成本,還能支持國產,何樂而不為?
我一個在阿里工作的朋友說:"阿里云已經在推Qwen3.6-Plus的企業版了。很多企業客戶聽說價格便宜這么多,都愿意試用。"
前幾天,豆包剛宣布日均Token使用量突破120萬億,全球第三。
今天,阿里千問3.6又登頂中國最強編程模型,全球第二。
國產AI正在多個賽道上同時發力:
- 通用大模型:豆包領先
- 編程模型:阿里千問領先
這不是偶然。說明國產AI的整體實力在提升,不再只是某一個點的突破。
全球AI競爭格局正在發生變化:
- 美國:OpenAI、Anthropic、Google三強爭霸
- 中國:阿里、字節、百度、智譜等多強并起
- 差距在縮小,某些領域已經并跑甚至領先
對于用戶來說,這是好事。有更多的選擇,價格也會被壓下來。
我收集了一些程序員試用Qwen3.6-Plus的反饋:
優點:
- 中文理解好,變量命名和注釋更符合中國程序員習慣
- 代碼生成速度快,響應及時
- 價格便宜,用起來不心疼
缺點:
- 復雜邏輯的處理還不如Claude
- 某些前沿技術理解不夠深入
- 與IDE的集成還不如Copilot成熟
總體來說:日常開發夠用了,復雜項目可能還得用Claude。
根據目前的反饋,Qwen3.6-Plus適合:
- 寫常規的業務代碼
- 寫單元測試
- 代碼解釋和注釋
- 簡單的debug
不太適合:
- 架構設計
- 復雜算法
- 前沿技術調研
但這已經覆蓋了程序員日常工作的很大一部分。
多了一個選擇。如果之前用Copilot或Claude覺得貴,可以試試Qwen3.6-Plus。
建議:先試用免費額度,看看效果是否滿足需求。如果日常開發夠用,可以省不少錢。
可以考慮團隊遷移到Qwen3.6-Plus。成本降低90%,對預算緊張的小團隊來說很有吸引力。
但要注意:先小范圍試用,確保能滿足團隊的實際需求。
阿里千問3.6的突破說明,國產AI在細分領域完全有機會領先。
不是非要跟OpenAI拼通用能力,找到自己的差異化優勢更重要。
Qwen3.6-Plus登頂編程模型榜單,是個好消息。但也要理性看待:
是盲測榜單,不是實際落地
榜單成績好,不代表實際使用中一定好。代碼生成是復雜任務,實際效果還要看具體場景。
Claude還是第一
全球第二固然可喜,但第一是Claude。在某些復雜場景下,Claude可能還是更好。
生態差距仍然存在
GitHub Copilot有微軟的生態支持,Claude有Anthropic的技術積累。Qwen3.6-Plus要追趕的不只是模型能力,還有生態。
建議的做法:
- 先試用,看實際效果
- 小范圍驗證,再決定是否大規模采用
- 關注后續迭代,國產模型的進步速度通常很快
阿里千問3.6登頂中國最強編程模型,是國產AI的又一個里程碑。
從通用大模型到編程模型,國產AI正在多個賽道上同時突破。
這不僅是技術的進步,更是信心的提升。
以前我們總覺得國產AI比國外差一截,現在看來,差距正在快速縮小。在某些領域,國產AI已經能跟國際頂尖玩家正面競爭了。
Claude不再是編程模型的唯一答案。國產AI,也能寫代碼。
你怎么看阿里千問3.6的表現?歡迎在評論區聊聊你的觀點。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.