无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

國產AI編程沖上全球第二!實測五大模型,誰才是Vibe Coding神器

0
分享至

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗艦模型 Qwen3.7 Max 在編程競技榜拿下第二名,僅次于 Claude Opus 4.7。


5.26 榜單截圖

除了真實場景的用戶選擇,在傳統的大模型固定評測榜單上,像是終端能力 Terminal Bench、編程能力 SWE Bench 等,Qwen3.7 Max 的表現也是拿下了國產模型的冠軍。


雖然現在大模型四年,我們已經對這些排行榜的刷新屢見不鮮,但還是忍不住想要體驗一下,能夠超越 GPT 5.5 的 Qwen 模型,實際能力到底如何。

要知道,現在最火的 Coding Agent 組合,大概就是搭配了 GPT 5.5 的 Codex。

如果我們把 Codex 里面的默認模型修改成 Qwen3.7 Max,再用 Codex 來完成一些日常的任務,會不會比 GPT 5.5 還好用呢。

獲取 Qwen3.7 Max

趁著現在各家都在推出一些 Token 優惠活動,阿里云也提供了 100 萬 Token 的免費使用,可在阿里云百煉平臺使用。


Qwen3.7 Max 的定價,在阿里云官網,目前是限時五折,輸入 6 元/每百萬 tokens,輸出 18 元/每百萬 tokens。新用戶還可以 5 折充值節省計劃,以 10 元每月的價格獲得 20 元的 Token 額度,而 Token Plan 標準檔目前是 198 元/月。


總體來說,根據大模型聚合平臺 OpenRouter 顯示的數據,Qwen3.7 Max 的價格屬于中規中矩的一檔,對比 DeepSeek 的骨折價肯定比不上,但和 Opus 4.7、GPT 5.5 相比還是優惠不少。



我們直接充值了「入門首選」這檔全模型通用抵扣 20 元。但這里需要注意的是,五折優惠僅支持一個套餐,即購買了 10 元的,就不能再購買 50、250 的半價優惠計劃了。


DeepSeek、Claude、GPT、Gemini、Qwen 一起來測試

拿到了 API Key 和百萬免費使用 Token,我們先是在阿里云百煉平臺、以及千問官網,使用 Qwen3.7 Max 做了一些常見的前端網頁設計來測試它的開發能力。

像是比較能直觀的看到差別的物理模擬測試,我們就用一段簡單的提示詞「用 HTML+CSS+JS 做一個模擬液體在容器里晃動的動畫,拖動容器可以改變傾斜角度。」


Qwen3.7-Max,千問官網生成

Qwen3.7 Max 的表現可以說是順利完成了這個模擬挑戰,同時還增加了顏色的自定義、搖晃、液體量調節等功能。

DeepSeek 就比較簡單,但是也沒出錯。


DeepSeek V4,官網生成

GPT-5.5 生成的液體有點奇怪,雖然做到了會隨著角度的切換,流向對應的方向,但是整個波浪很出戲。


GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 生成網頁似乎是有點 Bug,那個瓶子一直會被隱藏到控制面板背后,必須得自己拖出來。但是同樣一句提示詞,它給的自定義東西是真的多,不僅提供了瓶子的類型,還有液體的顏色,各種設置都能自定義。


Gemini 3.5 Flash,官網生成,選擇 Canvas 選項

Claude Opus 4.7 這個瓶子過于簡陋了,而且模擬的液體晃動效果在劇烈狀態下,很像是音波的跳動。


Claude Opus 4.7,使用 Claude Code 應用生成

接著我們嘗試讓它生成一個小游戲試試,雖然游戲的測試已經是去年 Vibe Coding 的常見測試項目了。但這次我們要 AI 做一個六宮格的 2048 游戲,輸入提示詞「做一個可以玩的 2048,但格子是六邊形的?!?/p>

Qwen3.7 Max 生成的頁面還是很好看的,能看到它的參考來源 10 條信息里面,大部分都是來自 CSDN 的 2048 游戲生成教程。

最終的游戲也能玩,但還是偶爾有不按常理出牌的時刻,例如同一方向上,相同數字疊加,沒有疊加在該有的位置。


Qwen3.7 Max,官網生成

DeepSeek V4 的表現和上一輪差不多,但是明明是六邊形,給出的鍵盤控制卻只有 WASD 來滑動。


DeepSeek V4,官網生成

這一輪表現最好的大概就是 Claude 的 Opus 4.7,它真的理解了這個游戲應該怎么設置,格子的移動是符合這個蜂巢的規則,不會讓人感覺找不著北。


Claude Opus 4.7,使用 Claude Code 應用生成

GPT 5.5 依托 Codex 的能力,在生成了游戲之后還能自己打開瀏覽器預覽是否有問題,抓取控制臺的信息來修復項目代碼。最后生成的網頁也很優秀,不過對于監控鼠標在屏幕上的移動方向,還是沒有 Opus 4.7 的表現出色。


GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 則是一如既往地給我加了很多東西。游戲的主題風格它就寫了賽博、暗金和馬卡三種背景,甚至還加上了「內置高品質合音器」。

游玩過程配有原生 Web Audio 生成的復古 8-bit 太空音效(合并、滑動、過關、死亡),體驗感瞬間拉滿。

Gemini 3.5 Flash,官網生成,選擇 Canvas 選項


Gemini 3.5 Flash,官網生成,選擇 Canvas 選項

再回到一些普通網頁的設計上,我們要求它做一個地鐵博物館的網站,輸入的提示詞也只有一句話「設計一個名為地鐵博物館的主題網站,要求沉浸感強?!?/p>

本意上我們希望這些大模型可以盡可能多地羅列不同城市的地鐵信息,世界地鐵的 Logo,以及整個網站的風格應該是藝術性的,有專門的風格和充分的特效來呈現。

先看Qwen3.7 Max,說實話有點難評,把文字豎排放著是很像地鐵列車,但是整個網站給人的感覺是很亂。


Qwen3.7-Max,千問官網生成

而 Gemini 繼續做了很多,聲效再次用上,比較有意思的是,它還做了一個地鐵文創,定制紀念票根生成器。我們可以輸入名字、選擇車站,實時生成一張高顏值、復古風的地鐵紀念乘車票。


上下滑動查看更多內容|Gemini 3.5 Flash,官網生成,選擇 Canvas 選項

DeepSeek 選擇的項目和 Gemini 類似,一樣有票務紀念和駕駛體驗,但是它在最后交付的成果中,似乎并沒有呈現這些功能。


DeepSeek V4,官網生成

GPT 5.5 現在生成的網頁風格很不錯,雖然也有明顯的套用模板,但是整體的設計是在線的,遺憾就是信息量太少了。它似乎沒有理解地鐵博物館應該是一個介紹地鐵信息的網站。


GPT-5.5 超高,使用 Codex 生成

繼續用之前的提示詞像是讓它做一個 macOS/Windows 的操作系統,這次我們輸入「用 HTML 構建一個完整的瀏覽器操作系統?!?/p>

DeepSeek V4 的表現很簡單,同樣簡單的是 Qwen3.7 Max,不過這次 Qwen3.7 Max 額外給了一張不錯的桌面風景圖片。


DeepSeek V4,官網生成


Qwen3.7-Max,千問官網生成

但在這個測試中真正讓我覺得表現不錯的,還是 Gemini 3.5 Flash 和 GPT 5.5。

Gemini 3.5 Flash,官網生成,選擇 Canvas 選項

和 Gemini 3.5 Flash 一樣,GPT 5.5 也對整個 OS 進行了詳細的設計,有專門的風格。

GPT-5.5 超高,使用 Codex 生成

在 Codex 里使用 Qwen3.7 Max

一輪測試下來,好像 Qwen3.7 Max 在通過對話生成小網頁項目的測試表現上,很難說每一次都超越 Gemini、GPT 5.5,但對比前代,我相信是已經有了很大的提升。

我們在千問官網看到有一些給出的代碼案例,像是 3D 地球,食物鏈排序,可視化,個人博客等內容,但是這些網頁項目的提示詞都比較長,而不是像我們所測試的簡單一句話。


在輸入提示詞之后,千問也提供了「優化指令」的選項

我們把 3D 地球這個項目的提示詞也扔給了 DeepSeek V4、Gemini 3.5 Flash,得到的效果幾乎和 Qwen3.7 Max 是一樣的。




這意味著提示詞在當前階段,對能否發揮 Qwen3.7 Max 的能力,還是起著相當重要的作用。

而減少用戶優化提示詞壓力的方式,大概就是接入 Agent 產品,利用他們的 Skills 以及 Agents 協作等能力,來發揮模型的真正實力。

按照阿里云官方的教程,我們把 Qwen3.7 Max 成功接入到了 Codex 終端助手里。


不過這里容易出現 BUG,即 Codex 會不斷提醒你「CODEX Missing environment variable」。

按照官方的教程,我們修改完 ~/.codex/config.toml 配置文件之后,還需要修改電腦的環境變量。

即模型的 API KEY 信息是保存在電腦的環境變量(需要查看自己電腦的 Shell 類型,修改對應的環境變量文件,如 .bash_profile 或 .zshrc)中,而不是在 Codex 的 config.toml 配置文件里。


修改完成之后,在終端輸入 Codex,我們就能看到 Qwen3.7 Max,重新打開 Codex App,主界面的模型也會從之前的 GPT-5.5 切換為自定義的 Custom。


用同樣的方法,我們可以把 DeepSeek、MiniMax、Kimi、智譜等模型,都接入到 Codex 中。

前段時間在 GitHub 上有一個前端的 Skill 收獲了兩萬多個 Star,它主打讓 AI 生成的前端界面更好看,這和 Qwen3.7 Max 拿下第二名的榜單任務類似。

我們先安裝這個 Skill 到 Codex 中,然后嘗試結合 Skill 看看是否能有更好的效果。


地址:https://github.com/Leonxlnx/taste-skill

輸入同樣的提示詞,Codex 會自動調用前端設計、頭腦風暴等 Skill 來完成設計的定位和構思,并且嚴格按照 Codex 的流程控制來監控項目生成。


最后,同樣一個模型,在 Codex 里面的表現要比直接在千問官網好上不少。

但是這里還是會容易遇到一個問題

「stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format.」


當模型需要調用專門的工具時,就無法再和模型取得連接。我們在互聯網上找到了相關的問題案例,原因可歸結為「模型部署廠商針對流式輸出格式有問題,不是標準 OpenAI 協議,所以不支持 API 調用,出現 400 報錯?!?/p>

要求 Codex 解釋這個問題時,Codex 也是說模型的問題。

不是你配置錯了,而是 Qwen3.7 Max / 百煉 Responses API 對 Codex agent 工具調用還不夠穩。能對話不代表能穩定跑 Codex,長任務、改代碼、頻繁讀文件時,切回 OpenAI 官方模型會穩定很多。

所以如果你也遇到了這個問題,大概只有等 Qwen 團隊自己去修復,或者重新開一個會話試試。


阿里云官方有出現不同錯誤碼的解決方案指南

去年我們還在說模型即產品,一個足夠好的模型就是一個好產品,現在看來,單靠模型是遠遠不夠的。

記憶、Harness、Agents 編排、驗證、推理的可持續性等等,隨著模型能力的增加,這套架構也在持續擴充,但只有都做好了,我們或許才愿意說「這是一個好模型」。

我們正在招募伙伴

簡歷投遞郵箱 hr@ifanr.com

?? 郵件標題 「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又一起吃他汀猝死!醫生再三勸告:夏季吃他汀的人,要警惕這5點

又一起吃他汀猝死!醫生再三勸告:夏季吃他汀的人,要警惕這5點

路醫生健康科普
2026-06-09 15:37:52
離婚真相曝光僅6個月,前妻高調曝光追求者,撕碎猴哥僅剩體面

離婚真相曝光僅6個月,前妻高調曝光追求者,撕碎猴哥僅剩體面

掛肚逍遙心
2026-06-08 08:17:28
東北林業大學副校長劉守新履新中南林業科技大學黨委副書記

東北林業大學副校長劉守新履新中南林業科技大學黨委副書記

澎湃新聞
2026-06-12 09:02:28
泰國47歲長公主去世,感染支原體細菌引發心肌炎昏迷多年,曾是外界最看好的王位繼承人選

泰國47歲長公主去世,感染支原體細菌引發心肌炎昏迷多年,曾是外界最看好的王位繼承人選

極目新聞
2026-06-12 10:26:17
公狗劇場男色生意經:一群180男人月入10萬,讓女人們瘋狂買單?

公狗劇場男色生意經:一群180男人月入10萬,讓女人們瘋狂買單?

金融八卦女
2026-06-10 13:46:40
品茶:從苦澀到回甘,是茶也是人生

品茶:從苦澀到回甘,是茶也是人生

疾跑的小蝸牛
2026-06-12 20:59:39
馬斯克:特斯拉推送最新版 FSD!

馬斯克:特斯拉推送最新版 FSD!

新浪財經
2026-06-12 13:29:14
剛剛!SpaceX上市,馬斯克財富飆至11710億美元,人類出發火星

剛剛!SpaceX上市,馬斯克財富飆至11710億美元,人類出發火星

雷科技
2026-06-13 01:00:05
美取消已簽波音大豆訂單,188家中企在列

美取消已簽波音大豆訂單,188家中企在列

老塕是個手藝人
2026-06-09 17:37:28
江大畢業生被“包圓”,蘇大學生苦投百份簡歷,專業壁壘碾壓區位紅利?

江大畢業生被“包圓”,蘇大學生苦投百份簡歷,專業壁壘碾壓區位紅利?

牛鍋巴小釩
2026-06-12 20:50:17
實錘!那個為找學位證真相舉報自己的人,證書實為違規取得

實錘!那個為找學位證真相舉報自己的人,證書實為違規取得

聽心堂
2026-06-12 21:26:57
固安房價從300萬跌到45萬,有人停貸,有人開始全款撿漏

固安房價從300萬跌到45萬,有人停貸,有人開始全款撿漏

科學發掘
2026-06-11 15:20:54
最新帶貨王出現了!世界杯同款拉布布銷量暴漲30倍:599元一個還限購

最新帶貨王出現了!世界杯同款拉布布銷量暴漲30倍:599元一個還限購

快科技
2026-06-12 18:02:46
身材沒料還敢脫,42歲謝苗這一身腱子肉,內娛假肌肉男都該學一學

身材沒料還敢脫,42歲謝苗這一身腱子肉,內娛假肌肉男都該學一學

八卦南風
2026-06-12 18:52:05
潘虹真敢穿71歲 還這么時髦這么健壯 和76歲斯琴高娃參加活動一幕

潘虹真敢穿71歲 還這么時髦這么健壯 和76歲斯琴高娃參加活動一幕

可樂談情感
2026-06-13 01:05:02
鬧心!奧迪純電SUV,提車三天“故障頻發”!上海車主7個月報修10次,結果更鬧心

鬧心!奧迪純電SUV,提車三天“故障頻發”!上海車主7個月報修10次,結果更鬧心

新民晚報
2026-06-12 19:26:49
高考剛結束,央視、人民日報接連“點名”張桂梅,句句戳人心窩!

高考剛結束,央視、人民日報接連“點名”張桂梅,句句戳人心窩!

夢醉為紅顏一笑
2026-06-11 16:03:06
碾壓托納利!曼聯 8500 萬鎖定頂級獸腰,曼城 1.2 億豪購被完爆

碾壓托納利!曼聯 8500 萬鎖定頂級獸腰,曼城 1.2 億豪購被完爆

瀾歸序
2026-06-13 06:51:26
強震過后,菲律賓不急救援,先對中國打出兩張牌,中方態度堅決

強震過后,菲律賓不急救援,先對中國打出兩張牌,中方態度堅決

莉莉和奶奶
2026-06-13 05:27:34
特朗普又退縮了,特朗普又贏了 | 京釀館

特朗普又退縮了,特朗普又贏了 | 京釀館

新京報評論
2026-06-12 13:56:47
2026-06-13 07:19:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6479文章數 26848關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

伊美諒解備忘錄草案部分內容披露 涉及撤軍、戰爭賠償等

頭條要聞

伊美諒解備忘錄草案部分內容披露 涉及撤軍、戰爭賠償等

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

教育
時尚
旅游
游戲
公開課

教育要聞

高考出分后,24小時內做好這7件事!

夏天別總穿一身白或一身黑!試試一半彩色、一半基礎色,高級亮眼

旅游要聞

印度有錢人真多酷暑辦理旅游簽證!不是有錢任性,是熱到活不下去

索尼PS國區運營神了!玩?!逗谂邸?我會玩你的游戲

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版