之前我都是力大磚飛,
直接兩個Pro賬號接Agent上就不考慮額度了,但架不住Agent多啊,到周五周六就周限額了,好吧其實是因為我覺得慢給Codex上了1.5倍速硬生生吃2.5倍積分消耗。所以這段時間在嘗試把Hermes里的輔助模型換個更快的。
![]()
所以當我看到階躍星辰開源了他們新模型,Step 3.7 Flash,
原生多模態,速度來到了400token/s(標準版的GPT5.5 API是42到72token/s),MoE(專家混合模型)架構,總參數196B激活11B,默認上下文是256k,三檔推理強度調節,是光看一輪參數就想要上手測試一把的程度。
免得說我欺負人家GPT,我還特意做了一個Codex經常用到的案例,就是雙command判斷目前屏幕發生了什么。
![]()
從紙面實力上看,
這個快模型沒有因為速度犧牲性能。
![]()
我直接學某包用最直白的方式說明白,
比起上一代3.5 flash是有全面提升,在ClawEval-1.1(通用 Agent ),SWE-Bench Pro(真實編程),HLE with Tool(高難知識推理)比DeepSeek V4 Flash和Gemini 3.5 Flash高,可以看到它的定位更多是一個針對Agent類任務調優過的快模型。
在終端/命令行任務,復雜編碼,工具綜合能力也在追GPT-5.5和Claude Opus 4.7了,
至于傳統的API價差的環節我就直接上圖了,
![]()
那接下來輪到我跟錢包一拍即合,把三種情況一次性對比明白,
![]()
開局先來一個根據截圖拆解品牌風格,然后把這個風格應用在另一個領域上的case,
![]()
基于截圖和 ai-news-radar Skill,直接生成一個原創的 AI 日報 / AI 選題雷達品牌網頁。
任務要求:
直接分析截圖的視覺語言。
生成原創的AI日報/ AI 選題雷達品牌網頁,品牌名自選。
產物必須是一個可直接打開的單文件 HTML。
寫完后簡短回復,輸出文件路徑,從截圖借鑒了哪些視覺元素。
如果無法寫入文件,在回復中輸出完整 HTML,并用清晰的
BEGIN_HTML / END_HTML包裹。
GPT5.5,
![]()
三個版本都抓到了原圖里那套極簡黑白的氣質,大留白、超大字號、黑色膠囊按鈕,這些基本都沒跑偏。
純GPT-5.5那個版本,我覺得SVG是三個里面最穩的,雷達這個意象也更像一個真正的品牌符號。它的問題也很GPT,慢,而且做前端的時候有時候會把自己的思考過程、解釋性內容一起塞進HTML里,后面還要我再清一遍。
GPT 5.5 + step 3.7 flash,
![]()
GPT-5.5加Step 3.7 Flash這個版本,中文產品感反而更舒服。標題有主次,Logo更像手機里會出現的入口,還用了日歷去表達「今天」這個概念。
Step 3.7 Flash,
![]()
純Step 3.7 Flash夸張的是速度。
GPT-5.5花了4分鐘把初版跑出來,它用了36秒就把完整的HTML寫完了。
接著我又測了一種現在很常見的主頁玩法。很多AI產品會把首屏Hero的提示詞直接放出來,背景是生成好的視頻或者動畫。我們可以先讓模型讀這個首屏,再順著同一套風格往下生成子模塊。
![]()
提示語原文太長,我這里直接翻成人話。
這類提示詞一般會先把頁面的視覺底座釘死,比如字體用什么,背景視頻是什么,桌面端和移動端的首屏怎么擺,Hero里有哪些文案和按鈕。
然后就是技術邊界。
比如只能用React、ReactDOM、Tailwind CSS、Vite,不允許額外加UI庫,也不要臨時引入一堆看起來很高級但項目里根本沒用到的依賴。
一回生二回熟,我們這次照樣看看他們的速度,以及在執行的過程中,哪個遵守約束是最穩定的。
GPT5.5,
![]()
沒想到這把純GPT-5.5有點拉了。
第一輪跑下來,背景視頻還沒有露出來,還是在第二輪的時候修好的,如果說整體的設計有什么我喜歡的點,就是因為它把模塊作為背景。所以其實我們在下面滑動這些模塊的時候,都能夠看到電腦人。
GPT 5.5 + step 3.7 flash,
![]()
GPT-5.5加Step 3.7 Flash這組,過程中用到了不允許的React插件,但它很快反應過來,自己刪掉了。
把Hero模塊生成之后,我就讓他沿用延續同一套風格,把首屏下面的幾個模塊做出來。
做完之后我甚至懷疑自己是不是打開錯頁面了。
因為一直很固執的GPT-5.5,
在Step 3.7 Flash參與之后,模塊響應和色彩輪換居然有一點Claude那種味道了。
Step 3.7 Flash,
![]()
純Step 3.7 Flash還是最快,152秒左右完成,不過依賴沒那么干凈,打字機那里出現了Gad...undefined這種文本bug。
不過從設計上來說,我還是蠻喜歡它這種條紋類的,給我一種眼前一新的感覺,因為它用到更多豐富的色彩。
第三個Case,我換成PPT。
現在我們可以用一個帶Deep Research思路的提示語,再接一個HTML PPT Skill,直接生成一份信息密度比較高、還能帶演講模式的說明式PPT。
用KKKKhazix/khazix-skills里的hv-analysis做聯網分析和LearnPrompt/humanize-ppt做一個帶演講模式的中文PPT,主題是Codex入門教程
純GPT5.5,
![]()
從視覺上看,純GPT-5.5整體風格都有在hold住,但中間有一頁突然用了橙色字體一出來。
GPT 5.5 + step 3.7 flash,
![]()
GPT-5.5加Step 3.7 Flash這個版本,內容組織更積極,抓到的資料源也更多。但它在章節大標題頁上有點掉模板,章節頁面會單剩一個文字塊。
Step 3.7 Flash,
![]()
純Step 3.7 Flash還是speed speed speed,
提示語發出去沒多久,整個頁面就已經有了。
它還把原來藍色主題里那種星星點陣,跟黑色底色混在一起,做出了一套不太一樣的主題。
再看內容和資料引用,
GPT-5.5加Step 3.7 Flash抓的源最多,然后是GPT-5.5,再就是Step 3.7 Flash。
只能說原生多模態是真的爽,
提示語發出去沒多久整個頁面就都有了,
如果它能把這些高頻,重復,低風險但非常吃token的任務完整跑完,
那它對Agent工作流的價值,
可能比一句國產模型能上Claude Code還好用。
因為Agent每次對話都不只調用一次模型。
它可能一次任務里調用十幾次、幾十次,甚至更多。單次快一點,放到完整工作流里,體感差距會被放大。
尤其是Hermes這種起標題,上下文壓縮摘要,輕量分類這種后臺任務。
如果每個中間動作都用最貴的Pro模型跑,
省心是省心了,
一次對話十幾分鐘真的是有點等不下去。
這里回收一下副標題,
把Step 3.7 Flash接在閃電說里面,
識別的速度非常快,進度條就沒卡過。
![]()
如果把這些新出的模型,不止是Step 3.7 flash,
作為一個輔助模型先跑起來,
試錯成本也低很多。
我從Claude切到GPT的時候就非常不順手,
也是先手動把一些任務拆開,把放心交給GPT做都先丟過去。
不像把API,賬號登陸Codex只能二選一,
我們完全可以給一個長期運轉的Agent自由搭配不同的模型,
比起之前要測幾十萬token,
確認新模型能不能取代慣用模型的緊張感,
我還是更喜歡現在的松弛感。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
如果你有更有趣的玩法,歡迎在評論區聊聊
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.