網易首頁 > 網易號 > 正文申請入駐

多模態+400token/s，Step 3.7 Flash已經開始像我的Agent副駕了

2026-05-31 17:17:49　來源: 卡爾的AI沃茨

北京舉報

分享至

之前我都是力大磚飛，

直接兩個Pro賬號接Agent上就不考慮額度了，但架不住Agent多啊，到周五周六就周限額了，好吧其實是因為我覺得慢給Codex上了1.5倍速硬生生吃2.5倍積分消耗。所以這段時間在嘗試把Hermes里的輔助模型換個更快的。

所以當我看到階躍星辰開源了他們新模型，Step 3.7 Flash，

原生多模態，速度來到了400token/s（標準版的GPT5.5 API是42到72token/s），MoE（專家混合模型）架構，總參數196B激活11B，默認上下文是256k，三檔推理強度調節，是光看一輪參數就想要上手測試一把的程度。

免得說我欺負人家GPT，我還特意做了一個Codex經常用到的案例，就是雙command判斷目前屏幕發生了什么。

從紙面實力上看，

這個快模型沒有因為速度犧牲性能。

我直接學某包用最直白的方式說明白，

比起上一代3.5 flash是有全面提升，在ClawEval-1.1（通用 Agent ），SWE-Bench Pro（真實編程），HLE with Tool（高難知識推理）比DeepSeek V4 Flash和Gemini 3.5 Flash高，可以看到它的定位更多是一個針對Agent類任務調優過的快模型。

在終端/命令行任務，復雜編碼，工具綜合能力也在追GPT-5.5和Claude Opus 4.7了，

至于傳統的API價差的環節我就直接上圖了，

那接下來輪到我跟錢包一拍即合，把三種情況一次性對比明白，

開局先來一個根據截圖拆解品牌風格，然后把這個風格應用在另一個領域上的case，

基于截圖和 ai-news-radar Skill，直接生成一個原創的 AI 日報 / AI 選題雷達品牌網頁。

任務要求：

直接分析截圖的視覺語言。
生成原創的AI日報/ AI 選題雷達品牌網頁，品牌名自選。
產物必須是一個可直接打開的單文件 HTML。
寫完后簡短回復，輸出文件路徑，從截圖借鑒了哪些視覺元素。
如果無法寫入文件，在回復中輸出完整 HTML，并用清晰的

BEGIN_HTML / END_HTML包裹。

GPT5.5，

三個版本都抓到了原圖里那套極簡黑白的氣質，大留白、超大字號、黑色膠囊按鈕，這些基本都沒跑偏。

純GPT-5.5那個版本，我覺得SVG是三個里面最穩的，雷達這個意象也更像一個真正的品牌符號。它的問題也很GPT，慢，而且做前端的時候有時候會把自己的思考過程、解釋性內容一起塞進HTML里，后面還要我再清一遍。

GPT 5.5 + step 3.7 flash，

GPT-5.5加Step 3.7 Flash這個版本，中文產品感反而更舒服。標題有主次，Logo更像手機里會出現的入口，還用了日歷去表達「今天」這個概念。

Step 3.7 Flash，

純Step 3.7 Flash夸張的是速度。

GPT-5.5花了4分鐘把初版跑出來，它用了36秒就把完整的HTML寫完了。

接著我又測了一種現在很常見的主頁玩法。很多AI產品會把首屏Hero的提示詞直接放出來，背景是生成好的視頻或者動畫。我們可以先讓模型讀這個首屏，再順著同一套風格往下生成子模塊。

提示語原文太長，我這里直接翻成人話。

這類提示詞一般會先把頁面的視覺底座釘死，比如字體用什么，背景視頻是什么，桌面端和移動端的首屏怎么擺，Hero里有哪些文案和按鈕。

然后就是技術邊界。

比如只能用React、ReactDOM、Tailwind CSS、Vite，不允許額外加UI庫，也不要臨時引入一堆看起來很高級但項目里根本沒用到的依賴。

一回生二回熟，我們這次照樣看看他們的速度，以及在執行的過程中，哪個遵守約束是最穩定的。

GPT5.5，

沒想到這把純GPT-5.5有點拉了。

第一輪跑下來，背景視頻還沒有露出來，還是在第二輪的時候修好的，如果說整體的設計有什么我喜歡的點，就是因為它把模塊作為背景。所以其實我們在下面滑動這些模塊的時候，都能夠看到電腦人。

GPT 5.5 + step 3.7 flash，

GPT-5.5加Step 3.7 Flash這組，過程中用到了不允許的React插件，但它很快反應過來，自己刪掉了。

把Hero模塊生成之后，我就讓他沿用延續同一套風格，把首屏下面的幾個模塊做出來。

做完之后我甚至懷疑自己是不是打開錯頁面了。

因為一直很固執的GPT-5.5，

在Step 3.7 Flash參與之后，模塊響應和色彩輪換居然有一點Claude那種味道了。

Step 3.7 Flash，

純Step 3.7 Flash還是最快，152秒左右完成，不過依賴沒那么干凈，打字機那里出現了Gad...undefined這種文本bug。

不過從設計上來說，我還是蠻喜歡它這種條紋類的，給我一種眼前一新的感覺，因為它用到更多豐富的色彩。

第三個Case，我換成PPT。

現在我們可以用一個帶Deep Research思路的提示語，再接一個HTML PPT Skill，直接生成一份信息密度比較高、還能帶演講模式的說明式PPT。

用KKKKhazix/khazix-skills里的hv-analysis做聯網分析和LearnPrompt/humanize-ppt做一個帶演講模式的中文PPT，主題是Codex入門教程

純GPT5.5，

從視覺上看，純GPT-5.5整體風格都有在hold住，但中間有一頁突然用了橙色字體一出來。

GPT 5.5 + step 3.7 flash，

GPT-5.5加Step 3.7 Flash這個版本，內容組織更積極，抓到的資料源也更多。但它在章節大標題頁上有點掉模板，章節頁面會單剩一個文字塊。

Step 3.7 Flash，

純Step 3.7 Flash還是speed speed speed，

提示語發出去沒多久，整個頁面就已經有了。

它還把原來藍色主題里那種星星點陣，跟黑色底色混在一起，做出了一套不太一樣的主題。

再看內容和資料引用，

GPT-5.5加Step 3.7 Flash抓的源最多，然后是GPT-5.5，再就是Step 3.7 Flash。

只能說原生多模態是真的爽，

提示語發出去沒多久整個頁面就都有了，

如果它能把這些高頻，重復，低風險但非常吃token的任務完整跑完，

那它對Agent工作流的價值，

可能比一句國產模型能上Claude Code還好用。

因為Agent每次對話都不只調用一次模型。

它可能一次任務里調用十幾次、幾十次，甚至更多。單次快一點，放到完整工作流里，體感差距會被放大。

尤其是Hermes這種起標題，上下文壓縮摘要，輕量分類這種后臺任務。

如果每個中間動作都用最貴的Pro模型跑，

省心是省心了，

一次對話十幾分鐘真的是有點等不下去。

這里回收一下副標題，

把Step 3.7 Flash接在閃電說里面，

識別的速度非常快，進度條就沒卡過。

如果把這些新出的模型，不止是Step 3.7 flash，

作為一個輔助模型先跑起來，

試錯成本也低很多。

我從Claude切到GPT的時候就非常不順手，

也是先手動把一些任務拆開，把放心交給GPT做都先丟過去。

不像把API，賬號登陸Codex只能二選一，

我們完全可以給一個長期運轉的Agent自由搭配不同的模型，

比起之前要測幾十萬token，

確認新模型能不能取代慣用模型的緊張感，

我還是更喜歡現在的松弛感。

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點贊｜在看｜轉發｜評論

如果想要第一時間收到推送，不妨給我個星標

如果你有更有趣的玩法，歡迎在評論區聊聊

更多的內容正在不斷填坑中……

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.