階躍星辰
今天,階躍星辰開(kāi)源了他們的新模型:Step 3.7 Flash,支持視覺(jué)理解,為 Agent 工作進(jìn)行了全面優(yōu)化,MoE 架構(gòu),196B 總參數(shù),11B 激活
https://github.com/stepfun-ai/Step-3.7-Flash
除多模態(tài)外,在我看來(lái),這模型還有一個(gè)優(yōu)勢(shì):快至 400 token/s
我自己測(cè)試了下,有 300+ token/s,感受一下
我自己的實(shí)錄,感受一下速度
這個(gè)速度,應(yīng)是最快的常規(guī)模型了
在生成內(nèi)容的時(shí)候,這個(gè)模型的輸出速度能到 400 TPS 左右,大概是....當(dāng)你讀完這句話(huà)的時(shí)候,這篇文章就生成完了(啊不是...這篇文章是手敲的,不是生成的...)
這個(gè)速度大致上也符合我對(duì) Flash 模型的理解:在一目十行掃過(guò)上一頁(yè)內(nèi)容的時(shí)候,下一頁(yè)已經(jīng)生成了
下面,讓我們先看一下跑分,然后再聊聊模型本身的特點(diǎn)
BenchMark
模型跑分可以先看下面這個(gè)圖,Step 3.7 Flash 對(duì)比于 3.5 Flash、DeepSeek V4 Flash,以及海外御三家(Gemini、GPT、Claude)
![]()
Step 3.7 Flash Bench
簡(jiǎn)而言之:
對(duì)比海外御兩家,算了,反正大家都還有一些差距....誒....御兩家??
對(duì)比 DeepSeek,部分 bench 里有所勝出;
對(duì)比上一代模型,大幅提升
在速度 bench 上... 遙遙領(lǐng)先(aa 榜單最快的是 gpt-5.3,100+)
幾個(gè) case
這里給大家看幾個(gè) demo,我覺(jué)得創(chuàng)造了一種叫做 *Realtime-UI 的范式,因?yàn)樽銐蚩欤钥梢砸詫?shí)時(shí)的方式,在你的屏幕上渲染出各種交互界面,并與你交互
*你可能對(duì) Realtime-UI 的這個(gè)概念不熟,沒(méi)關(guān)系,這是我瞎編的
這些東西都是同時(shí)基于【Agent 能力構(gòu)建】和【視覺(jué)理解能力處理】,并且在【高 TPS】下才能做到的,再度劃重點(diǎn):高 TPS:
畫(huà)面實(shí)時(shí)解讀先看第一個(gè)例子,通過(guò) flash-3.7 來(lái)進(jìn)行多模態(tài)信息的實(shí)時(shí)理解
上傳一張飛機(jī)駕駛艙的照片后,鼠標(biāo)指向過(guò)去,模型就在【秒級(jí)以?xún)?nèi)】快速的識(shí)別區(qū)域內(nèi)的物品,并給出具體的細(xì)致講解;由于生成速度確實(shí)很不錯(cuò),還可以通過(guò) function call 的方式,在非常短的時(shí)間里生成交互框,做出來(lái)一種 Realtime UI 的感覺(jué)
Pinterest 設(shè)計(jì)分析我們也可以把同一套視覺(jué)能力,搬到瀏覽網(wǎng)頁(yè)的場(chǎng)景里
在 Pinterest 的瀑布流里里,鼠標(biāo)停在哪張圖上,底部就可以實(shí)時(shí)彈出交互框,對(duì)那張海報(bào)的構(gòu)圖、字體和視覺(jué)概念進(jìn)行解讀,做到完全與操作進(jìn)行同步
Blender 三維軟件除了圖片、網(wǎng)頁(yè)之外,這玩意兒也可以對(duì)復(fù)雜軟件的界面進(jìn)行理解
以 blender 為例(這真算相當(dāng)復(fù)雜了),鼠標(biāo)移動(dòng)到哪,就能識(shí)別出嘗盡力的面板和對(duì)象信息,并順著指令告訴你接下來(lái)應(yīng)該怎么操作
其實(shí)我真覺(jué)得...這玩意兒應(yīng)該做成一個(gè)給家里老人用的工具,很多時(shí)候我需要遠(yuǎn)程給他們操作電腦,如果有了這個(gè)就會(huì)方便很多(甚至最好我在遠(yuǎn)程給他們說(shuō):點(diǎn)這個(gè),然后家里的電腦要被點(diǎn)擊的地方酒亮一下)
發(fā)票批量處理發(fā)票這個(gè)場(chǎng)景就太值得一提了
記賬的時(shí)候,把各種票據(jù)丟進(jìn)去,模型可以通過(guò) fucntion call 的方式,快速抽取到商戶(hù)、類(lèi)別、金額、稅額...等等各類(lèi)信息,然后做成表格
智能體集群在實(shí)際業(yè)務(wù)過(guò)程中,這些能力還可以影分身著來(lái)用
比如生成 40 個(gè)不同身份的 agent,讓他們進(jìn)行投票...誒...巧了不是,今天 claude code 新出了動(dòng)態(tài)工作流,是不是可以搭配著用上:
快速搭知識(shí)圖譜既然這么快,那么搭建一個(gè)圖譜,也即是幾秒鐘的事兒
給一個(gè)主題,比如「大語(yǔ)言模型」,模型就能幾秒鐘內(nèi),快速鋪開(kāi)一張概念圖,節(jié)點(diǎn)連成網(wǎng)絡(luò),從基礎(chǔ)定義一路連到 Transformer 架構(gòu)
模型特點(diǎn)
在我看來(lái),Step 3.7 Flash 這個(gè)模型的兩大核心優(yōu)勢(shì):多模態(tài)理解 + 快
要知道,同級(jí)別的開(kāi)源模型,大多開(kāi)源模型,不具備多模態(tài)能力
還要知道,在非特別的推理加速下,絕絕絕絕大多數(shù)的模型,推理速度在 100 tps(tokens/s) 以下,主流則在 30 tps 左右
![]()
上面這個(gè)是 AA 的速度天梯,此前最快的是 gpt-5.3
Step 3.7 Flash 在支持多模態(tài)的前提下,把速度拉到了 400 tps,也不知道是上了什么神奇魔法
我去看了下文檔,這個(gè)里面的圖片&視頻理解是原生支持的,并且在推理過(guò)程中還可以使用一個(gè)叫 Visual Python Tool的工具,對(duì)于看不清楚的地方,模型會(huì)自主對(duì)圖片做 crop、zoom、re-read...換句話(huà)說(shuō),看不清就放大再看一遍,看完有疑問(wèn)就去搜,盡可能的準(zhǔn)確、高效的把事情搞定
同樣的,搜索也是用這種方法進(jìn)行循環(huán):搜玩了如果覺(jué)得信息不夠,那就再搜、再推,belike...
![]()
至于其他信息,這個(gè)模型的默認(rèn)上下文是 256K,支持推理強(qiáng)度的手動(dòng)調(diào)節(jié):low / medium / high,可以根據(jù)需求,具體的更改參數(shù)
多少錢(qián)
這個(gè)模型可以自己部署,也可以通過(guò)官方平臺(tái)或者第三方 MaaS 進(jìn)行調(diào)用,價(jià)格如下:
輸入 · 緩存命中 0.27 元
輸入 · 緩存未命中 1.35 元
輸出 8.1 元
Agent 場(chǎng)景下,緩存命中還是很高的
單看這個(gè)價(jià)格,是稍高于 DeepSeek v4 Flash的(輸入1元/輸出2元),但如果橫比一下支持多模態(tài)的高速模型,那就很有優(yōu)勢(shì)了
然后這個(gè)模型也可以在海外平臺(tái)調(diào)用,按美元計(jì)價(jià),輸入命中 $0.04、未命中 $0.20、輸出 $1.15 每百萬(wàn) token
模型使用
step-3.7-flash 同時(shí)兼容兩套協(xié)議:OpenAI 家的,以及 Anthropic 家的
也可以直接用 Anthropic SDK,魔改下 endpoint 來(lái)用。在 Coding 和 Agent 工具上,對(duì) Claude Code、OpenClaw、Cline、Roo Code、Kilo Code、Open Code 也都是支持的
這個(gè)模型今天上線(xiàn),支持的 MaaS 包括:階躍官方平臺(tái)(國(guó)內(nèi) platform.stepfun.com,海外 platform.stepfun.ai)、OpenRouter、NVIDIA NIM;而 DeepInfra、Fireworks、Modal 也在接入中,很快就上了
![]()
https://platform.stepfun.com/docs/zh/guides/models/step-3.7-flash
當(dāng)然,作為開(kāi)源模型,你也可以自己跑:196B/A11B,算一下的話(huà)反正 128G 的機(jī)器量化著能跑
在 HuggingFace 上,放了 BF16、FP8、NVFP4、GGUF 四種權(quán)重,豐儉由人,vLLM、SGLang、Hugging Face Transformers、llama.cpp 均以支持
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.