无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

階躍發布Step 3.7 Flash:一款為「燒錢時代」準備的Agent模型

0
分享至



編輯|楊文、冷貓

今年 3 月份,奧特曼公開表示:

「我們看到這樣一個未來:智能將成為一種公用事業,就像電力或自來水一樣,人們會按表從我們這里購買它?!?/p>



https://x.com/Vivek4real_/status/2059058179955380493?s=20

這個未來來得比預想更快,也比預想更貴。

米哈游員工為了沖項目,搭了幾十個 Agent,一晚上燒掉 200 萬元 token。



https://x.com/wayen_ai/status/2058786389009854868?s=20

Uber 四個月燒光了 2026 年全年 AI 預算,微軟財大氣粗也扛不住 token 消耗,直接把 Claude Code 權限砍了。

就連英偉達副總裁都直言:「我們團隊用 AI 的花費比請真人還貴?,F在 AI 的成本已經超過人類員工了?!?/p>



https://x.com/Vivek4real_/status/2058607634182537496?s=20

這背后有其結構性原因。

真實的 Agent 工作流和普通對話式任務不同,模型進入生產環境后,一個 Agent 任務動輒觸發數十次模型調用,搜索、工具調用、代碼執行、結果驗證…… 每一輪都在累積延遲,token 消耗呈指數級增長。

開發者的實踐已經驗證,在選擇 Agent 核心模型時,任務場景、響應速度和成本,與工具調用能力同等重要。盲目追求大參數量,在工程上并不可取

于是今年以來,Flash 模型集中爆發。

Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 頭部廠商幾乎同步押注輕量高效路線。

但在這場輕量模型競賽中,很多廠商的思路是削減參數、壓縮成本、犧牲部分能力。階躍星辰則不同,它不把 Flash 模型當旗艦平替,而是專門為 Agent 工作流重新設計一款模型。

繼 Step 3.5 Flash 后,階躍星辰最近又推出新一代高效率 Flash 開源模型 ——Step 3.7 Flash

該模型最大特點就是(模)、(速)、(用)、(錢)。總參數 196B,采用稀疏 MoE 架構,推理激活參數僅 11B,配備 1.88B ViT 視覺編碼器,推理速度最高 400 TPS,支持 256K 上下文。

作為一款面向真實 Agent 工作流設計的高效率模型,它具備原生多模態理解能力,并打通了搜索、工具調用、GUI 感知、代碼生成等完整 Agent Loop 執行能力。

從 benchmark 來看,Step 3.7 Flash 沒有明顯短板。在通用 Agent 能力上,ClawEval-1.1 以 67.1% 拿下參測模型第二,Toolathlon、GPDval、HLE w. Tool 三項也均處于領先梯隊;Agentic Coding 方向,SWE-PRO 達到 56.3、Terminal-Bench v2.1 達到 59.5;多模態方向則是 SimpleVQA(search)以 79.2 位居榜首,V*(python)以 95.3 排在第三。



柱狀圖中左一為 Step 3.7 Flash、左二為 Step 3.5 Flash(Multimodal 除外)

接下來,我們就將 Step 3.7 Flash 放進真實的工作場景測評下。

原生多模態:它能「看懂」任務現場嗎?

先來試試原生多模態能力。

為了壓縮成本削減參數,有些輕量模型最先被犧牲的往往是多模態能力。

而在真實任務里,大量輸入根本不是干凈的結構化文本,還包括 GUI 截圖、掃描文檔、網頁內容,Agent 要進入這些場景,視覺理解是繞不開的前提。

Step 3.7 Flash 新增多模圖像理解、識別、推理、感知,可處理復雜視覺信息,并在跨模態上下文中進行聯合推理。

比如讓它分析 Pinterest 界面帖子的設計特點,它不僅能識別 UI 元素,還能理解應用界面的內容結構、設計邏輯與信息組織方式。



再比如框選駕駛艙界面,讓它生成起飛操作說明。

模型需要同時識別大量專業儀表、按鈕與狀態信息,并理解「如何起飛」背后的操作邏輯,什么時候推油門、何時收起起落架等。

相比傳統多模態模型的描述畫面, Step 3.7 Flash 完成的是「環境感知 → 狀態理解 → 任務推理 → 操作指導」的完整閉環。



在處理視覺任務時,常規做法是把大量視覺常識和感知能力硬塞進模型權重,但對 11B 激活量級的 Flash 模型來說,這條路天然受限。階躍選擇在權重里只留最核心的推理引擎,把感知邊界推到推理階段動態解決。

具體而言,模型可在推理中途自主對圖像進行裁切、縮放和重讀,告別「一眼定生死」的單步感知局限,當任務超出自身視覺常識邊界時,還能主動發起檢索、交叉驗證?!钢匦驴础购汀溉ゲ樽C」在同一個推理循環內自主閉環,能力上限不再受任何單點工具約束。

Deep Research:快速檢索,結構化交付

在 Deep Research 測評中,我們讓 Step 3.7 Flash 圍繞「2026 年第一季度中國新能源汽車市場」這一主題,檢索 3-5 個高可信度來源,對比比亞迪、特斯拉、理想、小鵬四個品牌的市場表現,生成一份結構化調研簡報。

模型快速完成檢索和信息整合,從銷量數據、價格區間、主要優缺點以及購車建議等方面進行結構化輸出。



在 Step 3.7 Flash 的工作方式里,搜索真正進入了推理循環本身,不再是外掛的輔助工具。

它能在推理中途主動判斷「當前信息是否足夠」,不足則自主發起新一輪檢索,檢索回來再判斷是否可信,再決定下一步怎么做。這種「搜 - 理解 - 再搜 - 驗證 - 再推理」的循環,讓模型在任務執行過程中能持續錨定真實世界的信息。

多 Agent 并行:400 TPS 能承載多少并發?

下面這個場景則是多個 Agent 并行推理測試。

40 個不同身份的虛擬角色扮演產品評測團,對一個產品問題進行并行判斷,然后實時匯總它們對 5 個 MVP 方向的偏好。

這群虛擬專家可以同時分析,分工執行,最終給出更穩健、更可解釋的結果。



對于需要大量并發推理的 Agent 場景,模型推理速度直接決定整個工作流能跑多快、能承載多少并行任務。

此外,模型還能依托精準推理能力和豐富知識儲備,快速構建結構清晰、關聯明確的知識圖譜。



GUI 操控:從「理解界面」到「操作設備」

Step 3.7 Flash 在 GUI 理解能力不僅限于多模態識別和規劃,作為一個基座模型,已經具備實時操作設備的能力。

我們找來一臺安卓測試機,不做任何額外的模型微調或本地推理配置,直接以 Step 3.7 Flash 作為決策大腦,看它在真實手機上能做到什么程度。

注:本次測試采用小米手機,使用小米互聯服務「妙享桌面」同步至電腦錄屏,敏感信息馬賽克處理。

第一關:信息匯總。模型順利完成,基本流暢:

「幫我看看微博文娛熱搜上有哪些內容,總結一下給我」。



視頻開啟倍速

第二關:出行規劃。任務涉及多個條件判斷和跨 App 操作:

我明天早上 9 點要到「北京國貿大廈」開會。幫我查一下明天早上的天氣, 如果下雨就幫我叫一個網約車(不用真的下單,截圖到確認頁面即可),如果不下雨就查一下地鐵路線。打車和查線路均使用百度地圖。最后,把天氣情況、出行方案和預計出發時間整理成文字輸入到筆記中。



視頻開啟倍速

Step 3.7 Flash 在復雜邏輯的 GUI 操作中表現游刃有余,甚至能理解地圖導航中查看地鐵線路的細節,最終成功從多個 App 采集信息,整理進備忘錄。

第三關:社媒 + 電商跨平臺任務

我想了解一下最近新出的降噪耳機。幫我在小紅書上搜「2026 降噪耳機推薦」,找 3 篇點贊超過 300 的筆記,提取每篇推薦的型號、價格區間和博主提到的優缺點,找到最合適的一款幫我在京東購買。



視頻開啟倍速

社交媒體內容多樣、電商平臺 UI 結構復雜、邏輯判斷難度高,但最終結果超出預期,全程只有電商平臺的安全驗證環節需要真人配合操作,其余一切流暢執行。

Agent 時代,Flash 模型不是旗艦版平替

過去,Flash 模型常被視為旗艦模型的「輕量替代品」,用在不那么重要的場景,或作為成本兜底選項。

這個認知正在被打破。

隨著推理、規劃、工具調用、長上下文和環境反饋能力持續增強,模型越來越多地承擔起任務拆解、工具選擇、執行反饋和結果修正等 Agent 核心環節。

Flash 模型由此成了專為高頻、多步驟、低延遲的 Agent 工作流優化的獨立品類。

當然,這里有一個關鍵前提,Flash 模型必須足夠「能干」,否則省下來的成本會以任務失敗率的代價償還回去。如何在壓縮推理成本的同時,不丟掉完成復雜任務的能力,才是 Flash 模型賽道真正的技術分水嶺。

階躍星辰正是沿著這條路線突破的。今年 2 月,Step 3.5 Flash 上線,主打在 Agent 場景實現「更快、更強、更穩」的執行效果,上線兩天登頂 OpenRouter Trending 榜,一個月后拿下 OpenClaw 調用量月榜全球第一。

在此基礎上,Step 3.7 Flash 進一步迭代,兼顧更多能力的協同效率,并在成本、穩定性與部署形態上進一步滿足長期運行的要求。

這正是 Agent 工作流的本質要求。拿著有限預算跑完整條任務鏈,誰能在每一步調用中少犯錯、少超時、少超支,誰才是生產環境的真正贏家。在這個維度上,最好的模型未必是單次推理能力最強的,但一定是能被持續調用、穩定運行、成本可控的

正如階躍星辰聯合創始人、CTO 朱亦博所言:「我們相信未來的大模型應用方式,不是一個超大尺寸的模型解決所有問題。人類社會有不同的任務,我們追求的是許多不同模型的矩陣,Agent 是解決任務的方式?!?/p>

而 Step 3.7 Flash 證明,Flash 模型不是旗艦的廉價替代品,它可以有自己的完整能力矩陣,「多快好省」地成為 Agent 時代的主力。

文中視頻鏈接:https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
徹底涼透!湖北割四賠五后續!政府出手也沒用,大批麥客集體繞道

徹底涼透!湖北割四賠五后續!政府出手也沒用,大批麥客集體繞道

歷來縱橫
2026-05-28 17:07:51
精準調倉!段永平單日暴賺近10億

精準調倉!段永平單日暴賺近10億

格隆匯
2026-05-29 17:32:12
環塔拉力賽一臺賽車發生意外,車手不幸離世

環塔拉力賽一臺賽車發生意外,車手不幸離世

界面新聞
2026-05-29 18:27:25
中方有三艘護衛艦,圍堵荷蘭一艘護衛艦,殲16戰機帶實彈參與驅離

中方有三艘護衛艦,圍堵荷蘭一艘護衛艦,殲16戰機帶實彈參與驅離

國平視野
2026-05-29 15:54:56
北京致謝全體市民!

北京致謝全體市民!

環球網資訊
2026-05-29 12:08:16
襄陽割四賠五糾紛結局!訛人大媽被兩次約談,向農機手退款并道歉

襄陽割四賠五糾紛結局!訛人大媽被兩次約談,向農機手退款并道歉

垛垛糖
2026-05-29 12:19:10
奇恥大辱!女子因醋意大發,將用過的衛生巾塞閨蜜嘴里,被索20萬

奇恥大辱!女子因醋意大發,將用過的衛生巾塞閨蜜嘴里,被索20萬

火山詩話
2026-05-29 17:38:23
1.2萬億順差創百年紀錄,張燕生卻警告:再賺下去,中國要有麻煩

1.2萬億順差創百年紀錄,張燕生卻警告:再賺下去,中國要有麻煩

趣文說娛
2026-05-29 20:13:52
37歲企業董事長、車手張秀軍環塔拉力賽中意外離世,弟弟發聲:哥哥開車翻到水坑里溺亡,三個年幼孩子尚不知父親遇難

37歲企業董事長、車手張秀軍環塔拉力賽中意外離世,弟弟發聲:哥哥開車翻到水坑里溺亡,三個年幼孩子尚不知父親遇難

極目新聞
2026-05-29 21:53:30
日韓股市雙雙創收盤歷史新高

日韓股市雙雙創收盤歷史新高

財聯社
2026-05-29 14:48:18
徐正源4戰海港全勝!遼寧鐵人三連勝,14天不敗,連刷4紀錄

徐正源4戰海港全勝!遼寧鐵人三連勝,14天不敗,連刷4紀錄

奧拜爾
2026-05-29 21:38:14
穆罕默德·奧達,“上任即被斬首”

穆罕默德·奧達,“上任即被斬首”

中國新聞周刊
2026-05-29 16:57:49
非必要不做CT?醫生強調:只要做過CT,患者一定多加關注這4點!

非必要不做CT?醫生強調:只要做過CT,患者一定多加關注這4點!

垚垚分享健康
2026-05-29 11:10:14
偷走網紅狗后續:村民圍堵狗主,派人守村口,偷狗人真容曝光社死

偷走網紅狗后續:村民圍堵狗主,派人守村口,偷狗人真容曝光社死

奇思妙想草葉君
2026-05-28 19:17:55
比亞迪,殺瘋了

比亞迪,殺瘋了

星海情報局
2026-05-28 20:58:54
賽力斯高管談特斯拉FSD入華:FSD模擬的是人類視覺駕駛邏輯 華為乾崑智駕超越人眼

賽力斯高管談特斯拉FSD入華:FSD模擬的是人類視覺駕駛邏輯 華為乾崑智駕超越人眼

快科技
2026-05-29 15:40:07
特朗普在白宮內閣會議給所有人發了一頂帽子,上面寫著 250

特朗普在白宮內閣會議給所有人發了一頂帽子,上面寫著 250

西游日記
2026-05-28 14:14:40
CBA官方罰單:布朗踹通道門罰2萬 上海因主場球迷干擾罰球罰1萬

CBA官方罰單:布朗踹通道門罰2萬 上海因主場球迷干擾罰球罰1萬

醉臥浮生
2026-05-29 20:23:51
杭州女子征婚:不要彩禮,能提供5分鐘夫妻生活,每月給男人3000

杭州女子征婚:不要彩禮,能提供5分鐘夫妻生活,每月給男人3000

譚談社會
2026-05-28 18:34:27
因金色毛發酷似特朗普,孟加拉國一頭白化水牛走紅,將被送往動物園免于被宰

因金色毛發酷似特朗普,孟加拉國一頭白化水牛走紅,將被送往動物園免于被宰

都市快報橙柿互動
2026-05-28 16:52:33
2026-05-29 22:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13115文章數 142655關注度
往期回顧 全部

科技要聞

Claude Opus 4.8凌晨突發上線

頭條要聞

疑第三方幫拉客宣傳"存1萬返100還報銷路費" 銀行回應

頭條要聞

疑第三方幫拉客宣傳"存1萬返100還報銷路費" 銀行回應

體育要聞

即使是文班亞馬,也做不到這件事

娛樂要聞

奚夢瑤何猷君將于6月在法國舉行婚禮

財經要聞

馬云密友"錢多多",深陷"殺豬盤"質疑

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

健康
家居
教育
游戲
軍事航空

嘗試干細胞療法如何避免踩坑?

家居要聞

云棲 舒展如流云

教育要聞

噓!中高考來了,全城禁噪聲

前任天堂主機獨占上線PS5!官方慶祝還更新

軍事要聞

中方公布參加香會陣容 幾大議題受到關注

無障礙瀏覽 進入關懷版