无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

任務成本僅為Claude Opus 4.6 1/9,階躍刷新Flash模型效率

0
分享至

1492 年,哥倫布駛向大西洋深處。遠洋航行當然需要速度,但真正決定船隊能否抵達彼岸的,是淡水、食物、船體、桅桿和帆索能否撐過漫長風暴。改寫跨洋貿易的,正是這種并不浪漫的工程邏輯。

后來,荷蘭人設計出「福祿特」商船:造價更低、船員更少、貨艙更大,能在大西洋航線上穩定往返。遠洋航行由此從冒險家的孤勇,變成一門可復制、可計算、可擴張的生意。


今天的 AI 模型競爭,也走到了類似的十字路口。

過去,人們談模型,習慣談參數、榜單和峰值能力,但 APPSO 在使用 Claude Code、Codex 這類 coding agent 之后,明顯感覺到當 AI Agent 開始走向生產環境,真正在乎的問題變得有些不一樣了:能不能持續處理高頻請求,能不能穩定調用工具,能不能理解復雜界面,能不能嵌入企業既有流程并長期運轉。

這些問題的答案,往往不在跑分榜單里。

最近,階躍星辰正式發布并開源 Step 3.7 Flash。作為面向生產級 Agent 的新一代 Flash 模型,它主要服務 Agent、Coding、Search 與多模態工作流。

它出現的時機,恰好踩在這個路口上。生產級 Agent 要的早就不只是快和便宜,更重要的是夠可靠、夠好用、夠容易部署,還能在真實工作流里一天天產出結果。

Flash 模型,不再是旗艦的平替

過去,Flash 模型常被當成旗艦模型的輕量版,賣點無非就是快和便宜。但當 Agent 成為工作流的核心,Flash 模型的角色就變了。

如果模型在多輪任務中容易偏離目標,無論是企業還是個人都很難放心采用。相反,一個模型若能在速度、成本、工具調用、多模態理解和生態兼容之間取得平衡,才有機會成為 Agent 系統真正可依賴的基礎能力。

某種意義上,Agent 時代要的 Flash 模型,已經從「更快的小模型」升級成了「生產效率最高的基座模型」。

它既要夠得著旗艦模型的能力上限,又要扛得住大規模 Agent 調用的效率壓力。Step 3.7 Flash 的定位,正是后者——新一代 Agentic 基座模型。


而生產級 Agent 的第一道門檻,是理解真實工作環境。

大量 Agent 任務分布在復雜界面、辦公文檔、圖表系統、瀏覽器頁面、專業軟件和內部工具之間。只擅長文本問答的 Agent,很難真正處理這些任務。

Step 3.7 Flash 重點強化的,正是原生多模態理解與執行能力。它可以理解 UI、圖表、文檔、圖片和應用界面,也可以在復雜視覺問題中自主裁剪、放大、重讀圖像。遇到信息不確定的情況,模型還能主動發起搜索,并對文本和圖像信息進行交叉驗證。

這里有個反直覺的設計思路。對一個 11B 激活的 Flash 模型來說,把海量視覺知識硬塞進權重是不劃算的。階躍反其道而行:權重里只留最核心的推理引擎,把感知邊界和世界知識外推到推理階段,靠極快的速度,用「多看幾眼、多查幾遍」去換「參數本來不夠用」的那部分能力。

低延遲和高吞吐,到這里就不只是部署時的優勢,直接變成了能力本身的一部分,巧妙且機智。比如在這個駕駛艙操作的演示中,用戶只輸入「如何起飛」,模型就會自動框選駕駛艙區域,識別儀表、按鈕和關鍵操作信息,理解當前界面的操作邏輯,并生成分步驟教程。


這里的重點不止在于它能識別一張駕駛艙圖片,更關鍵的是,它能把一個密集、陌生、強依賴上下文的視覺環境,轉換成一個人可以照著做的任務指引。

能看懂,和能教你動手,難度系數完全不一樣。

我們還把 Step 3.7 Flash 接入了一套手機 GUI Agent 流程,并用一臺 vivo 手機完成演示。

手機通過 USB 連接 Mac,打開 ADB 調試授權后,終端就可以獲取手機當前截圖,并通過 scrcpy 同步顯示手機畫面。隨后,腳本把這張截圖發送給 Step 3.7 Flash,讓模型判斷屏幕里正在發生什么。

比如我們讓 Step 3.7 Flash 看了一眼手機里的微信讀書熱搜榜。它不只是把頁面上的字讀出來,還能理解榜單結構:哪些是書名,哪些是封面,當前排名是多少,有多少人在讀,推薦值又對應哪本書。

這類能力的意義在于,Agent 面對的是真實 App,而不是整理干凈的截圖。它要先看懂頁面,才有可能繼續幫用戶找書、比對熱度、整理榜單,甚至執行下一步操作。


我們又把它放到美團小判官這樣的頁面里,讓它處理一條商家申訴場景。頁面里同時有用戶評價、圖片證據、商戶回復,以及「用戶更有理」「商家更有理」這樣的處理按鈕。

對模型來說,這已經不是簡單的 OCR,它是在理解一段業務流程:誰在投訴、爭議點是什么、證據是什么、平臺接下來允許做什么。多模態 Agent 要進入真實工作流,遇到的往往就是這種混合了文本、圖片、判斷和操作入口的界面。


換到 Blender 場景里,用戶輸入「怎么刪除這個方塊」,模型會識別 Blender 的界面結構、圖層、工具欄和當前編輯狀態,再給出刪除指定方塊的操作步驟。


再看應用界面設計分析。當用戶要求模型說明「這些設計有什么有趣之處」,模型會識別不同圖片中的信息內容,理解設計元素之間的關系,并生成專業分析。


Step 3.7 Flash 另一項關鍵能力,是聯網與視覺搜索增強。

Agent 在真實業務里碰到的問題,往往牽扯動態信息、外部資料、多源證據,還有一堆殘缺的輸入。模型要是只啃自己肚子里那點知識,時效性和準確性上很容易翻車。

「瑞石樓」這個演示就很典型。模型先從用戶上傳的圖片里讀出可見的線索,圍繞這些線索生成檢索詞,用網頁抓取工具去外面查資料,最后把圖里的視覺信息和網上的文字信息拼成一個完整回答。


搜索到這里,已經不是返回一串網頁鏈接那么簡單,模型是圍著任務目標,主動去找、去篩、去對、去組織證據。這正是 Search Agent 和 Research Agent 真正需要的干活方式。

官方提到,Step 3.7 Flash 在 SimpleVQA Search、V* (Python) 等復雜視覺任務 Benchmark 上,展現出接近更大規模旗艦模型的表現。這也意味著模型能夠在信息不充分的情況下繼續推進任務,并減少未經驗證的回答。


讓 40 個 Agent 同時開工,這才是大模型下場干活的正確姿勢

Agent 與普通聊天機器人的區別,在于調用密度更高。

一次普通問答往往只有一輪交互,而 Agent 完成任務時,需要反復觀察環境、調用工具和讀取結果。Coding Agent 要讀代碼、改文件、運行命令;Search Agent 要檢索、核對和整理信息;辦公 Agent 要處理表格、文檔和郵件。

調用次數一旦大幅增加,模型速度和成本就會成為系統級問題。

Step 3.7 Flash 采用稀疏 MoE 架構,總參數為 196B 加 1.8B ViT,激活參數僅 11B,最高生成速度可達 400 Tokens/s。對于高頻 Agent、Coding Agent、Search Agent、多模態 Agent 和企業知識工作 Agent,這意味著同樣時間內可以完成更多輪觀察、調用和推理。

比如,Step 3.7 Flash 可以構建 Agent 集群,讓 40 個不同身份的虛擬 persona 扮演產品評測團,對一個產品問題進行并行判斷,并實時匯總它們對 5 個 MVP 方向的偏好。


批量跑 Agent 的價值,就在這里了。

過去一個模型做一次分析,成本和延遲都還能忍??梢坏┢髽I同時跑幾十個 Agent,分別扮演用戶、專家、銷售、產品、運營、客服,吞吐能力立馬成了前提。速度不夠,反饋就慢;價格太高,規?;緹o法成立。

類似地,Agent 并行實時構建大型知識圖譜,同樣屬于高頻、多步驟任務。模型價值不僅體現在生成速度,更體現在單位時間內完成更多觀察、檢索和推理。


再看信息整理。我丟給它一句「我要寫一篇自動駕駛的綜述,分頭去查技術路線、政策法規、市場格局、代表公司四個方向」。

這類任務看似只是匯總資料,實際運行時會觸發多輪搜索、來源核對、內容歸類和結構化輸出。任務鏈條越長,調用次數越密,模型吞吐的差距就越容易被放大。


Step 3.7 Flash 給我的直觀感受是快,但快的同時質量沒有打折——從全網搜集四個方向的資料各自歸到對應板塊,技術路線講得清楚,政策法規和市場格局的信息也分得開,沒有出現把不同方向揉成一團的情況,結構化輸出該有的層級都在。


值得一提的是,Step 3.7 Flash 完成任務的性價比極高,尤其是對 Agent 這種高頻任務形態更友好。

一次 Agent 任務往往包含拆解、檢索、讀網頁、調工具、比對結果和整理輸出,調用次數遠高于普通問答。單次成本差異,放到完整任務鏈里會被迅速放大。

官方數據顯示,開啟 Advisor Mode 后,Step 3.7 Flash 的編程能力達到 Claude Opus 4.6 的 97%,但每個任務成本大約只有后者的九分之一。


也正因為如此,Step 3.7 Flash 的價值不能只用「快」來概括。放到 Agent 工作負載里看,它同時解決了三件事:高吞吐減少等待,更低任務成本支撐規?;\行,接近頭部模型的編程能力則讓它有機會進入真實工作流,承擔持續、復雜的任務。

此外,Agent 要進入生產系統,關鍵還在于穩定調用工具。Step 3.7 Flash 在高可靠工具調用與編排上做了優化。官方稱,它可以在長程多輪 Agent 工作流中穩定調用 API、瀏覽器、終端、Office 工具和外部系統,并保持任務軌跡一致,降低任務偏移和執行失敗的概率。

官方披露了幾組數據。Step 3.7 Flash 在考察多工具協同的 Toolathlon 上達到 49.5%,在考察真實環境下日常自主任務執行的 ClawEval 1.1 上達到 67.1%,在橫跨 44 種職業任務的 GDPval 上達到 45.8%。在 τ2-bench Telecom 的低、中、高三檔推理難度下,通過率均超過 98%。

當然,Agent 生產化還有一個容易被低估的條件:模型必須適配工作流。模型通常被放進一套 harness 里,周圍有提示詞模板、工具協議、瀏覽器環境、文件系統、代碼執行器、評測集、權限系統和業務流程。

對此,Step 3.7 Flash 針對 Claude Code、Kilo Code、Roo Code、OpenCode、Hermes Agent、OpenClaw 等主流 Coding 和 Agent 工具做了兼容優化,也面向 MCP、Skills 等工具調用協議和開發鏈路進行適配。


開發者因此可以更容易地把模型放進已有 Agent 框架中,而不必重新改造整套流程。對企業來說,適配價值不言而喻:模型越容易進入既有系統,試用和部署周期越短,工程成本越低。

目前,Step 3.7 Flash 已在 Kilo Code、Nous Research、Lemonade 等 Agent 與開發者生態項目中完成接入驗證。階躍星辰也在與 Fireworks AI、DeepInfra、Modal Labs 等 AI 基礎設施與推理平臺推進適配,后續還會接入 OpenRouter、ZenMux 等海外模型聚合與開發者平臺。


https://huggingface.co/stepfun-ai/Step-3.7-Flash

截至目前,官方還提供關于 Step 3.7 Flash 的 Model Page、GitHub、Hugging Face、ModelScope、國內開放平臺 API、海外開放平臺 API、Studio 在線體驗,以及階躍 AI App 入口。

這些入口意味著,它同時面向開發者試用、企業 API 接入和開源生態使用。更重要的是,Step 3.7 Flash 支持云端和本地部署。官方還提供了端側多精度版本,面向個人工作站和本地環境進行優化。

海外開發者的實測反饋,也補上了官方數據之外的視角。有人在本地 MoE 測試中對比 DeepSeek V4 Flash、Step 3.7 Flash 和 Minimax M2.7,Step 3.7 Flash 在 agg@64 下運行速度超越其它模型,達到 2123.13 tok/s;


也有開發者提到,自己用 Gemini 3.5 Flash 寫代碼后,再讓 Step 3.7 Flash 檢查,能找出 7 個以上小 bug 和錯誤。無論是指向本地吞吐,還是指向代碼排錯,都切實地說明 Step 3.7 Flash 已經開始進入真實開發流程,并被開發者當成可以長期使用的生產力工具。

基座模型,就該為 Agent 而生

體驗完 Step 3.7 Flash,APPSO 發現它比起追求某個維度的跑分,更強調工程實用性。

多模態、聯網搜索、工具調用、框架兼容、本地部署、低成本、高吞吐。這些單拎出來都不算新鮮,可它們湊在一起,恰好補上了 Agent 在生產環境里最需要的短板。

這條路徑并不花哨,但很適合 Agent 當前所處的階段。我們過去問一個模型,問的是它夠不夠聰明。可 Agent 時代,真正該問的是另一個問題:這個模型,是為誰設計的。

這兩個提問背后的出發點就不一樣。

一個是模型為人優化,意味著它默認面對的是一個會讀、會等、會自己腦補的人類。你問一句,它答一句,慢幾秒沒關系,偶爾含糊也能靠你補上。

但 Agent 不會,Agent 要在觀察、調用、推理、糾錯的循環里連軸轉,它一天發出的請求,可能比一個人一年說的話還多。它不會替模型打圓場,模型跑偏了,它就跟著跑偏。

為人優化的模型,未必適合 Agent 。這也是為什么 Flash 這個詞,在 Agent 時代有了新的含義。它不再只是旗艦的廉價替身,而要從頭按 Agent 的脾氣重新設計了一遍。

Step 3.7 Flash 這些特點恰好對應了這個邏輯。

原生多模態,是因為 Agent 得先看見任務現場;400 Tokens/s,是因為高頻調用經不起慢;工具調用的穩定性,是因為長程任務斷一環就全斷;harness 適配,是因為模型再強,進不去現成的系統也白搭。

它不是沖著榜單去的,是沖著「Agent 究竟怎么高效、高性價比干活」去的。從 Step 3.5 Flash 到 Step 3.7 Flash,階躍星辰一路強化的,其實都是同一件事:讓模型為 Agent 而生,推動 Agent 進入規?;逃谩?/strong>

這也會成為模型今后一個重要的進化路線,Step 3.7 Flash 也還不是終點。但它讓我們看到了一個變化:評判 Agent 時代的模型,不該只盯著它有多聰明,而要看它愿不愿意把那些瑣碎的工程賬,一筆一筆算明白。

1492 年真正改變世界的,其實不是哥倫布那一次驚險的橫渡,反而是后來那些福祿特商船能一趟趟穩穩地出海、返航、裝貨,然后再出發。冒險家負責抵達彼岸,商船負責讓彼岸變成航線。

模型競爭走到 Agent 這個階段,道理也類似。真正拉開距離的,不只是跑分上的驚艷,更是那些能讓 Agent 反復出發、可靠抵達,并把能力沉淀成航線的模型。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又一起吃他汀猝死!醫生再三勸告:夏季吃他汀的人,要警惕這5點

又一起吃他汀猝死!醫生再三勸告:夏季吃他汀的人,要警惕這5點

路醫生健康科普
2026-06-09 15:37:52
離婚真相曝光僅6個月,前妻高調曝光追求者,撕碎猴哥僅剩體面

離婚真相曝光僅6個月,前妻高調曝光追求者,撕碎猴哥僅剩體面

掛肚逍遙心
2026-06-08 08:17:28
東北林業大學副校長劉守新履新中南林業科技大學黨委副書記

東北林業大學副校長劉守新履新中南林業科技大學黨委副書記

澎湃新聞
2026-06-12 09:02:28
泰國47歲長公主去世,感染支原體細菌引發心肌炎昏迷多年,曾是外界最看好的王位繼承人選

泰國47歲長公主去世,感染支原體細菌引發心肌炎昏迷多年,曾是外界最看好的王位繼承人選

極目新聞
2026-06-12 10:26:17
公狗劇場男色生意經:一群180男人月入10萬,讓女人們瘋狂買單?

公狗劇場男色生意經:一群180男人月入10萬,讓女人們瘋狂買單?

金融八卦女
2026-06-10 13:46:40
品茶:從苦澀到回甘,是茶也是人生

品茶:從苦澀到回甘,是茶也是人生

疾跑的小蝸牛
2026-06-12 20:59:39
馬斯克:特斯拉推送最新版 FSD!

馬斯克:特斯拉推送最新版 FSD!

新浪財經
2026-06-12 13:29:14
剛剛!SpaceX上市,馬斯克財富飆至11710億美元,人類出發火星

剛剛!SpaceX上市,馬斯克財富飆至11710億美元,人類出發火星

雷科技
2026-06-13 01:00:05
美取消已簽波音大豆訂單,188家中企在列

美取消已簽波音大豆訂單,188家中企在列

老塕是個手藝人
2026-06-09 17:37:28
江大畢業生被“包圓”,蘇大學生苦投百份簡歷,專業壁壘碾壓區位紅利?

江大畢業生被“包圓”,蘇大學生苦投百份簡歷,專業壁壘碾壓區位紅利?

牛鍋巴小釩
2026-06-12 20:50:17
實錘!那個為找學位證真相舉報自己的人,證書實為違規取得

實錘!那個為找學位證真相舉報自己的人,證書實為違規取得

聽心堂
2026-06-12 21:26:57
固安房價從300萬跌到45萬,有人停貸,有人開始全款撿漏

固安房價從300萬跌到45萬,有人停貸,有人開始全款撿漏

科學發掘
2026-06-11 15:20:54
最新帶貨王出現了!世界杯同款拉布布銷量暴漲30倍:599元一個還限購

最新帶貨王出現了!世界杯同款拉布布銷量暴漲30倍:599元一個還限購

快科技
2026-06-12 18:02:46
身材沒料還敢脫,42歲謝苗這一身腱子肉,內娛假肌肉男都該學一學

身材沒料還敢脫,42歲謝苗這一身腱子肉,內娛假肌肉男都該學一學

八卦南風
2026-06-12 18:52:05
潘虹真敢穿71歲 還這么時髦這么健壯 和76歲斯琴高娃參加活動一幕

潘虹真敢穿71歲 還這么時髦這么健壯 和76歲斯琴高娃參加活動一幕

可樂談情感
2026-06-13 01:05:02
鬧心!奧迪純電SUV,提車三天“故障頻發”!上海車主7個月報修10次,結果更鬧心

鬧心!奧迪純電SUV,提車三天“故障頻發”!上海車主7個月報修10次,結果更鬧心

新民晚報
2026-06-12 19:26:49
高考剛結束,央視、人民日報接連“點名”張桂梅,句句戳人心窩!

高考剛結束,央視、人民日報接連“點名”張桂梅,句句戳人心窩!

夢醉為紅顏一笑
2026-06-11 16:03:06
碾壓托納利!曼聯 8500 萬鎖定頂級獸腰,曼城 1.2 億豪購被完爆

碾壓托納利!曼聯 8500 萬鎖定頂級獸腰,曼城 1.2 億豪購被完爆

瀾歸序
2026-06-13 06:51:26
強震過后,菲律賓不急救援,先對中國打出兩張牌,中方態度堅決

強震過后,菲律賓不急救援,先對中國打出兩張牌,中方態度堅決

莉莉和奶奶
2026-06-13 05:27:34
特朗普又退縮了,特朗普又贏了 | 京釀館

特朗普又退縮了,特朗普又贏了 | 京釀館

新京報評論
2026-06-12 13:56:47
2026-06-13 07:19:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6479文章數 26848關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

伊美諒解備忘錄草案部分內容披露 涉及撤軍、戰爭賠償等

頭條要聞

伊美諒解備忘錄草案部分內容披露 涉及撤軍、戰爭賠償等

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

藝術
教育
數碼
時尚
軍事航空

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

教育要聞

高考出分后,24小時內做好這7件事!

數碼要聞

英國監管機構警告:亞馬遜、eBay仍在售可能致命的假冒手機充電器

夏天別總穿一身白或一身黑!試試一半彩色、一半基礎色,高級亮眼

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版