![]()
作者 | 冬梅
全球權威大模型評測平臺 Artificial Analysis 最新 Output Speed 榜單顯示,階躍星辰(StepFun)最新開源基座模型 Step 3.7 Flash 以409 tokens/s的輸出速度位列主流模型第一,同時在端到端響應時長(End-to-End Response Time)、智能效率(Intelligence vs. Output Speed)與速度價格比(Output Speed vs. Price)等關鍵指標上均處于靠前位置。
![]()
該圖對比模型為 Artificial Analysis 官方默認選項
![]()
該圖為 Step 3.7 Flash 與其他同量級主流 Flash 模型進行對比
![]()
該圖對比模型為 Artificial Analysis 官方默認選項
隨著 Agent 應用逐漸從演示階段走向生產環境,大模型競爭的評價標準也在發生變化。
過去,行業更關注模型在基準測試中的分數,以及數學、代碼、推理等單項能力表現。但在 Agent 場景中,一個任務往往涉及網頁瀏覽、信息檢索、文檔處理、多輪推理、工具調用等多個環節,模型需要在較長時間內持續運行,并與外部系統頻繁交互。此時,決定用戶體驗和部署成本的因素,已經不再只是模型能力本身,還包括響應速度、推理成本、系統吞吐量以及穩定性等工程指標。
換句話說,Agent 時代考驗的不僅是模型能否完成任務,更是完成任務的效率和成本。
從這一角度看,近期發布的 Step 3.7 Flash 更像是一款面向 Agent 場景優化的模型。公開測試數據顯示,其重點并非追求極限能力,而是在模型性能、響應速度和推理成本之間尋求平衡。這類優化方向與當前行業需求高度相關:對于需要高頻調用、長時間運行的 Agent 系統而言,單次推理成本和響應時延往往比個別基準測試成績更直接影響實際落地效果。
事實上,這也是當前全球大模型發展的一個共同趨勢。無論是 OpenAI、Anthropic 還是 Google,近一年來發布的新模型都在強調推理效率、實時交互能力以及 Agent 執行能力,而不僅僅是參數規模或測試集成績。
模型競爭正在從“誰更聰明”逐步轉向“誰能以更低成本完成更多真實任務”。
從社區反饋來看,Step 3.7 Flash 發布后獲得了不少開發者關注,在 x 上,有開發者表示,“這就是為什么對于真正的人工智能產品而言,速度正變得與智能同等重要。對于智能任務而言,速度快、開放、服務成本低且性能稍弱的模型,可能比速度太慢或運行成本太高而無法大規模運行的智能模型更有用。”
![]()
對于中國開源模型生態而言,這類模型的意義或許不在于某一次榜單排名,而在于參與了新一輪 Agent 基礎設施能力的競爭。隨著企業開始部署越來越多具備自主執行能力的 Agent 系統,模型的成本效率、工程可用性以及生態兼容性,正在成為與模型能力同樣重要的指標。
未來決定 Agent 能否大規模落地的,或許不是最強模型,而是能夠在智能、速度和成本之間取得平衡的模型。
https://x.com/ArtificialAnlys/status/2062381047212638697
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.