无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

階躍Step 3.7 Flash實(shí)測:國產(chǎn)開源模型,能不能頂上Claude Code

0
分享至

前天凌晨Anthropic發(fā)了Opus 4.8。模型能力其實(shí)沒見多大長進(jìn),但有兩個跟分?jǐn)?shù)無關(guān)的動作值得留意:一是把自家Fast模式的價格砍到原來的三分之一,二是新增了能一口氣調(diào)起幾十上百個subagent的Dynamic Workflows。

連最前沿的玩家都把勁兒使在「怎么把一大堆a(bǔ)gent又快又穩(wěn)地跑起來」上,而不是單純堆智能。這其實(shí)是個信號:到了生產(chǎn)級的環(huán)境里,「快速、高效地執(zhí)行」正在變成新的勝負(fù)手。

巧的是,同一天階躍星辰也開源了Step 3.7 Flash,主打的正好是這件事:agent效率,在真實(shí)工作流里更快更穩(wěn)地把整條鏈路跑完,開源,還明說能接進(jìn)Claude Code等各種主流agent。我看到的第一反應(yīng)就是:那就拿它來測一測,一個國產(chǎn)開源模型,到底能不能站上這個位置。

我試模型,一般直接上女媧和達(dá)爾文

每次有新模型出來,大家都先看跑分。我倒是養(yǎng)成了另一個習(xí)慣。

我手里有兩個自己寫的skill,一個叫女媧,一個叫達(dá)爾文。女媧在GitHub上攢了兩萬多star,干的事是輸入一個人名,自動深度調(diào)研、提煉思維框架,最后生成一個能跑的人物skill。達(dá)爾文更新,前幾天剛發(fā)布2.0,專門給別的skill打分、提改進(jìn)、改完再打分。

為什么拿這倆當(dāng)試題?不光是因?yàn)樗鼈儭钢亍埂U嬲脑蚴牵?strong>它們里頭都設(shè)了檢查點(diǎn)——該停下來問我的地方。

這件事benchmark測不了。跑分測的是「答得對不對」,測不了「該閉嘴的時候它閉不閉嘴」。而能力不夠的模型最容易翻車的,恰恰就是這個:跑著跑著自己加戲、十幾次工具調(diào)用里掉一次鏈子、本該停下來問我的時候一頭扎過去,把整條鏈路帶溝里。一個模型聰不聰明,看跑分能看出個大概;但它在長任務(wù)里靠不靠譜,只有真的跑一遍才知道

所以拿女媧和達(dá)爾文試,比看十張benchmark表都直接。這次輪到Step 3.7 Flash。

先說這是個什么模型

Step 3.7 Flash是階躍5月底發(fā)布并開源的新一代Flash模型,Apache 2.0協(xié)議,權(quán)重在GitHub、HuggingFace、ModelScope都能下載,也支持本地部署。

它最有意思的設(shè)計,是那個稀疏MoE架構(gòu)。你可以把它想成一個博士天團(tuán)那么大的知識庫,但每次回答只叫醒最相關(guān)的一小隊(duì)專家上場,用不著把所有人都吵醒。所以它體量不小,跑起來又快又輕。最高生成速度能到每秒400個token,上下文256K。更細(xì)的參數(shù)感興趣可以去官網(wǎng)翻,正文就不堆了。

階躍給它的定位很克制,不說自己最聰明,主打的是「agent效率」,在真實(shí)任務(wù)里又快又穩(wěn)地把活從頭跑到尾、中間不掉鏈子。官方放了一組benchmark,我截在這兒,你可以自己看。


它不是樣樣第一,這本來也不是它的目標(biāo)。在SWE-Bench、ClawEval這些agent類基準(zhǔn)上,它拿到的是同體量里相當(dāng)能打的成績。真正的賣點(diǎn)不是分?jǐn)?shù)最高,是用小得多的激活參數(shù)、更快的速度,把這個水平穩(wěn)定地交付出來。

對我來說最關(guān)鍵的是另一件事。階躍官方文檔里明明白白列了一排它能直接接入的工具:Claude Code、OpenClaw、Hermes Agent、Cline、Roo Code、Kilo Code、Open Code。 這就好辦了,我平時這套女媧、達(dá)爾文的工作流底座就是Claude Code,既然官方說能接,我不用專門改造什么,直接把底模換成Step 3.7 Flash就行。成本這塊我也順手記了下,按官方控制臺每百萬token輸入1.35元、輸出8.1元,是Flash該有的水平,不過這次我更關(guān)心的是另一件事——它把活一步不落干完的樣子。


我是怎么試的

先把環(huán)境擺清楚,免得說不清。

底模是step-3.7-flash,通過CCR路由進(jìn)Claude Code,我配了個stepfun命令,敲下去啟動的就是Step 3.7 Flash驅(qū)動的Claude Code,不動我平時的默認(rèn)配置。


聯(lián)網(wǎng)搜索這塊有個小插曲。換了底模之后,Claude Code原生的搜索用不了了(那是另一套服務(wù)端機(jī)制,跟模型本身無關(guān)),我改接了Tavily的MCP,讓模型用普通的工具調(diào)用去搜,實(shí)測能搜到真東西。整個過程模型自己跑,我只在它停下來問我的檢查點(diǎn)上點(diǎn)頭或搖頭,沒替它改過答案。

主菜:女媧造一個AI投資視角

我給女媧的任務(wù)是,蒸餾一個AI領(lǐng)域的投資視角,幫我做投資判斷和技術(shù)理解。

它先跟我確認(rèn)了人選,然后干了件挺重的事,一口氣開了6個子agent并行調(diào)研。每個agent盯一個維度:有的扒著作和系統(tǒng)研究,有的找長訪談,有的研究表達(dá)風(fēng)格,還有的去搜外部批評、決策記錄、最新動態(tài)。

這是第一個考驗(yàn)。6個agent同時在后臺跑,有的5分鐘就回來,有的足足跑了22分鐘。Step 3.7 Flash得一邊等、一邊把這些并行任務(wù)的狀態(tài)都管住,不能把誰的結(jié)果跟誰的搞混,也不能因?yàn)槟硞€慢就崩掉。它穩(wěn)穩(wěn)扛住了。說句實(shí)話,中間有2個調(diào)研agent是重試了一次才成的,但這種程度的retry在長任務(wù)里很正常,它自己處理掉了,沒讓我操心。


等6個agent全回來,它沒有急著往下沖。而是停下來,把調(diào)研質(zhì)量整理成一張摘要,問我:質(zhì)量OK,要不要進(jìn)入下一步提煉框架?

這一下就讓我對它好感倍增。前面說過,這正是能力不夠的模型最容易翻車的地方:該問的不問,自作主張沖過去。它沒有,它老老實(shí)實(shí)停下來等我回了句「可以」才繼續(xù)。

我確認(rèn)之后,它讀完6份調(diào)研,提煉出6個核心思維模型、8條決策啟發(fā)式,加一整套表達(dá)風(fēng)格,一次性生成了一個能跑的人物skill。生成完它還自己啟動了獨(dú)立的評審agent來挑毛病。這點(diǎn)特別對我胃口,因?yàn)槲易约憾ǖ蔫F律就是寫東西的AI不能審自己,它照做了,然后按評審意見補(bǔ)了觸發(fā)詞、事實(shí)核查這些細(xì)節(jié)。

調(diào)研、提煉、生成、自評、改進(jìn),一整套Agent loop從頭到尾跑通了。

這就是「agent效率」想說的事

跑完女媧,我對「agent效率」這個詞有了具體的體會。

我試過的模型常有兩種毛病。一種偷懶:任務(wù)一復(fù)雜,它就懶得一步步走,直接蹦個結(jié)果給你,中間該做的調(diào)研、該調(diào)的工具全跳過,看著快,其實(shí)是糊弄。另一種正相反,太勤勞,像個害羞的做題家,一頭扎進(jìn)去埋頭苦干,卻不懂在該停的地方停下來跟我匯報、跟我確認(rèn),等你回過神,它已經(jīng)按自己的理解跑出老遠(yuǎn)。一個偷工減料,一個過猶不及,兩種都挺影響實(shí)際好不好用。

Step 3.7 Flash兩頭都沒沾:該走的全程一步?jīng)]省,該停下來問我的地方又老老實(shí)實(shí)停住。它要的不是某項(xiàng)分?jǐn)?shù)最高,是既不偷懶、也不擅自做主。 這跟「智商」關(guān)系不大,跟「靠譜」關(guān)系很大。而靠譜,才是agent能不能真正干活的分水嶺。

彩蛋:拿剛發(fā)布的達(dá)爾文2.0再壓一道

女媧跑完我有點(diǎn)意猶未盡,順手又上了達(dá)爾文。

得交代下背景。達(dá)爾文2.0是我前陣子剛發(fā)布的大升級,吸收了微軟研究院同期掛出的兩篇skill優(yōu)化論文。整套機(jī)制比1.0重了不少:每一輪要啟動兩個互相獨(dú)立的評委agent打分、改完必須驗(yàn)證分?jǐn)?shù)真漲了才接受、不漲就自動回滾、關(guān)鍵節(jié)點(diǎn)還設(shè)了強(qiáng)制暫停等我確認(rèn)的卡口。這套機(jī)制對模型和工具的編排能力,要求比女媧還高。

正因?yàn)橐蟾撸盟?dāng)壓力測試最合適。我讓Step 3.7 Flash用達(dá)爾文去優(yōu)化我另一個寫脫口秀的skill。

它跑得有模有樣:先建了git分支,設(shè)計測試用例,跑一輪基線評分,定位出最弱的一維是「檢查點(diǎn)設(shè)計」。然后開始一輪一輪地改,每輪都老老實(shí)實(shí)重新啟動兩個全新的獨(dú)立評委來盲評,改完就commit一次。改到后面漲幅收窄,早停機(jī)制觸發(fā),它自己停了手。


誠實(shí)說,這次也不是完美無瑕。中間有一兩處編輯操作報錯,那更多是我本地工具環(huán)境的毛病,不是模型的鍋,它退回去換個方式重試就過了。一個測試要是順到一點(diǎn)磕碰都沒有,我反而不信。

重點(diǎn)是,一個我自己設(shè)計的、要求很高的復(fù)雜流程,被一個開源的Flash從頭到尾、規(guī)規(guī)矩矩地跑完了。能把這套多評委、回滾、檢查點(diǎn)的機(jī)制完整執(zhí)行下來,并且執(zhí)行效果基本和我用訂閱的claude code類似,還挺超出預(yù)期的。

我的判斷

其實(shí),Step 3.7 Flash的能力比我上面表達(dá)的更豐富一些,這次試的只是文本類的agent工作流,它原生的多模態(tài)、視覺搜索那些能力我還沒碰。感興趣的可以去看看官方的案例,我覺得對于需要投喂圖片去表達(dá)自己觀點(diǎn)和需求的場景,視覺理解能力還挺關(guān)鍵的。

就我這兩套最吃鏈路穩(wěn)定性的重活來說,它交出的答卷讓我有點(diǎn)意外。我本來的預(yù)期是,換個更小更快的Flash多少得忍受點(diǎn)跑偏和折損,結(jié)果它該并行并行、該停下停下、該回滾回滾,把整套流程穩(wěn)穩(wěn)走完了。我覺得已經(jīng)是個挺穩(wěn)健可用的agent基座了。

說回開頭。Anthropic用降價和Dynamic Workflows押的注,階躍用一個開源Flash押的注,其實(shí)是同一件事:在生產(chǎn)環(huán)境里把復(fù)雜agent流程又快又穩(wěn)地跑完,正在變成比「誰家分?jǐn)?shù)更高」更要緊的能力。如果你也想用上Claude Code、codex這類工具,又卡在成本或別的原因上,一個能接進(jìn)Claude Code、開源、又能把整條鏈路穩(wěn)穩(wěn)跑完的國產(chǎn)模型,確實(shí)值得一試。能把復(fù)雜Agent工作流可靠跑完的能力,正在從最頂尖的那幾個閉源模型,擴(kuò)散到開源模型上。 對想把工具攥在自己手里的人來說,這個趨勢比任何一次跑分刷新都值得高興。

具體怎么接,你也不用怕折騰。階躍官網(wǎng)把每個harness(Claude Code、Cline這些)的接入方式都寫了詳細(xì)說明,照著配就行。實(shí)在懶得自己弄,還有個更省事的法子:把那幾篇接入文檔直接丟給任何一個你能用上的國產(chǎn)電腦端agent,讓它幫你配,基本都能搞定。 讓agent幫你接上一個能干活的模型,這事本身就挺有意思的。

下次再有人問我新模型行不行,我大概還是那句話:別光看分,塞進(jìn)女媧和達(dá)爾文里跑一圈,就知道了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
山東父親陪考睡過頭!女兒狂奔進(jìn)考場,妻子氣到想離婚

山東父親陪考睡過頭!女兒狂奔進(jìn)考場,妻子氣到想離婚

王姐懶人家常菜
2026-06-13 15:19:50
離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

十點(diǎn)體壇
2026-06-13 23:00:31
大量驍龍888手機(jī)流入閑魚,16G+1T賣125元,到底有啥貓膩?

大量驍龍888手機(jī)流入閑魚,16G+1T賣125元,到底有啥貓膩?

閑搞機(jī)
2026-06-14 11:08:21
太瘋狂了!1200個包裹堆爆西安酒店大堂,大馬旅行團(tuán)旅游網(wǎng)購上癮

太瘋狂了!1200個包裹堆爆西安酒店大堂,大馬旅行團(tuán)旅游網(wǎng)購上癮

火山詩話
2026-06-14 06:42:50
總決賽命中率34.3%!福克斯擁抱祝賀唐斯布朗奪冠

總決賽命中率34.3%!福克斯擁抱祝賀唐斯布朗奪冠

體壇周報
2026-06-14 13:58:15
馬理論畢業(yè)即失業(yè)?河南大學(xué)同室4人的不同人生

馬理論畢業(yè)即失業(yè)?河南大學(xué)同室4人的不同人生

霹靂炮
2026-06-12 23:18:18
不忍心告訴你:未來,大部分私企打工人,很難有“退休”的那一天

不忍心告訴你:未來,大部分私企打工人,很難有“退休”的那一天

舒山有鹿
2026-06-14 11:48:24
總統(tǒng)不干了!武契奇宣布辭職,但反對派發(fā)現(xiàn)白高興了一場

總統(tǒng)不干了!武契奇宣布辭職,但反對派發(fā)現(xiàn)白高興了一場

阿傖說事
2026-06-13 16:44:30
卡塔爾突圍,中國隊(duì)零分隊(duì)友只剩8個了

卡塔爾突圍,中國隊(duì)零分隊(duì)友只剩8個了

瀟湘晨報
2026-06-14 11:18:48
特朗普:美伊協(xié)議計劃于周日簽署 霍爾木茲海峽隨后立即開放

特朗普:美伊協(xié)議計劃于周日簽署 霍爾木茲海峽隨后立即開放

財聯(lián)社
2026-06-14 02:40:11
向太再曝劉亦菲猛料,難堪一幕重現(xiàn),與陳金飛真實(shí)關(guān)系早水落石出

向太再曝劉亦菲猛料,難堪一幕重現(xiàn),與陳金飛真實(shí)關(guān)系早水落石出

夢醉為紅顏一笑
2026-06-14 08:58:03
上了60歲后,惜命最好的方式不是鍛煉,而是做好這三件事

上了60歲后,惜命最好的方式不是鍛煉,而是做好這三件事

青青會講故事
2025-10-03 10:35:03
愛情島選手如何化解“屁”大尷尬?細(xì)節(jié)太真實(shí)

愛情島選手如何化解“屁”大尷尬?細(xì)節(jié)太真實(shí)

生活觀察員啊
2026-06-13 00:15:42
隨著尼克斯時隔52年奪冠 還有哪些球隊(duì)無冠時間更長 榜首已有74年

隨著尼克斯時隔52年奪冠 還有哪些球隊(duì)無冠時間更長 榜首已有74年

大衛(wèi)的籃球故事
2026-06-14 15:02:14
特朗普發(fā)AI視頻扮成“日本忍者”引日本不滿:已通過外交渠道向美方表達(dá)立場,“強(qiáng)烈希望同樣的事不要再次發(fā)生”

特朗普發(fā)AI視頻扮成“日本忍者”引日本不滿:已通過外交渠道向美方表達(dá)立場,“強(qiáng)烈希望同樣的事不要再次發(fā)生”

政知新媒體
2026-06-13 11:52:29
黃日華回應(yīng)主動上前擁抱劉德華但對方“黑臉”:演唱會結(jié)束后,他們通過電話,二人關(guān)系絕非網(wǎng)友所猜測

黃日華回應(yīng)主動上前擁抱劉德華但對方“黑臉”:演唱會結(jié)束后,他們通過電話,二人關(guān)系絕非網(wǎng)友所猜測

臺州交通廣播
2026-06-13 18:19:03
美國隊(duì)長又帥回來了,一次失敗的植發(fā),毀了他兩年形象

美國隊(duì)長又帥回來了,一次失敗的植發(fā),毀了他兩年形象

替補(bǔ)席懂王
2026-06-14 11:43:01
電詐集團(tuán)在東南亞被中國全面剿殺后,居然跨海轉(zhuǎn)移到了斯里蘭卡?

電詐集團(tuán)在東南亞被中國全面剿殺后,居然跨海轉(zhuǎn)移到了斯里蘭卡?

影孖看世界
2026-06-13 23:44:51
伊朗再關(guān)霍爾木茲海峽,最害怕的不是美國,中國將繼續(xù)穩(wěn)坐釣魚臺

伊朗再關(guān)霍爾木茲海峽,最害怕的不是美國,中國將繼續(xù)穩(wěn)坐釣魚臺

知鑒明史
2026-06-13 15:08:42
10年空調(diào)老師傅坦言:這5個牌子千萬別買,都是我修出來的教訓(xùn)

10年空調(diào)老師傅坦言:這5個牌子千萬別買,都是我修出來的教訓(xùn)

家電小超人
2026-06-11 17:00:03
2026-06-14 16:08:49
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
233文章數(shù) 121關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報信

頭條要聞

蓋茨出軌20多次 愛潑斯坦曾鼓勵女醫(yī)生與其發(fā)展性關(guān)系

頭條要聞

蓋茨出軌20多次 愛潑斯坦曾鼓勵女醫(yī)生與其發(fā)展性關(guān)系

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

教育
本地
手機(jī)
數(shù)碼
公開課

教育要聞

重磅!加拿大皇家科學(xué)院院士,入職浙江大學(xué)醫(yī)學(xué)院

本地新聞

AK劉彰邂逅河北南大港濕地

手機(jī)要聞

BIGME大我E10電紙書新增“12G+256G”版本,5399元

數(shù)碼要聞

從3DGS到小藝Claw,華為智慧屏MateTV在HDC展示鴻蒙生態(tài)破界之力

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版