![]()
最近一直在想一個問題。
AI模型的能力,到底該怎么衡量。
看榜單分數,看推理速度,看價格,還是說看案例效果?
數了數,過去一年差不多測過80多個模型,從閉源旗艦,到開源小尺寸,我稍微有了點類似手感的東西。
但說實話,數據指標和真實使用之間,存在一個巨大的預期偏差。
有一個大模型玩家,很低調,但是技術實力和產出效果,卻是悄悄達到了有驚喜的程度。
這個模型是什么情況呢?
不賣關子了,就是階躍星辰的Step 3.7 Flash,定位是「面向生產級Agent的高效率Flash模型」。
乍一看,說實話,概念有點繞,場景還不少。
![]()
模型官網:https://static.stepfun.com/blog/step-3.7-flash/
這幾天,高頻用了一下,跑了幾個真實場景任務,好像想明白了一件事:
我們可能一直都把Flash類模型的方向想錯了。
真正Agent友好的高效率模型,其價值,正在凸顯。
01一張龍珠截圖,變成多模態互動游戲
直接帶大家看看模型效果。
我先扔給Step 3.7 Flash的,是一張七龍珠Z的人物劇照。
畫質還算清晰,圖上有悟空、貝吉塔、悟飯、短笛、弗利薩、特蘭克斯等十幾個人物,站位分散,人物關系復雜。
![]()
我寫了個簡單的提示詞:識別這些角色,畫出人物關系圖譜,再做一個互動問答游戲的網頁,讓用戶能測試自己對龍珠人物關系的了解。
輪到Step 3.7 Flash表演了:它先是處理了視覺輸入。
是在推理過程中直接分析了圖片,沒有單獨調用OCR或檢測模塊。
一分多鐘后,挺快的,它輸出每個角色的名字和位置。
基于圖片視覺信息,結合自己對龍珠系列的知識,構建了一個角色關系圖。
它還輸出了一份結構化數據:悟空和悟飯是父子,貝吉塔和特蘭克斯是父子,短笛是悟飯的師父,弗利薩與所有人為敵。
這些關系,原本提供的圖片里都沒有,模型是靠搜索和推理,串聯起來的。
![]()
不同人物角色,用顏色頭像來表示,可以隨意鼠標拖拽、分組,是可以連線交互的那種。
說實話,互動網頁的效果,比預想稍差。
理想狀態是,每個頭像都是人物的真實照片,不要搞名字簡寫,跟一堆MM豆似的。
我心里想象的,是下面這個樣子
![]()
不過倒也情有可原,我拿Opus 4.7也沒法一步到位,實現像生圖片這么好的HTML效果。
接著,我追加了一句指令,稍微降了難度,讓它設計成包含人物角色圖的游戲化交互面板。
模型響應很快,判斷出有些關系需要核實,主動發起了聯網搜索。
特蘭克斯和布瑪的母子關系要不要納入圖譜?畫面中的特蘭克斯來自哪個時間線?
它搜了龍珠人物介紹,找到多個來源,交叉驗證后決定把布瑪加入圖譜,并在后續問答里標注時間線差異。
最后一步是代碼生成。
模型基于整理好的關系數據,輸出了一份完整的HTML文件。
![]()
左邊是人物和名字,名字節點代表人,不同顏色的連線區分敵對、盟友、血緣。
右邊是問答游戲,隨機抽題,實時計分。380行代碼,第一遍就能跑。
我保存成.html文件,瀏覽器打開,圖譜正常渲染,游戲正常運作。
這次效果基本符合預期了。
![]()
還多了一個折疊面板的說明文檔,教你如何修改數據源。這個模型它自己加的,挺有意思。
對比另一個主流大廠的Flash模型,同樣輸入,它只只給我了一個靜態網頁。視覺理解和后續任務之間,卡殼了。
能感覺到,Step 3.7 Flash是把多模態、搜索、代碼生成,串成了一條完整鏈路;
執行到最后一步,也沒忘了一開始讓干啥。
看執行過程,是比較有推理邏輯的;看結果,已經接近了一線Agent產品的表現。
02做弗蘭克個人網站,第一版就能用
這個任務比較偏coding、偏工程。
我的要求是:做AI異類弗蘭克的個人網站。
很具體的場景。
網站要包含個人簡介、代表作列表、過往經歷等等,風格要簡潔專業,適配移動端。
因為很了解我自己,也做過不止一版個人網站,測這個案例,搜索質量信息排列什么的,一眼就能看出好壞。
![]()
我把需求寫得很隨意,沒有給設計稿,只說科技簡潔風格,要有現代感。
Step 3.7 Flash開始規劃。
它先輸出了一份網站架構說明,包括頁面結構、導航菜單、內容區塊劃分。
然后生成完整代碼,HTML、CSS、JavaScript全在一個文件里。
![]()
我仔細看了代碼。響應式布局,手機和電腦上顯示都正常。
過往經歷區域,用了卡片設計,每張卡片有標題、簡短描述和標簽。
代碼里還有一個細節。
它自己加了一個暗色模式切換按鈕,用localStorage記住用戶偏好,可調顏色。
這個需求我完全沒有提,模型覺得個人網站應該有這個功能,自作主張加上了。挺有意思的。
我用另一個更大、更貴的國產模型,試了同樣的需求。
![]()
它也生成了代碼,效果也還不錯,就是部分元素在手機上會錯位。
視覺上,大家感覺哪個更好看?
細看了下,Step 3.7 Flash的代碼完成度,對比下來,是不差的,而且更快、更便宜。
雖然它參數小,但是在編程任務上做了專門優化,架構和用戶體驗細節上,應該也是打磨了。
第一遍給出的代碼,稍改文字內容,就能直接用。
對于開發者來說,省掉的有生成時間、調試返工的時間,還有錢。
03看視頻、看白板,它也能做分析
官方介紹里說多模態、視覺能力很強,能解決復雜問題。
那我得試試
傳了一段手機視頻,大約3秒,拍的是一個大疆pocket3。
錄屏畫面晃動,logo一閃而過。
![]()
我直接把視頻傳給Step 3.7 Flash,prompt說:這是什么產品、怎么用。
模型先定位關鍵幀。它找到了Logo、產品特征等等。
然后模型結合這些信息做推理。
![]()
這個過程只有一次API調用。
如果換傳統做法,我需要先抽幀,把關鍵幀截出來傳給視覺模型識別,再把識別結果喂給推理模型。
兩個模型之間還要寫代碼銜接。
Step 3.7 Flash把視覺理解和推理決策合并成了一步。
我還測了一個會議記錄場景。
拍一張白板照片,上面手寫著一些內容表達的思維方法,字跡潦草,還有不少箭頭和圈圈畫畫。
![]()
模型直接輸出了一份結構化的內容,信息梳理出來了,標注了要點和注意事項。
![]()
應該沒有單獨跑OCR,寫規則解析啥的,一次就出來結果了。
但是我還有點不滿意,想用更清晰的圖表,或者一頁PPT來呈現。
![]()
然后PPT有了:整體結構是很好的,就是有明顯的錯別字;
考慮到是潦草手寫識別,我自己都看不太清楚白板,能做到現在的程度,已經不錯了。
Step 3.7 Flash給我的感覺是,做它的工程團隊,真的在生產環境里,跑過Agent任務。
就像多模態,如果是實驗室測評向的就沒意思了,還是得和推理長在一起,成為可用的默認能力。
多環節、長鏈路的執行工作,最好也一次性做到位。
就感覺階躍模型團隊,先是很知道痛點在哪,然后才把這些痛點的解決方案,內置進了模型。
說到底,模型能力不是為了跑分好看,是為了真解決問題。
04Agent效率,大概是下一階段的戰場
跑完這些測試,我對Flash模型這件事,有了新的感受。
過去大家愛比峰值智能、都想要小紅花:誰的模型在benchmark上分數高、誰排第一,誰就有面子。
但那個模型封神榜邏輯,正在慢慢失效。
benchmark越來越飽和了,現實里任務的復雜度,又遠遠超出benchmark的覆蓋范圍。
下個階段的競爭,大概不會看誰在某個單項測試上多考兩分。
還是要看誰能以更高效的方式,完成實打實的生產級任務。
![]()
階躍星辰他們,把這個叫做「Agent效率」。
我覺得這個詞,抓得挺妙。
Agent效率,不是單一的指標,它是速度、智能、成本、任務完成率、開發體驗、可控性的綜合。
一個模型可能跑分不是最高,但如果它能在更少的輪次里完成一個復雜任務,能在更低延遲下支撐高頻調用,能讓開發者在一天內搭出一個可用的Agent,不再用花一周去調試各種模塊……
那它的實際價值,可能遠超一個跑分更高、用起來費勁的模型。
Step 3.7 Flash走的是「輕快小美」路線。
198B的MoE架構,約11B激活參數,最高生成速度400 TPS。
![]()
GitHub地址:https://github.com/stepfun-ai/Step-3.7-Flash
看著肯定不如那些大體量模型性感,但實際跑Agent任務的時候,速度快、效果不差。
而且它在編程和工程任務上的one-shot完成率也有明顯提升。
多輪調用下來,體感的順滑程度,是那些「重模型」給不了的;甚至襯的個別家,都有點「傻大笨粗」了。
![]()
我只覺得,模型不需要在所有維度上,都最強。
它只需要在一些關鍵維度上,足夠好,并且這些維度,恰好對上真實生產任務中很痛的痛點。
Step 3.7 Flash是一個讓我覺得,接上以后,能提供情緒價值的模型。
它不完美,但在那些真正決定Agent能否落地的維度上,它做了很多清醒的判斷和取舍。
有豐富的框架適配,能手機操作,干起活來輕盈不拖沓,還方便好上手。
![]()
Step 3.7 Flash的很多選擇,都在降低開發者的負擔,也在提升Agent效率。
這些都讓我覺得,Flash模型,不再只是旗艦模型的替代品了。
隨著Agent能力增強,真實任務,正在變得更加多輪、工具密集,也朝著上下文密集、搜索驅動、多模態去發展。
在更適合Agent的方向上,我覺得Step 3.7 Flash開了個好頭。
現在便宜,以后可能會漲價,建議早去玩。
![]()
點開不虧
https://static.stepfun.com/blog/step-3.7-flash/
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.