![]()
當全球科技巨頭仍在云端大模型賽道“重金押注、堆疊算力”時,中國AI企業商湯絕影悄然在另一個戰場投下了一枚“深水炸彈”。
近日,該公司發布端側多模態智能體基座大模型Sage,以“小身材、大能量”的姿態,在一項名為PinchBench的國際權威智能體評測中,以94%的最佳任務完成率,擊敗了包括Claude、GPT-5.4、Google Gemini在內的眾多云端“巨無霸”模型。
![]()
以小博大的效率革命
長久以來,汽車座艙的智能化面臨一個“兩難困境”:依賴云端,則存在延遲、成本高昂及網絡穩定性問題;而受限于芯片算力,部署在車端本地(端側)的模型,又大多只能進行簡單的指令響應,難以勝任復雜的、多步驟的“智能體”任務。
Sage的出現,似乎正在打破這個僵局。這輛“小車”,憑什么跑贏了“超算”?
根據商湯絕影公布的資料,Sage模型的總參數規模為320億,但在處理具體任務時,實際被激活參與運算的參數僅30億。
打個比方,這就像一座擁有龐大圖書館(總參數)的智庫,在面對任何具體問題時,都能瞬間找到最相關的幾本書(激活參數)來高效解答,而非盲目地翻遍整個書庫。
正是這種“精打細算”的效率,讓Sage得以在資源有限的車載芯片(如英偉達Orin X)上流暢運行。相比之下,某些云端大模型要達到同樣效果,其激活運算量是Sage的14倍甚至更多,好比用大型工業機械與一臺高精度機床比賽加工精密零件,后者在特定場景下反而能憑借“巧勁”勝出。
PinchBench測試恰是檢驗這種“巧勁”的絕佳舞臺。這個被業內稱為“龍蝦之父”推薦的評測,不考死記硬背,專測“真本事”。
它的任務庫覆蓋寫作、編程、文件處理、日程規劃等真實工作流,重點考察模型調用工具、分步驟推理、并最終完成復雜任務的能力。Sage在此拔得頭籌,意味著其在“辦事”的實戰能力上,已不輸甚至超越了那些需要龐大云端服務器支持的對手。
從“能聽會說”到“說到做到”
端側模型僅僅“瘦身”是不夠的,要真正“聰明”起來,還需解決學習成本和執行準確性的難題。
為此,商湯為Sage配備了兩項核心技術——“高效學習法”(SCOUT)和“實時糾錯本”(ERL)。
訓練AI完成一個復雜任務(比如規劃一條整合了充電、餐飲、避開擁堵的跨城路線),如果讓大模型自己反復試錯,耗時長且計算成本(GPU小時)極高。
SCOUT(分級協同學習框架)便是用來解決“學費”太貴的問題。它的思路是“讓偵察兵先探路”:先派一個輕量級的小模型快速嘗試各種解決方案,把其中可行的路徑篩選出來,再由大模型專注學習這些“高分經驗”。這種方法被稱可將復雜任務的學習成本降低約60%。
ERL(可擦除強化學習) 則致力于解決“一步錯,步步錯”的執行難題。
假如用戶指示“幫我訂一家明天適合家庭聚餐、有兒童娛樂區、且在我回家順路上的餐廳”,需要模型連續完成多個推理步驟,一旦中間某步理解偏差(如忽略了“順路”),結果就會謬以千里。
ERL技術賦予模型“邊想邊改”的能力,能夠自動識別并擦除推理鏈條中的錯誤步驟,重新生成正確邏輯。這項技術讓Sage在復雜任務上的完成率提升了20%。
正是這兩項技術的結合,推動Sage從一個“語言模型”進化為了能獨立閉環完成任務的“智能體基座”。
重新定義端側AI的想象力
有行業專家認為,Sage的亮相,為智能汽車產業帶來了多重變量的思考。
首先,是“艙駕一體”落地路徑的清晰化。高級別自動駕駛與智能座艙的融合(艙駕一體)是行業共識,但融合的底層核心之一,是一個強大、高效且能本地實時處理多模態信息(語音、視覺、傳感器數據)的“大腦”。
Sage證明了在現有主流車規級芯片上,部署能處理復雜規劃、具備強推理能力的AI大腦是可行的,這為艙駕一體的量產方案掃清了一個關鍵的技術障礙。
其次,是端側AI價值主張的強化。在隱私敏感、網絡環境復雜(如隧道、山區)、以及需要瞬時響應的車載場景下,本地化能力無可替代。Sage的表現意味著端側模型不再是簡化版的云端附屬,而能獨立提供高質量、高可靠的服務,這或將引發車企在智能化方案上新的權衡。
因此,商湯絕影通過Sage模型,演示了一條繞過純算力“軍備競賽”、通過架構與算法創新實現“降維打擊”的路徑。這不僅是技術的進步,更是工程化思維與商業洞察的勝利。當“小車”開始跑贏“超算”,整個智能汽車產業鏈的玩家,或許都需要重新審視手中的技術地圖與競爭策略。
采寫:南都·灣財社記者 胡雯雯
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.