網易首頁 > 網易號 > 正文 申請入駐

Elephant走紅:AI開始為“Token浪費”算細賬

0
分享至

2026年春季,大模型行業的高燒似乎正在退去,取而代之的是一種近乎冷酷的理性。近日,《財經》報道指出,全球企業級 AI 應用中,約50%的Token正在被浪費。

浪費的原因很具體,AI應用從“對話”轉向“執行”,這些計算資源流向了較貴的大型旗艦模型,Agent在復雜多輪任務中,歷史文件、對話會不斷累積,大量無用、冗余、過期的信息會不斷產生并且重復計算,Token消耗因此指數級增長。也就是說,企業和開發者在用最貴的車跑最短的路。

OpenRouter的流量數據反映了這個轉變:過去一個季度,旗艦級模型的調用占比在下降,100B–300B區間的模型調用量則明顯上升。以近日上線的100B 模型Elephant為例,單日流量暴漲500%,沖上熱榜榜首,成為OpenClaw等 Agent 最受歡迎的選型。開發者開始按任務類型分配模型,而不是一律用最頂配。這是工程理性回歸的信號,不是對旗艦模型的否定。



為什么現在才開始算這筆賬

幾年前,"選最強的模型"是最省心的工程決策。旗艦模型幾乎在所有任務上都更好,成本問題還沒到逼人重新設計架構的程度。

現在情況變了,Agent需要“執行”大量工作。一個客服Agent處理一張工單,可能需要調用模型十幾次:理解意圖、查詢知識庫、判斷優先級、生成回復、核查格式。如果同時有幾千張工單在處理,每天的調用量輕松進入百萬級別。在這種頻率下,每次調用多付的溢價開始在賬單上顯現。

今年3月,一位名為shelvenzhou的開發者在Github進行了一項基準測試,引發了廣泛討論。他記錄自己的OpenClaw日常工作(包括代碼、郵件、PDF、圖片、搜索等)Token消耗情況——第一輪對話Token成本0.0050美元;第五輪對話Token成本0.0665美元,是第一輪的13.3倍;第10輪的Token成本達到了0.13美元,是第一輪的26倍。

根據報道,《財經》統計了GitHub上有關“Token Waste”相關Issues的數量。這一討論至少有5200個,僅2026年一季度就誕生了4150個。越來越多的開發者在實際業務中正面臨控制Token浪費的問題。


目前大多數Agent的工程實現還相當粗糙。面對Agent的多步任務,Token消耗以接近線性的速度增長,而其中大量內容對當前步驟毫無意義。這類問題催生了一個新的工程概念——Agent Harness,它不是模型本身,而是包裹在模型外部、負責管理上下文、編排工具調用、控制執行生命周期的“韁繩”和“馬具”。

Token 效率因此形成了兩條并行的壓力線,一條來自 Agent 框架側,Harness 的出現就是典型代表;另一條來自模型側,推動廠商用更精簡的參數完成同等質量的推理。


模型,向實用主義靠攏

在這場范式轉移中,一批深耕“token效率”的模型成為了舞臺中央的主角。它們不比拼參數規模,而是在單位Token成本下,比拼推理速度、指令遵循度以及長上下文的穩定性。

根據OpenRouter 的 LLM Leaderboard在4月16日的數據,模型格局呈現出明顯的“大模型控榜,小模型控場”的分化態勢。

在前20名的榜單中,傳統意義上的大尺寸旗艦模型(如Claude Opus 4.6、DeepSeek V3.2等),主要分布在榜單頭部和中上部,依然掌握著復雜任務的話語權;而主打輕量化、高性價比的小尺寸模型(如Gemini 3 Flash、Grok 4.1 Fast、GPT-5.4 Nano等),且多集中在第 8 名至第 20 名的區間,形成了不可忽視的“腰部力量”。

可以明顯看到,小尺寸模型的漲幅驚人。根據4月16日數據,排名第17位的 GPT-5.4 Nano以48%的驚人漲幅領跑增長榜,100B模型Elephant單日漲幅 38%。


從App使用情況來看,OpenClaw、Hermes Agent、Kilo Code、CLaude Code 等成為這些小尺寸模型的“最大流量貢獻”,開發者正在將小尺寸模型作為高頻、低延遲任務的首選。

在業界看來,100B-300B已然成為一個實用主義區間。GPT-5.4-Mini是目前這條路線的典型代表之一,以更低延遲和更低成本大幅縮小與旗艦模型的性能差距。

OpenAI 此前著重強調了新模型在多模型分層系統中的位置:以其自研編程助手Codex為例,GPT-5.4負責規劃、協調與最終判斷,而GPT-5.4 mini子智能體則并行處理代碼庫檢索、大文件審閱及輔助文檔處理等粒度更細的子任務。

OpenAI表示,隨著小型模型速度更快、功能更強大,開發者無需使用單一模型處理所有任務,而是可以構建系統,由大型模型負責決策,小型模型則快速大規模地執行任務。這種分層調用的模式開始變得實用而非將就。

Elephant Alpha是另一個值得關注的案例,該模型于4月13日深夜上線 Openrouter。同為100B參數,Elephant定位為“智能效率”優先,在保持256K 上下文窗口的同時,重點優化Token使用效率,適合代碼補全、快速文檔處理和輕量Agent交互等場景。由于來源匿名,其具體技術細節尚不透明,但在開發者社區已有相當的實測關注。




效率不是降級,是分工

旗艦模型不會消失。在需要跨領域深度推理、多步驟規劃、復雜代碼生成的任務上,它們仍然是必要的。沒有人認真地認為100B模型可以在所有場景下替代旗艦版。

但在日常的業務執行層——那些占據大多數調用量的任務——用旗艦模型是在為不需要的能力付費。把這部分流量遷移到效率更高的模型上,毫無疑問是更具性價比的決策。

這種分工在軟件工程里有先例。CPU發展從追求單核主頻轉向多核協作,不是因為單核不重要,而是因為在實際工作負載下,多核架構的整體吞吐遠超單純堆主頻。數據庫領域也有類似的演變:OLTP和OLAP長期共存,不同的查詢特征對應不同的存儲和計算架構。

模型選型的邏輯正在經歷類似的成熟。Token效率正在成為工程師評估模型的核心維度之一——不是因為便宜,而是因為在高頻調用的場景下,它直接關系到產品的商業可行性。那些在單位成本下能提供足夠推理質量的模型,正在成為 Agentic應用的默認底座。

一條路線日漸清晰:規模繼續重要,但效率開始定價......

*以上內容不構成投資建議,不代表刊登平臺之觀點,市場有風險,投資需謹慎,請獨立判斷和決策。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
離譜!下課僅數月,曼聯棄帥有望火速回歸英超,球迷慌了

離譜!下課僅數月,曼聯棄帥有望火速回歸英超,球迷慌了

瀾歸序
2026-04-23 06:26:14
風格被指已過時!穆里尼奧回歸皇馬呼聲不減,姆巴佩點贊暗藏深意

風格被指已過時!穆里尼奧回歸皇馬呼聲不減,姆巴佩點贊暗藏深意

體育閑話說
2026-04-23 16:32:57
蔚來向松延動力創始人交付第10萬臺新ES8

蔚來向松延動力創始人交付第10萬臺新ES8

北京商報
2026-04-23 12:38:04
元朝給中國帶來了什么?若沒有元朝,中國將變成另一個分裂的歐洲

元朝給中國帶來了什么?若沒有元朝,中國將變成另一個分裂的歐洲

舊史新譚
2026-04-22 01:58:49
胡錫進譴責打女司機的保安:善良的男人是不會這樣打女人的!

胡錫進譴責打女司機的保安:善良的男人是不會這樣打女人的!

映射生活的身影
2026-04-23 13:09:09
朋友想看我的麥當勞龍,我發了張基多拉,她說不信

朋友想看我的麥當勞龍,我發了張基多拉,她說不信

國創漫話
2026-04-22 15:23:43
注意!個人碼收款高于這個數,要小心!已經有人被查了

注意!個人碼收款高于這個數,要小心!已經有人被查了

大象新聞
2026-04-23 09:19:08
雙杰電氣:一季度凈利潤2.81億元 同比增長29615.01%

雙杰電氣:一季度凈利潤2.81億元 同比增長29615.01%

證券時報
2026-04-23 19:56:03
OpenClaw,崩了!

OpenClaw,崩了!

新智元
2026-04-23 18:38:34
伊朗否認舉行美伊新談判,指特朗普“又說謊了”

伊朗否認舉行美伊新談判,指特朗普“又說謊了”

澎湃新聞
2026-04-23 00:01:03
色字頭上一把刀!知名女星曝陳小春“猛料” ,好男人人設崩塌?

色字頭上一把刀!知名女星曝陳小春“猛料” ,好男人人設崩塌?

她時尚丫
2026-04-23 22:01:25
推行民國企平等:環境不平等、資源不平等,刑罰先平等了

推行民國企平等:環境不平等、資源不平等,刑罰先平等了

蛙蛙和洼
2026-04-22 10:26:47
原來他早已去世,中國第3位世乒賽男單冠軍,曾拒絕日本高薪邀請

原來他早已去世,中國第3位世乒賽男單冠軍,曾拒絕日本高薪邀請

白面書誏
2026-04-23 17:13:58
油價內幕大起底:私人站比中石化便宜近2元,真不是油質差!

油價內幕大起底:私人站比中石化便宜近2元,真不是油質差!

三農老歷
2026-04-23 00:46:36
他被華北局和東北局調用,去東北當上四把手,職務級別斷崖式調整

他被華北局和東北局調用,去東北當上四把手,職務級別斷崖式調整

阿柒的訊
2026-04-22 15:18:42
成都“牽手門”事件女主現今狀況曝光,太慘了......

成都“牽手門”事件女主現今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
媒體:掌摑停車女子保安已停職

媒體:掌摑停車女子保安已停職

澎湃新聞
2026-04-23 19:28:09
接連挑釁!高市宣布出訪菲越,不到24小時,中國兩艘軍艦同往南海

接連挑釁!高市宣布出訪菲越,不到24小時,中國兩艘軍艦同往南海

健身狂人
2026-04-23 21:58:50
11天抹平9分!曼城登頂背后:瓜帥十年布局與阿森納心理崩塌!

11天抹平9分!曼城登頂背后:瓜帥十年布局與阿森納心理崩塌!

落夜足球
2026-04-23 11:04:02
再見了,開拓者,賽季離隊第一人,楊瀚森更難了!

再見了,開拓者,賽季離隊第一人,楊瀚森更難了!

體育新角度
2026-04-23 15:51:56
2026-04-23 23:48:49
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
145058文章數 2653349關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

藝術
健康
游戲
公開課
軍事航空

藝術要聞

看!這些美女的眼神能讓你心醉神迷

干細胞如何讓燒燙傷皮膚"再生"?

韓國巨頭打造成人新游!包含頻繁裸露畫面 Steam鎖區

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版