无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

5個月“救回”2000億Token!被AI賬單嚇到,Netflix大佬開源「Token瘦身器」:砍掉90%無效Token,狂省70萬美元!

0
分享至


編譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

隨著越來越多企業開始要求工程師“全面擁抱 AI”,一個意想不到的問題也逐漸浮出水面:AI 賬單正在變得越來越嚇人。

不久前,Uber 和微軟就先后提到,企業內部大規模使用 AI 工具后,相關開銷迅速攀升:

  • Uber CTO Praveen Neppalli Naga 在接受采訪時透露,公司為 2026 年全年準備的 AI 工具預算,已經在今年的前四個月全部完了

  • 微軟也開始取消內部工程師對 Claude Code 的訪問權限,計劃 6 月 30 日前轉移至自家的 Copilot CLI 工具,直接原因很可能是其成本超出了可接受的范圍。

而在 Netflix,一位高級工程師正在嘗試解決這個問題。

Netflix 高級工程師 Tejas Chopra 開發了一個名為Headroom 的開源項目,它能在請求發送給大語言模型(LLM)之前,對 Prompt 和上下文中的 Token 進行“瘦身”,刪除大量冗余內容——根據他的估算,目前發送給 AI 模型的 Token 中,最高有 90% 都是重復或無意義的信息。

雖然 Headroom 并非 Netflix 官方項目,但目前公司內部已有多個團隊在使用它,外部開發者社區也開始廣泛采用。在近期舉行的 Open Source Summit 上,Chopra 直接透露:

Headroom 已累計幫助用戶節省約 70 萬美元成本,并釋放出超過 2000 億個 Token 配額,可用于其他更有價值的任務。

對于一個今年 1 月才開源、目前版本還停留在 v0.22 的項目來說,這個成績已經相當驚人。截至目前,Headroom 已在 GitHub 上獲得超過7400個 Star,被 Fork 超過500次。(GitHub 地址:https://github.com/chopratejas/headroom)


Chopra 直言:“很多用戶找到我們,最主要的原因不是性能問題,而是他們真的被 Token 費用坑慘了。”



一張 287 美元賬單引發的靈感

Headroom 的誕生,源于一次再普通不過的個人項目開發。

起初,Chopra 用 Claude Sonnet 進行調試、重構代碼,并通過 MCP 工具查詢數據庫。而賬單出來后,他愣住了——287 美元。按當時 Claude Sonnet 的定價來看,這其實并不算貴:

  • 輸入 Token:3 美元/百萬 Token

  • 超過 20 萬Token上下文窗口后:6 美元/百萬 Token

看上去很便宜,但當 Token 數量達到數千萬甚至上億時,費用便會迅速累積。

于是 Chopra 開始分析這些 Token 究竟花在哪里。結果發現,真正的問題并不在于自己寫給 AI 的 Prompt。相反,大量成本來自各種自動生成的“垃圾信息”,包括冗余到不行的 JSON Schema、API 響應里嵌套的模板、重復的數據庫列……

Chopra 在博客中寫道:“這不是自然語言,不是創意寫作,它只是偽裝成文本的可壓縮數據。”

事實上,2025 年的一項研究發現:AI 應用中約 76% 的 Token 消耗,僅僅花在讀取用戶輸入上。也就是說,模型的大部分計算資源都浪費在“看材料”而不是“思考問題”上。

對于這個問題,不少模型廠商其實已經意識到了。

例如,Claude 提供了 Prompt Cache(前綴緩存)機制,但這功能對開發者并不友好——默認情況下,Claude 的緩存僅保留 5 分鐘;超過 5 分鐘無操作后,整個上下文窗口都需要重新上傳,即便內容完全一樣也要重新計費。雖然 API 中還提供了 1 小時 TTL(緩存存活時間)選項,但這有個坑:你要為寫入操作支付雙倍成本,才能為讀取操作節省 90% 的費用。

與此同時,市場上也開始出現各種 Token 優化服務。比如 YCombinator 投資的 Token Company,把 Token 壓縮做成了服務;開源方面有 RTK(Rust Token Killer),專門修剪冗長命令的輸出;另一個開源項目 LeanCTX 也類似于 RTK 的變種。

這些工具都能在一定程度上壓縮 Prompt。但 Chopra 認為它們仍存在一個問題:壓縮之后無法恢復原始內容——而這正是 Headroom 最大的特點

CSDN 6 月寵粉福利|開發者“神裝”補給站

200 小時 GPU 算力免費領

瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶等能量套餐任選其一

入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝

領取地址:https://s.csdn.cn/4nPsOp


所以,Headroom 是如何工作的?

Headroom 本質上是一個運行在開發者電腦上的本地代理(Proxy),技術棧主要基于Python 和 Node.js。用戶只需要在命令行界面通過“headroom wrap codex”命令包裝自己的 LLM,之后所有發往 LLM 的請求都會先經過 Headroom 處理。

雖然 Headroom 也能壓縮一些程序代碼和人類指令,但它最擅長的是砍掉服務器日志(90% 可以丟棄)、MCP 工具輸出(70% 是重復的 JSON)、數據庫輸出(全是一個 schema)和文件樹(大量重復的元數據)。

換句話說,凡是準備塞進 Context Window(上下文窗口)的內容,都會先被壓縮。

(1)第一步:CacheAligner

Headroom 首先會運行一個名為 CacheAligner 的模塊。它的思路很簡單:如果用戶已經上傳過一段內容,那么下一次只發送發生變化的部分,而不是重新發送整個上下文,這樣可以極大提高緩存命中率。

Chopra 舉了一個例子:如果你的 System Prompt 中包含日期、UUID、Session ID,這些字段每次都會變化。那么緩存實際上會持續失效(Cache Miss),最終導致 Token 成本暴漲。

(2)第二步:針對不同數據類型壓縮

隨后,Headroom 會自動識別輸入內容類型,并交給不同壓縮器處理:抽象語法樹(AST)壓縮器用于壓縮程序代碼;JSON 和 DOM 壓縮器分別刪除不需要的 JSON 數據和網頁數據。

(3)第三步:智能“Squasher”

這是 Headroom 最有意思的部分,一些類似于“Squasher(壓扁機)”的工具會基于統計分析,從文本或 JSON 輸入中判斷哪些部分真正重要,還會根據模型需要回看原始未壓縮提示詞的頻率,在一個反饋循環中學習自己是壓得過頭了還是壓得不夠

(4)最大殺手锏:可逆壓縮

如上文所說,很多壓縮工具的問題在于:壓縮之后不可恢復。模型一旦需要原始數據,就無能為力。為此,Headroom 則引入了一套名為 CCR(Compress Cache and Retrieve) 的機制。

CCR 會在數據被壓縮的地方打上標記,如果 LLM 想獲取原始上下文,它可以調用一個 Headroom MCP,從用戶機器上檢索所需材料——這樣既節省 Token,又不會丟失信息。

Chopra 承認,這套軟件棧仍有改進空間,尤其是準確性測試方面。好在CCR存儲了原始Prompt,所以可優化空間不小。他還提到,未來可以針對其他特定類型的數據(如金融數據)構建更多壓縮器,音頻、圖像和視頻也需要處理(已經有用戶為了視頻解析 fork 了這個項目)。

與此同時,Chopra 還打造了一個相關項目叫 Headlight,并表示很快就會開源。據透露 Headlight 會追蹤每個 token 的來源,這對保證多模態工作的準確性很有用。


省一個Token=賺一個Token

很多開發者有一種直覺:“上下文越大越好。”但越來越多研究表明,這種觀點并不完全正確。

斯坦福大學研究人員發現:大模型對 Context Window 的注意力呈現明顯的“首尾效應”——LLM 傾向于更關注上下文窗口的開頭和結尾,而忽略中間部分。同樣,數據集成商 Chroma 的研究也發現:在 18 個 LLM 上,隨著輸入長度增加,模型性能變得越來越不可靠。

他們把這種現象稱為:Context Rot(上下文腐化)。簡單來說,就是大量無關信息不僅會增加成本,還會降低模型推理質量。

值得一提的是,精簡Prompt還能顯著降低響應時間。Chopra 在演講中分享了一個案例:某家公司把 Headroom 改造后用于語音交互系統,在語音場景下,連靜音也會產生 Token。而為了讓語音助手聽起來足夠自然,App 必須在 200 毫秒內給出響應。因此,他們利用 Headroom 盡可能壓縮上下文,從而縮短推理延遲。

除此之外,Headroom 還有一個額外收益——降低能耗。因為理論上來說,更少的 Token 意味著:更小的上下文窗口 → 更少的計算量 → 更低的 GPU 資源消耗。不過,正如 Chopra 調侃的那樣:即便 Headroom 讓 Token 成本下降了,開發者們大概率還是會把省下來的預算,繼續投入到更復雜、更龐大的 AI 應用中。

不過至少目前來看,對于那些已經被 AI 賬單“教育”過的企業來說,Headroom這樣的工具無疑相當有吸引力。畢竟在大模型時代,省下一個 Token 就等于賺到了一個 Token。

原文鏈接:https://www.theregister.com/ai-ml/2026/05/31/netflix-wiz-creates-app-to-slash-ai-bills-then-open-sources-it/5248702

開發者“神裝”補給站|CSDN 6 月寵粉福利

不論你是想跑通最新的本地 LLM,還是想實測一套 Agent 自動化工作流,算力與補給,我們都為你備齊了!

立領三重進階大禮:

200 小時云端算力券免費領

瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶任選其一

掃碼即刻領取,今日額度有限,手慢無!

領取地址:https://s.csdn.cn/4nPsOp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沈夢辰和爸媽一起過37歲生日,杜海濤甜稱老婆小乖并卡點為其慶生

沈夢辰和爸媽一起過37歲生日,杜海濤甜稱老婆小乖并卡點為其慶生

情感大頭說說
2026-06-13 20:06:06
她是世界冠軍,也是鄧亞萍隊友,王楠曾為她征婚,沒想到50歲才結

她是世界冠軍,也是鄧亞萍隊友,王楠曾為她征婚,沒想到50歲才結

攬星河的筆記
2026-06-13 14:26:28
美參院擬將中國定為“侵略軸心”!為升級涉華敘事戰準備“臟彈”

美參院擬將中國定為“侵略軸心”!為升級涉華敘事戰準備“臟彈”

萬千歸途
2026-06-12 14:58:07
紅棗還敢隨便吃嗎?提醒:以后吃紅棗時,一定要多注意了!

紅棗還敢隨便吃嗎?提醒:以后吃紅棗時,一定要多注意了!

今日養生之道
2026-06-12 15:57:18
很多人說豹紋難駕馭,其實根本不是衣服的問題,是氣場沒跟上

很多人說豹紋難駕馭,其實根本不是衣服的問題,是氣場沒跟上

飛尚日記
2026-05-29 06:58:53
副攻位置大洗牌!陳厚羽陷入困境,新星扎堆追趕,國家隊位置懸了

副攻位置大洗牌!陳厚羽陷入困境,新星扎堆追趕,國家隊位置懸了

金毛愛女排
2026-06-14 00:00:07
趕緊扔掉!這幾樣日用品或是致癌元兇!家家都有,很多人還天天用

趕緊扔掉!這幾樣日用品或是致癌元兇!家家都有,很多人還天天用

三農老歷
2026-06-06 21:13:06
世界杯主帥年薪盤點:安切洛蒂年薪1000萬歐第一,圖赫爾第二

世界杯主帥年薪盤點:安切洛蒂年薪1000萬歐第一,圖赫爾第二

懂球帝
2026-06-13 23:59:23
具俊曄出王炸,大S生前照曝光引退讓

具俊曄出王炸,大S生前照曝光引退讓

凜若秋霜
2026-06-14 03:53:46
你的大腦在騙你:為什么小時候的夏天像一輩子,成年后卻快得像一天

你的大腦在騙你:為什么小時候的夏天像一輩子,成年后卻快得像一天

理性之光啊
2026-06-13 04:04:49
重慶南川區發布情況通報

重慶南川區發布情況通報

政知新媒體
2026-06-13 13:38:12
虎撲熱帖引圍觀:夏天出門穿不穿絲?

虎撲熱帖引圍觀:夏天出門穿不穿絲?

時光慢旅人
2026-06-14 01:02:39
涉嫌嚴重違紀違法,杜海波被查

涉嫌嚴重違紀違法,杜海波被查

都市快報橙柿互動
2026-06-13 21:39:50
臺灣上當了,大陸已經悄悄放出全新的統一模式,見效快、風險低!

臺灣上當了,大陸已經悄悄放出全新的統一模式,見效快、風險低!

共工之錨
2026-06-14 01:34:21
千億家業敗光,負債4600億!名校雙碩士太子,把地產帝國玩成絕境

千億家業敗光,負債4600億!名校雙碩士太子,把地產帝國玩成絕境

北有南梔
2026-06-07 18:20:03
曾任正部級干部馬天水,撤職后回老家弟弟不愿收留,死因令人唏噓

曾任正部級干部馬天水,撤職后回老家弟弟不愿收留,死因令人唏噓

元哥說歷史
2026-06-13 13:45:05
《奔跑吧》曝暫停播出:真正炸鍋的,不是停播,是那串天價宣傳費

《奔跑吧》曝暫停播出:真正炸鍋的,不是停播,是那串天價宣傳費

熱聞島
2026-06-12 11:31:40
一碗隔夜米飯毒死7人?醫生警告:米飯盡量別這樣吃,比砒霜還毒

一碗隔夜米飯毒死7人?醫生警告:米飯盡量別這樣吃,比砒霜還毒

路醫生健康科普
2026-05-31 20:15:03
德比斯奪冠重回第2!最新車手制造商積分:張雪機車坐穩第3

德比斯奪冠重回第2!最新車手制造商積分:張雪機車坐穩第3

全景體育V
2026-06-13 21:16:57
第四波反制來了,中方禁止入境,臺當局治權被接管,菲律賓已介入

第四波反制來了,中方禁止入境,臺當局治權被接管,菲律賓已介入

小嵩
2026-06-14 05:49:44
2026-06-14 06:47:00
CSDN incentive-icons
CSDN
成就一億技術人
26647文章數 242291關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

親子
健康
旅游
家居
軍事航空

親子要聞

真正覺醒的家庭

老人、小孩、孕婦,吃粽子有啥風險

旅游要聞

深化旅游合作 增進民心相通

家居要聞

空間微調 移形換境

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版