網易首頁 > 網易號 > 正文申請入駐

5個月“救回”2000億Token！被AI賬單嚇到，Netflix大佬開源「Token瘦身器」：砍掉90%無效Token，狂省70萬美元！

2026-06-04 15:18:45　來源: CSDN

北京舉報

分享至

編譯 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

隨著越來越多企業開始要求工程師“全面擁抱 AI”，一個意想不到的問題也逐漸浮出水面：AI 賬單正在變得越來越嚇人。

不久前，Uber 和微軟就先后提到，企業內部大規模使用 AI 工具后，相關開銷迅速攀升：

Uber CTO Praveen Neppalli Naga 在接受采訪時透露，公司為 2026 年全年準備的 AI 工具預算，已經在今年的前四個月全部用完了。
微軟也開始取消內部工程師對 Claude Code 的訪問權限，計劃 6 月 30 日前轉移至自家的 Copilot CLI 工具，直接原因很可能是其成本超出了可接受的范圍。

而在 Netflix，一位高級工程師正在嘗試解決這個問題。

Netflix 高級工程師 Tejas Chopra 開發了一個名為Headroom 的開源項目，它能在請求發送給大語言模型（LLM）之前，對 Prompt 和上下文中的 Token 進行“瘦身”，刪除大量冗余內容——根據他的估算，目前發送給 AI 模型的 Token 中，最高有 90% 都是重復或無意義的信息。

雖然 Headroom 并非 Netflix 官方項目，但目前公司內部已有多個團隊在使用它，外部開發者社區也開始廣泛采用。在近期舉行的 Open Source Summit 上，Chopra 直接透露：

Headroom 已累計幫助用戶節省約 70 萬美元成本，并釋放出超過 2000 億個 Token 配額，可用于其他更有價值的任務。

對于一個今年 1 月才開源、目前版本還停留在 v0.22 的項目來說，這個成績已經相當驚人。截至目前，Headroom 已在 GitHub 上獲得超過7400個 Star，被 Fork 超過500次。（GitHub 地址：https://github.com/chopratejas/headroom）

Chopra 直言：“很多用戶找到我們，最主要的原因不是性能問題，而是他們真的被 Token 費用坑慘了。”

一張 287 美元賬單引發的靈感

Headroom 的誕生，源于一次再普通不過的個人項目開發。

起初，Chopra 用 Claude Sonnet 進行調試、重構代碼，并通過 MCP 工具查詢數據庫。而賬單出來后，他愣住了——287 美元。按當時 Claude Sonnet 的定價來看，這其實并不算貴：

輸入 Token：3 美元/百萬 Token
超過 20 萬Token上下文窗口后：6 美元/百萬 Token

看上去很便宜，但當 Token 數量達到數千萬甚至上億時，費用便會迅速累積。

于是 Chopra 開始分析這些 Token 究竟花在哪里。結果發現，真正的問題并不在于自己寫給 AI 的 Prompt。相反，大量成本來自各種自動生成的“垃圾信息”，包括冗余到不行的 JSON Schema、API 響應里嵌套的模板、重復的數據庫列……

Chopra 在博客中寫道：“這不是自然語言，不是創意寫作，它只是偽裝成文本的可壓縮數據。”

事實上，2025 年的一項研究發現：AI 應用中約 76% 的 Token 消耗，僅僅花在讀取用戶輸入上。也就是說，模型的大部分計算資源都浪費在“看材料”而不是“思考問題”上。

對于這個問題，不少模型廠商其實已經意識到了。

例如，Claude 提供了 Prompt Cache（前綴緩存）機制，但這功能對開發者并不友好——默認情況下，Claude 的緩存僅保留 5 分鐘；超過 5 分鐘無操作后，整個上下文窗口都需要重新上傳，即便內容完全一樣也要重新計費。雖然 API 中還提供了 1 小時 TTL（緩存存活時間）選項，但這有個坑：你要為寫入操作支付雙倍成本，才能為讀取操作節省 90% 的費用。

與此同時，市場上也開始出現各種 Token 優化服務。比如 YCombinator 投資的 Token Company，把 Token 壓縮做成了服務；開源方面有 RTK（Rust Token Killer），專門修剪冗長命令的輸出；另一個開源項目 LeanCTX 也類似于 RTK 的變種。

這些工具都能在一定程度上壓縮 Prompt。但 Chopra 認為它們仍存在一個問題：壓縮之后無法恢復原始內容——而這正是 Headroom 最大的特點。

CSDN 6 月寵粉福利｜開發者“神裝”補給站

200 小時 GPU 算力免費領

瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶等能量套餐任選其一

入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝

領取地址：https://s.csdn.cn/4nPsOp

所以，Headroom 是如何工作的？

Headroom 本質上是一個運行在開發者電腦上的本地代理（Proxy），技術棧主要基于Python 和 Node.js。用戶只需要在命令行界面通過“headroom wrap codex”命令包裝自己的 LLM，之后所有發往 LLM 的請求都會先經過 Headroom 處理。

雖然 Headroom 也能壓縮一些程序代碼和人類指令，但它最擅長的是砍掉服務器日志（90% 可以丟棄）、MCP 工具輸出（70% 是重復的 JSON）、數據庫輸出（全是一個 schema）和文件樹（大量重復的元數據）。

換句話說，凡是準備塞進 Context Window（上下文窗口）的內容，都會先被壓縮。

（1）第一步：CacheAligner

Headroom 首先會運行一個名為 CacheAligner 的模塊。它的思路很簡單：如果用戶已經上傳過一段內容，那么下一次只發送發生變化的部分，而不是重新發送整個上下文，這樣可以極大提高緩存命中率。

Chopra 舉了一個例子：如果你的 System Prompt 中包含日期、UUID、Session ID，這些字段每次都會變化。那么緩存實際上會持續失效（Cache Miss），最終導致 Token 成本暴漲。

（2）第二步：針對不同數據類型壓縮

隨后，Headroom 會自動識別輸入內容類型，并交給不同的壓縮器處理：抽象語法樹（AST）壓縮器用于壓縮程序代碼；JSON 和 DOM 壓縮器分別刪除不需要的 JSON 數據和網頁數據。

（3）第三步：智能“Squasher”

這是 Headroom 最有意思的部分，一些類似于“Squasher（壓扁機）”的工具會基于統計分析，從文本或 JSON 輸入中判斷哪些部分真正重要，還會根據模型需要回看原始未壓縮提示詞的頻率，在一個反饋循環中學習自己是壓得過頭了還是壓得不夠。

（4）最大殺手锏：可逆壓縮

如上文所說，很多壓縮工具的問題在于：壓縮之后不可恢復。模型一旦需要原始數據，就無能為力。為此，Headroom 則引入了一套名為 CCR（Compress Cache and Retrieve）的機制。

CCR 會在數據被壓縮的地方打上標記，如果 LLM 想獲取原始上下文，它可以調用一個 Headroom MCP，從用戶機器上檢索所需材料——這樣既節省 Token，又不會丟失信息。

Chopra 承認，這套軟件棧仍有改進空間，尤其是準確性測試方面。好在CCR存儲了原始Prompt，所以可優化空間不小。他還提到，未來可以針對其他特定類型的數據（如金融數據）構建更多壓縮器，音頻、圖像和視頻也需要處理（已經有用戶為了視頻解析 fork 了這個項目）。

與此同時，Chopra 還打造了一個相關項目叫 Headlight，并表示很快就會開源。據透露 Headlight 會追蹤每個 token 的來源，這對保證多模態工作的準確性很有用。

省一個Token=賺一個Token

很多開發者有一種直覺：“上下文越大越好。”但越來越多研究表明，這種觀點并不完全正確。

斯坦福大學研究人員發現：大模型對 Context Window 的注意力呈現明顯的“首尾效應”——LLM 傾向于更關注上下文窗口的開頭和結尾，而忽略中間部分。同樣，數據集成商 Chroma 的研究也發現：在 18 個 LLM 上，隨著輸入長度增加，模型性能變得越來越不可靠。

他們把這種現象稱為：Context Rot（上下文腐化）。簡單來說，就是大量無關信息不僅會增加成本，還會降低模型推理質量。

值得一提的是，精簡Prompt還能顯著降低響應時間。Chopra 在演講中分享了一個案例：某家公司把 Headroom 改造后用于語音交互系統，在語音場景下，連靜音也會產生 Token。而為了讓語音助手聽起來足夠自然，App 必須在 200 毫秒內給出響應。因此，他們利用 Headroom 盡可能壓縮上下文，從而縮短推理延遲。

除此之外，Headroom 還有一個額外收益——降低能耗。因為理論上來說，更少的 Token 意味著：更小的上下文窗口 → 更少的計算量 → 更低的 GPU 資源消耗。不過，正如 Chopra 調侃的那樣：即便 Headroom 讓 Token 成本下降了，開發者們大概率還是會把省下來的預算，繼續投入到更復雜、更龐大的 AI 應用中。

不過至少目前來看，對于那些已經被 AI 賬單“教育”過的企業來說，Headroom這樣的工具無疑相當有吸引力。畢竟在大模型時代，省下一個 Token 就等于賺到了一個 Token。

原文鏈接：https://www.theregister.com/ai-ml/2026/05/31/netflix-wiz-creates-app-to-slash-ai-bills-then-open-sources-it/5248702

開發者“神裝”補給站｜CSDN 6 月寵粉福利

不論你是想跑通最新的本地 LLM，還是想實測一套 Agent 自動化工作流，算力與補給，我們都為你備齊了！

立領三重進階大禮：

200 小時云端算力券免費領

瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶任選其一

掃碼即刻領取，今日額度有限，手慢無！

領取地址：https://s.csdn.cn/4nPsOp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.