![]()
編譯 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
隨著越來越多企業開始要求工程師“全面擁抱 AI”,一個意想不到的問題也逐漸浮出水面:AI 賬單正在變得越來越嚇人。
不久前,Uber 和微軟就先后提到,企業內部大規模使用 AI 工具后,相關開銷迅速攀升:
Uber CTO Praveen Neppalli Naga 在接受采訪時透露,公司為 2026 年全年準備的 AI 工具預算,已經在今年的前四個月全部用完了。
微軟也開始取消內部工程師對 Claude Code 的訪問權限,計劃 6 月 30 日前轉移至自家的 Copilot CLI 工具,直接原因很可能是其成本超出了可接受的范圍。
而在 Netflix,一位高級工程師正在嘗試解決這個問題。
Netflix 高級工程師 Tejas Chopra 開發了一個名為Headroom 的開源項目,它能在請求發送給大語言模型(LLM)之前,對 Prompt 和上下文中的 Token 進行“瘦身”,刪除大量冗余內容——根據他的估算,目前發送給 AI 模型的 Token 中,最高有 90% 都是重復或無意義的信息。
雖然 Headroom 并非 Netflix 官方項目,但目前公司內部已有多個團隊在使用它,外部開發者社區也開始廣泛采用。在近期舉行的 Open Source Summit 上,Chopra 直接透露:
Headroom 已累計幫助用戶節省約 70 萬美元成本,并釋放出超過 2000 億個 Token 配額,可用于其他更有價值的任務。
對于一個今年 1 月才開源、目前版本還停留在 v0.22 的項目來說,這個成績已經相當驚人。截至目前,Headroom 已在 GitHub 上獲得超過7400個 Star,被 Fork 超過500次。(GitHub 地址:https://github.com/chopratejas/headroom)
![]()
Chopra 直言:“很多用戶找到我們,最主要的原因不是性能問題,而是他們真的被 Token 費用坑慘了。”
![]()
![]()
一張 287 美元賬單引發的靈感
Headroom 的誕生,源于一次再普通不過的個人項目開發。
起初,Chopra 用 Claude Sonnet 進行調試、重構代碼,并通過 MCP 工具查詢數據庫。而賬單出來后,他愣住了——287 美元。按當時 Claude Sonnet 的定價來看,這其實并不算貴:
輸入 Token:3 美元/百萬 Token
超過 20 萬Token上下文窗口后:6 美元/百萬 Token
看上去很便宜,但當 Token 數量達到數千萬甚至上億時,費用便會迅速累積。
于是 Chopra 開始分析這些 Token 究竟花在哪里。結果發現,真正的問題并不在于自己寫給 AI 的 Prompt。相反,大量成本來自各種自動生成的“垃圾信息”,包括冗余到不行的 JSON Schema、API 響應里嵌套的模板、重復的數據庫列……
Chopra 在博客中寫道:“這不是自然語言,不是創意寫作,它只是偽裝成文本的可壓縮數據。”
事實上,2025 年的一項研究發現:AI 應用中約 76% 的 Token 消耗,僅僅花在讀取用戶輸入上。也就是說,模型的大部分計算資源都浪費在“看材料”而不是“思考問題”上。
對于這個問題,不少模型廠商其實已經意識到了。
例如,Claude 提供了 Prompt Cache(前綴緩存)機制,但這功能對開發者并不友好——默認情況下,Claude 的緩存僅保留 5 分鐘;超過 5 分鐘無操作后,整個上下文窗口都需要重新上傳,即便內容完全一樣也要重新計費。雖然 API 中還提供了 1 小時 TTL(緩存存活時間)選項,但這有個坑:你要為寫入操作支付雙倍成本,才能為讀取操作節省 90% 的費用。
與此同時,市場上也開始出現各種 Token 優化服務。比如 YCombinator 投資的 Token Company,把 Token 壓縮做成了服務;開源方面有 RTK(Rust Token Killer),專門修剪冗長命令的輸出;另一個開源項目 LeanCTX 也類似于 RTK 的變種。
這些工具都能在一定程度上壓縮 Prompt。但 Chopra 認為它們仍存在一個問題:壓縮之后無法恢復原始內容——而這正是 Headroom 最大的特點。
CSDN 6 月寵粉福利|開發者“神裝”補給站
200 小時 GPU 算力免費領
瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶等能量套餐任選其一
入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝
領取地址:https://s.csdn.cn/4nPsOp
![]()
所以,Headroom 是如何工作的?
Headroom 本質上是一個運行在開發者電腦上的本地代理(Proxy),技術棧主要基于Python 和 Node.js。用戶只需要在命令行界面通過“headroom wrap codex”命令包裝自己的 LLM,之后所有發往 LLM 的請求都會先經過 Headroom 處理。
雖然 Headroom 也能壓縮一些程序代碼和人類指令,但它最擅長的是砍掉服務器日志(90% 可以丟棄)、MCP 工具輸出(70% 是重復的 JSON)、數據庫輸出(全是一個 schema)和文件樹(大量重復的元數據)。
換句話說,凡是準備塞進 Context Window(上下文窗口)的內容,都會先被壓縮。
(1)第一步:CacheAligner
Headroom 首先會運行一個名為 CacheAligner 的模塊。它的思路很簡單:如果用戶已經上傳過一段內容,那么下一次只發送發生變化的部分,而不是重新發送整個上下文,這樣可以極大提高緩存命中率。
Chopra 舉了一個例子:如果你的 System Prompt 中包含日期、UUID、Session ID,這些字段每次都會變化。那么緩存實際上會持續失效(Cache Miss),最終導致 Token 成本暴漲。
(2)第二步:針對不同數據類型壓縮
隨后,Headroom 會自動識別輸入內容類型,并交給不同的壓縮器處理:抽象語法樹(AST)壓縮器用于壓縮程序代碼;JSON 和 DOM 壓縮器分別刪除不需要的 JSON 數據和網頁數據。
(3)第三步:智能“Squasher”
這是 Headroom 最有意思的部分,一些類似于“Squasher(壓扁機)”的工具會基于統計分析,從文本或 JSON 輸入中判斷哪些部分真正重要,還會根據模型需要回看原始未壓縮提示詞的頻率,在一個反饋循環中學習自己是壓得過頭了還是壓得不夠。
(4)最大殺手锏:可逆壓縮
如上文所說,很多壓縮工具的問題在于:壓縮之后不可恢復。模型一旦需要原始數據,就無能為力。為此,Headroom 則引入了一套名為 CCR(Compress Cache and Retrieve) 的機制。
CCR 會在數據被壓縮的地方打上標記,如果 LLM 想獲取原始上下文,它可以調用一個 Headroom MCP,從用戶機器上檢索所需材料——這樣既節省 Token,又不會丟失信息。
Chopra 承認,這套軟件棧仍有改進空間,尤其是準確性測試方面。好在CCR存儲了原始Prompt,所以可優化空間不小。他還提到,未來可以針對其他特定類型的數據(如金融數據)構建更多壓縮器,音頻、圖像和視頻也需要處理(已經有用戶為了視頻解析 fork 了這個項目)。
與此同時,Chopra 還打造了一個相關項目叫 Headlight,并表示很快就會開源。據透露 Headlight 會追蹤每個 token 的來源,這對保證多模態工作的準確性很有用。
![]()
省一個Token=賺一個Token
很多開發者有一種直覺:“上下文越大越好。”但越來越多研究表明,這種觀點并不完全正確。
斯坦福大學研究人員發現:大模型對 Context Window 的注意力呈現明顯的“首尾效應”——LLM 傾向于更關注上下文窗口的開頭和結尾,而忽略中間部分。同樣,數據集成商 Chroma 的研究也發現:在 18 個 LLM 上,隨著輸入長度增加,模型性能變得越來越不可靠。
他們把這種現象稱為:Context Rot(上下文腐化)。簡單來說,就是大量無關信息不僅會增加成本,還會降低模型推理質量。
值得一提的是,精簡Prompt還能顯著降低響應時間。Chopra 在演講中分享了一個案例:某家公司把 Headroom 改造后用于語音交互系統,在語音場景下,連靜音也會產生 Token。而為了讓語音助手聽起來足夠自然,App 必須在 200 毫秒內給出響應。因此,他們利用 Headroom 盡可能壓縮上下文,從而縮短推理延遲。
除此之外,Headroom 還有一個額外收益——降低能耗。因為理論上來說,更少的 Token 意味著:更小的上下文窗口 → 更少的計算量 → 更低的 GPU 資源消耗。不過,正如 Chopra 調侃的那樣:即便 Headroom 讓 Token 成本下降了,開發者們大概率還是會把省下來的預算,繼續投入到更復雜、更龐大的 AI 應用中。
不過至少目前來看,對于那些已經被 AI 賬單“教育”過的企業來說,Headroom這樣的工具無疑相當有吸引力。畢竟在大模型時代,省下一個 Token 就等于賺到了一個 Token。
原文鏈接:https://www.theregister.com/ai-ml/2026/05/31/netflix-wiz-creates-app-to-slash-ai-bills-then-open-sources-it/5248702
開發者“神裝”補給站|CSDN 6 月寵粉福利
不論你是想跑通最新的本地 LLM,還是想實測一套 Agent 自動化工作流,算力與補給,我們都為你備齊了!
立領三重進階大禮:
200 小時云端算力券免費領
瑞幸咖啡/肯德基早餐/麥當勞套餐/下午茶任選其一
掃碼即刻領取,今日額度有限,手慢無!
領取地址:https://s.csdn.cn/4nPsOp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.