網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI時(shí)代的省錢哲學(xué)：如何把每一個(gè)Token花在刀刃上

2026-04-03 10:49:56　來源: 動(dòng)察Beating

北京舉報(bào)

分享至

文 | Sleepy.md

在那個(gè)按字收費(fèi)的電報(bào)年代，筆墨即是金錢。人們習(xí)慣將萬語千言濃縮至極致，「速歸」抵得過一封長信，「平安」是最重的叮嚀。

后來，電話牽進(jìn)了家門，但長途費(fèi)按分秒計(jì)費(fèi)。父母的長途電話總是言簡意賅，正事說完便匆匆掛斷，一旦話頭稍微延展，心疼話費(fèi)的念頭便會(huì)掐斷剛冒頭的寒暄。

再后來，寬帶進(jìn)家，上網(wǎng)按小時(shí)收費(fèi)，人們盯著屏幕上的計(jì)時(shí)器，網(wǎng)頁一開即關(guān)，視頻只敢下載，流媒體在當(dāng)時(shí)是個(gè)奢侈的動(dòng)詞。每一個(gè)下載進(jìn)度條的盡頭，都藏著人們對(duì)「連接世界」的渴望與對(duì)「余額不足」的忌憚。

計(jì)費(fèi)的單位變了又變，省錢的本能亙古不變。

如今，Token 成了 AI 時(shí)代的貨幣。然而，大多數(shù)人尚未學(xué)會(huì)如何在這個(gè)時(shí)代精打細(xì)算，因?yàn)槲覀冞€沒學(xué)會(huì)如何在看不見的算法里計(jì)算得失。

2022 年 ChatGPT 剛出來的時(shí)候，幾乎沒人關(guān)心 Token 為何物。那是 AI 的大鍋飯時(shí)代，每月花個(gè) 20 美元，想聊多少聊多少。

但自從最近 AI Agent 火起來之后，Token 花銷變成了每一個(gè)用 AI Agent 的人都必須關(guān)注的事情。

不同于一問一答的簡單對(duì)話，一個(gè)任務(wù)流的背后是成百上千次的 API 調(diào)用，Agent 的獨(dú)立思考是有代價(jià)的，每一次自我修正、每一次工具調(diào)用，都對(duì)應(yīng)著賬單上數(shù)字的跳動(dòng)。然后你會(huì)發(fā)現(xiàn)你充值進(jìn)去的錢突然就不夠用了，而且你還不知道 Agent 到底都干了什么。

現(xiàn)實(shí)生活里，大家都知道怎么省錢。去菜市場買菜，我們知道把帶泥的爛葉子擇干凈再上秤；打車去機(jī)場，老司機(jī)知道避開早高峰的高架。

數(shù)字世界里的省錢邏輯其實(shí)也一樣，只不過計(jì)費(fèi)單位從「斤」和「公里」，換成了 Token。

在過去，節(jié)省是由于匱乏；而在 AI 時(shí)代，節(jié)省是為了精準(zhǔn)。

我們希望通過這篇文章，幫你梳理出一套 AI 時(shí)代下的省錢方法論，讓你把每一分錢都花在刀刃上。

上秤前，先擇掉爛菜葉

在 AI 時(shí)代，信息的價(jià)值不再由廣度決定，而由純度決定。

AI 的計(jì)費(fèi)邏輯是按它閱讀的字?jǐn)?shù)收費(fèi)。無論你喂進(jìn)去的是真知灼見，還是毫無意義的格式廢話，只要它讀了，你就得付錢。

因此，省 Token 的第一個(gè)思維方式，就是把「信噪比」刻進(jìn)潛意識(shí)。

你喂給 AI 的每一個(gè)字、每一張圖、每一行代碼，都要付錢。所以在把任何東西交給 AI 之前，記得先問問自己：這里面有多少是 AI 真正需要的？有多少是帶泥的爛菜葉？

比如「你好，請(qǐng)幫我...」這種冗長的開場白、重復(fù)的背景介紹、沒刪干凈的代碼注釋，都是帶泥的爛菜葉。

除此之外，最常見的浪費(fèi)，是直接把 PDF 或網(wǎng)頁截圖扔給 AI。這樣的確你自己是省事了，但是 AI 時(shí)代的「省事」往往意味著「昂貴」。

一份格式完整的 PDF，除了正文內(nèi)容，還包含頁眉、頁腳、圖表標(biāo)注、隱藏水印，以及大量用于排版的格式代碼。這些東西對(duì) AI 理解你的問題毫無幫助，但它們?nèi)慷家?jì)費(fèi)。

下次記得把 PDF 先轉(zhuǎn)成干凈的 Markdown 文本再喂給 AI。當(dāng)你把 10MB 的 PDF 變成 10KB 的干凈文本時(shí)，你不僅省下了 99% 的錢，還讓 AI 的大腦運(yùn)行速度比以前快得多。

圖片是另一個(gè)吞金獸。

在視覺模型的邏輯里，AI 并不在乎你的照片拍得美不美，它只在乎你占用了多少像素面積。

以 Claude 的官方計(jì)算邏輯為例：圖片的 Token 消耗 = 寬度像素 × 高度像素 ÷ 750。

一張 1000×1000 像素的圖片，消耗約 1334 個(gè) Token，按 Claude Sonnet 4.6 的定價(jià)折算，每張圖片約 0.004 美元；

但如果把同一張圖壓縮到 200×200 像素，只消耗 54 個(gè) Token，成本降到 0.00016 美元，差了整整 25 倍。

很多人直接把手機(jī)拍的高清照片、4K 截圖扔給 AI，殊不知這些圖片消耗的 Token 可能足以讓 AI 讀完大半本中篇小說。如果任務(wù)只是識(shí)別圖片里的文字或者做簡單的視覺判斷，比如讓 AI 識(shí)別發(fā)票上的金額、閱讀說明書里的文字，或者判斷圖中是否有紅綠燈，那么 4K 的分辨率就是純純的浪費(fèi)，把圖片壓縮到最小可用分辨率就夠了。

但輸入端最容易浪費(fèi) Token 的原因，其實(shí)不是文件格式，而是低效的說話方式。

很多人把 AI 當(dāng)成真人鄰居，習(xí)慣用社交式的碎碎念去溝通，先丟一句「幫我寫個(gè)網(wǎng)頁」，等 AI 吐出個(gè)半成品，再補(bǔ)充細(xì)節(jié)，再反復(fù)拉扯。這種擠牙膏式的對(duì)話，會(huì)讓 AI 反復(fù)生成內(nèi)容，每一輪修改都在疊加 Token 消耗。

騰訊云的工程師在實(shí)踐中發(fā)現(xiàn)，同樣一個(gè)需求，擠牙膏式的多輪對(duì)話，最終消耗的 Token 往往是一次性說清楚的 3 到 5 倍。

真正的省錢之道，是放棄這種低效率的社交試探，一次性把要求、邊界條件、參考范例說清楚。少去費(fèi)力解釋「不要做什么」，因?yàn)榉穸ň渫瓤隙ň湎母嗟睦斫獬杀荆恢苯痈嬖V它「要怎么做」，并給出一個(gè)清晰的正確示范。

同時(shí)，如果你知道目標(biāo)在哪里，就直接跟 AI 說清楚，別讓 AI 去當(dāng)偵探。

當(dāng)你命令 AI「找一下用戶相關(guān)的代碼」時(shí)，它必須在后臺(tái)進(jìn)行大規(guī)模的掃描、分析與猜測；而當(dāng)你直接告訴它「去看 src/services/user.ts 這個(gè)文件」時(shí)，Token 的消耗天差地別，在數(shù)字世界里，信息對(duì)等就是最大的節(jié)約。

別為 AI 的「禮貌」買單

大模型計(jì)費(fèi)有個(gè)潛規(guī)則很多人沒意識(shí)到：輸出 Token 通常比輸入 Token 貴 3 到 5 倍。

也就是說，AI 說出來的話，比你說給它的話要貴得多。以 Claude Sonnet 4.6 的定價(jià)為例，輸入每百萬 Token 僅需 3 美元，而輸出則陡然跳升至 15 美元，整整 5 倍的價(jià)差。

那些「好的，我已完全理解您的需求，現(xiàn)在開始為您解答……」的禮貌開場白，那些「希望以上內(nèi)容對(duì)您有所幫助」的客套結(jié)尾，在真人溝通時(shí)是禮貌的社交辭令，但是在 API 的賬單上，這些毫無信息增量的寒暄也都是要花你自己的錢的。

解決輸出端浪費(fèi)最有效的手段，是給 AI 立規(guī)矩。用系統(tǒng)指令明確告訴它：不要寒暄，不要解釋，不要復(fù)述需求，直接給答案。

這些規(guī)矩只需設(shè)定一次，便在每一次對(duì)話中生效，是真正「一次投入、永久受益」的理財(cái)手段。但在建立規(guī)矩時(shí)，很多人又陷入了另一個(gè)誤區(qū)：用冗長的自然語言去堆砌指令。

工程師的實(shí)測數(shù)據(jù)表明，指令的效能不在于字?jǐn)?shù)，而在于密度。將一段 500 字的系統(tǒng)提示詞壓縮到 180 字，通過刪掉無意義的禮貌用語、合并重復(fù)指令、并將段落重構(gòu)為簡潔的條目化清單，AI 的輸出質(zhì)量幾乎毫無波動(dòng)，但單次調(diào)用的 Token 消耗卻能驟降 64%。

還有一個(gè)更主動(dòng)的控制手段，那就是限制輸出長度。很多人從來不設(shè)置輸出上限，任由 AI 自由發(fā)揮，這種對(duì)表達(dá)權(quán)的放任，往往會(huì)導(dǎo)致極度的成本失控。你或許只需要一個(gè)點(diǎn)到為止的短句，AI 卻為了展現(xiàn)某種「智力誠意」，不由分說地為你生成了一篇 800 字的小作文。

如果你追求的是純粹的數(shù)據(jù)，就應(yīng)當(dāng)強(qiáng)制 AI 返回結(jié)構(gòu)化的格式，而非冗長的自然語言描述。在承載同等信息量的情況下，JSON 格式的 Token 消耗遠(yuǎn)低于散文化的段落。這是因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)剔除了所有冗余的連接詞、語氣詞及解釋性修飾，只保留了高濃度的邏輯核心。

AI 時(shí)代，你應(yīng)該清醒地意識(shí)到，值得你付費(fèi)的是結(jié)果的價(jià)值，而非 AI 那段毫無意義的自我解釋。

除此之外，AI 的「過度思考」也在瘋狂蠶食你的賬戶余額。

一些高級(jí)模型有「擴(kuò)展思考」模式，會(huì)在回答之前先進(jìn)行海量的內(nèi)部推理。這個(gè)推理過程也要計(jì)費(fèi)，而且是按輸出的價(jià)格來計(jì)價(jià)的，非常貴。

這種模式本質(zhì)上是為「需要深度邏輯支撐的復(fù)雜任務(wù)」設(shè)計(jì)的。但是大多數(shù)人在問簡單問題的時(shí)候也選擇了這個(gè)模式。對(duì)于不需要深度推理的任務(wù)，明確告訴 AI「不需要解釋思路，直接給答案」，或者手動(dòng)關(guān)掉擴(kuò)展思考，也能幫你省不少錢。

別讓 AI 翻舊賬

大模型沒有真正的記憶，它只是在瘋狂地翻舊賬。

這是很多人不知道的一個(gè)底層機(jī)制。每次你在一個(gè)對(duì)話窗口里發(fā)出新消息，AI 并不是從你這句話開始理解，而是把你們之前聊過的所有內(nèi)容，包括每一輪對(duì)話、每一段代碼、每一份引用文檔全部重新讀一遍，然后才回答你。

在 Token 的賬單里，這種「溫故而知新」絕非免費(fèi)。隨著對(duì)話輪次的疊加，哪怕你只是追問一個(gè)簡單的詞，AI 背后重讀整本舊賬的成本也會(huì)呈幾何倍數(shù)增長。這種機(jī)制決定了，對(duì)話歷史越沉重，你的每一句提問就越昂貴。

有人追蹤了 496 個(gè)包含 20 條以上消息的真實(shí)對(duì)話，發(fā)現(xiàn)第 1 條消息平均讀取 14,000 個(gè) Token，每條成本約 3.6 美分；到第 50 條消息時(shí)，平均讀取 79,000 個(gè) Token，每條成本約 4.5 美分，貴了整整 80%。而且上下文越來越長，到第 50 條時(shí)，AI 要重新處理的上下文已經(jīng)是第 1 條時(shí)的 5.6 倍。

解決這個(gè)問題，最簡單的習(xí)慣是：一個(gè)任務(wù)，一個(gè)對(duì)話框。

當(dāng)一個(gè)話題聊完，果斷開啟新對(duì)話，不要把 AI 當(dāng)成一個(gè)永遠(yuǎn)不關(guān)機(jī)的聊天窗口。這個(gè)習(xí)慣聽起來很簡單，但很多人就是做不到，總覺得「萬一還要用到之前的內(nèi)容呢」。事實(shí)上，那些你擔(dān)心的「萬一」絕大多數(shù)時(shí)候是不會(huì)出現(xiàn)的，而為了這個(gè)萬一，你已經(jīng)在每一條新消息上多付了幾倍的錢。

當(dāng)對(duì)話確實(shí)需要延續(xù)，但上下文已經(jīng)變得很長時(shí)，我們可以利用一些工具的壓縮功能。Claude Code 有一個(gè)/compact 命令，能把長篇大論的對(duì)話歷史濃縮成一段簡短的摘要，幫你做一次賽博斷舍離。

還有省錢邏輯叫 Prompt Caching（提示詞緩存）。如果你反復(fù)使用同一段系統(tǒng)提示詞，或者每次對(duì)話都要引用同一份參考文檔，AI 會(huì)把這部分內(nèi)容緩存起來，下次調(diào)用時(shí)只收取很少的緩存讀取費(fèi)用，而不是每次都按全價(jià)計(jì)費(fèi)。

Anthropic 的官方定價(jià)顯示，緩存命中的 Token 價(jià)格是正常價(jià)格的 1/10。OpenAI 的 Prompt Caching 同樣能把輸入成本降低大約 50%。一篇 2026 年 1 月發(fā)表在 arXiv 上的論文，對(duì)多個(gè) AI 平臺(tái)的長任務(wù)進(jìn)行了測試，發(fā)現(xiàn)提示詞緩存能把 API 成本降低 45% 到 80%。

也就是說，同樣的內(nèi)容，第一次喂給 AI 要付全價(jià)，之后每次調(diào)用只要付 1/10。對(duì)于那些每天都要重復(fù)使用同一套規(guī)范文檔或系統(tǒng)提示詞的用戶來說，這個(gè)功能能省下大量 Token。

但 Prompt Caching 有一個(gè)前提，你的系統(tǒng)提示詞和參考文檔的內(nèi)容和順序必須保持一致，而且要放在對(duì)話的最前面。一旦內(nèi)容有任何改動(dòng)，緩存就會(huì)失效，重新按全價(jià)計(jì)費(fèi)。所以，如果你有一套固定的工作規(guī)范，就把它寫死，不要隨意修改。

最后一個(gè)上下文管理的技巧，是按需加載。很多人喜歡把所有的規(guī)范、文檔、注意事項(xiàng)一股腦塞進(jìn)系統(tǒng)提示詞里，理由還是那個(gè)「以防萬一」。

但這樣做的代價(jià)是，你明明只是在做一個(gè)很簡單的任務(wù)，卻被迫加載了幾千字的規(guī)則，白白浪費(fèi)一堆 Token。Claude Code 的官方文檔建議把 CLAUDE.md 控制在 200 行以內(nèi)，把不同場景的專項(xiàng)規(guī)則拆分成獨(dú)立的技能文件，用到哪個(gè)場景才加載哪個(gè)場景的規(guī)則。保持上下文的絕對(duì)純凈，就是對(duì)算力最高級(jí)的尊重。

別開保時(shí)捷去買菜

不同的 AI 模型，價(jià)格差距巨大。

Claude Opus 4.6 每百萬 Token 輸入要 5 美元、輸出 25 美元，Claude Haiku 3.5 只要 0.8 美元輸入、4 美元輸出，差了將近 6 倍。讓最頂級(jí)的模型去干搜集資料、排版格式的雜活，不僅慢，而且很貴。

聰明的用法是把我們?nèi)祟惿鐣?huì)常見的「階級(jí)分工」思維帶到 AI 社會(huì)，不同難度的任務(wù)，交給不同價(jià)位的模型。

就像在現(xiàn)實(shí)世界里雇人干活，你不會(huì)專門去雇一個(gè)年薪百萬的專家去工地搬磚。

AI 也一樣。Claude Code 的官方文檔里也明確建議：Sonnet 處理大多數(shù)編程任務(wù)，Opus 留給復(fù)雜的架構(gòu)決策和多步驟推理，簡單的子任務(wù)指定用 Haiku。

更具體的實(shí)操方案是構(gòu)建「兩段式工作流」。在第一階段，用免費(fèi)或廉價(jià)的基礎(chǔ)模型做前期的臟活累活，比如資料搜集、格式清理、初稿生成、簡單的分類和歸納。進(jìn)入第二階段，再將提煉后的高純度精華投喂給頂級(jí)模型，進(jìn)行核心決策與深度精修。

舉個(gè)例子，如果你要分析一份 100 頁的行業(yè)報(bào)告，可以先用 Gemini Flash 把報(bào)告里的關(guān)鍵數(shù)據(jù)和結(jié)論提取出來，整理成一份 10 頁的摘要，然后再把這份摘要交給 Claude Opus 做深度分析和判斷。這種兩段式工作流，能在保證質(zhì)量的前提下，把成本大幅壓縮。

比單純的分段處理更進(jìn)階的，是基于任務(wù)解構(gòu)的深度分工。一個(gè)復(fù)雜的工程任務(wù)，完全可以被拆解為數(shù)個(gè)彼此獨(dú)立的子任務(wù)，并匹配最合適的模型。

比如一個(gè)需要寫代碼的任務(wù)，可以讓廉價(jià)模型先寫框架和樣板代碼，然后只把核心邏輯的部分交給昂貴模型來實(shí)現(xiàn)。每個(gè)子任務(wù)有干凈、專注的上下文，結(jié)果更準(zhǔn)確，成本也更低。

你本來不需要花 Token

前面所有的探討，本質(zhì)上都在解決「如何省錢」的戰(zhàn)術(shù)問題，但一個(gè)更底層的邏輯命題被很多人忽視了：這個(gè)動(dòng)作，到底需不需要花 Token？

最極致的節(jié)省不是算法的優(yōu)化，而是決策的斷舍離。我們習(xí)慣了向 AI 尋求萬能的解答，卻忘了在很多場景下，調(diào)用昂貴的大模型無異于高射炮打蚊子。

比如讓 AI 自動(dòng)處理郵件，它會(huì)把每一封郵件都當(dāng)成獨(dú)立任務(wù)去理解、分類、回復(fù)，Token 消耗巨大。但如果你先花 30 秒掃一眼收件箱，手動(dòng)篩掉那些明顯不需要 AI 處理的郵件，再把剩下的交給 AI，成本立刻降到原來的一小部分。人的判斷力在這里不是障礙，而是最好用的過濾器。

電報(bào)時(shí)代的人知道，每多發(fā)一個(gè)字要多花多少錢，所以他們會(huì)掂量，這是一種對(duì)資源的直覺感知。AI 時(shí)代也一樣，當(dāng)你真正知道每讓 AI 多說一句話要多花多少錢，你自然就會(huì)掂量這件事值不值得讓 AI 來做、這個(gè)任務(wù)需要頂級(jí)模型還是廉價(jià)模型、這段上下文還有沒有用。

這種掂量，是最省錢的能力。算力越來越貴的時(shí)代，最聰明的用法，不是讓 AI 替代人，而是讓 AI 和人去干各自擅長的事。當(dāng)這種對(duì) Token 的敏感性內(nèi)化為一種條件反射，你才真正從算力的附庸，變回了算力的主人。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.