![]()
![]()
文 | Sleepy.md
在那個(gè)按字收費(fèi)的電報(bào)年代,筆墨即是金錢。人們習(xí)慣將萬語千言濃縮至極致,「速歸」抵得過一封長信,「平安」是最重的叮嚀。
后來,電話牽進(jìn)了家門,但長途費(fèi)按分秒計(jì)費(fèi)。父母的長途電話總是言簡意賅,正事說完便匆匆掛斷,一旦話頭稍微延展,心疼話費(fèi)的念頭便會(huì)掐斷剛冒頭的寒暄。
再后來,寬帶進(jìn)家,上網(wǎng)按小時(shí)收費(fèi),人們盯著屏幕上的計(jì)時(shí)器,網(wǎng)頁一開即關(guān),視頻只敢下載,流媒體在當(dāng)時(shí)是個(gè)奢侈的動(dòng)詞。每一個(gè)下載進(jìn)度條的盡頭,都藏著人們對(duì)「連接世界」的渴望與對(duì)「余額不足」的忌憚。
計(jì)費(fèi)的單位變了又變,省錢的本能亙古不變。
如今,Token 成了 AI 時(shí)代的貨幣。然而,大多數(shù)人尚未學(xué)會(huì)如何在這個(gè)時(shí)代精打細(xì)算,因?yàn)槲覀冞€沒學(xué)會(huì)如何在看不見的算法里計(jì)算得失。
2022 年 ChatGPT 剛出來的時(shí)候,幾乎沒人關(guān)心 Token 為何物。那是 AI 的大鍋飯時(shí)代,每月花個(gè) 20 美元,想聊多少聊多少。
但自從最近 AI Agent 火起來之后,Token 花銷變成了每一個(gè)用 AI Agent 的人都必須關(guān)注的事情。
不同于一問一答的簡單對(duì)話,一個(gè)任務(wù)流的背后是成百上千次的 API 調(diào)用,Agent 的獨(dú)立思考是有代價(jià)的,每一次自我修正、每一次工具調(diào)用,都對(duì)應(yīng)著賬單上數(shù)字的跳動(dòng)。然后你會(huì)發(fā)現(xiàn)你充值進(jìn)去的錢突然就不夠用了,而且你還不知道 Agent 到底都干了什么。
現(xiàn)實(shí)生活里,大家都知道怎么省錢。去菜市場買菜,我們知道把帶泥的爛葉子擇干凈再上秤;打車去機(jī)場,老司機(jī)知道避開早高峰的高架。
數(shù)字世界里的省錢邏輯其實(shí)也一樣,只不過計(jì)費(fèi)單位從「斤」和「公里」,換成了 Token。
![]()
在過去,節(jié)省是由于匱乏;而在 AI 時(shí)代,節(jié)省是為了精準(zhǔn)。
我們希望通過這篇文章,幫你梳理出一套 AI 時(shí)代下的省錢方法論,讓你把每一分錢都花在刀刃上。
![]()
上秤前,先擇掉爛菜葉
在 AI 時(shí)代,信息的價(jià)值不再由廣度決定,而由純度決定。
AI 的計(jì)費(fèi)邏輯是按它閱讀的字?jǐn)?shù)收費(fèi)。無論你喂進(jìn)去的是真知灼見,還是毫無意義的格式廢話,只要它讀了,你就得付錢。
因此,省 Token 的第一個(gè)思維方式,就是把「信噪比」刻進(jìn)潛意識(shí)。
你喂給 AI 的每一個(gè)字、每一張圖、每一行代碼,都要付錢。所以在把任何東西交給 AI 之前,記得先問問自己:這里面有多少是 AI 真正需要的?有多少是帶泥的爛菜葉?
比如「你好,請(qǐng)幫我...」這種冗長的開場白、重復(fù)的背景介紹、沒刪干凈的代碼注釋,都是帶泥的爛菜葉。
除此之外,最常見的浪費(fèi),是直接把 PDF 或網(wǎng)頁截圖扔給 AI。這樣的確你自己是省事了,但是 AI 時(shí)代的「省事」往往意味著「昂貴」。
一份格式完整的 PDF,除了正文內(nèi)容,還包含頁眉、頁腳、圖表標(biāo)注、隱藏水印,以及大量用于排版的格式代碼。這些東西對(duì) AI 理解你的問題毫無幫助,但它們?nèi)慷家?jì)費(fèi)。
下次記得把 PDF 先轉(zhuǎn)成干凈的 Markdown 文本再喂給 AI。當(dāng)你把 10MB 的 PDF 變成 10KB 的干凈文本時(shí),你不僅省下了 99% 的錢,還讓 AI 的大腦運(yùn)行速度比以前快得多。
圖片是另一個(gè)吞金獸。
在視覺模型的邏輯里,AI 并不在乎你的照片拍得美不美,它只在乎你占用了多少像素面積。
以 Claude 的官方計(jì)算邏輯為例:圖片的 Token 消耗 = 寬度像素 × 高度像素 ÷ 750。
一張 1000×1000 像素的圖片,消耗約 1334 個(gè) Token,按 Claude Sonnet 4.6 的定價(jià)折算,每張圖片約 0.004 美元;
但如果把同一張圖壓縮到 200×200 像素,只消耗 54 個(gè) Token,成本降到 0.00016 美元,差了整整 25 倍。
很多人直接把手機(jī)拍的高清照片、4K 截圖扔給 AI,殊不知這些圖片消耗的 Token 可能足以讓 AI 讀完大半本中篇小說。如果任務(wù)只是識(shí)別圖片里的文字或者做簡單的視覺判斷,比如讓 AI 識(shí)別發(fā)票上的金額、閱讀說明書里的文字,或者判斷圖中是否有紅綠燈,那么 4K 的分辨率就是純純的浪費(fèi),把圖片壓縮到最小可用分辨率就夠了。
但輸入端最容易浪費(fèi) Token 的原因,其實(shí)不是文件格式,而是低效的說話方式。
很多人把 AI 當(dāng)成真人鄰居,習(xí)慣用社交式的碎碎念去溝通,先丟一句「幫我寫個(gè)網(wǎng)頁」,等 AI 吐出個(gè)半成品,再補(bǔ)充細(xì)節(jié),再反復(fù)拉扯。這種擠牙膏式的對(duì)話,會(huì)讓 AI 反復(fù)生成內(nèi)容,每一輪修改都在疊加 Token 消耗。
騰訊云的工程師在實(shí)踐中發(fā)現(xiàn),同樣一個(gè)需求,擠牙膏式的多輪對(duì)話,最終消耗的 Token 往往是一次性說清楚的 3 到 5 倍。
真正的省錢之道,是放棄這種低效率的社交試探,一次性把要求、邊界條件、參考范例說清楚。少去費(fèi)力解釋「不要做什么」,因?yàn)榉穸ň渫瓤隙ň湎母嗟睦斫獬杀荆恢苯痈嬖V它「要怎么做」,并給出一個(gè)清晰的正確示范。
同時(shí),如果你知道目標(biāo)在哪里,就直接跟 AI 說清楚,別讓 AI 去當(dāng)偵探。
當(dāng)你命令 AI「找一下用戶相關(guān)的代碼」時(shí),它必須在后臺(tái)進(jìn)行大規(guī)模的掃描、分析與猜測;而當(dāng)你直接告訴它「去看 src/services/user.ts 這個(gè)文件」時(shí),Token 的消耗天差地別,在數(shù)字世界里,信息對(duì)等就是最大的節(jié)約。
![]()
別為 AI 的「禮貌」買單
大模型計(jì)費(fèi)有個(gè)潛規(guī)則很多人沒意識(shí)到:輸出 Token 通常比輸入 Token 貴 3 到 5 倍。
也就是說,AI 說出來的話,比你說給它的話要貴得多。以 Claude Sonnet 4.6 的定價(jià)為例,輸入每百萬 Token 僅需 3 美元,而輸出則陡然跳升至 15 美元,整整 5 倍的價(jià)差。
那些「好的,我已完全理解您的需求,現(xiàn)在開始為您解答……」的禮貌開場白,那些「希望以上內(nèi)容對(duì)您有所幫助」的客套結(jié)尾,在真人溝通時(shí)是禮貌的社交辭令,但是在 API 的賬單上,這些毫無信息增量的寒暄也都是要花你自己的錢的。
解決輸出端浪費(fèi)最有效的手段,是給 AI 立規(guī)矩。用系統(tǒng)指令明確告訴它:不要寒暄,不要解釋,不要復(fù)述需求,直接給答案。
這些規(guī)矩只需設(shè)定一次,便在每一次對(duì)話中生效,是真正「一次投入、永久受益」的理財(cái)手段。但在建立規(guī)矩時(shí),很多人又陷入了另一個(gè)誤區(qū):用冗長的自然語言去堆砌指令。
工程師的實(shí)測數(shù)據(jù)表明,指令的效能不在于字?jǐn)?shù),而在于密度。將一段 500 字的系統(tǒng)提示詞壓縮到 180 字,通過刪掉無意義的禮貌用語、合并重復(fù)指令、并將段落重構(gòu)為簡潔的條目化清單,AI 的輸出質(zhì)量幾乎毫無波動(dòng),但單次調(diào)用的 Token 消耗卻能驟降 64%。
還有一個(gè)更主動(dòng)的控制手段,那就是限制輸出長度。很多人從來不設(shè)置輸出上限,任由 AI 自由發(fā)揮,這種對(duì)表達(dá)權(quán)的放任,往往會(huì)導(dǎo)致極度的成本失控。你或許只需要一個(gè)點(diǎn)到為止的短句,AI 卻為了展現(xiàn)某種「智力誠意」,不由分說地為你生成了一篇 800 字的小作文。
如果你追求的是純粹的數(shù)據(jù),就應(yīng)當(dāng)強(qiáng)制 AI 返回結(jié)構(gòu)化的格式,而非冗長的自然語言描述。在承載同等信息量的情況下,JSON 格式的 Token 消耗遠(yuǎn)低于散文化的段落。這是因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)剔除了所有冗余的連接詞、語氣詞及解釋性修飾,只保留了高濃度的邏輯核心。
AI 時(shí)代,你應(yīng)該清醒地意識(shí)到,值得你付費(fèi)的是結(jié)果的價(jià)值,而非 AI 那段毫無意義的自我解釋。
除此之外,AI 的「過度思考」也在瘋狂蠶食你的賬戶余額。
一些高級(jí)模型有「擴(kuò)展思考」模式,會(huì)在回答之前先進(jìn)行海量的內(nèi)部推理。這個(gè)推理過程也要計(jì)費(fèi),而且是按輸出的價(jià)格來計(jì)價(jià)的,非常貴。
這種模式本質(zhì)上是為「需要深度邏輯支撐的復(fù)雜任務(wù)」設(shè)計(jì)的。但是大多數(shù)人在問簡單問題的時(shí)候也選擇了這個(gè)模式。對(duì)于不需要深度推理的任務(wù),明確告訴 AI「不需要解釋思路,直接給答案」,或者手動(dòng)關(guān)掉擴(kuò)展思考,也能幫你省不少錢。
![]()
別讓 AI 翻舊賬
大模型沒有真正的記憶,它只是在瘋狂地翻舊賬。
這是很多人不知道的一個(gè)底層機(jī)制。每次你在一個(gè)對(duì)話窗口里發(fā)出新消息,AI 并不是從你這句話開始理解,而是把你們之前聊過的所有內(nèi)容,包括每一輪對(duì)話、每一段代碼、每一份引用文檔全部重新讀一遍,然后才回答你。
在 Token 的賬單里,這種「溫故而知新」絕非免費(fèi)。隨著對(duì)話輪次的疊加,哪怕你只是追問一個(gè)簡單的詞,AI 背后重讀整本舊賬的成本也會(huì)呈幾何倍數(shù)增長。這種機(jī)制決定了,對(duì)話歷史越沉重,你的每一句提問就越昂貴。
有人追蹤了 496 個(gè)包含 20 條以上消息的真實(shí)對(duì)話,發(fā)現(xiàn)第 1 條消息平均讀取 14,000 個(gè) Token,每條成本約 3.6 美分;到第 50 條消息時(shí),平均讀取 79,000 個(gè) Token,每條成本約 4.5 美分,貴了整整 80%。而且上下文越來越長,到第 50 條時(shí),AI 要重新處理的上下文已經(jīng)是第 1 條時(shí)的 5.6 倍。
解決這個(gè)問題,最簡單的習(xí)慣是:一個(gè)任務(wù),一個(gè)對(duì)話框。
當(dāng)一個(gè)話題聊完,果斷開啟新對(duì)話,不要把 AI 當(dāng)成一個(gè)永遠(yuǎn)不關(guān)機(jī)的聊天窗口。這個(gè)習(xí)慣聽起來很簡單,但很多人就是做不到,總覺得「萬一還要用到之前的內(nèi)容呢」。事實(shí)上,那些你擔(dān)心的「萬一」絕大多數(shù)時(shí)候是不會(huì)出現(xiàn)的,而為了這個(gè)萬一,你已經(jīng)在每一條新消息上多付了幾倍的錢。
當(dāng)對(duì)話確實(shí)需要延續(xù),但上下文已經(jīng)變得很長時(shí),我們可以利用一些工具的壓縮功能。Claude Code 有一個(gè)/compact 命令,能把長篇大論的對(duì)話歷史濃縮成一段簡短的摘要,幫你做一次賽博斷舍離。
還有省錢邏輯叫 Prompt Caching(提示詞緩存)。如果你反復(fù)使用同一段系統(tǒng)提示詞,或者每次對(duì)話都要引用同一份參考文檔,AI 會(huì)把這部分內(nèi)容緩存起來,下次調(diào)用時(shí)只收取很少的緩存讀取費(fèi)用,而不是每次都按全價(jià)計(jì)費(fèi)。
Anthropic 的官方定價(jià)顯示,緩存命中的 Token 價(jià)格是正常價(jià)格的 1/10。OpenAI 的 Prompt Caching 同樣能把輸入成本降低大約 50%。一篇 2026 年 1 月發(fā)表在 arXiv 上的論文,對(duì)多個(gè) AI 平臺(tái)的長任務(wù)進(jìn)行了測試,發(fā)現(xiàn)提示詞緩存能把 API 成本降低 45% 到 80%。
也就是說,同樣的內(nèi)容,第一次喂給 AI 要付全價(jià),之后每次調(diào)用只要付 1/10。對(duì)于那些每天都要重復(fù)使用同一套規(guī)范文檔或系統(tǒng)提示詞的用戶來說,這個(gè)功能能省下大量 Token。
但 Prompt Caching 有一個(gè)前提,你的系統(tǒng)提示詞和參考文檔的內(nèi)容和順序必須保持一致,而且要放在對(duì)話的最前面。一旦內(nèi)容有任何改動(dòng),緩存就會(huì)失效,重新按全價(jià)計(jì)費(fèi)。所以,如果你有一套固定的工作規(guī)范,就把它寫死,不要隨意修改。
最后一個(gè)上下文管理的技巧,是按需加載。很多人喜歡把所有的規(guī)范、文檔、注意事項(xiàng)一股腦塞進(jìn)系統(tǒng)提示詞里,理由還是那個(gè)「以防萬一」。
但這樣做的代價(jià)是,你明明只是在做一個(gè)很簡單的任務(wù),卻被迫加載了幾千字的規(guī)則,白白浪費(fèi)一堆 Token。Claude Code 的官方文檔建議把 CLAUDE.md 控制在 200 行以內(nèi),把不同場景的專項(xiàng)規(guī)則拆分成獨(dú)立的技能文件,用到哪個(gè)場景才加載哪個(gè)場景的規(guī)則。保持上下文的絕對(duì)純凈,就是對(duì)算力最高級(jí)的尊重。
![]()
別開保時(shí)捷去買菜
不同的 AI 模型,價(jià)格差距巨大。
Claude Opus 4.6 每百萬 Token 輸入要 5 美元、輸出 25 美元,Claude Haiku 3.5 只要 0.8 美元輸入、4 美元輸出,差了將近 6 倍。讓最頂級(jí)的模型去干搜集資料、排版格式的雜活,不僅慢,而且很貴。
![]()
聰明的用法是把我們?nèi)祟惿鐣?huì)常見的「階級(jí)分工」思維帶到 AI 社會(huì),不同難度的任務(wù),交給不同價(jià)位的模型。
就像在現(xiàn)實(shí)世界里雇人干活,你不會(huì)專門去雇一個(gè)年薪百萬的專家去工地搬磚。
AI 也一樣。Claude Code 的官方文檔里也明確建議:Sonnet 處理大多數(shù)編程任務(wù),Opus 留給復(fù)雜的架構(gòu)決策和多步驟推理,簡單的子任務(wù)指定用 Haiku。
更具體的實(shí)操方案是構(gòu)建「兩段式工作流」。在第一階段,用免費(fèi)或廉價(jià)的基礎(chǔ)模型做前期的臟活累活,比如資料搜集、格式清理、初稿生成、簡單的分類和歸納。進(jìn)入第二階段,再將提煉后的高純度精華投喂給頂級(jí)模型,進(jìn)行核心決策與深度精修。
舉個(gè)例子,如果你要分析一份 100 頁的行業(yè)報(bào)告,可以先用 Gemini Flash 把報(bào)告里的關(guān)鍵數(shù)據(jù)和結(jié)論提取出來,整理成一份 10 頁的摘要,然后再把這份摘要交給 Claude Opus 做深度分析和判斷。這種兩段式工作流,能在保證質(zhì)量的前提下,把成本大幅壓縮。
比單純的分段處理更進(jìn)階的,是基于任務(wù)解構(gòu)的深度分工。一個(gè)復(fù)雜的工程任務(wù),完全可以被拆解為數(shù)個(gè)彼此獨(dú)立的子任務(wù),并匹配最合適的模型。
比如一個(gè)需要寫代碼的任務(wù),可以讓廉價(jià)模型先寫框架和樣板代碼,然后只把核心邏輯的部分交給昂貴模型來實(shí)現(xiàn)。每個(gè)子任務(wù)有干凈、專注的上下文,結(jié)果更準(zhǔn)確,成本也更低。
![]()
你本來不需要花 Token
前面所有的探討,本質(zhì)上都在解決「如何省錢」的戰(zhàn)術(shù)問題,但一個(gè)更底層的邏輯命題被很多人忽視了:這個(gè)動(dòng)作,到底需不需要花 Token?
最極致的節(jié)省不是算法的優(yōu)化,而是決策的斷舍離。我們習(xí)慣了向 AI 尋求萬能的解答,卻忘了在很多場景下,調(diào)用昂貴的大模型無異于高射炮打蚊子。
比如讓 AI 自動(dòng)處理郵件,它會(huì)把每一封郵件都當(dāng)成獨(dú)立任務(wù)去理解、分類、回復(fù),Token 消耗巨大。但如果你先花 30 秒掃一眼收件箱,手動(dòng)篩掉那些明顯不需要 AI 處理的郵件,再把剩下的交給 AI,成本立刻降到原來的一小部分。人的判斷力在這里不是障礙,而是最好用的過濾器。
電報(bào)時(shí)代的人知道,每多發(fā)一個(gè)字要多花多少錢,所以他們會(huì)掂量,這是一種對(duì)資源的直覺感知。AI 時(shí)代也一樣,當(dāng)你真正知道每讓 AI 多說一句話要多花多少錢,你自然就會(huì)掂量這件事值不值得讓 AI 來做、這個(gè)任務(wù)需要頂級(jí)模型還是廉價(jià)模型、這段上下文還有沒有用。
這種掂量,是最省錢的能力。算力越來越貴的時(shí)代,最聰明的用法,不是讓 AI 替代人,而是讓 AI 和人去干各自擅長的事。當(dāng)這種對(duì) Token 的敏感性內(nèi)化為一種條件反射,你才真正從算力的附庸,變回了算力的主人。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.