開發者 William Angel 近日發布了關于在 Apple Silicon M5 MacBook Pro 上進行本地 LLM 推理的成本分析文章。這篇文章以具體數字回答了一個許多人關心的問題:用自己的 MacBook 跑本地模型,到底比調用云端 API 貴多少?
![]()
先看電費。在北弗吉尼亞地區,電價約為每千瓦時 0.18 美元。M5 MacBook Pro 在滿載推理時功耗約為 50-100 瓦。以 100 瓦、0.18 美元/千瓦時計算,每小時電費約為 0.018 美元,一天約 0.48 美元。電費本身并不貴——每千瓦時不到 2 美分。
然后是硬件折舊。一臺 14 英寸 M5 Max MacBook Pro,配備 64GB 內存,目前售價 4299 美元。如果這臺設備使用 3 年,每年的硬件折舊約為 1433 美元;使用 5 年則每年 860 美元;使用 10 年每年 430 美元。將折舊分攤到每小時(假設每天運行 8 小時):3 年約 0.16 美元/小時,5 年約 0.10 美元/小時,10 年約 0.05 美元/小時。電費在整個成本中只占很小一部分,硬件折舊才是大頭。
關鍵變量是 token 吞吐量。William 在 M5 Max 上測試了 Gemma 4 31b 等較大模型,實際推理速度在 10-40 tokens/秒 之間。以 10 tokens/秒計算,每小時可生成 36000 個 tokens;在 40 tokens/秒 時,每小時可生成 144000 個 tokens。將這些數字代入成本計算:以 5 年使用期、40 tokens/秒 的樂觀估計,每百萬 tokens 的成本約為 0.40-1.20 美元;以悲觀估計(3 年使用期、10 tokens/秒),每百萬 tokens 成本高達 1.61-4.79 美元。
相比之下,OpenRouter 上的 Gemma 4 31b 價格約為每百萬 tokens 0.38-0.50 美元。這意味著在樂觀情況下(設備使用 10 年、40 tokens/秒),本地推理和 OpenRouter 成本相當;但在悲觀情況下(3 年使用期、10 tokens/秒),本地推理的成本是云端的約 10 倍。作者認為,對于典型使用場景,本地推理的成本大約是云端的 3 倍。
但成本只是一部分。速度差距同樣顯著。OpenRouter 上的部分 Gemma 4 提供商可以達到 60-70 tokens/秒,是 M5 Max 本地推理速度(10-20 tokens/秒)的 3-7 倍。對于一名有工資收入的員工來說,時間成本遠大于 token 成本——花在等待本地推理的時間比省下來的 token 費用值錢得多。
作者最后指出了一個值得注意的事實:一臺消費級設備能夠運行接近 Anthropic Sonnet 性能水平的模型,這本身已經很不尋常了。即使成本是云端的 3 倍,本地推理提供了數據隱私、離線可用性和無速率限制等優勢。對于需要處理敏感數據或在無網絡環境工作的場景,這些價值可能超過成本差異。
當我把這篇《M5 MacBook Pro本地LLM推理比云端貴多少?》的文章轉發給我司不愿透露姓名的研發總監時——他在庫克隨美國總統特朗普訪華期間和蘋果達成了一筆金額巨大的合作——現在竟試圖反悔了:
![]()
結果當然是被庫克領先一步:
![]()
來源:William Angel (https://www.williamangel.net/blog/2026/05/17/offline-llm-energy-use.html)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.