網易首頁 > 網易號 > 正文申請入駐

4萬美元本地跑頂級大模型，一個程序員買了4塊顯卡之后

2026-07-04 00:10:47　來源: 硅嶼手記

北京舉報

分享至

朋友，你手頭正好有2萬塊閑錢，想把它變成一臺能跑前沿大模型的本地機器？或者預算更充足，有40萬？如果你的答案是肯定的，而且對某些云服務商動不動就漲價、改條款的做法感到頭疼，那接下來這篇硬件實戰指南，或許能幫你打開一扇新的大門。

Jamesob最近公開分享了一套他自己動手搭建的算力方案。他采購了4塊英偉達RTX Pro 6000顯卡，但有意思的是，他的思路并不是無腦堆最新最貴的配件，而是在顯存這個核心要素上集中投入。他的原話是：“我當時很幸運/很傻，在這批顯卡還便宜的時候就買了4塊。”

為了控制整機成本，他做了兩個關鍵決定。第一，避開昂貴的新一代平臺，轉而選擇上一代EPYC服務器處理器搭配DDR4內存，大部分零件從eBay淘來。“這讓我在保持基礎系統成本合理的同時，拿到了海量顯存，”他在說明文檔里解釋。

第二，引入了一個不常見的配件——來自c-payne.com的PCIe 4.0交換機。這個設備的作用是什么？在張量并行計算的全歸約步驟中，它能讓顯卡之間以線速“直接”通信，而不是把所有數據都擠過PCI根節點。最終效果是降低了卡間的通信延遲。Jamesob這樣總結他的消費邏輯：“因此，我把錢花在顯存（關鍵的地方），而不是花在PCIe 5.0/DDR5基礎系統上——直到2026年7月，那東西還貴得離譜。”

這種取舍，最終鍛造出一套擁有384GB統一顯存的運算怪獸。有了這樣的硬件底氣，他能跑動哪些模型？他給出的推薦是GLM-5.2-Int8Mix-NVFP4-REAP-594B這類龐然大物。按他的說法，在這個性能層級，你能得到的智能水平已經“相當接近Claude Opus”。

當然，不是所有人都需要或愿意拿出40萬來攢一臺機器。如果預算有限，Jamesob推薦了一條更具性價比的路線：買2塊RTX 3090，湊出48GB顯存。在這個配置上，他推薦運行Qwen3.6-27B模型。他對這個模型評價很高，稱之為“一個很棒的模型”。

這套雙3090方案不僅能跑文本模型，還能干另一件他認為“出奇有用”的事：本地語音識別。他選用的是whisper-large-v3模型，并通過自己編寫的跨平臺stt工具來調用。他特意強調，大約11GB顯存、一塊英偉達GPU就能跑起來這套語音識別方案。更重要的是，在隱私感受上，他認為“用本地語音識別讓我感覺很自在，不像用云端同類服務那樣有顧慮”。相關的配置文件和運行腳本，他直接放在了./runners/stt目錄下，拿來即用。

硬件清單方面，他公開了自己的物料表。一臺從eBay淘來的中檔上代EPYC系統，搭配4塊RTX Pro 6000，就是這臺機器的心臟。為了裝下PCIe交換機和四張顯卡，他花一天時間手工做了個木質外殼。他還提到一個小細節：交換機自帶的風扇聲音很吵，而且他覺得好像沒什么用，于是直接把風扇線從主板上拔掉了。

在存儲架構上，他也用了自己的方法。所有模型權重都存放在本地一個ZFS文件系統上，路徑掛在~/storage。這個ZFS卷由兩塊8TB硬盤組成，并且做了鏡像復制。至于他想要跑的任何模型，都有現成的、寫好配置的Docker容器可以直接啟動。

在分享的最后，他補充了一句很重要的說明：“這些是我的推薦，但還有其他完全合理的花錢方式。”他自己舉了個例子：也許存在另一種折騰路線，不買4塊RTX 6000 Pro，而是把大部分預算砸在一個由4臺DGX Spark組成的互聯集群上，湊出512GB顯存。然后把這個“慢而大的大腦”拿來驅動Qwen3.7-27b模型去快速執行重復性任務。至于這兩種路線哪種更適合你，就看你對速度、顯存和預算之間的權衡了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.