網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

養(yǎng)龍蝦，服務(wù)器別亂選

2026-04-08 18:23:11　來源: 半導(dǎo)體產(chǎn)業(yè)縱橫

北京舉報(bào)

分享至

在服務(wù)器上運(yùn)行OpenClaw或AI代理才是正確的方式。

智能代理工具的普及速度之快令人難以置信。無論您使用的是OpenClaw 還是其他同類產(chǎn)品，我們都經(jīng)常聽到一些關(guān)鍵概念，因此我們決定編寫一份指南，幫助那些想要入門的人。OpenClaw 的流行如同火箭般躥升，如今企業(yè)部署的場(chǎng)景仿佛回到了上世紀(jì) 90 年代的硅谷辦公室，人們?cè)诟糸g里使用Sun Ultra工作站運(yùn)行著重要的公司應(yīng)用程序。

簡(jiǎn)單說明一下，我們撰寫本文的原因之一是與AMD就我們所觀察到的情況進(jìn)行了討論。同時(shí)，本文中的信息也普遍適用于多種不同的架構(gòu)。

架構(gòu)分離：CPU 和 GPU 的根本區(qū)別

或許我們能討論的最重要的概念就是架構(gòu)分離。讀到這里的人可能會(huì)分成兩類：一類人理所當(dāng)然地認(rèn)為事情本來就是這樣運(yùn)作的，另一類人則沒有意識(shí)到這種分離的存在。

OpenClaw CPU代理和LLM推理

像OpenClaw 這樣的 AI 代理框架執(zhí)行兩種截然不同的計(jì)算工作負(fù)載，架構(gòu)分離使其優(yōu)勢(shì)顯著。代理編排負(fù)責(zé)工具調(diào)用、工作流狀態(tài)管理、API 集成、對(duì)話歷史跟蹤、內(nèi)存操作、多代理協(xié)調(diào)以及業(yè)務(wù)邏輯執(zhí)行。這是 CPU 密集型工作，主要涉及整數(shù)運(yùn)算和內(nèi)存訪問模式——典型的經(jīng)典計(jì)算。LLM（大型語言模型）推理則負(fù)責(zé) Transformer 矩陣運(yùn)算、注意力機(jī)制計(jì)算、詞元生成、嵌入計(jì)算等等。這是 GPU 加速工作，主要涉及浮點(diǎn)矩陣乘法、內(nèi)存容量和內(nèi)存帶寬。

Beelink ME Pro NAS Proxmox VE 設(shè)置 OpenClaw 子代理

為了方便大家理解，我們不妨這樣解釋一下。“AI代理”（例如OpenClaw）運(yùn)行在CPU核心上，執(zhí)行許多傳統(tǒng)的CPU任務(wù)。而真正讓這個(gè)框架成為熱門話題、顛覆性創(chuàng)新的關(guān)鍵在于LLM后端。如今，LLM后端通常運(yùn)行在GPU上，承擔(dān)著這些工作流程中的大部分計(jì)算任務(wù)，這也是它如今如此受關(guān)注的原因。總之，這種架構(gòu)劃分對(duì)于應(yīng)用程序的運(yùn)行至關(guān)重要。

2026年初，運(yùn)行OpenClaw的主流架構(gòu)是搭載M4 Pro芯片的蘋果Mac Mini系統(tǒng)。OpenClaw有自己的應(yīng)用程序，使用Homebrew安裝也很簡(jiǎn)單，而且在Mac上運(yùn)行（盡管存在潛在的安全隱患）還能訪問iMessage。這導(dǎo)致Mac Mini系統(tǒng)供不應(yīng)求，人們很快意識(shí)到在云虛擬機(jī)或廉價(jià)VPS上運(yùn)行OpenClaw也是可行的，而且還能獲得公網(wǎng)IP地址（同樣存在潛在的安全隱患）。

Beelink ME Pro NAS Proxmox VE 設(shè)置 OpenClaw 第3步

蘋果Mac Mini 之所以成為 OpenClaw 的熱門托管平臺(tái)，另一個(gè)原因是它采用了統(tǒng)一內(nèi)存架構(gòu)，CPU 和 GPU 共享同一個(gè)內(nèi)存池。這種配置允許分配更多內(nèi)存來存儲(chǔ)更大的LLM（邏輯層模型），因此本地 LLM 和內(nèi)存嵌入模型可以在本地運(yùn)行，而無需使用云服務(wù)提供商。正是這種部署方式造成了許多誤解，人們誤以為 OpenClaw 或其他 AI 代理在單臺(tái)機(jī)器上運(yùn)行效果最佳。實(shí)際上，大多數(shù)使用 OpenClaw 取得最佳效果的用戶都運(yùn)行了可以利用更多 GPU 內(nèi)存的遠(yuǎn)程 LLM，但這種一體化部署方案，加上添加 API 密鑰的便捷性，導(dǎo)致人們誤以為 OpenClaw AI 代理（CPU）和 LLM 后端（GPU）是同一回事，而不是不同的計(jì)算需求。

最近，我們看到像Anthropic 這樣的公司采取措施，限制其部分訂閱計(jì)劃中 OpenClaw 的使用，因?yàn)樗兊梅浅Ｊ軞g迎。

與此同時(shí)，新型專家模型組合的性能也得到了顯著提升。這不僅促使蘋果Mac Mini、Mac Studio等產(chǎn)品投入使用，NVIDIA也推出了基于GB10的解決方案，AMD則推出了基于Strix Halo（AMD Ryzen AI Max+ 395）的系統(tǒng)，用于運(yùn)行AI代理。NVIDIA和AMD都配備了128GB的LPDDR5X內(nèi)存，雖然其內(nèi)存帶寬不及PCIe GPU，但足以支持運(yùn)行規(guī)模更大的模型，并實(shí)現(xiàn)可接受的量化精度。用戶在蘋果、AMD和NVIDIA的硬件上運(yùn)行本地AI模型，并利用同一硬件運(yùn)行OpenClaw或其他AI代理，這種一體化機(jī)器的概念得到了進(jìn)一步發(fā)展，但這種模式也存在諸多弊端。

就像二十五年前硅谷的辦公室隔間里運(yùn)行Sun Ultra工作站一樣，在開放式辦公空間運(yùn)行重要的AI代理也會(huì)帶來諸多問題。毫不夸張地說，當(dāng)員工自帶硬件時(shí)，執(zhí)行企業(yè)安全策略極具挑戰(zhàn)性。邊緣網(wǎng)絡(luò)、電源供應(yīng)，甚至有人帶著這些小型機(jī)器離開辦公室，都可能影響正常運(yùn)行時(shí)間。備份和數(shù)據(jù)保留也難以實(shí)施。此外，這種分散式計(jì)算通常會(huì)導(dǎo)致大量計(jì)算、存儲(chǔ)或內(nèi)存資源閑置。

人們?cè)谧烂嫔吓鋫淙斯ぶ悄艽矸?wù)器是未來我們可能會(huì)看到的一種模式，但對(duì)于企業(yè)而言，在數(shù)據(jù)中心運(yùn)行人工智能代理服務(wù)器則具有諸多優(yōu)勢(shì)。有些人可能認(rèn)為這一切前所未有，但其實(shí)早在二十五年前，企業(yè)就已將計(jì)算資源遷移到數(shù)據(jù)中心，而像VMware 這樣的公司也幫助企業(yè)提高了運(yùn)行效率。雖然在接下來的幾十年里，我們并非都轉(zhuǎn)向了瘦客戶機(jī)，但關(guān)鍵計(jì)算資源的部署方式確實(shí)發(fā)生了變化。

華擎機(jī)架式機(jī)箱TURIND8 2L2T，已安裝 AMD EPYC 9755

當(dāng)我們討論運(yùn)行OpenClaw 時(shí)，隨著代理對(duì)業(yè)務(wù)的重要性日益凸顯，它們自然而然地會(huì)遷移到數(shù)據(jù)中心，這也是如今數(shù)據(jù)中心 CPU 備受關(guān)注的原因。對(duì)于 LLM（層級(jí)模型）而言，盡管網(wǎng)上各種炒作文章都在強(qiáng)調(diào)小型和高度量化模型的優(yōu)勢(shì)，但實(shí)際上，更大的模型往往能帶來更好的結(jié)果。未來幾個(gè)季度，我們將迎來單顆高端（數(shù)據(jù)中心級(jí)）GPU 功耗遠(yuǎn)超北美普通 15A 120V 電路供電能力的時(shí)代。這些 GPU 集群能夠更快地運(yùn)行大型模型，因此，僅從功率密度角度來看，LLM 的運(yùn)行就必須在數(shù)據(jù)中心進(jìn)行。

大家都知道我是本地AI計(jì)算的堅(jiān)定支持者。我們工作室有幾TB的GPU內(nèi)存用于運(yùn)行本地LLM，所以我想分享一些關(guān)于托管OpenClaw的想法，這些想法是我在本地和連接到數(shù)據(jù)中心計(jì)算的各種硬件上運(yùn)行OpenClaw的過程中不斷嘗試和總結(jié)出來的。

OpenClaw 的秘密：越大越好

無論是小規(guī)模部署還是大規(guī)模部署，都有其用武之地，這毋庸置疑。目前，我們工作室有15 到20 臺(tái)配備128GB LPDDR5X 統(tǒng)一內(nèi)存的機(jī)器 24 小時(shí)全天候運(yùn)行，這并非因?yàn)槲覀儧]有其他計(jì)算平臺(tái)，而是因?yàn)槲覀円恢痹谥匦吕眠@些機(jī)器，并尋找新的用途。我們逐漸發(fā)現(xiàn)的一個(gè)“訣竅”是，在如此多的系統(tǒng)上運(yùn)行 OpenClaw 代理并非明智之舉。

Minisforum MS S1 Max 內(nèi)角 2

運(yùn)行一個(gè)代理程序必然會(huì)帶動(dòng)另一個(gè)代理程序的運(yùn)行。這些代理程序可能會(huì)執(zhí)行簡(jiǎn)單的shell 命令，或者打開網(wǎng)頁瀏覽器會(huì)話并開始搜索，而不是使用爬蟲工具。通常，AI 代理程序會(huì)并行執(zhí)行這些任務(wù)。我們之所以將 OpenClaw、Turnstone、Hermes 和其他代理程序框架從 128GB LPDDR5X 節(jié)點(diǎn)上遷移出來，或許最重要的原因就是為了給它們分配內(nèi)存，而這些內(nèi)存也可能被 LLM 和 KV 緩存占用。2 月下旬，我們發(fā)現(xiàn)一個(gè)系統(tǒng)持續(xù)出現(xiàn)問題，原因是它打開了多個(gè)瀏覽器，占用了 GPU 端用于 LLM 的內(nèi)存。回到代理程序 CPU 端和 LLM 后端分離的思路，這個(gè)問題就迎刃而解了。除了用于演示、文章和視頻之外，我們現(xiàn)在已經(jīng)將代理程序端與 LLM 服務(wù)端分離。

我們經(jīng)常遇到的另一個(gè)問題是智能體可能會(huì)停滯不前。LLM 錯(cuò)誤、意外輸出、幻覺等等都可能導(dǎo)致項(xiàng)目失敗。我們?cè)?jīng)有一個(gè)通宵項(xiàng)目因?yàn)橐粋€(gè)較小的模型無法正確調(diào)用某個(gè)工具而停滯不前。模型偶爾會(huì)出現(xiàn)響應(yīng)錯(cuò)誤，諸如此類。從 gpt-oss-120b 升級(jí)到 MiniMax-M2.5 是一次巨大的能力提升。Qwen3.5-397b-a17b 也出現(xiàn)了，并且通過改進(jìn)工具調(diào)用實(shí)現(xiàn)了類似的效果。當(dāng)你使用 AI 智能體時(shí)，你實(shí)際上是在解決一個(gè)可靠性問題。如果你觀察它們的運(yùn)行，你會(huì)發(fā)現(xiàn)即使是小型工作流程也可能需要 100 多次 LLM 調(diào)用才能完成。在這種規(guī)模下，可靠性方程式中的每一個(gè)“9”都對(duì)最終完成至關(guān)重要。雖然你可以讓其他智能體進(jìn)行監(jiān)控（希望它們能夠準(zhǔn)確監(jiān)控），但如果因?yàn)橐粋€(gè)較小或量化程度更高的模型引入的錯(cuò)誤而導(dǎo)致你損失半天的工作，那將非常令人沮喪。

Supermicro 4U AMD Instinct MI355X 液冷主板，OCP 2025 1

通常，用于內(nèi)存其他許多任務(wù)的嵌入模型在較小的模型上就能很好地工作，因此也適用于較小的機(jī)器配置。同時(shí)，大型模型更高的可靠性才是真正讓OpenClaw 這類工具從玩具變成近乎神奇的存在的原因。一個(gè)很好的例子是，使用 gpt-oss-120b 時(shí)，我們無法一次性可靠地搭建服務(wù)器。而使用 MiniMax-M2.5，除了需要提供身份驗(yàn)證的部分外，服務(wù)器可以自動(dòng)搭建（盡管需要一些嘗試和錯(cuò)誤）。使用 Qwen3.5-397b-A17B 或之前的 Claude Code（搭配 Sonnet 4.6 和 Opus 4.6），我們已經(jīng)搭建了完整的 RDMA 集群。

這與許多人的經(jīng)驗(yàn)相符，而且新模型在運(yùn)行智能體人工智能工作流程方面也取得了顯著進(jìn)步。這也充分說明了通過云API 連接到托管在更大型硬件上的大型模型是多么有效。

一旦你將LLM的運(yùn)行位置拆分，以便運(yùn)行更大的LLM，那么下一個(gè)問題就是代理應(yīng)該在哪里運(yùn)行。結(jié)果表明，答案往往是高性能（P核）CPU架構(gòu)，如果可能的話，最好是更大的機(jī)器。

在服務(wù)器上運(yùn)行OpenClaw 或 AI 代理才是正確的方式

幾乎所有服務(wù)器CPU 公司，包括那些試圖進(jìn)入該領(lǐng)域的公司，都表示服務(wù)器CPU 的供應(yīng)正面臨挑戰(zhàn)。雖然在桌面端運(yùn)行OpenClaw 乍聽起來是個(gè)好主意，但現(xiàn)實(shí)情況是，它既需要在服務(wù)器上運(yùn)行，也需要更大的規(guī)模。人工智能代理正以驚人的速度增長(zhǎng)，使得企業(yè)無法像許多組織那樣快速地訂購(gòu)用于 OpenClaw、Turnstone、Hermes 或任何其他框架的新服務(wù)器。實(shí)際上，只要有足夠的容量，在服務(wù)器上運(yùn)行人工智能代理就可以讓你快速大規(guī)模地部署OpenClaw。此外，隨著行業(yè)的不斷發(fā)展，幾周或幾個(gè)月后，解決方案可能就會(huì)變成另一個(gè)框架。企業(yè)已經(jīng)知道如何在服務(wù)器上大規(guī)模部署和編排容器和虛擬機(jī)，因此，這是一個(gè)非常成熟的模型，我們?cè)赟erveTheHome 近 17 年的發(fā)展歷程中幾乎一直在討論它。

技嘉B343 C40 AAJ1 AMD EPYC 4005 處理器

在服務(wù)器上運(yùn)行還允許企業(yè)使用熟悉的工具，例如容器備份、容器存儲(chǔ)和虛擬機(jī)。它還允許將安全和網(wǎng)絡(luò)策略應(yīng)用于整個(gè)集群。

即使是像更可靠的網(wǎng)絡(luò)和電力這樣的小細(xì)節(jié)，也正成為部署中不可或缺的環(huán)節(jié)。隨著人工智能代理（由更大型的模型支持）變得越來越有用，它們的重要性也日益凸顯。那些聲稱在辦公桌前運(yùn)行預(yù)測(cè)市場(chǎng)機(jī)器人的人們，最終也會(huì)遭遇網(wǎng)絡(luò)或電力中斷，造成重大損失。就像傳統(tǒng)的金融機(jī)構(gòu)一樣，他們將被迫尋求更高可靠性的托管服務(wù)，例如數(shù)據(jù)中心和服務(wù)器上的服務(wù)。這將促使他們優(yōu)化延遲、運(yùn)行更大的計(jì)算資源等等，就像大型交易公司長(zhǎng)期以來一直在做的那樣。除了交易的例子之外，關(guān)鍵業(yè)務(wù)功能之所以需要在具有更高可靠性的ECC內(nèi)存、更快的服務(wù)器、更大更快的存儲(chǔ)、更快的網(wǎng)絡(luò)等環(huán)境中運(yùn)行，是有原因的。

盡管有些人對(duì)此有所討論，但通過大量的性能分析，我們發(fā)現(xiàn)CPU 端的表現(xiàn)與許多傳統(tǒng)計(jì)算場(chǎng)景非常相似。而 LLM 端則完全不同。去年在 FP16 上運(yùn)行 Deepseek-R1 671B 模型還算不錯(cuò)，但考慮到 CPU 在人工智能代理工作流程中的使用情況，現(xiàn)在我們很難想象還能做到這一點(diǎn)。

一些基本原則：

P核往往更勝一籌。目前我們已經(jīng)測(cè)試了多種Arm 和 x86 架構(gòu)。如果您追求的是高吞吐量和低延遲，那么大容量 P 核就是最佳選擇。

E核心通常能實(shí)現(xiàn)更高的CPU與內(nèi)存核心比率。這實(shí)際上也是AMD推出E核心的原因之一。我們?cè)诖舜螠y(cè)試中測(cè)試了Zen 5（Turin）和Zen 5c（Turin Dense）。Zen 5c通常會(huì)犧牲每個(gè)核心的緩存容量，而且通常時(shí)鐘頻率也低于Zen 5。它的優(yōu)勢(shì)在于保留了P核心的計(jì)算能力，并且時(shí)鐘頻率高于E核心，例如Intel Xeon 6 6700E系列。

在大多數(shù)情況下，x86 架構(gòu)上的 SMT（同步多線程）技術(shù)往往能帶來更高的性能。但就像傳統(tǒng)計(jì)算一樣，SMT 也并非總是最佳選擇。它不如增加一個(gè)完整的核心那樣高效，但我們?nèi)匀挥^察到它帶來的持續(xù)收益。通常，我們測(cè)試中那些 SMT 效果不佳的場(chǎng)景，是那些需要等待整個(gè)芯片更新才能完成核心/線程間通信的場(chǎng)景。擁有更多線程意味著你可以構(gòu)建更大的線程間通信網(wǎng)絡(luò)。

現(xiàn)在在整個(gè)芯片上運(yùn)行代理程序幾乎是荒謬的。我們?cè)缙谟龅搅艘恍┢婀值慕Y(jié)果，因?yàn)槲覀冇龅搅斯ぷ髫?fù)載中高度串行的部分，結(jié)果發(fā)現(xiàn)128 個(gè)核心中有 127 個(gè)處于空閑狀態(tài)。在現(xiàn)代服務(wù)器CPU 上，您應(yīng)該在同一節(jié)點(diǎn)上運(yùn)行多個(gè)工作負(fù)載或多個(gè)代理程序。我們甚至在一些較小的節(jié)點(diǎn)上進(jìn)行了測(cè)試，例如AMD EPYC 8004 和 Intel Xeon 6 SoC，在大多數(shù)情況下，在這些節(jié)點(diǎn)上運(yùn)行單個(gè)代理程序?qū)嵗怯薮赖摹?/p>

使用容器或者超額配置虛擬機(jī)內(nèi)存非常有用。這些都是服務(wù)器管理的基本概念，但在內(nèi)存價(jià)格昂貴且供應(yīng)短缺的今天，它們可以節(jié)省大量成本。

除了性能之外，能夠在更可靠的基礎(chǔ)設(shè)施上運(yùn)行、擁有更好的監(jiān)控、備份和配置（我們已經(jīng)看到許多OpenClaw 實(shí)例被重新部署）、在實(shí)例周圍部署防火墻等等，都起到了很大的幫助。對(duì)于我們的讀者來說，這是一個(gè)在新興領(lǐng)域引領(lǐng)潮流的機(jī)會(huì)。

當(dāng)前市場(chǎng)對(duì)服務(wù)器CPU的關(guān)注是合理的。整個(gè)行業(yè)正朝著這個(gè)方向發(fā)展。推動(dòng)這一趨勢(shì)的關(guān)鍵在于，我們正迅速邁向智能體之間相互通信的時(shí)代。一些公司已經(jīng)小規(guī)模地完成了原型設(shè)計(jì)，而另一些公司則已經(jīng)開始大規(guī)模部署。盡管發(fā)展過程中難免會(huì)遇到一些障礙，但通過增加計(jì)算能力來擴(kuò)展工作規(guī)模的能力意味著，我們將進(jìn)入一個(gè)計(jì)算能力至關(guān)重要的時(shí)期。這正是導(dǎo)致計(jì)算、內(nèi)存和存儲(chǔ)資源稀缺的原因。如果你還沒用過 OpenClaw 或其他 AI 代理平臺(tái)，筆者強(qiáng)烈建議你花些時(shí)間去嘗試一下。

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請(qǐng)聯(lián)系后臺(tái)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.