![]()
在服務(wù)器上運(yùn)行OpenClaw或AI代理才是正確的方式。
智能代理工具的普及速度之快令人難以置信。無論您使用的是OpenClaw 還是其他同類產(chǎn)品,我們都經(jīng)常聽到一些關(guān)鍵概念,因此我們決定編寫一份指南,幫助那些想要入門的人。OpenClaw 的流行如同火箭般躥升,如今企業(yè)部署的場(chǎng)景仿佛回到了上世紀(jì) 90 年代的硅谷辦公室,人們?cè)诟糸g里使用Sun Ultra工作站運(yùn)行著重要的公司應(yīng)用程序。
簡(jiǎn)單說明一下,我們撰寫本文的原因之一是與AMD就我們所觀察到的情況進(jìn)行了討論。同時(shí),本文中的信息也普遍適用于多種不同的架構(gòu)。
架構(gòu)分離:CPU 和 GPU 的根本區(qū)別
或許我們能討論的最重要的概念就是架構(gòu)分離。讀到這里的人可能會(huì)分成兩類:一類人理所當(dāng)然地認(rèn)為事情本來就是這樣運(yùn)作的,另一類人則沒有意識(shí)到這種分離的存在。
![]()
![]()
OpenClaw CPU代理和LLM推理
像OpenClaw 這樣的 AI 代理框架執(zhí)行兩種截然不同的計(jì)算工作負(fù)載,架構(gòu)分離使其優(yōu)勢(shì)顯著。代理編排負(fù)責(zé)工具調(diào)用、工作流狀態(tài)管理、API 集成、對(duì)話歷史跟蹤、內(nèi)存操作、多代理協(xié)調(diào)以及業(yè)務(wù)邏輯執(zhí)行。這是 CPU 密集型工作,主要涉及整數(shù)運(yùn)算和內(nèi)存訪問模式——典型的經(jīng)典計(jì)算。LLM(大型語言模型)推理則負(fù)責(zé) Transformer 矩陣運(yùn)算、注意力機(jī)制計(jì)算、詞元生成、嵌入計(jì)算等等。這是 GPU 加速工作,主要涉及浮點(diǎn)矩陣乘法、內(nèi)存容量和內(nèi)存帶寬。
![]()
Beelink ME Pro NAS Proxmox VE 設(shè)置 OpenClaw 子代理
為了方便大家理解,我們不妨這樣解釋一下。“AI代理”(例如OpenClaw)運(yùn)行在CPU核心上,執(zhí)行許多傳統(tǒng)的CPU任務(wù)。而真正讓這個(gè)框架成為熱門話題、顛覆性創(chuàng)新的關(guān)鍵在于LLM后端。如今,LLM后端通常運(yùn)行在GPU上,承擔(dān)著這些工作流程中的大部分計(jì)算任務(wù),這也是它如今如此受關(guān)注的原因。總之,這種架構(gòu)劃分對(duì)于應(yīng)用程序的運(yùn)行至關(guān)重要。
2026年初,運(yùn)行OpenClaw的主流架構(gòu)是搭載M4 Pro芯片的蘋果Mac Mini系統(tǒng)。OpenClaw有自己的應(yīng)用程序,使用Homebrew安裝也很簡(jiǎn)單,而且在Mac上運(yùn)行(盡管存在潛在的安全隱患)還能訪問iMessage。這導(dǎo)致Mac Mini系統(tǒng)供不應(yīng)求,人們很快意識(shí)到在云虛擬機(jī)或廉價(jià)VPS上運(yùn)行OpenClaw也是可行的,而且還能獲得公網(wǎng)IP地址(同樣存在潛在的安全隱患)。
![]()
Beelink ME Pro NAS Proxmox VE 設(shè)置 OpenClaw 第3步
蘋果Mac Mini 之所以成為 OpenClaw 的熱門托管平臺(tái),另一個(gè)原因是它采用了統(tǒng)一內(nèi)存架構(gòu),CPU 和 GPU 共享同一個(gè)內(nèi)存池。這種配置允許分配更多內(nèi)存來存儲(chǔ)更大的LLM(邏輯層模型),因此本地 LLM 和內(nèi)存嵌入模型可以在本地運(yùn)行,而無需使用云服務(wù)提供商。正是這種部署方式造成了許多誤解,人們誤以為 OpenClaw 或其他 AI 代理在單臺(tái)機(jī)器上運(yùn)行效果最佳。實(shí)際上,大多數(shù)使用 OpenClaw 取得最佳效果的用戶都運(yùn)行了可以利用更多 GPU 內(nèi)存的遠(yuǎn)程 LLM,但這種一體化部署方案,加上添加 API 密鑰的便捷性,導(dǎo)致人們誤以為 OpenClaw AI 代理(CPU)和 LLM 后端(GPU)是同一回事,而不是不同的計(jì)算需求。
最近,我們看到像Anthropic 這樣的公司采取措施,限制其部分訂閱計(jì)劃中 OpenClaw 的使用,因?yàn)樗兊梅浅J軞g迎。
與此同時(shí),新型專家模型組合的性能也得到了顯著提升。這不僅促使蘋果Mac Mini、Mac Studio等產(chǎn)品投入使用,NVIDIA也推出了基于GB10的解決方案,AMD則推出了基于Strix Halo(AMD Ryzen AI Max+ 395)的系統(tǒng),用于運(yùn)行AI代理。NVIDIA和AMD都配備了128GB的LPDDR5X內(nèi)存,雖然其內(nèi)存帶寬不及PCIe GPU,但足以支持運(yùn)行規(guī)模更大的模型,并實(shí)現(xiàn)可接受的量化精度。用戶在蘋果、AMD和NVIDIA的硬件上運(yùn)行本地AI模型,并利用同一硬件運(yùn)行OpenClaw或其他AI代理,這種一體化機(jī)器的概念得到了進(jìn)一步發(fā)展,但這種模式也存在諸多弊端。
就像二十五年前硅谷的辦公室隔間里運(yùn)行Sun Ultra工作站一樣,在開放式辦公空間運(yùn)行重要的AI代理也會(huì)帶來諸多問題。毫不夸張地說,當(dāng)員工自帶硬件時(shí),執(zhí)行企業(yè)安全策略極具挑戰(zhàn)性。邊緣網(wǎng)絡(luò)、電源供應(yīng),甚至有人帶著這些小型機(jī)器離開辦公室,都可能影響正常運(yùn)行時(shí)間。備份和數(shù)據(jù)保留也難以實(shí)施。此外,這種分散式計(jì)算通常會(huì)導(dǎo)致大量計(jì)算、存儲(chǔ)或內(nèi)存資源閑置。
人們?cè)谧烂嫔吓鋫淙斯ぶ悄艽矸?wù)器是未來我們可能會(huì)看到的一種模式,但對(duì)于企業(yè)而言,在數(shù)據(jù)中心運(yùn)行人工智能代理服務(wù)器則具有諸多優(yōu)勢(shì)。有些人可能認(rèn)為這一切前所未有,但其實(shí)早在二十五年前,企業(yè)就已將計(jì)算資源遷移到數(shù)據(jù)中心,而像VMware 這樣的公司也幫助企業(yè)提高了運(yùn)行效率。雖然在接下來的幾十年里,我們并非都轉(zhuǎn)向了瘦客戶機(jī),但關(guān)鍵計(jì)算資源的部署方式確實(shí)發(fā)生了變化。
![]()
華擎機(jī)架式機(jī)箱TURIND8 2L2T,已安裝 AMD EPYC 9755
當(dāng)我們討論運(yùn)行OpenClaw 時(shí),隨著代理對(duì)業(yè)務(wù)的重要性日益凸顯,它們自然而然地會(huì)遷移到數(shù)據(jù)中心,這也是如今數(shù)據(jù)中心 CPU 備受關(guān)注的原因。對(duì)于 LLM(層級(jí)模型)而言,盡管網(wǎng)上各種炒作文章都在強(qiáng)調(diào)小型和高度量化模型的優(yōu)勢(shì),但實(shí)際上,更大的模型往往能帶來更好的結(jié)果。未來幾個(gè)季度,我們將迎來單顆高端(數(shù)據(jù)中心級(jí))GPU 功耗遠(yuǎn)超北美普通 15A 120V 電路供電能力的時(shí)代。這些 GPU 集群能夠更快地運(yùn)行大型模型,因此,僅從功率密度角度來看,LLM 的運(yùn)行就必須在數(shù)據(jù)中心進(jìn)行。
大家都知道我是本地AI計(jì)算的堅(jiān)定支持者。我們工作室有幾TB的GPU內(nèi)存用于運(yùn)行本地LLM,所以我想分享一些關(guān)于托管OpenClaw的想法,這些想法是我在本地和連接到數(shù)據(jù)中心計(jì)算的各種硬件上運(yùn)行OpenClaw的過程中不斷嘗試和總結(jié)出來的。
OpenClaw 的秘密:越大越好
無論是小規(guī)模部署還是大規(guī)模部署,都有其用武之地,這毋庸置疑。目前,我們工作室有15 到20 臺(tái)配備128GB LPDDR5X 統(tǒng)一內(nèi)存的機(jī)器 24 小時(shí)全天候運(yùn)行,這并非因?yàn)槲覀儧]有其他計(jì)算平臺(tái),而是因?yàn)槲覀円恢痹谥匦吕眠@些機(jī)器,并尋找新的用途。我們逐漸發(fā)現(xiàn)的一個(gè)“訣竅”是,在如此多的系統(tǒng)上運(yùn)行 OpenClaw 代理并非明智之舉。
![]()
Minisforum MS S1 Max 內(nèi)角 2
運(yùn)行一個(gè)代理程序必然會(huì)帶動(dòng)另一個(gè)代理程序的運(yùn)行。這些代理程序可能會(huì)執(zhí)行簡(jiǎn)單的shell 命令,或者打開網(wǎng)頁瀏覽器會(huì)話并開始搜索,而不是使用爬蟲工具。通常,AI 代理程序會(huì)并行執(zhí)行這些任務(wù)。我們之所以將 OpenClaw、Turnstone、Hermes 和其他代理程序框架從 128GB LPDDR5X 節(jié)點(diǎn)上遷移出來,或許最重要的原因就是為了給它們分配內(nèi)存,而這些內(nèi)存也可能被 LLM 和 KV 緩存占用。2 月下旬,我們發(fā)現(xiàn)一個(gè)系統(tǒng)持續(xù)出現(xiàn)問題,原因是它打開了多個(gè)瀏覽器,占用了 GPU 端用于 LLM 的內(nèi)存。回到代理程序 CPU 端和 LLM 后端分離的思路,這個(gè)問題就迎刃而解了。除了用于演示、文章和視頻之外,我們現(xiàn)在已經(jīng)將代理程序端與 LLM 服務(wù)端分離。
我們經(jīng)常遇到的另一個(gè)問題是智能體可能會(huì)停滯不前。LLM 錯(cuò)誤、意外輸出、幻覺等等都可能導(dǎo)致項(xiàng)目失敗。我們?cè)?jīng)有一個(gè)通宵項(xiàng)目因?yàn)橐粋€(gè)較小的模型無法正確調(diào)用某個(gè)工具而停滯不前。模型偶爾會(huì)出現(xiàn)響應(yīng)錯(cuò)誤,諸如此類。從 gpt-oss-120b 升級(jí)到 MiniMax-M2.5 是一次巨大的能力提升。Qwen3.5-397b-a17b 也出現(xiàn)了,并且通過改進(jìn)工具調(diào)用實(shí)現(xiàn)了類似的效果。當(dāng)你使用 AI 智能體時(shí),你實(shí)際上是在解決一個(gè)可靠性問題。如果你觀察它們的運(yùn)行,你會(huì)發(fā)現(xiàn)即使是小型工作流程也可能需要 100 多次 LLM 調(diào)用才能完成。在這種規(guī)模下,可靠性方程式中的每一個(gè)“9”都對(duì)最終完成至關(guān)重要。雖然你可以讓其他智能體進(jìn)行監(jiān)控(希望它們能夠準(zhǔn)確監(jiān)控),但如果因?yàn)橐粋€(gè)較小或量化程度更高的模型引入的錯(cuò)誤而導(dǎo)致你損失半天的工作,那將非常令人沮喪。
![]()
Supermicro 4U AMD Instinct MI355X 液冷主板,OCP 2025 1
通常,用于內(nèi)存其他許多任務(wù)的嵌入模型在較小的模型上就能很好地工作,因此也適用于較小的機(jī)器配置。同時(shí),大型模型更高的可靠性才是真正讓OpenClaw 這類工具從玩具變成近乎神奇的存在的原因。一個(gè)很好的例子是,使用 gpt-oss-120b 時(shí),我們無法一次性可靠地搭建服務(wù)器。而使用 MiniMax-M2.5,除了需要提供身份驗(yàn)證的部分外,服務(wù)器可以自動(dòng)搭建(盡管需要一些嘗試和錯(cuò)誤)。使用 Qwen3.5-397b-A17B 或之前的 Claude Code(搭配 Sonnet 4.6 和 Opus 4.6),我們已經(jīng)搭建了完整的 RDMA 集群。
這與許多人的經(jīng)驗(yàn)相符,而且新模型在運(yùn)行智能體人工智能工作流程方面也取得了顯著進(jìn)步。這也充分說明了通過云API 連接到托管在更大型硬件上的大型模型是多么有效。
一旦你將LLM的運(yùn)行位置拆分,以便運(yùn)行更大的LLM,那么下一個(gè)問題就是代理應(yīng)該在哪里運(yùn)行。結(jié)果表明,答案往往是高性能(P核)CPU架構(gòu),如果可能的話,最好是更大的機(jī)器。
在服務(wù)器上運(yùn)行OpenClaw 或 AI 代理才是正確的方式
幾乎所有服務(wù)器CPU 公司,包括那些試圖進(jìn)入該領(lǐng)域的公司,都表示服務(wù)器CPU 的供應(yīng)正面臨挑戰(zhàn)。雖然在桌面端運(yùn)行OpenClaw 乍聽起來是個(gè)好主意,但現(xiàn)實(shí)情況是,它既需要在服務(wù)器上運(yùn)行,也需要更大的規(guī)模。人工智能代理正以驚人的速度增長(zhǎng),使得企業(yè)無法像許多組織那樣快速地訂購(gòu)用于 OpenClaw、Turnstone、Hermes 或任何其他框架的新服務(wù)器。實(shí)際上,只要有足夠的容量,在服務(wù)器上運(yùn)行人工智能代理就可以讓你快速大規(guī)模地部署OpenClaw。此外,隨著行業(yè)的不斷發(fā)展,幾周或幾個(gè)月后,解決方案可能就會(huì)變成另一個(gè)框架。企業(yè)已經(jīng)知道如何在服務(wù)器上大規(guī)模部署和編排容器和虛擬機(jī),因此,這是一個(gè)非常成熟的模型,我們?cè)赟erveTheHome 近 17 年的發(fā)展歷程中幾乎一直在討論它。
![]()
技嘉B343 C40 AAJ1 AMD EPYC 4005 處理器
在服務(wù)器上運(yùn)行還允許企業(yè)使用熟悉的工具,例如容器備份、容器存儲(chǔ)和虛擬機(jī)。它還允許將安全和網(wǎng)絡(luò)策略應(yīng)用于整個(gè)集群。
即使是像更可靠的網(wǎng)絡(luò)和電力這樣的小細(xì)節(jié),也正成為部署中不可或缺的環(huán)節(jié)。隨著人工智能代理(由更大型的模型支持)變得越來越有用,它們的重要性也日益凸顯。那些聲稱在辦公桌前運(yùn)行預(yù)測(cè)市場(chǎng)機(jī)器人的人們,最終也會(huì)遭遇網(wǎng)絡(luò)或電力中斷,造成重大損失。就像傳統(tǒng)的金融機(jī)構(gòu)一樣,他們將被迫尋求更高可靠性的托管服務(wù),例如數(shù)據(jù)中心和服務(wù)器上的服務(wù)。這將促使他們優(yōu)化延遲、運(yùn)行更大的計(jì)算資源等等,就像大型交易公司長(zhǎng)期以來一直在做的那樣。除了交易的例子之外,關(guān)鍵業(yè)務(wù)功能之所以需要在具有更高可靠性的ECC內(nèi)存、更快的服務(wù)器、更大更快的存儲(chǔ)、更快的網(wǎng)絡(luò)等環(huán)境中運(yùn)行,是有原因的。
盡管有些人對(duì)此有所討論,但通過大量的性能分析,我們發(fā)現(xiàn)CPU 端的表現(xiàn)與許多傳統(tǒng)計(jì)算場(chǎng)景非常相似。而 LLM 端則完全不同。去年在 FP16 上運(yùn)行 Deepseek-R1 671B 模型還算不錯(cuò),但考慮到 CPU 在人工智能代理工作流程中的使用情況,現(xiàn)在我們很難想象還能做到這一點(diǎn)。
一些基本原則:
P核往往更勝一籌。目前我們已經(jīng)測(cè)試了多種Arm 和 x86 架構(gòu)。如果您追求的是高吞吐量和低延遲,那么大容量 P 核就是最佳選擇。
E核心通常能實(shí)現(xiàn)更高的CPU與內(nèi)存核心比率。這實(shí)際上也是AMD推出E核心的原因之一。我們?cè)诖舜螠y(cè)試中測(cè)試了Zen 5(Turin)和Zen 5c(Turin Dense)。Zen 5c通常會(huì)犧牲每個(gè)核心的緩存容量,而且通常時(shí)鐘頻率也低于Zen 5。它的優(yōu)勢(shì)在于保留了P核心的計(jì)算能力,并且時(shí)鐘頻率高于E核心,例如Intel Xeon 6 6700E系列。
在大多數(shù)情況下,x86 架構(gòu)上的 SMT(同步多線程)技術(shù)往往能帶來更高的性能。但就像傳統(tǒng)計(jì)算一樣,SMT 也并非總是最佳選擇。它不如增加一個(gè)完整的核心那樣高效,但我們?nèi)匀挥^察到它帶來的持續(xù)收益。通常,我們測(cè)試中那些 SMT 效果不佳的場(chǎng)景,是那些需要等待整個(gè)芯片更新才能完成核心/線程間通信的場(chǎng)景。擁有更多線程意味著你可以構(gòu)建更大的線程間通信網(wǎng)絡(luò)。
現(xiàn)在在整個(gè)芯片上運(yùn)行代理程序幾乎是荒謬的。我們?cè)缙谟龅搅艘恍┢婀值慕Y(jié)果,因?yàn)槲覀冇龅搅斯ぷ髫?fù)載中高度串行的部分,結(jié)果發(fā)現(xiàn)128 個(gè)核心中有 127 個(gè)處于空閑狀態(tài)。在現(xiàn)代服務(wù)器CPU 上,您應(yīng)該在同一節(jié)點(diǎn)上運(yùn)行多個(gè)工作負(fù)載或多個(gè)代理程序。我們甚至在一些較小的節(jié)點(diǎn)上進(jìn)行了測(cè)試,例如AMD EPYC 8004 和 Intel Xeon 6 SoC,在大多數(shù)情況下,在這些節(jié)點(diǎn)上運(yùn)行單個(gè)代理程序?qū)嵗怯薮赖摹?/p>
使用容器或者超額配置虛擬機(jī)內(nèi)存非常有用。這些都是服務(wù)器管理的基本概念,但在內(nèi)存價(jià)格昂貴且供應(yīng)短缺的今天,它們可以節(jié)省大量成本。
除了性能之外,能夠在更可靠的基礎(chǔ)設(shè)施上運(yùn)行、擁有更好的監(jiān)控、備份和配置(我們已經(jīng)看到許多OpenClaw 實(shí)例被重新部署)、在實(shí)例周圍部署防火墻等等,都起到了很大的幫助。對(duì)于我們的讀者來說,這是一個(gè)在新興領(lǐng)域引領(lǐng)潮流的機(jī)會(huì)。
當(dāng)前市場(chǎng)對(duì)服務(wù)器CPU的關(guān)注是合理的。整個(gè)行業(yè)正朝著這個(gè)方向發(fā)展。推動(dòng)這一趨勢(shì)的關(guān)鍵在于,我們正迅速邁向智能體之間相互通信的時(shí)代。一些公司已經(jīng)小規(guī)模地完成了原型設(shè)計(jì),而另一些公司則已經(jīng)開始大規(guī)模部署。盡管發(fā)展過程中難免會(huì)遇到一些障礙,但通過增加計(jì)算能力來擴(kuò)展工作規(guī)模的能力意味著,我們將進(jìn)入一個(gè)計(jì)算能力至關(guān)重要的時(shí)期。這正是導(dǎo)致計(jì)算、內(nèi)存和存儲(chǔ)資源稀缺的原因。如果你還沒用過 OpenClaw 或其他 AI 代理平臺(tái),筆者強(qiáng)烈建議你花些時(shí)間去嘗試一下。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.