![]()
OpenClaw有沒有顛覆打工人的工作方式不知道,但具身智能好像快要被顛覆了。
最近,最近網(wǎng)上流傳許多這樣的視頻,一些不滿足“賽博養(yǎng)蝦”的網(wǎng)友,給OpenClaw接上攝像頭和機(jī)械臂。這一接不要緊,接入之后大家發(fā)現(xiàn),原來OpenClaw不僅能在電腦上干活,在現(xiàn)實(shí)中同樣也是干活的一把好手。
比如有網(wǎng)友給OpenClaw配上了電腦,機(jī)械臂和攝像頭,他們沒有為這個(gè)任務(wù)重新寫一套程序,也沒有單獨(dú)訓(xùn)練模型,只是對OpenClaw說:“把這些汽車零件分類。”
OpenClaw就完成了這些零件分揀。
![]()
這件事情對具身智能的沖擊有多大呢?
這么說吧,就在不到一年前,這些能力在人形機(jī)器人公司都還是值得專門召開一場發(fā)布會,花費(fèi)上百萬美元在全世界進(jìn)行吆喝的。
但現(xiàn)在,同樣的能力,卻被OpenClaw輕易實(shí)現(xiàn)了,甚至它都不是為具身智能專門準(zhǔn)備的工具。
所以這件事情,怎么聽都有些荒誕。
那么,OpenClaw到底給人形機(jī)器人帶來了什么?在OpenClaw這么強(qiáng)的情況下,專門的具身大模型還有意義嗎?機(jī)器人公司之前的工作有沒有白費(fèi)?為什么機(jī)器人公司辛苦好幾年的工作,OpenClaw能輕易做到?
以及潮水退去之后,又有誰在裸泳?
當(dāng)“養(yǎng)蝦”養(yǎng)到機(jī)器人身上
我仍然記得,大概是去年(2025年)4月初,國內(nèi)一家頭部的人形機(jī)器人公司在北京鄭重地舉辦了一場發(fā)布會,內(nèi)容就是人形機(jī)器人開發(fā)平臺。
當(dāng)時(shí),這個(gè)平臺的核心亮點(diǎn)就是:僅憑語音指令,就能在工業(yè)場景中完成散亂零件的分揀,動(dòng)作流暢、錯(cuò)誤率低。
怎么樣,這個(gè)描述是不是很熟悉,它和今天OpenClaw能做到的事情幾乎一模一樣。
區(qū)別只是在于,這家公司發(fā)布的這個(gè)平臺是專門針對機(jī)器人的,它拆分了數(shù)十個(gè)場景,訓(xùn)練Agent,然后通過行為路徑規(guī)劃串聯(lián)在一起,這里面包含了大量的工作。
當(dāng)時(shí),這個(gè)公司給這個(gè)平臺的宣傳口號是:人形機(jī)器人從表演走向干活、從實(shí)驗(yàn)室走進(jìn)工廠最重要的一塊拼圖。而現(xiàn)在,OpenClaw似乎也輕易實(shí)現(xiàn)了類似的能力,但顯然,OpenClaw沒有經(jīng)歷過這些。
這就像什么呢?就像你和朋友一起去爬山,你精心準(zhǔn)備、提前出發(fā),花費(fèi)大量時(shí)間,終于氣喘吁吁地來到山頂時(shí),你卻發(fā)現(xiàn),你的朋友坐著直升機(jī),已經(jīng)在這里等你多時(shí)了。
具體來看,OpenClaw還在更多的場景中都展現(xiàn)出了強(qiáng)大的泛化能力、決策和自我進(jìn)化的能力。
比如在一個(gè)實(shí)驗(yàn)里,還有一段更生活化的測試。工作人員對機(jī)械臂說:“今天是元宵節(jié),給我做點(diǎn)甜米酒湯圓。”
機(jī)械臂先停頓思考任務(wù),隨后開始執(zhí)行:把湯倒進(jìn)鍋里,把湯圓放進(jìn)去,等待水煮開。
中途工作人員還問:“能不能加點(diǎn)糖?”
機(jī)械臂反問:“黃糖還是桂花糖?”
得到“黃糖”的回答后,他把糖倒進(jìn)了鍋里。
此外還有各種各樣的實(shí)驗(yàn),比如有開發(fā)者把OpenClaw接入工業(yè)機(jī)械臂,讓它根據(jù)自然語言指令完成抓取或搬運(yùn)任務(wù),系統(tǒng)甚至?xí)詣?dòng)生成控制機(jī)械臂的Python腳本。
除了機(jī)械臂,四足機(jī)器人也很快出現(xiàn)在各種“養(yǎng)蝦”實(shí)驗(yàn)里。
在Reddit和X上流傳的一些視頻中,有開發(fā)者把OpenClaw接入機(jī)器狗,讓它在環(huán)境中自主巡邏。
過去,這類機(jī)器人通常需要遙控操作,或者按照提前設(shè)計(jì)好的路線行動(dòng)。但在這些實(shí)驗(yàn)中,沒有操控,也沒有提前規(guī)劃的路線,機(jī)器狗根據(jù)攝像頭看到的環(huán)境,自己判斷、自己規(guī)劃,比如繞開障礙物、或者在遇到新情況時(shí)重新規(guī)劃路徑。
![]()
而當(dāng)這些實(shí)驗(yàn)開始出現(xiàn)在人形機(jī)器人身上時(shí),事情就變得更有意思了。
比如在一個(gè)開源社區(qū)中,就有人發(fā)布了一套適用于OpenClaw的Unitree-robot技能。有了這個(gè)集成,開發(fā)者可以直接通過即時(shí)通訊軟件控制宇樹機(jī)器人,比如G1,甚至包括更大的H1,以及四足機(jī)器人GO1和GO2。
整個(gè)過程比想象中簡單得多。開發(fā)者不需要打開復(fù)雜的圖形界面,也不用手動(dòng)調(diào)用SDK,只要在聊天窗口里發(fā)一句話:
“前進(jìn)一米。”
“左轉(zhuǎn)45度。”
機(jī)器人就會執(zhí)行對應(yīng)的動(dòng)作。
這種控制甚至是雙向的。OpenClaw可以從機(jī)器人搭載的立體相機(jī)中獲取環(huán)境圖像,再把截圖直接發(fā)回聊天窗口,讓開發(fā)者隨時(shí)查看現(xiàn)場。如果再接入路徑規(guī)劃模塊,系統(tǒng)還可以自動(dòng)規(guī)劃路線、避開障礙物。
![]()
同樣,整個(gè)過程沒有預(yù)設(shè)腳本,也沒有提前規(guī)劃好的動(dòng)作路徑。
開發(fā)者只是給出一個(gè)目標(biāo),剩下的事情就都交給了AI,它自己判斷、自己規(guī)劃。
一只小龍蝦,能掀翻人形機(jī)器人嗎?
我們從各種的演示視頻中,看到了OpenClaw結(jié)合其他大模型表現(xiàn)出來的驚人能力。
放以前,足以成為許多人形機(jī)器人公司最驕傲的成果,放到現(xiàn)在也變得平平無奇。
因此,這不得不讓人產(chǎn)生一個(gè)疑問:機(jī)器人行業(yè)花了這么多年,采集數(shù)據(jù)、訓(xùn)練模型、開發(fā)系統(tǒng)才實(shí)現(xiàn)的能力,還有價(jià)值嗎?
答案當(dāng)然是否定的。
這話得從頭說起,一個(gè)機(jī)器人,除了本體之外,決策系統(tǒng)大致可以被拆為四層,從上往下分別是:
- 決策層(大腦):理解目標(biāo)與任務(wù)拆解;
- 感知/表征層:識別環(huán)境、目標(biāo)與空間狀態(tài);
- 行為組織層:把任務(wù)拆成技能和動(dòng)作序列;
- 控制層(小腦):軌跡、伺服、避障、安全執(zhí)行。
![]()
在這個(gè)框架下,OpenClaw 主要負(fù)責(zé)前面幾層能力的調(diào)用、編排和銜接。至于機(jī)器人最后怎么動(dòng)、動(dòng)作能不能穩(wěn)定落地,仍然依賴底層控制系統(tǒng)、運(yùn)動(dòng)學(xué)求解和執(zhí)行鏈路。
因此,OpenClaw 并不是讓機(jī)器人突然學(xué)會了運(yùn)動(dòng),它反而更像是一個(gè)上層調(diào)度系統(tǒng),把人的指令翻譯成一連串可調(diào)用的能力。
這里真正值得注意的亮點(diǎn)其實(shí)有兩個(gè)。
第一個(gè),是OpenClaw改變了機(jī)器人獲得這些能力的方式。
過去,很多能力并不是做不到,而是往往要為單一任務(wù)投入大量數(shù)據(jù)采集、專門訓(xùn)練和復(fù)雜的規(guī)則工程。
而現(xiàn)在,OpenClaw可以直接借助已經(jīng)成熟的多模態(tài)模型、工具系統(tǒng)和模塊化執(zhí)行鏈路,把許多原本需要單獨(dú)開發(fā)、單獨(dú)訓(xùn)練的能力,變成了可以直接調(diào)用,和快速組合的能力。
結(jié)果就是,同樣一個(gè)抓取、查找或巡檢任務(wù),開發(fā)效率更高,試錯(cuò)周期更短,整體成本也更低。
第二就是,OpenClaw讓機(jī)器人開始具備一種過去很少真正建立起來的能力:對現(xiàn)實(shí)世界的持續(xù)記憶。
傳統(tǒng)機(jī)器人更多是在“當(dāng)下”工作。它看到什么,就對什么做出反應(yīng);任務(wù)結(jié)束后,對環(huán)境的理解也大多停留在那一刻。很多系統(tǒng)當(dāng)然也能做地圖、定位和任務(wù)狀態(tài)保存,但它們通常并不會把“地點(diǎn)、物體、事件和時(shí)間”持續(xù)組織成一個(gè)可隨時(shí)調(diào)用的統(tǒng)一記憶結(jié)構(gòu)。
而現(xiàn)在,OpenClaw開始嘗試把機(jī)器人感知到的重要對象、地點(diǎn)、事件和時(shí)間組織成可檢索的時(shí)空語義記憶。
這意味著,機(jī)器人不再只是執(zhí)行命令,而是在持續(xù)積累上下文。
一個(gè)人什么時(shí)候進(jìn)入房間,一個(gè)物體被放在了哪里,一段行為發(fā)生在什么時(shí)間點(diǎn),這些都可能被納入后續(xù)搜索、判斷和行動(dòng)的依據(jù)。
當(dāng)然,這并不等于它已經(jīng)擁有了像人一樣完整的世界理解,但至少說明,它開始具備一種面向現(xiàn)實(shí)世界的結(jié)構(gòu)化記憶能力。
這件事的意義在于,機(jī)器人能力的邊界正在從“完成一次任務(wù)”往“持續(xù)理解一個(gè)環(huán)境”延伸。(在同一環(huán)境或相似環(huán)境中,持續(xù)上下文會提升任務(wù)連續(xù)性和局部穩(wěn)定性,但這并不等于系統(tǒng)已經(jīng)獲得了廣義泛化能力。)
當(dāng)然,OpenClaw能做到這些,并不是憑空產(chǎn)生的,其背后支持的有兩個(gè)重要的原因。
第一個(gè)原因是,最近幾年機(jī)器人本身的底層架構(gòu)開始發(fā)生了變化。
過去,很多機(jī)器人系統(tǒng)更像一個(gè)個(gè)封閉的煙囪:感知是一套,規(guī)劃是一套,控制又是一套,彼此連接復(fù)雜,開發(fā)門檻很高。很多能力雖然已經(jīng)存在,但很難被靈活調(diào)用。
而現(xiàn)在,機(jī)器人系統(tǒng)正在變得越來越模塊化、標(biāo)準(zhǔn)化。相機(jī)、機(jī)械臂、抓取模塊、路徑規(guī)劃、底層控制接口,都在逐步變成可插拔、可組合的能力單元。
OpenClaw之所以看起來很強(qiáng),不是因?yàn)樗鼞{空創(chuàng)造了底層機(jī)器人能力,而是因?yàn)樗梢哉驹谝粋€(gè)已經(jīng)逐漸標(biāo)準(zhǔn)化的執(zhí)行棧之上,把這些能力重新組織起來。
第二個(gè)原因,是多模態(tài)大模型正在快速整合原來分散的能力。
過去,人形機(jī)器人如果要完成一個(gè)任務(wù),往往要單獨(dú)解決很多問題:文字理解、語音識別、圖像識別、視頻理解、目標(biāo)檢測、空間判斷、任務(wù)拆解,常常要靠不同模塊分別完成。
但現(xiàn)在,多模態(tài)大模型已經(jīng)能同時(shí)處理文字、圖像、語音、視頻等不同信息,并把這些信息放進(jìn)同一個(gè)上下文里統(tǒng)一理解。這意味著,機(jī)器人過去那些需要單獨(dú)訓(xùn)練、單獨(dú)接入的感知和理解能力,正在被更通用的基礎(chǔ)模型逐步吸收。
這導(dǎo)致機(jī)器人上層智能的開發(fā)門檻被明顯拉低了。而這就是OpenClaw的意義,它不是重新發(fā)明這些能力,而是把這些已經(jīng)變強(qiáng)的通用能力,更高效地接進(jìn)了機(jī)器人系統(tǒng)。
具身大模型,還有沒有意義?
說到這里,就自然會延伸出一個(gè)更關(guān)鍵的問題:既然基礎(chǔ)模型已經(jīng)越來越強(qiáng),單獨(dú)做一個(gè)具身智能大模型,還有意義嗎?
畢竟在此之前,很多人形機(jī)器人公司都曾高調(diào)宣布自研具身大模型,并把它視為公司最重要的戰(zhàn)略核心,仿佛誰掌握了具身模型,誰就掌握了機(jī)器人的未來。
可現(xiàn)在看起來,通用基礎(chǔ)模型正在迅速補(bǔ)齊理解、感知和任務(wù)編排能力,原來機(jī)器人公司花了很多年構(gòu)建的部分上層能力,正在被更大的基礎(chǔ)模型體系快速通用化。
答案是:有,而且依然重要。
原因在于,基礎(chǔ)模型變強(qiáng),主要改變的是機(jī)器人“理解世界”的能力;而具身模型真正決定的,是機(jī)器人“如何在物理世界里把動(dòng)作做出來”的能力。
理解一句話、識別一個(gè)目標(biāo)、拆解一個(gè)任務(wù),這些事情確實(shí)越來越像通用能力了。但機(jī)器人最難的部分,從來不只是聽懂、看懂,而是進(jìn)入現(xiàn)實(shí)世界以后,動(dòng)作是否真的成立,抓取角度對不對,軌跡穩(wěn)不穩(wěn),接觸力會不會失控,目標(biāo)被遮擋后能不能繼續(xù),抓取失敗后能不能恢復(fù),換一個(gè)場景、換一個(gè)物體、換一臺機(jī)器之后還能不能成功。
這些問題不是只靠更強(qiáng)的“理解能力”就能自動(dòng)解決的。
具身智能大模型的價(jià)值,不在于把所有事情都包下來,而在于把大量和動(dòng)作、操作、交互相關(guān)的經(jīng)驗(yàn)沉淀下來,讓機(jī)器人不僅能做出一個(gè)demo,更能形成穩(wěn)定、可復(fù)用、可泛化的能力。
換句話說,通用模型正在吃掉的是“理解層”;而具身模型守住的,仍然是“動(dòng)作層”和“物理落地層”。
所以,具身模型不是沒有意義了,而是它的角色正在變化:過去它像是想包辦一切的“全棧大腦”,現(xiàn)在它更像是在整個(gè)機(jī)器人系統(tǒng)里,負(fù)責(zé)決定能力上限的關(guān)鍵一層。
最后,讓我們回到最開始的問題,OpenClaw到底給人形機(jī)器人行業(yè)帶來了什么?
答案是,它讓整個(gè)行業(yè)更早接受了一個(gè)事實(shí):人形機(jī)器人的上層任務(wù)智能,正在快速通用化。
過去,很多公司最稀缺的能力,是把理解、感知、規(guī)劃和調(diào)用整合成一個(gè)能工作的系統(tǒng);但現(xiàn)在,隨著多模態(tài)基礎(chǔ)模型和Agent框架成熟,這部分門檻正在迅速下降。
做一個(gè)像樣的demo,會越來越容易,這也意味著,機(jī)器人行業(yè)正在進(jìn)入深水區(qū)。
未來比拼的,不再是誰先做出一個(gè)會“聽懂指令”的演示,而是誰能把動(dòng)作做穩(wěn),把成功率做高,把系統(tǒng)做成低延遲、可復(fù)現(xiàn)、可量產(chǎn)、可安全部署的產(chǎn)品。真正決定勝負(fù)的,將是更底層的專業(yè)能力:控制、數(shù)據(jù)、魯棒性、工程化和量產(chǎn)能力。
換句話說,OpenClaw降低了做demo的門檻,卻沒有降低做成產(chǎn)品的難度。
而這恰恰是它對行業(yè)最大的沖擊:那些還浮在表面、靠手搓demo講故事的公司,其競爭力會迅速被擠壓;潮水退去之后,才知道誰在裸泳。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.