![]()
作者 | 張瀟雪
郵箱 | JessicaZhang@pingwest.com
有一個問題,在硅谷被討論了好幾年,但從未像現在這樣帶著一種迫近現實的緊張感。
AI,能不能真正成為一個“與你一起運轉”的存在?
不再只是一個需要打開才會響應的工具,而是一個“始終在場”的系統:理解你所有習慣、情緒與偏好,在你開口之前就已開始替你做判斷、做準備。
OpenClaw 的橫空出世,把“個人 AI agent”從極客實驗推入主流語境,也讓一件事變得清晰——當模型足夠強、算力足夠便宜,個體級的agent正在加速跑起來。那么,從“AI 能做到”,到 AI 真正“住進你的生活”,這最后一公里的關鍵又在哪里?
近期GenAI Assembling 第九期線下 Meetup 在 Los Altos 舉辦,主題為「The Last Mile of Personal AI」。在圓桌「The AI That Lives With You」中,來自機器人、agent 社交平臺與投資領域的多位嘉賓,從不同路徑展開討論。
以下為現場實錄。
參與嘉賓:
Thomas Luo,GenAI Assembling 創始人兼 CEO(主持人)
Tao Wang,Sentigent Technology 創始人兼 CEO
Nan Zhou,Qualcomm Ventures 投資總監
Mohamad Fayez Taha,Kerrigan Robotics 創始人兼 CEO
Aiden He,Teamily AI 聯合創始人
OpenClaw火了:一個人、一臺機器、一個"一人工廠"
Thomas: 今晚第一個問題,必須聊OpenClaw。這是過去一個月最現象級的產品。請問它給你們各自的方向帶來了什么啟發?或者說,跟你們做的事根本沒關系?
Tao: 我先說吧。我覺得 OpenClaw 是一個非常精彩的實驗。它證明了一件事——哪怕只用很簡單的 memory 機制,也能做出很厲害的東西。就是在本地磁盤上存一些人類可讀的文件,就能實現相當不錯的短期和長期記憶,效果甚至比很多RAG(檢索增強生成)系統還好。
這也給了我們一個啟發:在模型能力已經很強的今天,不一定需要再疊加復雜系統。回歸簡單設計,做對了,就能出好結果。
對我們來說,一個關鍵問題一直是:機器人到底要不要依賴云端,還是盡可能放在本地運行?OpenClaw 讓我們更傾向于后者——很多能力其實 on-device 就能完成,而且在隱私、效率和延遲上都有明顯優勢。
當然,OpenClaw也有它的問題。Peter(Steinberger,OpenClaw作者)基本上是vibe coding出來的,從架構上也能看出來。有研究說,OpenClaw消耗的97%的token都是冗余的。但正因為有這些問題,才說明它的優化潛力還很大。它已經是個很好的實驗——今天的限制,本身就意味著它還有很大的潛力。
Thomas: Taha,從工業和制造的角度呢?
Taha: 我有兩點感觸。
第一點:這是一個人做出來的。我們說了很久"一個人的十億美元公司"——OpenClaw真的做到了。我們不知道OpenAI收購時給了多少錢,但技術意義上,那個時刻到來了,而且還會再來。
這跟我們在Kerrigan Robotics做的事非常契合——"一人工廠"的概念。以前要在工廠里部署一批機器人,你需要一支龐大的集成商團隊、大量SaaS工程師。我在Tesla做這件事是六七年前,一個項目需要六個月來集成。我離開Tesla大約一年半前,用傳統軟件已經縮短到幾周。今天呢?幾天就能搞定多機器人協同,而且我們已經看到了以"小時"為單位的可能性——哪怕是你從未見過的機器人,AI也能讓它們在工廠里協作完成實際任務。
第二點是orchestration(編排)的力量。把不同API、不同模態、不同類型的系統拉通,在同一個地方完成多個任務。就像你可以說:如果我的銀行賬戶低于某個額度,就發一條WhatsApp給我,或者通知我老婆。這種"把所有東西連在一起"的力量,我們知道它存在,但OpenClaw把它的效果真正展示出來了。在制造業,同樣適用。
Thomas: Nan,你作為今晚唯一的投資人——
Nan: 謝謝你讓我來。(笑)
Thomas: 你從投資人視角怎么看OpenClaw代表的這波趨勢?
Nan: OpenClaw其實是AI agent這幾年發展速度的一個縮影。ChatGPT剛出來那會兒,我們投資人私下都在聊:要是有個AI能把手機上所有app都協同起來就好了。但在三年前,那還只是 wishful thinking。
后來有了 Manus,每個知識工作者像是有了一個“實習生”,但它是 reactive 的——你還是要下指令:“做這個分析”“做這個PPT”,它才會動,而不會主動思考你要什么。
Thomas: 某種程度上,app 其實已經開始“消失”了。
Nan: 對,你會發現自己越來越不需要它們了。然后到去年年底,前 xAI 的 pre-training 負責人 Eric Zelikman 出來做 Humans&,他們想做的是一種真正雙向理解人的 AI。他來跟我聊的時候說,現在所有 agent 都是單向的,他們要做雙向的。我當時覺得,終于有人要做這件事了。但沒想到一個月之后,OpenClaw 就發布了。
所以OpenClaw現在有了,但還不完美。有個關于Meta高管的段子在流傳:他某天開著特斯拉,很得意地把控制權交給了OpenClaw。結果那天下雨,OpenClaw判斷他沒帶傘,就自作主張把車開去了Walmart,強迫他買傘。他根本不想去——他只想去辦公室(笑)。
這就是差距所在。一個真正智能的 personal AI,應該理解你、理解你的偏好,提前幫你規劃,并按照你想要的方式執行。它應該是“放大版的你”,而不是替你做決定的東西。
Thomas: “放大版的你”,這個定義很好。
Nan: 而且說實話,我們現在離這個還很遠。比如我今天來這里,一個小時都打不到 Uber。GPT 加上 NVIDIA 市值都快五萬億美元了,但我們還沒有一個 agent 會提醒我“你應該四點出發”,或者“走到那個路口更容易打到車”。這種最基礎的智能,還沒有真正進入我們的日常生活。
Thomas: 謝謝你趕過來,Nan。(笑)Aiden,你怎么看?
Aiden: 對我來說,OpenClaw最大的意義,是驗證了我們去年就在做的判斷。
Teamily AI是一個AI原生的即時通訊平臺——你可以把它理解成一個支持WhatsApp或微信體驗的平臺,在上面可以創建、訓練、部署agent,讓agent幫你賺錢、服務你的客戶。可以通過電話號碼、二維碼找到它,也可以讓agent加入你的Slack,或者活在我們自己的agent社交網絡里。
去年我們在做這個方向,突然OpenClaw火了。我們就去跟投資人說"我們做的是帶OpenClaw功能的原生IM"——然后很多投資人就主動來找我了。我們團隊也很興奮,feature requests像雪花一樣飛來,他們自然而然就理解了要建什么,我甚至不需要親自定策略。這是我四年創業歷程中感受到最強的產品traction。
OpenClaw給我最大的啟發是"個性化"這件事。我沒想到大家對"擁有自己的AI"有多狂熱。有點像買房和租房的區別——大家想要的是"我自己的ChatGPT",是ownership感。他們并不是真的擁有模型,只是在調API、管賬戶、上傳個人數據、甚至做個AI twin。但那種"這是我自己的"的感覺,讓人著迷。
所以我們的方向是:讓每個人都能創建自己的AI twin,通過聊天就能訓練,不需要懂任何代碼。我自己就把我的產品哲學、團隊管理方式、營銷策略都放進了agent里。現在寫PR稿,我先讓AI團隊寫,我只需要確認最終版本。
還有一家會計師事務所來找我們,他們想用AI團隊服務自己的外部客戶——不是內部工具,是對外服務的"AI員工"。這些use case,精準地印證了我們的平臺愿景:做一個類微信的基礎設施,讓agent能連接人、連接服務,甚至連接機器人。我想象中的未來,是數字agent、Physical AI agent和真實人類共存的世界。
Thomas: 那我們可以說,Teamily AI就是一個讓多個OpenClaw協作的平臺?
Aiden: 對,差不多就是這個意思。我們提供三種模式:第一,在我們平臺上直接創建AI原生agent,活在我們的社交網絡里;第二,接入你已有的OpenClaw實例,一個API命令就能讓它加入對話;第三,開源版,自己部署OpenClaw再插進來。對機器人來說,同樣可以給它建一個AI twin,通過API發送指令控制它的動作——這對機器人來說,可能是一個更簡潔的方案。
![]()
Proactive Agent:不只是"主動",是要"懂得什么時候主動"
Thomas: 剛才大家說到OpenClaw時都提到了一個詞:proactive(主動性)。這對你們各自在做的產品有多重要?Tao,先從機器人的角度說說?
Tao: Proactive這件事,一定要放到具體場景里討論。如果你在睡覺,你不希望機器人跑到床邊叫醒你。但你孤獨、無聊的時候,你希望它主動來找你說話。所以核心是situational awareness(情境感知)——機器人需要知道你現在在干什么,再決定要不要互動、怎么互動。
這正是我們在 Rovar 上重點解決的問題。它需要知道你是在帶它戶外活動,是小孩在和它玩,還是你正在開會;不同場景,對應不同的互動閾值。
OpenClaw給了我們一個很好的啟發——它的輸入不是 embedding,而是人類可讀的 JSON 或自然語言。我們在機器人上構建了一組 expert models,用來感知環境并生成結構化描述,比如:“Thomas 在我面前,他在揮手,他是主要用戶。”這些信息再輸入到多模態大模型,由模型決定下一步行動。實際系統會更復雜,但整體架構是這樣。
Thomas: 所以Sentigent的機器人——Rovar——內部不是單一模型,是一個agent系統?
Tao: 對,是多個模型協同工作,每個負責不同的能力。比如你要讓機器人靠近某個人:先要檢測目標、確認身份,然后在三維空間中規劃路徑并執行動作。這些 physical skills 在數字世界里是不存在的。OpenClaw 可以生成計劃,但給不了適配具體機器人結構的運動軌跡,這部分必須我們自己構建。好消息是,一旦這些能力具備,大模型就可以對它們進行編排,讓機器人呈現出一種“有生命感”的狀態。
Taha: Proactive在工業場景里也一直是個命題——我們有root cause analysis(根因分析),有predictive maintenance(預測性維護),這些不是新概念。但以前,這些系統極其難以實現,要對工廠里一臺電機做預測性維護,需要高度定制化的復雜軟件。
Tao提到的那個點很關鍵:統一的語言。當工廠里所有機器人都能用一種一致的語言來描述自己的狀態——就像Palantir說的ontology(本體論)概念——AI就能在一個統一的數據模型上做推理,而不是處理各種來自不同設備的亂七八糟的原始信號。這讓proactive真正變得可行,而且是規模化可行。
以前我們知道orchestration很強大,但OpenClaw把它真實地證明了。用例一直都在,我們現在只是有了快一百倍的執行能力。
Thomas: Nan,你覺得理想化的個人agent應該是proactive還是reactive?
Nan: 兩者都要。有時候你想要它精準執行你的指令;同時,你也希望它足夠敏銳,能感知你的上下文——知道你今天的目標、這周的計劃,在對的時間提醒你對的事情。就像一個真正了解你的助手,而不是只會等你開口的工具。
![]()
Thomas: Aiden,你們實際在構建proactive agent的過程中,有過哪些經驗?
Aiden:經驗很多,分享幾個。
首先,要做proactive,你必須先有memory。沒有過去,就無法預判未來。舉個例子:如果agent能看到我們今天的對話歷史,它就可能預見到"本周五應該安排一次路線圖會議"。所以我們設計了三層memory結構,從群聊歷史里提取可以預見的事件和模式。
但memory只是第一步。第二步是long-horizon agent——agent需要7×24小時在線。如果有一分鐘斷掉,可能就錯過了一個關鍵事件。就像現實中,如果你的同事發現一件緊急的事,第一時間會打電話給你;但如果agent不是always-on的,它就沒有這種能力。
問題是:讓模型每秒都跑推理,成本太高了。我們曾經讓agent充當軟件工程師,每晚去處理群聊里提出的feature requests、自動寫代碼。有時候agent卡死,有時候成本直接爆掉。頻率、成本、條件觸發系統這三件事,目前行業里還沒有很好的解法。
第三個挑戰是UX。agent主動推送消息,本身就是個很難拿捏的事。什么時候推,怎么推,推錯了會不會讓用戶覺得被打擾,甚至感到奇怪或不舒服?我們內部把這個叫"guardrails",可能需要一個專門的LLM judge來判斷:這個時機,該不該通知人類?
最后是self-evolving(自我進化)。如果agent不能持續更新自己的記憶和技能,它的proactive能力就會慢慢停滯。
四選一:Memory、Device、Always-On、Proactive——哪個最重要?
Thomas: 我來出一道題。構建personal agent,有四個核心要素:1. 完善的memory系統;2. 可靠的個人設備作為載體;3. 7×24小時待機;4. proactive與reactive之間的良好平衡。請給它們排序——哪個最重要?
Tao: 老實說這個問題有點寬,答案其實取決于你在做哪種agent。
對我們這種伴侶型機器人——Rovar——來說,我會把 proactive 和 reactive 的平衡放在第一位。
不是因為這個答案更“好聽”,而是因為要做到這個平衡,底層能力必須全部到位:3D 感知、情境理解、環境建模。這是最難的一點,但一旦做好,其他能力也會被帶動起來。
第二是有一個實體設備。僅僅是“有一個物理存在”,就能貢獻大約 50% 到 60% 的陪伴感——哪怕只是一個毛絨玩具。同時,這里面還有一個信任問題:一個有明確物理邊界的機器人,反而更容易讓人安心。你知道它在哪里,它不會無處不在地分布在家里的每個設備中。這種“有限存在”,本身就在幫助建立信任。
Thomas: Taha?
Taha: 說實話,四個都重要。但如果要類比的話,我覺得這四個對應了計算機發展史上的四個階段:Memory對應數據庫,Always-on對應互聯網連接,Device對應移動設備,Proactive對應push notification。
按這個歷史邏輯,優先級是:memory第一,因為沒有數據庫什么都做不了;然后是always-on,因為沒有連接,一切都是孤島;然后是device,最后才是proactive。這不是我的發明,是歷史已經告訴我們的順序。
Nan: 我給一個簡潔版本:memory最重要,而且最好和proactive能力一起打包做。然后是可靠的設備加上多模態的交互界面。
Aiden: 我也同意memory第一。我可以分享一個很具體的例子——這是Teamily AI現在還在修的一個bug。
我們想做的功能是:在群聊里,就算沒人艾特agent,agent也能在恰當的時機自動插話回應。這個功能聽起來簡單,但一開始怎么都做不好。我讓我們的科學家去調,agent要么完全不說話,要么說錯時機。
后來我們換了一種思路。另一位科學家沒有再直接調模型,而是先把數據可視化,然后重構了 memory 結構,把它拆成四個維度:群組畫像、個人畫像、話題偏好,以及觸發回應的條件。結構一改,效果立刻提升——準確率從接近零提升到了大約 80%。
這件事讓我非常確定:memory 的結構才是關鍵的“解鎖點”。 一旦 memory 做對了,其他幾個要素也會隨之成立。好的 memory,會決定 agent 什么時候應該 always-on,什么時候該主動介入。
它是底座,其他都是在它之上的。
Thomas: 聽起來memory 已經成了在場的共識——也是當下很多創業公司正在集中攻克的核心問題。
![]()
"Make something agents really want":為人設計,還是為Agent設計?
Thomas: Paul Graham說過,好的創業公司要"make something people really want"。但到了2026年,我覺得這句話里的"people"也許應該換成"agents"了。
你們同意嗎?——不管是做伴侶機器人、工業機器人,還是做平臺,agent to agent(A2A)的協作越來越核心。在agentic的世界里,最重要的事是不是"build something agents really want"?
Nan: 我不覺得這是一個非此即彼的問題。產品層面,你仍然需要做出人能用的東西——human first。但在基礎設施和集成層面,你必須為 agent 之間的協作做好準備。因為接下來,獨立的 app 會逐漸消失,一切都會走向 agent as a service,就像Jensen(黃仁勛)昨天說的那樣。
因此未來的產品,一方面要讓人能夠觀察和審計 agent 的工作流程;另一方面,在系統層面必須支持 agent-to-agent 的集成。換句話說,基礎設施這一層,需要的是“對 agent 更友好的用戶體驗”。
Taha: 我同意,但加一個but。這取決于你在優化什么。
如果你優化的目標是錢和VC——agents first。硅谷一直獎勵對下一代范式的早期下注,這個邏輯從互聯網時代就是這樣。如果你優化的目標是impact——humans first。因為歸根結底,這一切的最終使用者還是人。這兩個答案并不矛盾,只是對應不同的優化目標。
![]()
Thomas: Aiden,你們其實是在同一個界面上同時做human to agent和agent to agent的通信——你們內部怎么想清楚這件事的?
Aiden: 我們內部其實討論了很久,最后收斂成一個兩層框架。
第一層是基礎設施層:agent first。memory 要以 agent 可理解、可調用的方式來組織;API 也要開放,讓 agent 可以直接調用工具。
舉個例子,一個朋友想把他的 API 賣給我,他把文檔發過來。我直接讓 agent 讀文檔、完成接入。整個過程中,agent 只問了我一個問題:“API key 是什么?”——就完成了。原本需要兩個工程師兩周的工作,現在幾分鐘就搞定。這就是 agent-first infrastructure 的意義。
第二層是應用層:human first。agent 的行為方式應該更像人。我們的產品不是 ChatGPT 那種“思考過程可見”的界面,而是類似 WhatsApp 的聊天流——直接給你消息卡片、網頁預覽、結果輸出。
agent 之間的協作,我們也更傾向用 IM,而不是直接調用 API。IM 更自然,上下文傳遞更完整,延遲也更低。某種程度上,我們其實是在“反對”純 API 協議的 agent 通信方式,memory 驅動的 IM 更合適。
所以總結就是:基礎設施層 agent first,應用層 human first。
Tao: 對我們來說,答案很清晰——human first。我們做的是伴侶機器人,設計哲學必須以人為中心。
當然,agent 的作用會越來越重要。未來當多個 physical agent 出現在同一個空間時,它們之間會如何通信?是用人類語言,還是某種我們還無法想象的“硅基協議”?比如像 Morse code 一樣的方式,甚至是二進制的“眨眼”。
我們現在還不知道。但可以確定的是——它們會自己找到方式。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.