網易首頁 > 網易號 > 正文申請入駐

硅谷對談：當人類第一次能把Personal AI做出來｜對話深庭紀、Kerrigan、Teamily和Qualcomm Ventures

2026-04-05 11:26:06　來源: 硅星人

北京舉報

分享至

作者｜張瀟雪
郵箱｜ JessicaZhang@pingwest.com

有一個問題，在硅谷被討論了好幾年，但從未像現在這樣帶著一種迫近現實的緊張感。

AI，能不能真正成為一個“與你一起運轉”的存在？

不再只是一個需要打開才會響應的工具，而是一個“始終在場”的系統：理解你所有習慣、情緒與偏好，在你開口之前就已開始替你做判斷、做準備。

OpenClaw 的橫空出世，把“個人 AI agent”從極客實驗推入主流語境，也讓一件事變得清晰——當模型足夠強、算力足夠便宜，個體級的agent正在加速跑起來。那么，從“AI 能做到”，到 AI 真正“住進你的生活”，這最后一公里的關鍵又在哪里？

近期GenAI Assembling 第九期線下 Meetup 在 Los Altos 舉辦，主題為「The Last Mile of Personal AI」。在圓桌「The AI That Lives With You」中，來自機器人、agent 社交平臺與投資領域的多位嘉賓，從不同路徑展開討論。

以下為現場實錄。

參與嘉賓：

Thomas Luo，GenAI Assembling 創始人兼 CEO（主持人）

Tao Wang，Sentigent Technology 創始人兼 CEO

Nan Zhou，Qualcomm Ventures 投資總監

Mohamad Fayez Taha，Kerrigan Robotics 創始人兼 CEO

Aiden He，Teamily AI 聯合創始人

OpenClaw火了：一個人、一臺機器、一個"一人工廠"

Thomas： 今晚第一個問題，必須聊OpenClaw。這是過去一個月最現象級的產品。請問它給你們各自的方向帶來了什么啟發？或者說，跟你們做的事根本沒關系？

Tao：我先說吧。我覺得 OpenClaw 是一個非常精彩的實驗。它證明了一件事——哪怕只用很簡單的 memory 機制，也能做出很厲害的東西。就是在本地磁盤上存一些人類可讀的文件，就能實現相當不錯的短期和長期記憶，效果甚至比很多RAG（檢索增強生成）系統還好。

這也給了我們一個啟發：在模型能力已經很強的今天，不一定需要再疊加復雜系統。回歸簡單設計，做對了，就能出好結果。

對我們來說，一個關鍵問題一直是：機器人到底要不要依賴云端，還是盡可能放在本地運行？OpenClaw 讓我們更傾向于后者——很多能力其實 on-device 就能完成，而且在隱私、效率和延遲上都有明顯優勢。

當然，OpenClaw也有它的問題。Peter（Steinberger，OpenClaw作者）基本上是vibe coding出來的，從架構上也能看出來。有研究說，OpenClaw消耗的97%的token都是冗余的。但正因為有這些問題，才說明它的優化潛力還很大。它已經是個很好的實驗——今天的限制，本身就意味著它還有很大的潛力。

Thomas： Taha，從工業和制造的角度呢？

Taha： 我有兩點感觸。

第一點：這是一個人做出來的。我們說了很久"一個人的十億美元公司"——OpenClaw真的做到了。我們不知道OpenAI收購時給了多少錢，但技術意義上，那個時刻到來了，而且還會再來。

這跟我們在Kerrigan Robotics做的事非常契合——"一人工廠"的概念。以前要在工廠里部署一批機器人，你需要一支龐大的集成商團隊、大量SaaS工程師。我在Tesla做這件事是六七年前，一個項目需要六個月來集成。我離開Tesla大約一年半前，用傳統軟件已經縮短到幾周。今天呢？幾天就能搞定多機器人協同，而且我們已經看到了以"小時"為單位的可能性——哪怕是你從未見過的機器人，AI也能讓它們在工廠里協作完成實際任務。

第二點是orchestration（編排）的力量。把不同API、不同模態、不同類型的系統拉通，在同一個地方完成多個任務。就像你可以說：如果我的銀行賬戶低于某個額度，就發一條WhatsApp給我，或者通知我老婆。這種"把所有東西連在一起"的力量，我們知道它存在，但OpenClaw把它的效果真正展示出來了。在制造業，同樣適用。

Thomas： Nan，你作為今晚唯一的投資人——

Nan： 謝謝你讓我來。（笑）

Thomas： 你從投資人視角怎么看OpenClaw代表的這波趨勢？

Nan： OpenClaw其實是AI agent這幾年發展速度的一個縮影。ChatGPT剛出來那會兒，我們投資人私下都在聊：要是有個AI能把手機上所有app都協同起來就好了。但在三年前，那還只是 wishful thinking。

后來有了 Manus，每個知識工作者像是有了一個“實習生”，但它是 reactive 的——你還是要下指令：“做這個分析”“做這個PPT”，它才會動，而不會主動思考你要什么。

Thomas： 某種程度上，app 其實已經開始“消失”了。

Nan： 對，你會發現自己越來越不需要它們了。然后到去年年底，前 xAI 的 pre-training 負責人 Eric Zelikman 出來做 Humans&，他們想做的是一種真正雙向理解人的 AI。他來跟我聊的時候說，現在所有 agent 都是單向的，他們要做雙向的。我當時覺得，終于有人要做這件事了。但沒想到一個月之后，OpenClaw 就發布了。

所以OpenClaw現在有了，但還不完美。有個關于Meta高管的段子在流傳：他某天開著特斯拉，很得意地把控制權交給了OpenClaw。結果那天下雨，OpenClaw判斷他沒帶傘，就自作主張把車開去了Walmart，強迫他買傘。他根本不想去——他只想去辦公室（笑）。

這就是差距所在。一個真正智能的 personal AI，應該理解你、理解你的偏好，提前幫你規劃，并按照你想要的方式執行。它應該是“放大版的你”，而不是替你做決定的東西。

Thomas： “放大版的你”，這個定義很好。

Nan： 而且說實話，我們現在離這個還很遠。比如我今天來這里，一個小時都打不到 Uber。GPT 加上 NVIDIA 市值都快五萬億美元了，但我們還沒有一個 agent 會提醒我“你應該四點出發”，或者“走到那個路口更容易打到車”。這種最基礎的智能，還沒有真正進入我們的日常生活。

Thomas： 謝謝你趕過來，Nan。（笑）Aiden，你怎么看？

Aiden： 對我來說，OpenClaw最大的意義，是驗證了我們去年就在做的判斷。

Teamily AI是一個AI原生的即時通訊平臺——你可以把它理解成一個支持WhatsApp或微信體驗的平臺，在上面可以創建、訓練、部署agent，讓agent幫你賺錢、服務你的客戶。可以通過電話號碼、二維碼找到它，也可以讓agent加入你的Slack，或者活在我們自己的agent社交網絡里。

去年我們在做這個方向，突然OpenClaw火了。我們就去跟投資人說"我們做的是帶OpenClaw功能的原生IM"——然后很多投資人就主動來找我了。我們團隊也很興奮，feature requests像雪花一樣飛來，他們自然而然就理解了要建什么，我甚至不需要親自定策略。這是我四年創業歷程中感受到最強的產品traction。

OpenClaw給我最大的啟發是"個性化"這件事。我沒想到大家對"擁有自己的AI"有多狂熱。有點像買房和租房的區別——大家想要的是"我自己的ChatGPT"，是ownership感。他們并不是真的擁有模型，只是在調API、管賬戶、上傳個人數據、甚至做個AI twin。但那種"這是我自己的"的感覺，讓人著迷。

所以我們的方向是：讓每個人都能創建自己的AI twin，通過聊天就能訓練，不需要懂任何代碼。我自己就把我的產品哲學、團隊管理方式、營銷策略都放進了agent里。現在寫PR稿，我先讓AI團隊寫，我只需要確認最終版本。

還有一家會計師事務所來找我們，他們想用AI團隊服務自己的外部客戶——不是內部工具，是對外服務的"AI員工"。這些use case，精準地印證了我們的平臺愿景：做一個類微信的基礎設施，讓agent能連接人、連接服務，甚至連接機器人。我想象中的未來，是數字agent、Physical AI agent和真實人類共存的世界。

Thomas： 那我們可以說，Teamily AI就是一個讓多個OpenClaw協作的平臺？

Aiden： 對，差不多就是這個意思。我們提供三種模式：第一，在我們平臺上直接創建AI原生agent，活在我們的社交網絡里；第二，接入你已有的OpenClaw實例，一個API命令就能讓它加入對話；第三，開源版，自己部署OpenClaw再插進來。對機器人來說，同樣可以給它建一個AI twin，通過API發送指令控制它的動作——這對機器人來說，可能是一個更簡潔的方案。

Proactive Agent：不只是"主動"，是要"懂得什么時候主動"

Thomas： 剛才大家說到OpenClaw時都提到了一個詞：proactive（主動性）。這對你們各自在做的產品有多重要？Tao，先從機器人的角度說說？

Tao： Proactive這件事，一定要放到具體場景里討論。如果你在睡覺，你不希望機器人跑到床邊叫醒你。但你孤獨、無聊的時候，你希望它主動來找你說話。所以核心是situational awareness（情境感知）——機器人需要知道你現在在干什么，再決定要不要互動、怎么互動。

這正是我們在 Rovar 上重點解決的問題。它需要知道你是在帶它戶外活動，是小孩在和它玩，還是你正在開會；不同場景，對應不同的互動閾值。

OpenClaw給了我們一個很好的啟發——它的輸入不是 embedding，而是人類可讀的 JSON 或自然語言。我們在機器人上構建了一組 expert models，用來感知環境并生成結構化描述，比如：“Thomas 在我面前，他在揮手，他是主要用戶。”這些信息再輸入到多模態大模型，由模型決定下一步行動。實際系統會更復雜，但整體架構是這樣。

Thomas： 所以Sentigent的機器人——Rovar——內部不是單一模型，是一個agent系統？

Tao：對，是多個模型協同工作，每個負責不同的能力。比如你要讓機器人靠近某個人：先要檢測目標、確認身份，然后在三維空間中規劃路徑并執行動作。這些 physical skills 在數字世界里是不存在的。OpenClaw 可以生成計劃，但給不了適配具體機器人結構的運動軌跡，這部分必須我們自己構建。好消息是，一旦這些能力具備，大模型就可以對它們進行編排，讓機器人呈現出一種“有生命感”的狀態。

Taha： Proactive在工業場景里也一直是個命題——我們有root cause analysis（根因分析），有predictive maintenance（預測性維護），這些不是新概念。但以前，這些系統極其難以實現，要對工廠里一臺電機做預測性維護，需要高度定制化的復雜軟件。

Tao提到的那個點很關鍵：統一的語言。當工廠里所有機器人都能用一種一致的語言來描述自己的狀態——就像Palantir說的ontology（本體論）概念——AI就能在一個統一的數據模型上做推理，而不是處理各種來自不同設備的亂七八糟的原始信號。這讓proactive真正變得可行，而且是規模化可行。

以前我們知道orchestration很強大，但OpenClaw把它真實地證明了。用例一直都在，我們現在只是有了快一百倍的執行能力。

Thomas： Nan，你覺得理想化的個人agent應該是proactive還是reactive？

Nan：兩者都要。有時候你想要它精準執行你的指令；同時，你也希望它足夠敏銳，能感知你的上下文——知道你今天的目標、這周的計劃，在對的時間提醒你對的事情。就像一個真正了解你的助手，而不是只會等你開口的工具。

Thomas： Aiden，你們實際在構建proactive agent的過程中，有過哪些經驗？

Aiden：經驗很多，分享幾個。

首先，要做proactive，你必須先有memory。沒有過去，就無法預判未來。舉個例子：如果agent能看到我們今天的對話歷史，它就可能預見到"本周五應該安排一次路線圖會議"。所以我們設計了三層memory結構，從群聊歷史里提取可以預見的事件和模式。

但memory只是第一步。第二步是long-horizon agent——agent需要7×24小時在線。如果有一分鐘斷掉，可能就錯過了一個關鍵事件。就像現實中，如果你的同事發現一件緊急的事，第一時間會打電話給你；但如果agent不是always-on的，它就沒有這種能力。

問題是：讓模型每秒都跑推理，成本太高了。我們曾經讓agent充當軟件工程師，每晚去處理群聊里提出的feature requests、自動寫代碼。有時候agent卡死，有時候成本直接爆掉。頻率、成本、條件觸發系統這三件事，目前行業里還沒有很好的解法。

第三個挑戰是UX。agent主動推送消息，本身就是個很難拿捏的事。什么時候推，怎么推，推錯了會不會讓用戶覺得被打擾，甚至感到奇怪或不舒服？我們內部把這個叫"guardrails"，可能需要一個專門的LLM judge來判斷：這個時機，該不該通知人類？

最后是self-evolving（自我進化）。如果agent不能持續更新自己的記憶和技能，它的proactive能力就會慢慢停滯。

四選一：Memory、Device、Always-On、Proactive——哪個最重要？

Thomas： 我來出一道題。構建personal agent，有四個核心要素：1. 完善的memory系統；2. 可靠的個人設備作為載體；3. 7×24小時待機；4. proactive與reactive之間的良好平衡。請給它們排序——哪個最重要？

Tao：老實說這個問題有點寬，答案其實取決于你在做哪種agent。

對我們這種伴侶型機器人——Rovar——來說，我會把 proactive 和 reactive 的平衡放在第一位。

不是因為這個答案更“好聽”，而是因為要做到這個平衡，底層能力必須全部到位：3D 感知、情境理解、環境建模。這是最難的一點，但一旦做好，其他能力也會被帶動起來。

第二是有一個實體設備。僅僅是“有一個物理存在”，就能貢獻大約 50% 到 60% 的陪伴感——哪怕只是一個毛絨玩具。同時，這里面還有一個信任問題：一個有明確物理邊界的機器人，反而更容易讓人安心。你知道它在哪里，它不會無處不在地分布在家里的每個設備中。這種“有限存在”，本身就在幫助建立信任。

Thomas： Taha？

Taha： 說實話，四個都重要。但如果要類比的話，我覺得這四個對應了計算機發展史上的四個階段：Memory對應數據庫，Always-on對應互聯網連接，Device對應移動設備，Proactive對應push notification。

按這個歷史邏輯，優先級是：memory第一，因為沒有數據庫什么都做不了；然后是always-on，因為沒有連接，一切都是孤島；然后是device，最后才是proactive。這不是我的發明，是歷史已經告訴我們的順序。

Nan： 我給一個簡潔版本：memory最重要，而且最好和proactive能力一起打包做。然后是可靠的設備加上多模態的交互界面。

Aiden： 我也同意memory第一。我可以分享一個很具體的例子——這是Teamily AI現在還在修的一個bug。

我們想做的功能是：在群聊里，就算沒人艾特agent，agent也能在恰當的時機自動插話回應。這個功能聽起來簡單，但一開始怎么都做不好。我讓我們的科學家去調，agent要么完全不說話，要么說錯時機。

后來我們換了一種思路。另一位科學家沒有再直接調模型，而是先把數據可視化，然后重構了 memory 結構，把它拆成四個維度：群組畫像、個人畫像、話題偏好，以及觸發回應的條件。結構一改，效果立刻提升——準確率從接近零提升到了大約 80%。

這件事讓我非常確定：memory 的結構才是關鍵的“解鎖點”。 一旦 memory 做對了，其他幾個要素也會隨之成立。好的 memory，會決定 agent 什么時候應該 always-on，什么時候該主動介入。

它是底座，其他都是在它之上的。

Thomas： 聽起來memory 已經成了在場的共識——也是當下很多創業公司正在集中攻克的核心問題。

"Make something agents really want"：為人設計，還是為Agent設計？

Thomas： Paul Graham說過，好的創業公司要"make something people really want"。但到了2026年，我覺得這句話里的"people"也許應該換成"agents"了。

你們同意嗎？——不管是做伴侶機器人、工業機器人，還是做平臺，agent to agent（A2A）的協作越來越核心。在agentic的世界里，最重要的事是不是"build something agents really want"？

Nan： 我不覺得這是一個非此即彼的問題。產品層面，你仍然需要做出人能用的東西——human first。但在基礎設施和集成層面，你必須為 agent 之間的協作做好準備。因為接下來，獨立的 app 會逐漸消失，一切都會走向 agent as a service，就像Jensen（黃仁勛）昨天說的那樣。

因此未來的產品，一方面要讓人能夠觀察和審計 agent 的工作流程；另一方面，在系統層面必須支持 agent-to-agent 的集成。換句話說，基礎設施這一層，需要的是“對 agent 更友好的用戶體驗”。

Taha： 我同意，但加一個but。這取決于你在優化什么。

如果你優化的目標是錢和VC——agents first。硅谷一直獎勵對下一代范式的早期下注，這個邏輯從互聯網時代就是這樣。如果你優化的目標是impact——humans first。因為歸根結底，這一切的最終使用者還是人。這兩個答案并不矛盾，只是對應不同的優化目標。

Thomas： Aiden，你們其實是在同一個界面上同時做human to agent和agent to agent的通信——你們內部怎么想清楚這件事的？

Aiden：我們內部其實討論了很久，最后收斂成一個兩層框架。

第一層是基礎設施層：agent first。memory 要以 agent 可理解、可調用的方式來組織；API 也要開放，讓 agent 可以直接調用工具。

舉個例子，一個朋友想把他的 API 賣給我，他把文檔發過來。我直接讓 agent 讀文檔、完成接入。整個過程中，agent 只問了我一個問題：“API key 是什么？”——就完成了。原本需要兩個工程師兩周的工作，現在幾分鐘就搞定。這就是 agent-first infrastructure 的意義。

第二層是應用層：human first。agent 的行為方式應該更像人。我們的產品不是 ChatGPT 那種“思考過程可見”的界面，而是類似 WhatsApp 的聊天流——直接給你消息卡片、網頁預覽、結果輸出。

agent 之間的協作，我們也更傾向用 IM，而不是直接調用 API。IM 更自然，上下文傳遞更完整，延遲也更低。某種程度上，我們其實是在“反對”純 API 協議的 agent 通信方式，memory 驅動的 IM 更合適。

所以總結就是：基礎設施層 agent first，應用層 human first。

Tao： 對我們來說，答案很清晰——human first。我們做的是伴侶機器人，設計哲學必須以人為中心。

當然，agent 的作用會越來越重要。未來當多個 physical agent 出現在同一個空間時，它們之間會如何通信？是用人類語言，還是某種我們還無法想象的“硅基協議”？比如像 Morse code 一樣的方式，甚至是二進制的“眨眼”。

我們現在還不知道。但可以確定的是——它們會自己找到方式。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.