網易首頁 > 網易號 > 正文申請入駐

物理世界：AI Agent 的下一個戰場

2026-06-15 15:13:51　來源: 鈦媒體APP

北京舉報

分享至

所有人都在討論 Agent 能寫多少行代碼、提效多少百分比，但真正值得問的問題是：Agent 什么時候能替你開門、巡邏園區、調度工廠？

答案是：還早。

Agent 在數字世界的擴張速度確實驚人：OpenClaw 84 天內 Star 數突破 37.5 萬；57% 的企業已部署多階段 AI 工作流；86% 的企業在生產環境中運行Agent。但當你問，有多少 Agent 在真正操控物理設備？答案是沉默的。

物理世界，才是 Agent 真正的下半場。大模型廠商和科技巨頭正在押注這個未來。NVIDIA 發布 RTX Spark 專攻端側算力，Google DeepMind 把大模型推理注入機器人控制，Amazon 將 Alexa 升級為 AI 代理，Anthropic 則用一次意外源碼泄露展示了 Agent 系統內部的工程深水區。他們在定義規則、建設底層基礎設施，爭奪 Agent 時代的話語權。

但還有另一群人，他們并不打算定義規則。

他們已經深耕某個行業十年，手里攥著一堆私有協議文檔、場景模板和行業客戶，正在問一個更具體的問題：Agent 在我的這個場景里，到底能不能用？怎么用才能真正省錢省力？

這是 Agent 落地的另一條路線。

通用路線的局限

在聊垂直落地之前，有必要先厘清一個認知陷阱：大模型變強，并不等于 Agent 在現實物理場景中就能用了。

Agent 落地有業界常說的“五面墻”——成本、速度、安全、發散性和運維。在物理場景里，這五面墻的每一面都比數字世界更難翻。

成本上，一個實時運行的物理 Agent 需要持續的視覺和傳感推理，每秒數十次調用，Token 消耗是指數級的。速度上，數字 Agent 回郵件慢 3 秒沒人在意，但物理 Agent 識別到有人闖入與觸發告警之間慢 3 秒，可能就是安全事故。安全上，數字世界的錯誤可以回滾，現實物理場景中，控制錯了門禁、放錯了人，是不可逆的。發散性上，大模型輸出的不確定性在文字對話里是優點，在物理設備操控里是災難。運維上，幾十個甚至上百個 Agent 同時跑在工廠或園區里，誰來保證它們每天都在正常工作？

這還不是最難的那面。物理世界還有第六面墻：設備碎片化。

數字 Agent 只需要面對 API、文件系統、瀏覽器這幾種標準接口。物理場景中呢？僅中國智能家居市場就有上百個品牌各自維護私有協議和 SDK，一個通用的物理 Agent 如果要操控攝像頭、門禁、傳感器、報警器，理論上需要適配成百上千套私有協議。Matter 協議（由 CSA 連接標準聯盟主導的智能家居互聯互通標準）正在試圖解決設備互聯問題，Matter 1.5 + Thread 1.4 首次實現了跨品牌設備的底層互通。但 Matter 只解決了“連接管道”，設備可以說同一種語言了，誰來理解它們背后的業務意圖、誰來協調決策，仍然是懸而未決的問題。

這正是通用路線天然難以觸達的地方——大模型廠商和硬件巨頭的工具鏈很強，但它們不了解海康、大華的私有協議，不了解工廠 AGV 調度的業務規則，不了解園區安防的異常判定邏輯。

垂直賽道正在探索

與此同時，一批深耕物理場景的公司，正在繞開“誰能定義 Agent 操作系統”這個問題，直接在自己的地盤上做實驗。

西門子、施耐德等工業巨頭正在將 AI Agent 引入產線調度和能源管理，微軟也在將 Copilot 能力注入 IoT 邊緣設備。

但也仍有挑戰。

在消費級 IoT 領域，螢石在剛剛過去的ECDC 螢石云開發者大會上公開了一個令人意外的內部實驗結論：公司鼓勵全員使用 AI 編碼工具，每月燒掉數十萬 Token，結果研發交付速度沒有顯著提升。螢石云首席架構師的原話是：“問題出在水面以下。”

AI 工具普及了，但底層體系還是舊的。傳統開發流程與 AI 開發模式不兼容，IoT 場景需要匹配專屬模型，海量私有協議脫離了通用 AI 的訓練數據，人工需求表達的模糊性導致反復迭代——這四重困境疊加，讓所有新工具的效率增益都停在了水面以上。

這在業界被稱為“Harness 工程”——Harness 原意是馬具，給 AI 這匹野馬套上合適的馬具，才能真正駕馭它。

螢石用了一年時間在內部做 Harness 工程的實戰積累，然后把這套經驗產品化，發布了兩個平臺：

一個是藍海AIoT一站式工作臺，核心是 AI 驅動的對話式開發。平臺通過自然語言交互替代傳統編碼，將傳統 AIoT 應用的開發周期從平均 45 天壓縮到平均 2 天，最快 15 分鐘可生成可預覽原型，研發成本降至傳統模式的五分之一。

關鍵是，平臺內置了數十項 AIoT 專屬技能包，兼容海康威視、大華、華為、霍尼韋爾等 20 多家主流品牌的視頻、控制、傳感設備，覆蓋 GB28181、JT808、eHome 等多種 IoT 協議，開發者無需深入那些密密麻麻的私有協議文檔，就能完成跨廠商設備集成。

另一個是 AI 巡檢智能體開發平臺。針對通用開源智能體落地 IoT 場景時成本高、啟動慢、行為發散的問題，螢石專門做了代碼重構和技術優化。目前，AI 巡檢智能體已在某大型跨城企業園區落地，覆蓋 20 多個跨城園區、300 多個消防通道、車庫和商配巡檢點位，實現 7×24 小時自主巡檢，自動完成問題識別、上報、定位和復核全流程。

AIoT 商業模式重構

5 月 8 日，中國國家網信辦、發改委、工信部聯合發布《智能體規范應用與創新發展實施意見》和《人工智能終端智能化分級》（GB/Z 177—2026），確立了“靈肉雙軌”的頂層設計——前者定義智能體軟件主體，后者定義智能化硬件載體。L1（響應級）到 L4（協同級）的四級能力階梯出臺后，AIoT 產業有了統一的能力坐標系，L4“主動感知場景、跨設備協同、自主執行任務”被刻意留白，等待產業填寫答案。

這個政策背景，正在加速 IoT 廠商的商業模式遷移。回看過去十年：IoT 1.0 核心價值是聯網，2.0 走向認知（攝像頭能認人臉、車輛、異常行為），3.0 走向輔助決策（主動推送告警和分析），4.0 正在浮出水面，核心是代理——Agent 主動感知場景、跨設備自主決策執行。

從賣硬件，到“硬件入口 + 能力訂閱 + 數據資產”的三元模式，Amazon Alexa+ 的 AI 代理訂閱、西門子及施耐德等工業巨頭的 AI Agent 化改造，都在響應這個大趨勢。

工業領域的樹根互聯，也在驗證類似的邏輯。這家三一重工孵化的工業互聯網平臺此前發布了售后服務智能體，其根靈工業大模型已于 2026 年初完成國家級備案。

面對挖掘機、焊接機器人、產線設備等重工業場景，樹根互聯的做法是把多年積累的設備運維數據、工藝知識和專家規則注入模型底座，讓 Agent 完成故障診斷、維修建議和產線調度。把 IoT 場景模板、私有協議適配積累沉淀為平臺能力，本質上是同一件事：把行業 know-how 轉化為 Agent 可用的工程體系。

垂直場景的護城河，不在于連接了多少設備，而在于對行業邏輯理解的深度。零代碼 AIoT 工作臺把開發周期從 45 天壓縮到 2 天，背后不是大模型有多聰明，而是多年積累的設備協議適配、場景模板沉淀、行業數據標注。

物理場景中 Agent的落地，正處在一個最有意思的時間窗口。

大玩家在建底層，芯片、協議、基礎模型，他們在定義 Agent 時代的基礎設施。垂直玩家在做工程，Harness 體系、行業協議、場景驗證，他們在填補“能用”和“用了有效”之間的鴻溝。

兩條路線是互補的，大模型的推理能力通過 MCP/A2A 協議被垂直平臺集成，硬件廠商的算力方案給本地部署提供底座，Matter 協議為設備接入提供通用語言。但這些基礎設施能不能轉化為在工廠、園區、商場里真正可用的 Agent，取決于中間那層“行業工程體系”能不能被建起來。

沒有工程體系托底，再好的工具也只是玩具。它同時也是一個方向：物理場景中 Agent 的競爭，最終比的不是模型參數，而是誰對這個行業的理解足夠深，誰的工程方法論足夠扎實，誰的交付結果足夠真實。

這場比賽剛剛開始，還沒有定局。（本文首發鈦媒體APP，作者 | AGI-Signal，編輯 | 秦聰慧）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.