![]()
所有人都在討論 Agent 能寫多少行代碼、提效多少百分比,但真正值得問的問題是:Agent 什么時候能替你開門、巡邏園區、調度工廠?
答案是:還早。
Agent 在數字世界的擴張速度確實驚人:OpenClaw 84 天內 Star 數突破 37.5 萬;57% 的企業已部署多階段 AI 工作流;86% 的企業在生產環境中運行Agent。但當你問,有多少 Agent 在真正操控物理設備?答案是沉默的。
物理世界,才是 Agent 真正的下半場。大模型廠商和科技巨頭正在押注這個未來。NVIDIA 發布 RTX Spark 專攻端側算力,Google DeepMind 把大模型推理注入機器人控制,Amazon 將 Alexa 升級為 AI 代理,Anthropic 則用一次意外源碼泄露展示了 Agent 系統內部的工程深水區。他們在定義規則、建設底層基礎設施,爭奪 Agent 時代的話語權。
但還有另一群人,他們并不打算定義規則。
他們已經深耕某個行業十年,手里攥著一堆私有協議文檔、場景模板和行業客戶,正在問一個更具體的問題:Agent 在我的這個場景里,到底能不能用?怎么用才能真正省錢省力?
這是 Agent 落地的另一條路線。
通用路線的局限
在聊垂直落地之前,有必要先厘清一個認知陷阱:大模型變強,并不等于 Agent 在現實物理場景中就能用了。
Agent 落地有業界常說的“五面墻”——成本、速度、安全、發散性和運維。在物理場景里,這五面墻的每一面都比數字世界更難翻。
成本上,一個實時運行的物理 Agent 需要持續的視覺和傳感推理,每秒數十次調用,Token 消耗是指數級的。速度上,數字 Agent 回郵件慢 3 秒沒人在意,但物理 Agent 識別到有人闖入與觸發告警之間慢 3 秒,可能就是安全事故。安全上,數字世界的錯誤可以回滾,現實物理場景中,控制錯了門禁、放錯了人,是不可逆的。發散性上,大模型輸出的不確定性在文字對話里是優點,在物理設備操控里是災難。運維上,幾十個甚至上百個 Agent 同時跑在工廠或園區里,誰來保證它們每天都在正常工作?
這還不是最難的那面。物理世界還有第六面墻:設備碎片化。
數字 Agent 只需要面對 API、文件系統、瀏覽器這幾種標準接口。物理場景中呢?僅中國智能家居市場就有上百個品牌各自維護私有協議和 SDK,一個通用的物理 Agent 如果要操控攝像頭、門禁、傳感器、報警器,理論上需要適配成百上千套私有協議。Matter 協議(由 CSA 連接標準聯盟主導的智能家居互聯互通標準)正在試圖解決設備互聯問題,Matter 1.5 + Thread 1.4 首次實現了跨品牌設備的底層互通。但 Matter 只解決了“連接管道”,設備可以說同一種語言了,誰來理解它們背后的業務意圖、誰來協調決策,仍然是懸而未決的問題。
這正是通用路線天然難以觸達的地方——大模型廠商和硬件巨頭的工具鏈很強,但它們不了解海康、大華的私有協議,不了解工廠 AGV 調度的業務規則,不了解園區安防的異常判定邏輯。
垂直賽道正在探索
與此同時,一批深耕物理場景的公司,正在繞開“誰能定義 Agent 操作系統”這個問題,直接在自己的地盤上做實驗。
西門子、施耐德等工業巨頭正在將 AI Agent 引入產線調度和能源管理,微軟也在將 Copilot 能力注入 IoT 邊緣設備。
但也仍有挑戰。
在消費級 IoT 領域,螢石在剛剛過去的ECDC 螢石云開發者大會上公開了一個令人意外的內部實驗結論:公司鼓勵全員使用 AI 編碼工具,每月燒掉數十萬 Token,結果研發交付速度沒有顯著提升。螢石云首席架構師的原話是:“問題出在水面以下。”
AI 工具普及了,但底層體系還是舊的。傳統開發流程與 AI 開發模式不兼容,IoT 場景需要匹配專屬模型,海量私有協議脫離了通用 AI 的訓練數據,人工需求表達的模糊性導致反復迭代——這四重困境疊加,讓所有新工具的效率增益都停在了水面以上。
這在業界被稱為“Harness 工程”——Harness 原意是馬具,給 AI 這匹野馬套上合適的馬具,才能真正駕馭它。
螢石用了一年時間在內部做 Harness 工程的實戰積累,然后把這套經驗產品化,發布了兩個平臺:
一個是藍海AIoT一站式工作臺,核心是 AI 驅動的對話式開發。平臺通過自然語言交互替代傳統編碼,將傳統 AIoT 應用的開發周期從平均 45 天壓縮到平均 2 天,最快 15 分鐘可生成可預覽原型,研發成本降至傳統模式的五分之一。
關鍵是,平臺內置了數十項 AIoT 專屬技能包,兼容海康威視、大華、華為、霍尼韋爾等 20 多家主流品牌的視頻、控制、傳感設備,覆蓋 GB28181、JT808、eHome 等多種 IoT 協議,開發者無需深入那些密密麻麻的私有協議文檔,就能完成跨廠商設備集成。
另一個是 AI 巡檢智能體開發平臺。針對通用開源智能體落地 IoT 場景時成本高、啟動慢、行為發散的問題,螢石專門做了代碼重構和技術優化。目前,AI 巡檢智能體已在某大型跨城企業園區落地,覆蓋 20 多個跨城園區、300 多個消防通道、車庫和商配巡檢點位,實現 7×24 小時自主巡檢,自動完成問題識別、上報、定位和復核全流程。
AIoT 商業模式重構
5 月 8 日,中國國家網信辦、發改委、工信部聯合發布《智能體規范應用與創新發展實施意見》和《人工智能終端智能化分級》(GB/Z 177—2026),確立了“靈肉雙軌”的頂層設計——前者定義智能體軟件主體,后者定義智能化硬件載體。L1(響應級)到 L4(協同級)的四級能力階梯出臺后,AIoT 產業有了統一的能力坐標系,L4“主動感知場景、跨設備協同、自主執行任務”被刻意留白,等待產業填寫答案。
這個政策背景,正在加速 IoT 廠商的商業模式遷移。回看過去十年:IoT 1.0 核心價值是聯網,2.0 走向認知(攝像頭能認人臉、車輛、異常行為),3.0 走向輔助決策(主動推送告警和分析),4.0 正在浮出水面,核心是代理——Agent 主動感知場景、跨設備自主決策執行。
從賣硬件,到“硬件入口 + 能力訂閱 + 數據資產”的三元模式,Amazon Alexa+ 的 AI 代理訂閱、西門子及施耐德等工業巨頭的 AI Agent 化改造,都在響應這個大趨勢。
工業領域的樹根互聯,也在驗證類似的邏輯。這家三一重工孵化的工業互聯網平臺此前發布了售后服務智能體,其根靈工業大模型已于 2026 年初完成國家級備案。
面對挖掘機、焊接機器人、產線設備等重工業場景,樹根互聯的做法是把多年積累的設備運維數據、工藝知識和專家規則注入模型底座,讓 Agent 完成故障診斷、維修建議和產線調度。把 IoT 場景模板、私有協議適配積累沉淀為平臺能力,本質上是同一件事:把行業 know-how 轉化為 Agent 可用的工程體系。
垂直場景的護城河,不在于連接了多少設備,而在于對行業邏輯理解的深度。零代碼 AIoT 工作臺把開發周期從 45 天壓縮到 2 天,背后不是大模型有多聰明,而是多年積累的設備協議適配、場景模板沉淀、行業數據標注。
物理場景中 Agent的 落地,正處在一個最有意思的時間窗口。
大玩家在建底層,芯片、協議、基礎模型,他們在定義 Agent 時代的基礎設施。垂直玩家在做工程,Harness 體系、行業協議、場景驗證,他們在填補“能用”和“用了有效”之間的鴻溝。
兩條路線是互補的,大模型的推理能力通過 MCP/A2A 協議被垂直平臺集成,硬件廠商的算力方案給本地部署提供底座,Matter 協議為設備接入提供通用語言。但這些基礎設施能不能轉化為在工廠、園區、商場里真正可用的 Agent,取決于中間那層“行業工程體系”能不能被建起來。
沒有工程體系托底,再好的工具也只是玩具。它同時也是一個方向:物理場景中 Agent 的競爭,最終比的不是模型參數,而是誰對這個行業的理解足夠深,誰的工程方法論足夠扎實,誰的交付結果足夠真實。
這場比賽剛剛開始,還沒有定局。(本文首發鈦媒體APP,作者 | AGI-Signal,編輯 | 秦聰慧)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.