无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

黃仁勛的物理AI ChatGPT時刻,正被這家中國公司的“流式多模態”接棒

0
分享至


智東西
作者 王涵
編輯 漠影

“物理AI的ChatGPT時刻已經到來。”

2026年1月5日,拉斯維加斯CES展會,英偉達創始人兼CEO黃仁勛宣告AI正式進入新階段。

在他看來,AI的演進可以分為四個階段:Perception AI、Generative AI、Agentic AI、Physical AI。當模型能夠理解質量、摩擦、慣性、動量守恒,AI才真正走出屏幕。他同時指出,要讓機器人理解物理世界,不能僅靠單一模型,而是需要建立一整套智能系統

黃仁勛描繪了未來愿景,但一個問題擺在了所有人面前——物理世界的AI,到底需要什么樣的技術能力?

AI真正走向物理世界,機器人、無人機、安防攝像頭、可穿戴設備這些場景,需要的不是回答問題,而是持續工作。物理AI最重要的,也就是主動執行的能力。

Om AI聯匯CEO兼首席科學家趙天成博士表示:“之前整個業內對通用視覺智能的關注度偏低,大家可能更關注一些可以看秀的表演或操作場景。但通用視覺這個點是未來物理AI真正規模化應用落地必不可少的,而且可能是更加現實、更加直接的核心技術,會更廣泛地應用到所有物理AI場景。”

通用視覺智能(General Vision Intelligence),即模型能像人一樣持續觀察環境、精準定位目標、自主驅動行動,且這一切必須在端側完成。

近日發布的VLX端側流式多模態模型系列,正是這一路徑的最新實踐。

這是業界首次提出 “流式多模態” 這一全新模型架構。區別于傳統模型“采集-上傳-離線處理”的路徑,VLX系列面向物理世界中持續涌入的視頻流,實現毫秒級實時感知,并首次在端側打通“持續感知→精準定位→行動決策”的完整閉環。

一、三個模型、三層能力、一條鏈路

什么是通用視覺智能(General Vision Intelligence)?

Om AI聯匯的定義是三項核心能力:持續感知(無需人工觸發)、空間智能(精準定位目標)、行動輸出(直接驅動設備)。VLX系列的Flow、Seek、Go按個模型剛好對應這三項能力:

VLX-Flow是持續感知層:

傳統視頻AI普遍采用離散式處理邏輯,通過截取畫面完成單次問答交互,觀測存在明顯間斷。而VLX-Flow采用流式視頻輸入架構,圖像數據流不間斷送入模型,實現持續觀測與時序記憶留存。VLX-Flow的實時性聚焦底層感知,無需人工下發指令觸發,可自主不間斷運行。

VLX-Seek是精準定位層:

市面上通用視覺大模型僅能實現畫面內容文本描述,只能告知畫面存在物體,卻無法輸出精準空間位置,難以回答目標坐標、數量等實操性問題。VLX-Seek更換底層技術思路,采用區域指代機制,直接輸出毫米級精準空間錨點。

VLX-Go是行動輸出:

傳統視覺模型解析畫面后僅能生成文字化操作指令,無法直接驅動硬件執行。VLX-Go更進一步,能夠輸出設備可直接調用的導航航點,支撐機器人自主完成移動動作,實現低延時實時反饋。

視頻流持續進入,Flow負責“看懂”,Seek負責“找對”,Go負責“動起來”。三塊拼圖拼在一起,才構成完整的物理世界AI。

在基準測試中,VLX用三組數據印證了一個趨勢:參數規模與物理世界的實際表現,正在脫鉤

Seek-3B在目標檢測基準MSCOCO val2017、復雜語義基準RefCOCO、開放詞匯檢測基準ODinW13以及目標計數基準PixMo Count,均大幅超越Gemini 3.1 Pro和GPT-5等旗艦大模型,用3B小參數做到了旗艦精度。


在機器人導航與跟蹤任務中,Go(0.6B)以極小的參數量實現了85.42%的高成功率,超越參數大其13倍的Qwen-RobotNav-8B;同時以94.08%的跟蹤率顯著領先所有對比模型,證明其在動態目標跟隨方面具備極強的視覺-運動協同能力,更加有力證明了針對端側物理場景進行專用架構設計的有效性。


在延遲方面,端側推理僅需0.1秒,而云端推理通常超過5秒,這50倍的差距直接決定了系統“可用”與“不可用”的邊界。

結果證明,當模型必須跑在端側、必須實時響應、必須自主決策時,“大”反而成了包袱。VLX的真正價值,是用更小的模型在端側芯片上跑出更好的結果,證明了“為場景設計模型”這條路,比“把通用模型塞進場景”更高效。

二、給物理世界造一套“視覺中樞”

這樣亮眼的測試成績,根源于架構層面的差異。

傳統模型處理視覺信息的方式是“截幀-上傳-提問-回答”,即拍一張照片或上傳一段視頻,問一句,答一句。這種模式本質上是離散的、被動的。目前多數模型的解決方案依賴長上下文來處理視頻輸入,本質仍是“離線看一遍”。

Om AI聯匯提出的流式多模態,相當于給設備裝上一套持續運轉的“視覺中樞”。攝像頭采集的視頻流像水一樣流入模型,模型持續接收、理解、記憶,形成一個不間斷的感知流。用戶或開發者通過提示詞自由定義輸出目標,這套中樞可以按需輸出文本描述、空間錨點或行動軌跡。

在技術路徑上,VLX的流式能力則面向實時交互場景設計,系統可以自主持續觀察、精準鎖定、即刻行動。二者應用場景不同,架構設計也隨之分化。

行業通用做法是先訓練大參數模型,再通過量化、蒸餾等方式壓縮至端側,Om AI聯匯采取了一條不同的技術路徑。

據該公司技術團隊介紹,VLX從設計起點即圍繞端側算力約束展開架構設計。Flow采用Linear Attention機制替代標準Attention,保證視頻流持續輸入時顯存不溢出;Seek以區域指代替代坐標生成,在提升精度的同時降低計算量;Go采用短時航點預測,以快速響應周圍環境的快速變化。

三、不再紙上談兵,Om AI聯匯定義物理AI新范式

此前,物理AI的落地一直卡在一個尷尬的位置:Demo驚艷,但量產乏力。VLX從頭就是為了落地而設計的,并也已經大規模落地

  • 具身智能領域:行業長期面臨的一個痛點是:不同機器人平臺的系統架構、傳感器方案、執行機構高度異構,算法從A機器人遷移到B機器人往往需要大量適配工作。VLX大腦具備跨平臺能力,已全面支持云深處、宇樹等頭部企業的端側設備,開發者在不同機器人平臺上的適配周期大幅縮短。
  • 無人機領域:傳統無人機巡檢依賴飛手人工操作或拍完視頻回傳后臺審核,耗時耗力。搭載VLX的無人機具備了自主視覺導航精準目標鎖定能力,可自主識別違章、自主避障、自主規劃航線。巡檢效率提升數倍,響應時間從小時級縮短至秒級
  • 可穿戴設備領域:中國有超過1700萬視障人士,但市面上的輔助工具大多停留在語音播報或簡單障礙物提醒,無法解決“我在哪、周圍有什么、怎么走過去”的連貫需求。Om AI聯匯Homer平臺旗下好馬APP已服務近10萬視障用戶,通過AI助視眼鏡幫助用戶安全避障、出行導航、空間尋物。


  • 安防攝像頭領域:客戶無需更換現有硬件,只需在邊緣側或輕量化網關中接入VLX,即可讓攝像頭升級為可24小時自主研判的AI哨兵。原有硬件資產得到保護,避免了推倒重來的高額成本。
  • AI PC領域:PC上的端側AI長期停留在文字對話和簡單圖像生成層面,缺乏真正的視覺理解與空間交互能力。VLX已完成與蘋果、聯想、惠普、英偉達四大頭部品牌的端側適配,為PC設備注入了實時視覺理解能力
  • 國產芯片方面:端側AI的算力部署長期依賴英偉達等海外高端芯片,國產芯片受限于算力與生態,難以承載大參數模型。VLX針對算力約束做了專門優化,已在華為昇騰、地瓜、RK3588等國產平臺完成適配。

VLX的行業價值,在于驗證了一條不同于數字AI的架構路徑

當行業仍在比拼誰把云端模型壓縮得更小時,VLX選擇從端側算力約束出發設計模型。測試數據顯示這條路無需等待算力迭代即可落地,部署成本大幅壓縮,實時響應能力提升數十倍,國產芯片即可流暢運行。

與此同時,這套流式多模態路線已覆蓋具身智能、無人機、可穿戴、安防、AI PC等多個場景,物理AI從“Demo展示”到“量產交付”的拐點正在顯現。而VLX系列模型向開發者開放體驗平臺,則進一步降低了端側智能應用的研發門檻,為產業鏈協同創新提供了更大的想象空間。

結語:用流式架構為物理世界重新設計AI

回到一開始的那個問題:物理世界,究竟需要怎樣的AI?

Om AI聯匯用VLX系列模型給出了答案:用流式架構為物理世界重新設計AI。

這背后,是Om AI聯匯多年的長線布局與持續深耕。從2016年切入生成式對話技術,到2021年押注多模態賽道,再到2022年拿下國內首張多模態大模型測評證書,團隊始終走在行業趨勢之前,持續沉淀底層技術能力。

放眼整個物理AI賽道,行業從不缺愿景、概念與演示Demo。真正稀缺的,是能夠適配真實場景、穩定運行、可規模化落地的成熟系統。更重要的是,它需要被百萬級設備驗證過。

VLX為物理AI的端側化路徑,提供了一個可參考的樣本。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李鳳英去世

李鳳英去世

江南晚報
2026-07-01 00:11:22
她已任南山區工信局局長,萬億城區迎產業“老將”

她已任南山區工信局局長,萬億城區迎產業“老將”

南方都市報
2026-07-01 16:09:08
真狠!連跌三年從49跌到7又橫盤兩年,社保卻從3400萬加到5400萬

真狠!連跌三年從49跌到7又橫盤兩年,社保卻從3400萬加到5400萬

長風價值掘金
2026-07-01 14:53:36
崔麒加盟玉昆,大連英博甩掉高薪包袱 李昂回避 戰三鎮拒3連敗

崔麒加盟玉昆,大連英博甩掉高薪包袱 李昂回避 戰三鎮拒3連敗

替補席看球
2026-07-01 18:48:23
新股托倫斯公布中簽結果,中簽號碼僅3.24萬個,股民中到即大賺!

新股托倫斯公布中簽結果,中簽號碼僅3.24萬個,股民中到即大賺!

數據挖掘分析
2026-07-01 09:24:07
為什么說中國是老天爺最偏心的國家?4大洋的水汽一直獨寵華夏!

為什么說中國是老天爺最偏心的國家?4大洋的水汽一直獨寵華夏!

掠影后有感
2026-06-30 09:31:18
我驚呆了!網傳復旦經管院某專業碩士畢業生就業率僅40%…

我驚呆了!網傳復旦經管院某專業碩士畢業生就業率僅40%…

慧翔百科
2026-06-30 11:36:26
德天空:因德國隊世界杯出局,布朗將在德國接受拜仁的體檢

德天空:因德國隊世界杯出局,布朗將在德國接受拜仁的體檢

懂球帝
2026-07-01 07:33:53
教育專家說:上了高中你會發現,高中生想要出成績,記住這三句話

教育專家說:上了高中你會發現,高中生想要出成績,記住這三句話

戶外阿毽
2026-07-01 15:59:32
馬上入伏了,建議:少吃豬肉,多吃4樣,營養又養人,安康過炎夏

馬上入伏了,建議:少吃豬肉,多吃4樣,營養又養人,安康過炎夏

秀廚娘
2026-07-01 19:10:15
曾諂媚美國空氣香甜的楊舒平,當年父母臺下坐,如今改名全家搬走

曾諂媚美國空氣香甜的楊舒平,當年父母臺下坐,如今改名全家搬走

人生錄
2026-06-21 20:28:31
曾擊敗鄧亞萍,手握7枚金牌,拒絕日本富商追求,如今是北大教授

曾擊敗鄧亞萍,手握7枚金牌,拒絕日本富商追求,如今是北大教授

往史過眼云煙
2026-07-01 17:16:12
美國VS波黑前瞻:東道主實力和主場優勢明顯,波黑前景難創造奇跡

美國VS波黑前瞻:東道主實力和主場優勢明顯,波黑前景難創造奇跡

體育吐槽
2026-07-01 17:45:20
糯康臨刑前坦言,毒販不懼邊防槍械,唯獨畏懼塵封三十年的指令

糯康臨刑前坦言,毒販不懼邊防槍械,唯獨畏懼塵封三十年的指令

嘮叨說歷史
2026-06-30 16:45:52
“命運攸關之際”,普京呼吁停止空襲:烏克蘭也期待俄羅斯再動員

“命運攸關之際”,普京呼吁停止空襲:烏克蘭也期待俄羅斯再動員

鷹眼Defence
2026-06-29 12:29:14
神了!范志毅成功猜中德國荷蘭出局+巴西贏日本 預測:C羅止步32強

神了!范志毅成功猜中德國荷蘭出局+巴西贏日本 預測:C羅止步32強

童叔不飆車
2026-07-01 01:48:50
基恩:如果法國和阿根廷會師決賽,我一點都不意外

基恩:如果法國和阿根廷會師決賽,我一點都不意外

懂球帝
2026-07-01 07:33:52
第1天,13人簽約,1換7!湖人大地震

第1天,13人簽約,1換7!湖人大地震

體育新角度
2026-07-01 15:55:30
豪車跳水致“二手車”大降價:保時捷15萬、賓利26.8萬

豪車跳水致“二手車”大降價:保時捷15萬、賓利26.8萬

大象新聞
2026-06-30 22:06:07
沒時間了,莎拉上審判臺前,菲總統府先被圍,親華派開始絕地反擊

沒時間了,莎拉上審判臺前,菲總統府先被圍,親華派開始絕地反擊

林子說事
2026-07-01 17:11:24
2026-07-01 20:24:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
12161文章數 117113關注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識別中國用戶

頭條要聞

特斯拉撞護欄起火 路過車主拼命把特斯拉女司機救出來

頭條要聞

特斯拉撞護欄起火 路過車主拼命把特斯拉女司機救出來

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

張凌赫:我連心疼你都隔著時差

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

半程收官 上汽集團銷量突破200萬輛

態度原創

數碼
時尚
親子
藝術
公開課

數碼要聞

TrendForce:預估2026年全球筆記本出貨將減少13.6%

Meiinpsn的穿衣風格,清新又叛逆

親子要聞

云南文山:托幼一體化破解幼兒入園銜接難題

藝術要聞

205米!浙江臺州第三高樓,“臺州之眼”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版