无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

CVPR 2026最熱方向，被一家杭州團隊率先跑進了端側！

2026-06-27 20:13:02　來源: 量子位

北京舉報

0

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

好家伙！

這CVPR也就剛過去沒幾天，會上還在熱議的方向，就已經給一家杭州團隊跑進了端側！

剛剛，Om AI發布全球首個面向物理世界的端側流式多模態模型系列——

VLX。

VLX主打真實世界的端側與具身場景，總共三款模型，三天連發：

VLX-Flow：實時流式感知，讓視頻像水流一樣持續輸入，模型實時看、實時想、實時更新世界狀態。
VLX-Seek：精準定位，從看見走向看清，快速鎖定目標。
VLX-Go：行動決策，把感知和定位的結果轉化成真實動作——該往哪走、怎么操作，一氣呵成。

這三款模型連起來，不僅構成了多模態模型持續感知、精準定位、行動決策的能力閉環。

與此同時，其原生端側設計也讓它能夠真正跑進手機、無人機、機器人這些端側設備。

而這，也并不是Om AI第一次在VL（視覺語言）領域發力。

去年，他們推出了全網爆火的VLM-R1。

作為全球首個將DeepSeek R1強化學習范式引入視覺語言模型的開源項目，上線12小時獲得超過2000顆GitHub Star。

48小時登頂GitHub全球趨勢榜，至今已斬獲6000+Star。

這一次，他們交出的新答卷，是VLX。

一條通往物理世界的能力鏈

為了更好地理解VLX這次的技術路線，我們可以把它拆成兩個關鍵詞：端側與流式多模態。

咱們先看后者。

所謂流式多模態，就是讓AI能夠在物理世界中持續、實時地感知環境，并最終形成一條完整的能力鏈：

感知（Perception）→ 精準定位（Grounding）→ 行動（Action）。

它跟我們此前在語音助手里“聽”到的流式多模態不同。

語音助手強調的是人與AI的實時交互，而VLX關注的，則是AI在物理世界中持續觀察、持續判斷，并最終驅動行動，完成從“看圖”到“做事”的跨越。

這種定位的不同，其實反映的是VLM角色的轉變。

隨著具身智能、空間智能、視頻生成等領域快速發展，VLM已經不再只是LLM的一個能力模塊，而是在逐漸成為空間理解、視頻理解乃至動作規劃的新一代基礎設施。

這意味著，VLM不僅需要看圖說話，更需要具備持續感知、精準定位和驅動行動的能力，從而為下游任務提供統一、精準的基座能力。

一個很直觀的信號來自今年CVPR。

數據顯示，VLM/多模態相關論文占比已經從去年的4.9%增長到10.6%，幾乎翻倍，成為近年來增長最快的研究方向之一。

而在論文數量快速增長的背后，最值得關注的兩個關鍵詞，就是實時感知（Streaming）和定位（Grounding）。

（注：Grounding的核心就是讓模型根據一句自然語言描述，準確找到圖像或視頻中對應的對象、區域和概念）

VLX的整套設計，也正是圍繞這兩個方向展開，并進一步把能力延伸到了最終的行動。

VLX-Flow：流式推理

首先是VLX-Flow，負責持續感知，解決的是看見。

在真實世界中，由于物體始終處于運動之中，環境、狀態不斷變化、視角切換也時刻發生。

一次性的觀察，很難應對這樣動態、開放且持續變化的環境。因此，模型必須像人一樣不斷接收新信息、持續更新對環境的理解。

傳統視頻模型往往將整段視頻切成幀，一次性送入模型做離線理解。

視頻一長，不僅計算成本急劇上升，還容易丟失前文信息，難以支撐實時交互。

為解決這一問題，Flow采用了流式處理。

讓畫面像水流一樣持續涌入，靠增量編碼和緩存機制不斷更新自己的視覺狀態，既不用反復重算歷史，也不會因為視頻變長而失憶。

技術層面， Flow用Linear Attention替代標準Attention，并結合雙層記憶機制，讓視頻流能夠持續進入模型而不會因上下文增長導致顯存爆炸。

也就是說，它不等視頻播完再理解，而是一邊看一邊更新對環境的認知，必要時還能主動發起交互，并做到實時視頻流下的低延遲響應。

不過，持續看只是第一步，模型還必須知道到底該看哪里。

VLX-Seek：精細感知

接下來是VLX-Seek，負責精細感知，解決的是看得準。

以機器人為例，僅僅知道“前面有一把椅子”遠遠不夠，它還需要準確知道目標在哪里、是哪一個，才能完成跟隨、抓取、導航、避障等后續動作。

但這恰恰是許多通用VLM的短板。它們雖然擅長高層語義理解，卻在精確定位、開放詞匯檢測和細粒度Grounding等任務上表現有限，難以滿足真實世界的需求。

傳統方法大多采用自回歸方式，一個坐標一個坐標地預測目標位置，不僅速度慢，也容易出現偏差。

Seek則換了一種思路。它不再“猜坐標”，而是先生成候選區域，再完成檢索和匹配，把定位過程變成“選區域”。

具體來說，Seek用Region Token替代傳統坐標生成，在保持識別能力的同時，大幅降低模型大小和端側部署成本；

這種方式更符合視覺感知任務本身，因此即使模型規模更小，也能在開放詞匯檢測、細粒度定位和實時跟蹤等任務上保持穩定表現，同時更適合實時追蹤和端側部署。

不過，對于物理世界來說，看得準仍然不是終點，真正的目標，是行動。

VLX-Go：運動執行

最后是VLX-Go，負責行動，解決的是動得了。

對于機器人來說，理解環境只是第一步，真正重要的是把理解轉化成動作。

傳統VLM即使知道“目標在左前方”，最終也大多停留在文字回答；真正走過去、繞開障礙、持續跟隨目標，仍然需要額外的控制系統來完成。

Go則進一步打通了這一步。

它通過單目視頻、歷史視覺記憶和自然語言指令作為輸入，Go將這些信息直接處理成機器人可執行的短時航點，直接預測未來一小段時間應該如何運動，而不是只輸出一句文字建議。

與此同時，Go還結合離線軌跡學習和在線強化學習，在仿真閉環中不斷修正運動策略，使機器人能夠根據實時視覺反饋持續調整軌跡，在目標跟隨、導航、動態避障等任務中保持穩定表現。

為了滿足端側實時控制的需求，Go沒有采用復雜的長鏈路規劃，而是選擇了更輕量的短時航點預測方案，僅用0.6B參數，就能完成實時運動規劃。

至此，VLX完成了從感知到定位再到行動的最后一塊拼圖。

與此同時，Flow、Seek、Go并不是三個彼此獨立的模型，而是共享同一個基座，在同一條視頻流上完成端到端協作。

從持續感知，到精準定位，再到行動決策，三者共同組成了VLX面向物理世界的一條完整能力鏈。

反觀，這也是為什么僅靠一個通用VLM，很難真正扛起物理世界AI的閉環。

因為只會看，卻找不準目標；看得準，卻不會行動，都無法真正完成任務。

物理世界需要的，不是一個更會聊天的模型，而是一套能夠從看見、看清一路銜接到行動，并持續穩定運行的系統。

而VLX，就是Om AI交出的答卷。

那么，為什么這樣一套系統，必須跑在端側？

Day1端側原生架構

先說結論：對于機器人、無人機、攝像頭這些物理世界的設備來說，端側部署是模型真正落地的前提。

原因嘛，并不復雜。

一個機器人在跟隨目標時，等不起把視頻上傳云端、完成編碼、再把結果傳回來的幾秒鐘。

一架無人機在巡檢避障時，也不能把“看見”和“行動”拆成兩個緩慢的離線步驟。

更現實的是，很多場景本身就受到網絡、隱私和算力的限制。數據未必能上傳，設備未必始終聯網，而真正的物理世界也不會停下來等待模型思考。

這意味著，今天很多云端多模態模型雖然已經足夠強，卻并不天然適合機器人和具身場景。

因為真實世界是連續的、動態的、資源受限的。模型既要實時感知、快速響應，又要在有限的算力和部署成本下穩定運行，真正完成任務。

針對這個問題，行業里常見的思路，是先訓練一個盡可能大的模型，再通過量化、蒸餾等方式，把它壓縮到端側運行。

VLX選擇了另一條路。

它不是把云端模型做小，而是從Day 1開始，就按照端側的算力約束重新設計整個系統。

模型架構、推理方式和部署鏈路，從一開始就是圍繞實時視頻流和端側設備設計，而不是等模型訓練完成后，再想辦法壓縮部署。

本質上，這是兩條完全不同的技術路線。一種是把云端模型裁剪到端側；另一種，則是為端側重新長出一套模型。

對此，Om AI的判斷是：當你從Day 1就為端側設計，每一層都在算力約束下做最優選擇，結果就是“小而準”勝過“大而全”。

光說不算，數據也印證了Om AI的判斷：Flow處理單路視頻最快僅需0.06秒，同時能夠穩定處理多路視頻流；

Go僅用約十分之一的參數規模，就取得了優于更大模型的導航表現；

Seek則以3B級模型，在目標檢測等任務上達到甚至超過了更大規模通用模型的效果。

這也是VLX最特別的地方。

它追求的并不是做一個更大的通用VLM，而是圍繞真實世界的約束，重新設計一套能夠持續感知、精準定位、實時行動，并真正跑在端側的多模態系統。

VLX，不是又一個VLM

聊完流式多模態，也聊完端側，我們最后回到VLX本身。

VLX做的不是把一個多模態模型搬到端側，而是第一次把持續感知、精準定位、行動決策做成一套能夠長期連續運轉的系統。

所以，嚴格來說，端側流式多模態，并不是一個“更小的VLM”，而是一種新的模型形態。

過去幾年，多模態模型競爭的重點，一直是誰參數更多、知識更廣、推理更強，而VLX換了一道題。

它關心的不是模型能回答多少問題，而是能不能一直待在真實世界里，持續感知、實時響應，并最終完成行動。

這也是它和通用VLM最大的區別。

通用VLM更擅長復雜知識問答、長文本推理、長視頻總結；

而VLX關注的是另一類問題：機器人、無人機、攝像頭這些設備，如何在有限算力下持續理解環境，并完成行動閉環。

當然，兩者并不是非此即彼的替代關系，而是面向不同場景的能力分工。

云端模型繼續追求更強的推理和知識能力；端側模型則越來越強調低延遲、低功耗、持續感知和實時執行。

如果說過去幾年，多模態模型回答的是“看懂世界”這道題，那么VLX嘗試回答的，則是另一道題：

如何讓模型真正活在世界里。

團隊介紹

最后，把視角拉回到VLX背后的團隊，Om AI。

Om AI是一家來自杭州的AI公司，也是國內最早布局多模態模型的團隊之一。

創始人兼CEO趙天成是CMU計算機博士、吳文俊人工智能科技進步獎得主。團隊成員來自CMU、清華、浙大、微軟、阿里云等機構，手握50多篇頂會論文和50多項發明專利。

趙天成博士

此前，Om AI最出圈的事件莫過于我們開頭提到的VLM-R1，是首個將DeepSeek R1強化學習范式引入視覺語言模型的工作。

事實上，作為國內最早涉獵多模態領域的團隊，早在2022年，Om AI就拿下了工信部第一張多模態模型認證，比大模型熱潮早了整整一年。

自此，Om AI一直圍繞同一個目標迭代——讓多模態模型從看圖說話，走向持續感知、精準定位和真實行動。

這次發布的VLX，則是這條路線的最新成果。

不同于把云端模型壓縮到設備上，VLX從第一天就是圍繞端側設計。Flow、Seek、Go三款模型共享同一基座，在同一視頻流上完成感知、定位與行動的協同，真正打通了感知→定位→行動的完整鏈路。

如果說移動互聯網時代需要iOS和Android，那么端側AI時代，同樣需要一套原生的模型基礎設施。

而Om AI選擇做的，正是這樣一套真正能夠跑進手機、機器人和各種智能終端的底層能力。

體驗平臺鏈接：
https://platform.om-agent.cn/subapp-index/#/front
官網：www.om-ai.com
github:
https://github.com/om-ai-lab
huggingface:
https://huggingface.co/omlab
X: https://x.com/OmAI_lab

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

索尼研發乒乓球機器人打敗日本頂尖選手

每日經濟新聞 2026-04-23 17:49:24
1712 跟貼 1712
CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0

如何判斷AI視頻真假？綜述動態、可溯源、可解釋的檢測體系 | ACL26

新智元 2026-06-26 11:47:59
0 跟貼 0

全球首個720°連翻！國產機器狗卷出新高度

智東西 2026-06-25 21:12:57
5 跟貼 5
人形機器人半馬跑姿大賞，有的比人快多了！有的“狀況百出”

每日經濟新聞 2026-04-20 00:25:36
8 跟貼 8

萬幀照片級仿真2

機器之心Pro 2026-05-07 17:57:19
0 跟貼 0

搬貨、烤面包、擺桌牌……每一個動作，都是從零開始的“第一課”

每日經濟新聞 2026-06-25 01:32:25
0 跟貼 0
100多萬人圍觀！沒頭沒腿，神似充電寶的機器人全網走紅？

機器之心Pro 2026-06-17 18:52:08
0 跟貼 0

朗極智能面向構建智能機器人系統發力2

36氪 2026-05-18 12:47:03
0 跟貼 0
持續領跑世界模型驅動物理AGI，極佳視界再獲10億元B2輪融資

36氪 2026-06-19 17:24:18
0 跟貼 0
基于異構邊緣終端的端側AI統一架構研究與實踐

通信世界 2026-01-20 11:56:04
0 跟貼 0
520，人類如何回應AI的告白

虎嗅APP 2026-05-20 20:04:19
0 跟貼 0
朱旻琦：具身智能用一天進化一天、聰明一天機器人普及核心痛點是需要二次開發和適配

財聯社 2026-04-17 16:59:02
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
新穎鰭足機器人，水陸兩棲行動自如，適應各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0
機器人半馬成績，超越人類紀錄

財聯社 2026-04-20 00:27:12
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
機器人打包運輸的正確方式

裝甲鏟史官 2026-02-22 10:41:15
0 跟貼 0
老黃：Prompt已死，整個AI圈都在瘋狂追Loop

新智元 2026-06-27 12:50:19
6 跟貼 6
OpenAI曝作弊門！GPT-5.6創史上最高作弊率

新智元 2026-06-27 12:50:47
9 跟貼 9
AI 批量造 App，也在批量埋雷

鈦媒體APP 2026-06-27 10:05:13
0 跟貼 0
剛剛，Claude 5局部解禁！

新智元 2026-06-27 16:14:26
1 跟貼 1
GPT-5.6：最強的模型，最窄的門

鈦媒體APP 2026-06-27 18:00:08
0 跟貼 0
TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

機器之心Pro 2026-03-30 11:08:49
0 跟貼 0
賣掉公司，50位員工實現財富自由

華爾街見聞官方 2026-06-27 18:50:30
19 跟貼 19
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
野人先生創始人崔漸為：打冰淇淋的手藝之美是人之于機器人最大的不同

財聯社 2026-06-16 13:24:42
0 跟貼 0
安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
邱錫鵬：未來我們一定會進入泛情境智能時代

量子位 2026-05-21 08:04:26
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
第一批一人公司，現在怎么樣了？

量子位 2026-06-27 20:29:51
0 跟貼 0
CVPR 2026 | 從視覺Token內在變化量出發，實現VLM無損加速1.87倍

機器之心Pro 2026-03-16 11:56:33
0 跟貼 0

韓國隊一息尚存，明日3組比賽需要3種情況發生2種才確保晉級

韓國隊一息尚存，明日3組比賽需要3種情況發生2種才確保晉級

生活新鮮市

2026-06-27 15:25:35

心理學：沒有任何物種會因為“被養大”而終身服從，幼崽離巢時從不回頭張望，進化論里最冰冷的底層代碼，親緣的盡頭只寫著兩個字

心理學：沒有任何物種會因為“被養大”而終身服從，幼崽離巢時從不回頭張望，進化論里最冰冷的底層代碼，親緣的盡頭只寫著兩個字

心理觀察局

2026-06-26 07:26:06

江西財經大學事件：“把你打到無法行走”、“每延遲一天拔一片指甲”、“讓你懷孕再逼你流產。”

貼小君
2026-06-27 01:13:40

演員王安宇登報聲明：本人王安宇，不慎遺失中國傳媒大學本科畢業證書和學位證書，現聲明作廢

演員王安宇登報聲明：本人王安宇，不慎遺失中國傳媒大學本科畢業證書和學位證書，現聲明作廢

大象新聞

2026-06-27 16:50:09

繳費通知：7月1日實施！退休人員也需繳納

繳費通知：7月1日實施！退休人員也需繳納

錦繡太原

2026-06-27 18:36:16

腸子悔青！小將轉正惹眼紅，孫家忘恩負義求原諒？董路絕不饒恕！

腸子悔青！小將轉正惹眼紅，孫家忘恩負義求原諒？董路絕不饒??！

林子說事

2026-06-27 18:14:21

還有戲嗎？韓國已跌至第8，亞洲兄弟補時絕殺被吹，凈勝球占上風

還有戲嗎？韓國已跌至第8，亞洲兄弟補時絕殺被吹，凈勝球占上風

萌蘭聊個球

2026-06-27 13:25:48

北青：佛得角足協副主席稱計劃與中國隊熱身，對中國表達感謝

北青：佛得角足協副主席稱計劃與中國隊熱身，對中國表達感謝

懂球帝

2026-06-27 19:46:20

韓國隊2天5次遭暴擊！小組第3排名已跌至第8，最新出線概率僅44%

韓國隊2天5次遭暴擊！小組第3排名已跌至第8，最新出線概率僅44%

我愛英超

2026-06-27 13:11:45

從富裕到貧窮，南非只用了一個偉人曼德拉，這個偉人他做了什么？

從富裕到貧窮，南非只用了一個偉人曼德拉，這個偉人他做了什么？

豬小艷吖

2026-06-25 22:17:25

成本20賣3000，555億身家的山東美女富豪，憑什么收割愛美女性？

成本20賣3000，555億身家的山東美女富豪，憑什么收割愛美女性？

青眼財經

2026-06-27 08:00:24

瑞典一女部長帶3個月嬰兒參加歐盟會議，發言時嬰兒突然啼哭，她一句話幽默回應

瑞典一女部長帶3個月嬰兒參加歐盟會議，發言時嬰兒突然啼哭，她一句話幽默回應

大象新聞

2026-06-27 10:54:09

16.99萬！沃爾沃新車正式上市

16.99萬！沃爾沃新車正式上市

科技堡壘

2026-06-27 11:22:35

南大博士發帖怒斥韓紅！此前她感慨遭遇“最冷酷無情的人世間”

南大博士發帖怒斥韓紅！此前她感慨遭遇“最冷酷無情的人世間”

火山詩話

2026-06-27 15:08:14

相聲界集體炮轟走面兒，韓紅關閉評論，基金會大量捐贈人斷捐

相聲界集體炮轟走面兒，韓紅關閉評論，基金會大量捐贈人斷捐

可愛小菜

2026-06-27 19:25:04

善惡終有報！“港獨分子”陳方安生，弟弟自殺女兒去世，晚景凄涼

善惡終有報！“港獨分子”陳方安生，弟弟自殺女兒去世，晚景凄涼

墨策講歷史

2026-06-27 01:25:08

山東曲阜一牌坊頂部構件發生意外脫落致1死6傷

山東曲阜一牌坊頂部構件發生意外脫落致1死6傷

環球網資訊

2026-06-27 18:21:42

曝杭州“宋城第一美女”小豆子去世！知情人曝原因，遺體已火化

曝杭州“宋城第一美女”小豆子去世！知情人曝原因，遺體已火化

裕豐娛間說

2026-06-27 07:43:00

被炸得不敢拉警報！當年歡迎“小綠人”的克里米亞人，后悔嗎？

被炸得不敢拉警報！當年歡迎“小綠人”的克里米亞人，后悔嗎？

鷹眼Defence

2026-06-27 16:19:53

原杭州大學新聞傳播學院副院長李壽福逝世，享年90歲

原杭州大學新聞傳播學院副院長李壽福逝世，享年90歲

澎湃新聞

2026-06-27 19:54:26

追蹤人工智能動態

12853文章數 176505關注度

往期回顧全部

科技要聞

GPT-5.6發布，你暫時用不了！Mythos也放行

頭條要聞

張雪公布“東鵬特飲事件”原視頻

頭條要聞

張雪公布“東鵬特飲事件”原視頻

體育要聞

世界杯最火門將，站到了阿根廷和梅西面前

娛樂要聞

四提白玉蘭終封后，楊紫：仍覺不真實

財經要聞

OpenAI推遲IPO重創軟銀！

汽車要聞

搭載華為乾崑ADS 5 全新猛士M817上市售29.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

旅游

數碼

房產

公開課

教育要聞

看到高考后這魔幻的一幕, 我終于明白：孩子的內驅力是怎么消失的？

旅游要聞

旅行社的未來五年：行業要重新劃一次服務邊界？

數碼要聞

新機漲價官翻補位！MacBook Neo官翻版上架：679美元蘋果最便宜筆記本

房產要聞

全國高考大放水，300分就能上本科！論上岸率，海南沒輸過！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版