无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026最熱方向,被一家杭州團隊率先跑進了端側!

0
分享至

henry 發自 凹非寺
量子位 | 公眾號 QbitAI

好家伙!

這CVPR也就剛過去沒幾天,會上還在熱議的方向,就已經給一家杭州團隊跑進了端側!

剛剛,Om AI發布全球首個面向物理世界的端側流式多模態模型系列——

VLX



VLX主打真實世界的端側與具身場景,總共三款模型,三天連發:

  • VLX-Flow:實時流式感知,讓視頻像水流一樣持續輸入,模型實時看、實時想、實時更新世界狀態。
  • VLX-Seek:精準定位,從看見走向看清,快速鎖定目標。
  • VLX-Go:行動決策,把感知和定位的結果轉化成真實動作——該往哪走、怎么操作,一氣呵成。

這三款模型連起來,不僅構成了多模態模型持續感知、精準定位、行動決策的能力閉環。

與此同時,其原生端側設計也讓它能夠真正跑進手機、無人機、機器人這些端側設備。

而這,也并不是Om AI第一次在VL(視覺語言)領域發力。

去年,他們推出了全網爆火的VLM-R1。



作為全球首個將DeepSeek R1強化學習范式引入視覺語言模型的開源項目,上線12小時獲得超過2000顆GitHub Star。

48小時登頂GitHub全球趨勢榜,至今已斬獲6000+Star。

這一次,他們交出的新答卷,是VLX。

一條通往物理世界的能力鏈

為了更好地理解VLX這次的技術路線,我們可以把它拆成兩個關鍵詞:端側流式多模態

咱們先看后者。

所謂流式多模態,就是讓AI能夠在物理世界中持續、實時地感知環境,并最終形成一條完整的能力鏈:

感知(Perception)→ 精準定位(Grounding)→ 行動(Action)。



它跟我們此前在語音助手里“聽”到的流式多模態不同。

語音助手強調的是人與AI的實時交互,而VLX關注的,則是AI在物理世界中持續觀察、持續判斷,并最終驅動行動,完成從“看圖”到“做事”的跨越。

這種定位的不同,其實反映的是VLM角色的轉變。

隨著具身智能、空間智能、視頻生成等領域快速發展,VLM已經不再只是LLM的一個能力模塊,而是在逐漸成為空間理解、視頻理解乃至動作規劃的新一代基礎設施。

這意味著,VLM不僅需要看圖說話,更需要具備持續感知、精準定位和驅動行動的能力,從而為下游任務提供統一、精準的基座能力。

一個很直觀的信號來自今年CVPR。



數據顯示,VLM/多模態相關論文占比已經從去年的4.9%增長到10.6%,幾乎翻倍,成為近年來增長最快的研究方向之一。

而在論文數量快速增長的背后,最值得關注的兩個關鍵詞,就是實時感知(Streaming)定位(Grounding)。

(注:Grounding的核心就是讓模型根據一句自然語言描述,準確找到圖像或視頻中對應的對象、區域和概念)

VLX的整套設計,也正是圍繞這兩個方向展開,并進一步把能力延伸到了最終的行動。

VLX-Flow:流式推理

首先是VLX-Flow,負責持續感知,解決的是看見。

在真實世界中,由于物體始終處于運動之中,環境、狀態不斷變化、視角切換也時刻發生。

一次性的觀察,很難應對這樣動態、開放且持續變化的環境。因此,模型必須像人一樣不斷接收新信息、持續更新對環境的理解。



傳統視頻模型往往將整段視頻切成幀,一次性送入模型做離線理解。

視頻一長,不僅計算成本急劇上升,還容易丟失前文信息,難以支撐實時交互。

為解決這一問題,Flow采用了流式處理。

讓畫面像水流一樣持續涌入,靠增量編碼和緩存機制不斷更新自己的視覺狀態,既不用反復重算歷史,也不會因為視頻變長而失憶。

技術層面, Flow用Linear Attention替代標準Attention,并結合雙層記憶機制,讓視頻流能夠持續進入模型而不會因上下文增長導致顯存爆炸。

也就是說,它不等視頻播完再理解,而是一邊看一邊更新對環境的認知,必要時還能主動發起交互,并做到實時視頻流下的低延遲響應。

不過,持續看只是第一步,模型還必須知道到底該看哪里。

VLX-Seek:精細感知

接下來是VLX-Seek,負責精細感知,解決的是看得準。

以機器人為例,僅僅知道“前面有一把椅子”遠遠不夠,它還需要準確知道目標在哪里、是哪一個,才能完成跟隨、抓取、導航、避障等后續動作。



但這恰恰是許多通用VLM的短板。它們雖然擅長高層語義理解,卻在精確定位、開放詞匯檢測和細粒度Grounding等任務上表現有限,難以滿足真實世界的需求。

傳統方法大多采用自回歸方式,一個坐標一個坐標地預測目標位置,不僅速度慢,也容易出現偏差。

Seek則換了一種思路。它不再“猜坐標”,而是先生成候選區域,再完成檢索和匹配,把定位過程變成“選區域”。

具體來說,Seek用Region Token替代傳統坐標生成,在保持識別能力的同時,大幅降低模型大小和端側部署成本;

這種方式更符合視覺感知任務本身,因此即使模型規模更小,也能在開放詞匯檢測、細粒度定位和實時跟蹤等任務上保持穩定表現,同時更適合實時追蹤和端側部署。

不過,對于物理世界來說,看得準仍然不是終點,真正的目標,是行動。

VLX-Go:運動執行

最后是VLX-Go,負責行動,解決的是動得了。

對于機器人來說,理解環境只是第一步,真正重要的是把理解轉化成動作。

傳統VLM即使知道“目標在左前方”,最終也大多停留在文字回答;真正走過去、繞開障礙、持續跟隨目標,仍然需要額外的控制系統來完成。

Go則進一步打通了這一步。

它通過單目視頻、歷史視覺記憶和自然語言指令作為輸入,Go將這些信息直接處理成機器人可執行的短時航點,直接預測未來一小段時間應該如何運動,而不是只輸出一句文字建議。

與此同時,Go還結合離線軌跡學習和在線強化學習,在仿真閉環中不斷修正運動策略,使機器人能夠根據實時視覺反饋持續調整軌跡,在目標跟隨、導航、動態避障等任務中保持穩定表現。

為了滿足端側實時控制的需求,Go沒有采用復雜的長鏈路規劃,而是選擇了更輕量的短時航點預測方案,僅用0.6B參數,就能完成實時運動規劃。

至此,VLX完成了從感知到定位再到行動的最后一塊拼圖。



與此同時,Flow、Seek、Go并不是三個彼此獨立的模型,而是共享同一個基座,在同一條視頻流上完成端到端協作。

從持續感知,到精準定位,再到行動決策,三者共同組成了VLX面向物理世界的一條完整能力鏈。

反觀,這也是為什么僅靠一個通用VLM,很難真正扛起物理世界AI的閉環。

因為只會看,卻找不準目標;看得準,卻不會行動,都無法真正完成任務。

物理世界需要的,不是一個更會聊天的模型,而是一套能夠從看見、看清一路銜接到行動,并持續穩定運行的系統。

而VLX,就是Om AI交出的答卷。

那么,為什么這樣一套系統,必須跑在端側?

Day1端側原生架構

先說結論:對于機器人、無人機、攝像頭這些物理世界的設備來說,端側部署是模型真正落地的前提。

原因嘛,并不復雜。

一個機器人在跟隨目標時,等不起把視頻上傳云端、完成編碼、再把結果傳回來的幾秒鐘。

一架無人機在巡檢避障時,也不能把“看見”和“行動”拆成兩個緩慢的離線步驟。

更現實的是,很多場景本身就受到網絡、隱私和算力的限制。數據未必能上傳,設備未必始終聯網,而真正的物理世界也不會停下來等待模型思考。

這意味著,今天很多云端多模態模型雖然已經足夠強,卻并不天然適合機器人和具身場景。

因為真實世界是連續的、動態的、資源受限的。模型既要實時感知、快速響應,又要在有限的算力和部署成本下穩定運行,真正完成任務。

針對這個問題,行業里常見的思路,是先訓練一個盡可能大的模型,再通過量化、蒸餾等方式,把它壓縮到端側運行。

VLX選擇了另一條路。

它不是把云端模型做小,而是從Day 1開始,就按照端側的算力約束重新設計整個系統

模型架構、推理方式和部署鏈路,從一開始就是圍繞實時視頻流和端側設備設計,而不是等模型訓練完成后,再想辦法壓縮部署。



本質上,這是兩條完全不同的技術路線。一種是把云端模型裁剪到端側;另一種,則是為端側重新長出一套模型。

對此,Om AI的判斷是:當你從Day 1就為端側設計,每一層都在算力約束下做最優選擇,結果就是“小而準”勝過“大而全”。

光說不算,數據也印證了Om AI的判斷:Flow處理單路視頻最快僅需0.06秒,同時能夠穩定處理多路視頻流;

Go僅用約十分之一的參數規模,就取得了優于更大模型的導航表現;

Seek則以3B級模型,在目標檢測等任務上達到甚至超過了更大規模通用模型的效果。

這也是VLX最特別的地方。

它追求的并不是做一個更大的通用VLM,而是圍繞真實世界的約束,重新設計一套能夠持續感知、精準定位、實時行動,并真正跑在端側的多模態系統。

VLX,不是又一個VLM

聊完流式多模態,也聊完端側,我們最后回到VLX本身。

VLX做的不是把一個多模態模型搬到端側,而是第一次把持續感知、精準定位、行動決策做成一套能夠長期連續運轉的系統。

所以,嚴格來說,端側流式多模態,并不是一個“更小的VLM”,而是一種新的模型形態。

過去幾年,多模態模型競爭的重點,一直是誰參數更多、知識更廣、推理更強,而VLX換了一道題。

它關心的不是模型能回答多少問題,而是能不能一直待在真實世界里,持續感知、實時響應,并最終完成行動。

這也是它和通用VLM最大的區別。

通用VLM更擅長復雜知識問答、長文本推理、長視頻總結;

而VLX關注的是另一類問題:機器人、無人機、攝像頭這些設備,如何在有限算力下持續理解環境,并完成行動閉環。

當然,兩者并不是非此即彼的替代關系,而是面向不同場景的能力分工。

云端模型繼續追求更強的推理和知識能力;端側模型則越來越強調低延遲、低功耗、持續感知和實時執行。

如果說過去幾年,多模態模型回答的是“看懂世界”這道題,那么VLX嘗試回答的,則是另一道題:

如何讓模型真正活在世界里。

團隊介紹

最后,把視角拉回到VLX背后的團隊,Om AI。

Om AI是一家來自杭州的AI公司,也是國內最早布局多模態模型的團隊之一。



創始人兼CEO趙天成是CMU計算機博士、吳文俊人工智能科技進步獎得主。團隊成員來自CMU、清華、浙大、微軟、阿里云等機構,手握50多篇頂會論文和50多項發明專利。



趙天成博士

此前,Om AI最出圈的事件莫過于我們開頭提到的VLM-R1,是首個將DeepSeek R1強化學習范式引入視覺語言模型的工作。

事實上,作為國內最早涉獵多模態領域的團隊,早在2022年,Om AI就拿下了工信部第一張多模態模型認證,比大模型熱潮早了整整一年。

自此,Om AI一直圍繞同一個目標迭代——讓多模態模型從看圖說話,走向持續感知、精準定位和真實行動。

這次發布的VLX,則是這條路線的最新成果。

不同于把云端模型壓縮到設備上,VLX從第一天就是圍繞端側設計。Flow、Seek、Go三款模型共享同一基座,在同一視頻流上完成感知、定位與行動的協同,真正打通了感知→定位→行動的完整鏈路。

如果說移動互聯網時代需要iOS和Android,那么端側AI時代,同樣需要一套原生的模型基礎設施。

而Om AI選擇做的,正是這樣一套真正能夠跑進手機、機器人和各種智能終端的底層能力。

體驗平臺鏈接:
https://platform.om-agent.cn/subapp-index/#/front
官網:www.om-ai.com
github:
https://github.com/om-ai-lab
huggingface:
https://huggingface.co/omlab
X: https://x.com/OmAI_lab

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
韓國隊一息尚存,明日3組比賽需要3種情況發生2種才確保晉級

韓國隊一息尚存,明日3組比賽需要3種情況發生2種才確保晉級

生活新鮮市
2026-06-27 15:25:35
心理學:沒有任何物種會因為“被養大”而終身服從,幼崽離巢時從不回頭張望,進化論里最冰冷的底層代碼,親緣的盡頭只寫著兩個字

心理學:沒有任何物種會因為“被養大”而終身服從,幼崽離巢時從不回頭張望,進化論里最冰冷的底層代碼,親緣的盡頭只寫著兩個字

心理觀察局
2026-06-26 07:26:06
江西財經大學事件:“把你打到無法行走”、“每延遲一天拔一片指甲”、“讓你懷孕再逼你流產。”

貼小君
2026-06-27 01:13:40

演員王安宇登報聲明:本人王安宇,不慎遺失中國傳媒大學本科畢業證書和學位證書,現聲明作廢

演員王安宇登報聲明:本人王安宇,不慎遺失中國傳媒大學本科畢業證書和學位證書,現聲明作廢

大象新聞
2026-06-27 16:50:09
繳費通知:7月1日實施!退休人員也需繳納

繳費通知:7月1日實施!退休人員也需繳納

錦繡太原
2026-06-27 18:36:16
腸子悔青!小將轉正惹眼紅,孫家忘恩負義求原諒?董路絕不饒恕!

腸子悔青!小將轉正惹眼紅,孫家忘恩負義求原諒?董路絕不饒??!

林子說事
2026-06-27 18:14:21
還有戲嗎?韓國已跌至第8,亞洲兄弟補時絕殺被吹,凈勝球占上風

還有戲嗎?韓國已跌至第8,亞洲兄弟補時絕殺被吹,凈勝球占上風

萌蘭聊個球
2026-06-27 13:25:48
北青:佛得角足協副主席稱計劃與中國隊熱身,對中國表達感謝

北青:佛得角足協副主席稱計劃與中國隊熱身,對中國表達感謝

懂球帝
2026-06-27 19:46:20
韓國隊2天5次遭暴擊!小組第3排名已跌至第8,最新出線概率僅44%

韓國隊2天5次遭暴擊!小組第3排名已跌至第8,最新出線概率僅44%

我愛英超
2026-06-27 13:11:45
從富裕到貧窮,南非只用了一個偉人曼德拉,這個偉人他做了什么?

從富裕到貧窮,南非只用了一個偉人曼德拉,這個偉人他做了什么?

豬小艷吖
2026-06-25 22:17:25
成本20賣3000,555億身家的山東美女富豪,憑什么收割愛美女性?

成本20賣3000,555億身家的山東美女富豪,憑什么收割愛美女性?

青眼財經
2026-06-27 08:00:24
瑞典一女部長帶3個月嬰兒參加歐盟會議,發言時嬰兒突然啼哭,她一句話幽默回應

瑞典一女部長帶3個月嬰兒參加歐盟會議,發言時嬰兒突然啼哭,她一句話幽默回應

大象新聞
2026-06-27 10:54:09
16.99萬 !沃爾沃新車正式上市

16.99萬 !沃爾沃新車正式上市

科技堡壘
2026-06-27 11:22:35
南大博士發帖怒斥韓紅!此前她感慨遭遇“最冷酷無情的人世間”

南大博士發帖怒斥韓紅!此前她感慨遭遇“最冷酷無情的人世間”

火山詩話
2026-06-27 15:08:14
相聲界集體炮轟走面兒,韓紅關閉評論,基金會大量捐贈人斷捐

相聲界集體炮轟走面兒,韓紅關閉評論,基金會大量捐贈人斷捐

可愛小菜
2026-06-27 19:25:04
善惡終有報!“港獨分子”陳方安生,弟弟自殺女兒去世,晚景凄涼

善惡終有報!“港獨分子”陳方安生,弟弟自殺女兒去世,晚景凄涼

墨策講歷史
2026-06-27 01:25:08
山東曲阜一牌坊頂部構件發生意外脫落致1死6傷

山東曲阜一牌坊頂部構件發生意外脫落致1死6傷

環球網資訊
2026-06-27 18:21:42
曝杭州“宋城第一美女”小豆子去世!知情人曝原因,遺體已火化

曝杭州“宋城第一美女”小豆子去世!知情人曝原因,遺體已火化

裕豐娛間說
2026-06-27 07:43:00
被炸得不敢拉警報!當年歡迎“小綠人”的克里米亞人,后悔嗎?

被炸得不敢拉警報!當年歡迎“小綠人”的克里米亞人,后悔嗎?

鷹眼Defence
2026-06-27 16:19:53
原杭州大學新聞傳播學院副院長李壽福逝世,享年90歲

原杭州大學新聞傳播學院副院長李壽福逝世,享年90歲

澎湃新聞
2026-06-27 19:54:26
2026-06-27 22:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12853文章數 176505關注度
往期回顧 全部

科技要聞

GPT-5.6發布,你暫時用不了!Mythos也放行

頭條要聞

張雪公布“東鵬特飲事件”原視頻

頭條要聞

張雪公布“東鵬特飲事件”原視頻

體育要聞

世界杯最火門將,站到了阿根廷和梅西面前

娛樂要聞

四提白玉蘭終封后,楊紫:仍覺不真實

財經要聞

OpenAI推遲IPO重創軟銀!

汽車要聞

搭載華為乾崑ADS 5 全新猛士M817上市售29.99萬起

態度原創

教育
旅游
數碼
房產
公開課

教育要聞

看到高考后這魔幻的一幕, 我終于明白:孩子的內驅力是怎么消失的?

旅游要聞

旅行社的未來五年:行業要重新劃一次服務邊界?

數碼要聞

新機漲價官翻補位!MacBook Neo官翻版上架:679美元 蘋果最便宜筆記本

房產要聞

全國高考大放水,300分就能上本科!論上岸率,海南沒輸過!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版