亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

面壁智能開源全模態(tài)模型MiniCPM-o4.5,邊看邊聽還能主動搶答

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

空氣炸鍋“叮”了一聲。

我還沒反應(yīng)過來,AI先開口了:“好了,它已經(jīng)叮了。”

這不是語音助手升級,而是面壁智能剛開源的全模態(tài)模型MiniCPM-o4.5

手機(jī)往廚房一放,它能一邊跟你說話,一邊盯著灶臺、聽動靜。

不再是“你問一句、它答一句”,而是邊看、邊聽、主動說的AI。

AI開始豎起耳朵,瞪大眼睛

既然這AI這么能盯,還能提醒,那是不是干脆給它掛在教室、樓道門口?

老師家長一來就提醒我,豈不美哉?(doge)



Wwwwwait!AI肯定不是這么用的。

不過,在實(shí)測和官方用例里,我們確實(shí)發(fā)現(xiàn)了一件挺有意思的事:它能干的事兒,已經(jīng)和以前的AI不一樣了。

先說最直觀的。

這次面壁的MiniCPM-o4.5,最大的變化,其實(shí)就一句話:它能一邊聽、一邊看,還能主動說

比如逛超市,人往前走,貨架在變,商品也在變。

隨口問一句:水果都什么價?它立馬接得上。

這里的關(guān)鍵不在“答得快”,而在于它在回答我的同時,眼睛其實(shí)沒停,一直跟著你看。

你走著,貨架在變,它也能馬上接話,就像旁邊有個朋友。

要是放在以前的AI身上,基本就是你問一句,它答一句。

等它下一次再說話,才重新“看”一次世界,加載的圓圈多少要重新開始轉(zhuǎn)幾圈。

再比如出門上班。你走進(jìn)電梯,刷著手機(jī),腦子已經(jīng)在想別的事了。

你只需要在一開始告訴它提醒你,它就能持續(xù)識別電梯樓層的變化,在你該下的時候,直接開口提醒。

還有一點(diǎn)也很關(guān)鍵:MiniCPM-o4.5不需要你先開口,也能主動應(yīng)答

這一點(diǎn),在開頭的測試?yán)锉憩F(xiàn)得特別明顯。因?yàn)樵诂F(xiàn)實(shí)場景中,等你再去問一句“好了沒”,往往已經(jīng)晚了。

真正有用的是——你沒問,AI聽到“叮”的一聲,直接來一句:“加熱好了。”

此外,我們還發(fā)現(xiàn)MiniCPM-o4.5一個挺反直覺的地方:它在說話的時候,也還在聽

因?yàn)榇蠹叶贾溃艘坏╅_口說話,注意力基本就不在“聽”上了。



但o4.5不一樣,一方面,它能一邊跟你聊天,一邊留意外界的動靜——

敲門聲、燒水聲、空氣炸鍋“叮”的那一下,都不會被漏掉。

更狠的是,在它自己說話的時候,也能聽見你新插進(jìn)來的指令,能實(shí)現(xiàn)即時自由對話

為此,我們刻意做了件有點(diǎn)“為難”模型的事。

它正在解說畫面的藍(lán)色鴨子在哪里,這時我突然插一句新的要求,讓它告訴我小黃(鴨子)在哪里。

結(jié)果是,MiniCPM-o4.5在說完上句話后,立馬回答了這句突然插入的話。

這也讓MiniCPM-o4.5跟那種一問一答的AI不一樣。

它不是等你說完一句再輪到它,而是一邊聽、一邊說,一邊隨時改口

換句話說,今年的AI已經(jīng)不玩回合制問答,開始整臨場反應(yīng),學(xué)會搶答了。



順帶一提,除了上面這些,還有更“邪修”的玩法。比如讓AI解說實(shí)況比賽,或者盯著你練組數(shù)、數(shù)次數(shù)。

我們就不一一演示了,鏈接在最后,留給大家自己去慢慢折騰。

首個可以「即時自由對話」的大模型

那么,上面這些“自由對話”是怎么做到的?

關(guān)鍵在于MiniCPM-o4.5對交互方式本身做了重構(gòu)

以往的多模態(tài)模型,本質(zhì)是串行的:先聽完,再想,再說。

一旦開始輸出,模型對外界輸入的感知就會被暫停,形成典型的I/O阻塞,這是無法邊看邊聽邊說的原因。

在MiniCPM-o4.5中,面壁團(tuán)隊(duì)首次引入了全雙工(Full-Duplex)多模態(tài)實(shí)時流機(jī)制。模型可以一邊持續(xù)接收視頻和音頻輸入,一邊同步生成語音或文本輸出,兩條信息流并行運(yùn)行,互不阻塞。

在實(shí)現(xiàn)上,MiniCPM-o4.5將原本離線的模態(tài)編碼器與解碼器,升級為支持流式輸入/輸出的在線版本;

語音側(cè)采用文本與語音token交錯建模,既支持全雙工語音生成,也提升了長語音生成的穩(wěn)定性。

同時,通過時分復(fù)用機(jī)制,對在毫秒級時間線上對齊的多模態(tài)輸入與輸出進(jìn)行統(tǒng)一建模,實(shí)現(xiàn)高效的流式處理。



在整體架構(gòu)上,MiniCPM-o4.5采用端到端的全模態(tài)設(shè)計(jì),通過稠密特征將各模態(tài)的編碼器與解碼器直接連接到大語言模型主干,視覺、音頻等模態(tài)在模型生成輸出的同時仍能持續(xù)更新。

除了并行處理,MiniCPM-o4.5還改變了對話時機(jī)的判斷方式。模型會持續(xù)進(jìn)行語義層面的判斷,并以1Hz的頻率決定是否介入回應(yīng),而不再依賴“檢測到靜音就回答”的VAD(語音互動檢測)機(jī)制。

(傳統(tǒng)語音助手往往依賴外部的VAD:一旦檢測到短暫靜音,就認(rèn)為用戶“說完了”并開始回答)

這使得模型不僅能被自然打斷,還能基于對場景的持續(xù)理解,主動發(fā)起提醒或評論。

這也是為什么前面我還沒把話說完,它就已經(jīng)“搶答”了。

此外,值得一提的是,在Benchmark測試上,MiniCPM-o4.5的表現(xiàn)同樣亮眼。

在僅9B參數(shù)規(guī)模下,模型在全模態(tài)理解、視覺理解、文檔解析、語音理解與生成,聲音克隆等多個方向上,均達(dá)到了當(dāng)前全模態(tài)模型的領(lǐng)先水平



那么像MiniCPM-o4.5這樣,邊看、邊聽、主動說的AI,意味著什么?

最近,Clawdbot(現(xiàn)已更名為OpenClaw)的爆火,其實(shí)已經(jīng)提前給了答案:人們真正需要的,可能不是“更聰明的問答機(jī)”,而是能持續(xù)運(yùn)行、一直在場的AI

不是你問它一句,它才醒一下;而是它本來就在運(yùn)行,在看、在聽,也隨時準(zhǔn)備說話。

這,正是這類“邊看、邊聽、主動說”的模型真正產(chǎn)生價值的地方。

過去的AI,更像對講機(jī)。你說完,它才聽;它一開口,外界就等于被按了暫停鍵。

而這一次,面壁做的嘗試是:讓AI在說話的時候,世界周遭事物依然是流動的。它在持續(xù)感知世界的同時,也在持續(xù)參與對話和行為,而不是僅在節(jié)點(diǎn)式的“提問/回復(fù)”之間來回倒騰。

也正因?yàn)檫@樣,它能自然地延展到更多地方:

對具身智能來說,感知、決策、動作本來就不該被拆開;對車端或終端助手來說,真正有用的往往不是“回答問題”,而是在合適的時機(jī)接話;對復(fù)雜系統(tǒng)來說,“等一下再想”本身就是一種失效。

因此,全雙工并不是體驗(yàn)升級,而是AI能否真正進(jìn)入現(xiàn)實(shí)連續(xù)世界的分水嶺。

也正是在這個意義上,面壁將MiniCPM-o4.5定義為一款全模態(tài)的基礎(chǔ)模型,并以此作為后續(xù)賦能汽車、手機(jī)、機(jī)器人等各類終端形態(tài)的起點(diǎn)。

面壁智能:只做端,把端做到極致

面壁智能成立于2022年8月。

在端側(cè)AI還遠(yuǎn)沒成為行業(yè)熱詞、討論重心仍集中在云端和算力堆疊時,面壁就已經(jīng)把方向押在了端側(cè)AI模型這條路上。

這次發(fā)布的MiniCPM-o4.5,由清華大學(xué)人工智能學(xué)院助理教授、面壁智能多模態(tài)首席科學(xué)家姚遠(yuǎn)牽頭研發(fā)。

在整場發(fā)布中,面壁反復(fù)強(qiáng)調(diào)了兩個關(guān)鍵詞:軟硬一體,端側(cè)部署

以MiniCPM-o4.5為例,它主打的是持續(xù)感知視覺和聽覺環(huán)境。而這種“全天候伴隨”的AI形態(tài),本身就無法以云端為主要形態(tài)存在。

一方面是不可回避的隱私風(fēng)險;另一方面,是延遲、穩(wěn)定性和可用性在工程上根本扛不住。

也正因?yàn)槿绱耍琈iniCPM-o4.5從一開始就被定義為一款端側(cè)模型,并且與面壁長期堅(jiān)持的端側(cè)路線保持高度一致。

面壁智能聯(lián)合創(chuàng)始人、CEO李大海在采訪中提到:

  • 端側(cè)模型的目標(biāo),本來就是賦能終端,而賦能終端天然就要跟端側(cè)芯片要做更深的結(jié)合。

據(jù)透露,過去近兩年,面壁與多家芯片廠商形成了一種高度協(xié)同的工作方式:

芯片在設(shè)計(jì)階段就向模型側(cè)開放,驗(yàn)證架構(gòu)是否匹配未來模型需求;模型研發(fā)也同步反向輸入,對算子形式與硬件能力提出明確要求。

這種軟硬一體、雙向奔赴,已經(jīng)成為模型演進(jìn)的前提條件。

在具體的路徑上,面壁智能聯(lián)合創(chuàng)始人、COO雷升濤則給出了更清晰的拆解:

  • 端原生模型:不把云端模型壓縮下來跑,而是在訓(xùn)練階段就以端側(cè)芯片為目標(biāo)環(huán)境,讓模型“生來就能跑在端上”。
  • 軟硬協(xié)同的Infra層:包括量化、精度壓縮之后能力如何保持。這一層技術(shù)難度極高,依賴長期積累,是最核心的壁壘。
  • 產(chǎn)品化交付:把這些能力打包成可直接使用的方案,交付給客戶和合作伙伴,跑在不同終端上。

像面壁計(jì)劃在年中發(fā)布的首款A(yù)I硬件松果派(Pinea Pi),用于支持硬件場景的全棧開發(fā),以及過去一年多在智能座艙等方向的落地,都是這條軟硬協(xié)同路線的具體體現(xiàn)。

從這個角度看,MiniCPM-o4.5本身也可以被理解為一款端側(cè)原生的全模態(tài)模型。

據(jù)面壁智能介紹,MiniCPM-o4.5將與松果派這款AI Native的端側(cè)智能開發(fā)板配套推出,計(jì)劃于今年上市,在開發(fā)板上實(shí)現(xiàn)“開箱即用”,面向開發(fā)者快速構(gòu)建端側(cè)智能硬件。

與此同時,松果派等端側(cè)硬件本身,也構(gòu)成了面壁在生態(tài)層面的能力:

在發(fā)布模型的同時,就明確指定并深度適配好的硬件平臺,讓開發(fā)者更快上手,讓終端廠商更快把能力真正跑進(jìn)場景里。

本質(zhì)上,這是在打通端側(cè)模型到應(yīng)用的最后一公里

當(dāng)被問及如何看待有越來越多玩家進(jìn)入端側(cè)市場時,面壁也指出了一個常被誤解的地方:很多人把“端側(cè)”當(dāng)成一個統(tǒng)一市場。

但在面壁看來,其實(shí)恰恰相反——端側(cè)由大量差異化終端和長尾高價值場景構(gòu)成。

從技術(shù)上看,端側(cè)的關(guān)鍵不是規(guī)模,而是用盡可能少的參數(shù),實(shí)現(xiàn)盡可能強(qiáng)的能力。

從商業(yè)上看,這也意味著:這是一個可以同時容納很多創(chuàng)業(yè)公司的市場,而不是必須打“陣地戰(zhàn)”的地方。

也正是在這種背景下,面壁給出的差異化非常明確:

  • 我們最大的差異化就是我們只做端,而且我們把端做到極致。如果一家公司專注于做端的話,那我覺得其他公司可能很難跟我們相比把端做得這么好。

從兩三年前手機(jī)、車、機(jī)器人普遍質(zhì)疑“真的需要大模型嗎”,到今天逐漸成為共識,端側(cè)AI正在不斷被重新定義。

而MiniCPM-o4.5所呈現(xiàn)的,并不是一次炫技式的能力展示,而是面壁這條路線走到今天的自然結(jié)果:

只做端,把端做到極致

GitHub:https://github.com/OpenBMB/MiniCPM-o
HuggingFace:https://huggingface.co/openbmb/MiniCPM-o-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
體驗(yàn)鏈接-全雙工全模態(tài)模式:https://huggingface.co/spaces/openbmb/minicpm-omni
體驗(yàn)鏈接-圖文對話模式:http://211.93.21.133:18121/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
都說孔子周游列國,可地圖一攤開,這老爺子基本就沒出過河南省

都說孔子周游列國,可地圖一攤開,這老爺子基本就沒出過河南省

長風(fēng)文史
2026-04-18 16:39:15
想遠(yuǎn)離癌癥,先管住嘴!腫瘤科醫(yī)生內(nèi)部的“忌口清單”,很多人天天吃

想遠(yuǎn)離癌癥,先管住嘴!腫瘤科醫(yī)生內(nèi)部的“忌口清單”,很多人天天吃

環(huán)球網(wǎng)資訊
2026-04-18 17:59:25
快檢查自家陽臺!有人家里已大量出現(xiàn),官方提醒:千萬別摸

快檢查自家陽臺!有人家里已大量出現(xiàn),官方提醒:千萬別摸

環(huán)球網(wǎng)資訊
2026-04-18 16:23:18
遠(yuǎn)嫁中國8年回伊朗娘家,突然發(fā)現(xiàn)自己已經(jīng)成為了當(dāng)?shù)馗黄牛?>
    </a>
        <h3>
      <a href=老特有話說
2026-04-17 17:10:53
布倫森28+5+7尼克斯戰(zhàn)勝老鷹1-0,唐斯25+8麥科勒姆26分

布倫森28+5+7尼克斯戰(zhàn)勝老鷹1-0,唐斯25+8麥科勒姆26分

湖人崛起
2026-04-19 08:51:00
伊朗在核問題上忽悠國際二十多年,直到遇上不按常理出牌的川普

伊朗在核問題上忽悠國際二十多年,直到遇上不按常理出牌的川普

壹家言
2026-04-18 06:07:05
難過啊!80后男人的葬禮上,出殯草草了事,家人連一聲痛哭都沒有

難過啊!80后男人的葬禮上,出殯草草了事,家人連一聲痛哭都沒有

火山詩話
2026-04-18 16:26:38
滾出中國!云南潑水節(jié)炸出一群“男流氓”,潑女性“臟水”太齷齪

滾出中國!云南潑水節(jié)炸出一群“男流氓”,潑女性“臟水”太齷齪

奇思妙想草葉君
2026-04-18 02:30:58
世錦賽戰(zhàn)報:世界亞軍連輸6局2-7!趙心童10連勝,丁俊暉面臨挑戰(zhàn)

世錦賽戰(zhàn)報:世界亞軍連輸6局2-7!趙心童10連勝,丁俊暉面臨挑戰(zhàn)

球場沒跑道
2026-04-19 06:28:45
超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

娛樂圈見解說
2026-04-18 14:54:03
烏克蘭基輔槍擊事件已致5人死亡 槍手身份公布

烏克蘭基輔槍擊事件已致5人死亡 槍手身份公布

財聯(lián)社
2026-04-19 00:18:15
多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

揚(yáng)子晚報
2026-04-19 07:55:51
成本5億積壓7年,院線都沒上直接免費(fèi)網(wǎng)播,這電影就是個笑話!

成本5億積壓7年,院線都沒上直接免費(fèi)網(wǎng)播,這電影就是個笑話!

觀察鑒娛
2026-04-18 11:57:49
轟25+13+11又刷四紀(jì)錄!約基奇擊潰森林狼雙塔 美記:無人能擋

轟25+13+11又刷四紀(jì)錄!約基奇擊潰森林狼雙塔 美記:無人能擋

顏小白的籃球夢
2026-04-19 06:35:35
越南高鐵訂單給了德國,蘇林來中國為何還要坐10多個小時高鐵?

越南高鐵訂單給了德國,蘇林來中國為何還要坐10多個小時高鐵?

開著車去流浪
2026-04-17 22:17:46
以色列已失控?以軍炮打聯(lián)合國維和部隊(duì),法軍犧牲,馬克龍表態(tài)

以色列已失控?以軍炮打聯(lián)合國維和部隊(duì),法軍犧牲,馬克龍表態(tài)

來科點(diǎn)譜
2026-04-19 07:15:46
警告三次不如動真格一次!中方勒令即刻停運(yùn),西方媒體都看懵了

警告三次不如動真格一次!中方勒令即刻停運(yùn),西方媒體都看懵了

書紀(jì)文譚
2026-04-18 16:10:54
世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

三毛看世界
2026-04-17 16:43:17
新華社點(diǎn)名曝光:拼多多暴力抗法細(xì)節(jié)!

新華社點(diǎn)名曝光:拼多多暴力抗法細(xì)節(jié)!

仕道
2026-04-18 20:55:32
斯諾克賽程:決出4席16強(qiáng),丁俊暉首秀,中國4人出場,75雙雄上陣

斯諾克賽程:決出4席16強(qiáng),丁俊暉首秀,中國4人出場,75雙雄上陣

劉姚堯的文字城堡
2026-04-19 07:44:16
2026-04-19 11:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12491文章數(shù) 176455關(guān)注度
往期回顧 全部

科技要聞

50分26秒!榮耀獲得人形機(jī)器人半馬冠軍

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

體育要聞

掘金擒狼開門紅:五花肉與小辣椒

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

旅游
藝術(shù)
親子
時尚
軍事航空

旅游要聞

太原直飛莫斯科旅游包機(jī)復(fù)航

藝術(shù)要聞

鄭麗文大陸之行引發(fā)熱議,孫中山贈對聯(lián)成焦點(diǎn)!

親子要聞

孩子醫(yī)院健康不配合怎么辦?一定要去舒化門診

選對發(fā)型,真的能少走很多變美彎路

軍事要聞

伊朗宣布關(guān)閉霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版