刷到一條消息,沒當(dāng)回事。
結(jié)果連著刷到三條。
是個叫“NAVA”的模型,突然沖上了Hugging Face文生視頻趨勢榜第二名。
重點是參數(shù)規(guī)模,竟然就6.3B。
現(xiàn)在隨便一個模型,動輒上百B。6.3B放在今天,而且還是視頻領(lǐng)域,太迷你了。
但它偏偏就SOTA了。
我順藤摸瓜看了一眼,發(fā)現(xiàn)竟然是百度文心團(tuán)隊搞的。
好家伙,文心什么時候開始搞這個了?
NAVA不是傳統(tǒng)的文生視頻、圖生視頻,它做的是"音視頻聯(lián)合生成"。
不是先生成視頻,再找個配音模型套上去。是從一開始就統(tǒng)一建模,讓語音、背景音、畫面、鏡頭運動,全在一個系統(tǒng)里同步生成。
它在讓AI理解"什么是真實世界里的一段聲音和畫面"。
聲音和畫面,本來就屬于同一個世界。分開了處理,本質(zhì)上還是拼湊,不是真正的理解。
很多研究者把音視頻聯(lián)合生成,看成是走向原生全模態(tài)、甚至世界模型的關(guān)鍵一步。
現(xiàn)在AI視頻賽道卷成什么樣,大家都看到了。百度文心選了這個方向,不去卷視頻生成的數(shù)量,而是往"音視頻原生一體化"這個方向走,有點意思。
文心團(tuán)隊具體在布什么局,現(xiàn)在還看不清楚。
不過有一點是,NAVA這個項目,至少說明文心在研究層面的積累,比外界感知到的要深。
看來放大招應(yīng)該不是空穴來風(fēng)。
期待文心能給我們一個驚喜!
官網(wǎng):https://ernie-research.github.io/NAVA/
Hugging Face:https://huggingface.co/baidu/NAVA
論文:https://arxiv.org/pdf/2605.30073
#百度 #文心 #文心大模型 #NAVA #大模型 #人工智能
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.