6月3日,京東宣布開源JoyAI-Echo長(zhǎng)音視頻生成框架。JoyAI-Echo解決了行業(yè)三大痛點(diǎn):角色難穩(wěn)定一致、音色變化難控制、視頻生成速度慢,實(shí)現(xiàn)了長(zhǎng)視頻生成“又快又好”。此外,JoyAI-Echo的“邊聊邊改”模式,讓視頻創(chuàng)作從 "靜態(tài)生成" 變成 "動(dòng)態(tài)協(xié)作"。
![]()
JoyAI-Echo在各類視頻創(chuàng)作、數(shù)字人直播、品牌營(yíng)銷、教育和游戲內(nèi)容生產(chǎn)等領(lǐng)域有巨大的應(yīng)用潛力,它的推出,標(biāo)志著京東在長(zhǎng)視頻生成領(lǐng)域?qū)崿F(xiàn)重大突破,進(jìn)入全球第一梯隊(duì)。
四大技術(shù)創(chuàng)新 解決長(zhǎng)視頻生成三大難題
在AI視頻領(lǐng)域,十幾秒短視頻的生成質(zhì)量越來越成熟,但行業(yè)頭疼的瓶頸依然存在:難以向分鐘級(jí)長(zhǎng)視頻突破。AI視頻一但拉到這一時(shí)長(zhǎng),就會(huì)出現(xiàn)以下問題:同一個(gè)角色,在不同鏡頭里長(zhǎng)得不一樣;說話人的音色忽高忽低甚至突然變聲;生成速度慢到離譜,等幾分鐘甚至半小時(shí)才能出結(jié)果。
以上問題,直接導(dǎo)致 AI 長(zhǎng)視頻停留在 "玩具" 階段,很難真正投入生產(chǎn)、創(chuàng)造價(jià)值。JoyAI-Echo 的出現(xiàn),徹底打破這個(gè)僵局。JoyAI-Echo 有四項(xiàng)技術(shù)創(chuàng)新:
一是跨模態(tài)音視頻記憶庫(kù),讓角色再也不 "變臉"。這也是JoyAI-Echo 最關(guān)鍵的突破。模型框架內(nèi)置了一個(gè)專門的記憶庫(kù),能在多鏡頭生成過程中,持續(xù)保存并調(diào)用角色的外觀特征和說話人音色信息。在長(zhǎng)達(dá) 5 分鐘的視頻里,角色身份、視覺形象和聲音音色都能保持高度一致,再也不會(huì)出現(xiàn) "同一個(gè)人演著演著變成另一個(gè)人" 的尷尬情況。
二是記憶驅(qū)動(dòng)后訓(xùn)練,速度直接提升 7.5 倍。研發(fā)團(tuán)隊(duì)創(chuàng)新提出了記憶驅(qū)動(dòng)后訓(xùn)練流程,結(jié)合 SFT、跨模態(tài) RLHF 和 Distribution Matching Distillation(DMD)技術(shù),大幅提升了生成質(zhì)量,更實(shí)現(xiàn)了驚人的推理加速。
其中,僅 DMD 一項(xiàng)技術(shù)就帶來了約 7.5 倍的速度提升,讓長(zhǎng)視頻生成從 "等半天" 變成 "秒出片"。
三是加入智能 "導(dǎo)演助理"——Director Agent,讓長(zhǎng)視頻第一次實(shí)現(xiàn) "對(duì)話式編輯"。JoyAI-Echo 不再是 "輸入提示詞,一次性出結(jié)果" 的傳統(tǒng)工具。你用自然語言說需求,它會(huì)自動(dòng)幫你拆分成劇本、角色、場(chǎng)景和鏡頭。哪里不滿意,直接用對(duì)話的方式告訴它修改,它只重新生成有問題的局部鏡頭,不用重跑整條視頻,讓長(zhǎng)視頻創(chuàng)作從 "靜態(tài)生成" 變成了 "動(dòng)態(tài)協(xié)作"。
四是輕量化實(shí)時(shí)超分,高清輸出不卡頓。為了滿足專業(yè)內(nèi)容生產(chǎn)的需求,JoyAI-Echo 配套了專門的實(shí)時(shí)超分模塊,支持兩檔分辨率提升(736×1280 → 1152×1920,736×1280 → 1472×2560)。模塊通過單步超分就能生成高分辨率視頻和精細(xì)化音頻,即使在流式延遲的約束下,也能保持穩(wěn)定的高清表現(xiàn)。
各項(xiàng)指標(biāo)全面領(lǐng)先行業(yè) “AI 長(zhǎng)視頻時(shí)代"到來
為了客觀評(píng)估 JoyAI-Echo 的性能,研發(fā)團(tuán)隊(duì)基于 100 個(gè)故事、3000 個(gè)鏡頭構(gòu)建了長(zhǎng)音視頻生成評(píng)測(cè)集,從多個(gè)維度進(jìn)行了全面測(cè)試。結(jié)果顯示,JoyAI-Echo 在跨鏡頭一致性、視頻質(zhì)量、文本一致性和語音內(nèi)容準(zhǔn)確率等所有核心指標(biāo)上都取得了領(lǐng)先表現(xiàn),其中語音內(nèi)容準(zhǔn)確率更是高達(dá)0.8646,大幅領(lǐng)先行業(yè)其它同類模型。
在與行業(yè)同類模型對(duì)比中,用戶認(rèn)為JoyAI-Echo音頻質(zhì)量偏好的比例為81.7%,提示詞遵循偏好為80.6%,視覺美學(xué)偏好為63.6%,IP 一致性偏好為59.4%。
JoyAI-Echo 的推出,意味著AI 視頻生成的 "長(zhǎng)視頻時(shí)代"來了。它為虛擬故事創(chuàng)作和動(dòng)漫制作、數(shù)字人內(nèi)容生產(chǎn)和直播、品牌營(yíng)銷視頻快速迭代、互動(dòng)教育課件生成等領(lǐng)域帶來了全新可能,將大幅優(yōu)化行業(yè)成本效率。JoyAI-Echo也預(yù)示著未來人類可以像聊天一樣,持續(xù)創(chuàng)作、修改和完善長(zhǎng)視頻內(nèi)容,讓高一致性、高畫質(zhì)、可交互的視頻生成,真正走進(jìn)每一個(gè)內(nèi)容創(chuàng)作者的工作流程。
京東宣布,JoyAI-Echo 的代碼與權(quán)重已全部開源,目前項(xiàng)目頁和 GitHub 代碼倉(cāng)庫(kù)已經(jīng)正式上線,供開發(fā)者和創(chuàng)作者體驗(yàn):
GitHub:https://github.com/jd-opensource/JoyAI-Echo
項(xiàng)目主頁:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.