![]()
公司情報專家《財經涂鴉》獲悉,6月3日,京東推出JoyAI-Echo長音視頻生成框架解決行業頭疼已久的“長視頻生成三大難題”—— 角色易崩、聲音亂變、生成緩慢,同時實現“對話式編輯”功能,不用再為改一個鏡頭重跑整條視頻。
JoyAI-Echo的發布,標志著京東在長視頻生成領域進入全球第一梯隊。該框架具備四項技術創新。
首先,最關鍵的突破是跨模態音視頻記憶庫,令角色不“變臉”。框架內置了一個專門的記憶庫,能在多鏡頭生成過程中,持續保存并調用角色的外觀特征和說話人音色信息。
實測結果顯示,長達5分鐘的視頻里,角色身份、視覺形象和聲音音色都能保持高度一致,再也不會出現“同一個人演著演著變成另一個人”的尷尬情況。
其次,記憶驅動后訓練,令速度直接提升7.5 倍團隊創新性地提出記憶驅動后訓練流程,結合SFT、跨模態RLHF和 Distribution Matching Distillation(DMD)技術,不僅大幅提升了生成質量,更實現了顯著的推理加速。
其中,僅DMD一項技術就帶來了約7.5倍的速度提升,讓長視頻生成從“等半天”變成“秒出片”。
第三,加入“導演助理”Director Agent。區別于傳統的“輸入提示詞,一次性出結果”, JoyAI-Echo通過自然語言接收需求后,會自動拆分成劇本、角色、場景和鏡頭;哪里不滿意,直接用對話的方式告訴它修改,只重新生成有問題的局部鏡頭,整條視頻不用重來。
整個工作流包含規劃、生成、評審和局部修訂四個環節,讓長視頻創作從“靜態生成”變成了“動態協作”。
最后,輕量化實時超分,高清輸出不卡頓為了滿足專業內容生產的需求,JoyAI-Echo還配套了專門的實時超分模塊,支持兩檔分辨率提升,通過單步超分就能生成高分辨率視頻和精細化音頻,即使在流式延遲的約束下,也能保持穩定的高清表現。
為客觀評估JoyAI-Echo性能,研究團隊基于100個故事、3000個鏡頭構建了專門的長音視頻生成評測集,從多個維度進行了全面測試。
結果顯示,JoyAI-Echo在跨鏡頭一致性、視頻質量、文本一致性和語音內容準確率等所有核心指標上都取得了領先表現,其中語音內容準確率更是高達 0.8646,大幅領先行業其它同類模型。
在用戶偏好調研中,JoyAI-Echo的優勢更加明顯。用戶認為JoyAI-Echo音頻質量偏好的比例為81.7%,提示詞遵循偏好為80.6%,視覺美學偏好為63.6%,IP一致性偏好為59.4%。
未來,JoyAI-Echo或將為眾多行業帶來全新的可能性,例如虛擬故事創作和動漫制作、數字人內容生產和直播、品牌營銷視頻快速迭代、影視前期預演和分鏡制作、互動教育課件生成、游戲劇情和過場動畫制作等。
目前,JoyAI-Echo的代碼與權重已全部開源。
作者:蘇打
編輯:tuya
出品:財經涂鴉(ID:caijingtuya)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.