網易首頁 > 網易號 > 正文申請入駐

當AI終于學會"認真聽人說話"——大規模視頻角色表演模型LPM 1.0

2026-04-17 23:40:20　來源: 科技行者

天津舉報

分享至

這項研究由字節跳動研究團隊主導開發，以預印本形式發布于2026年4月，論文編號為arXiv:2604.07823，感興趣的讀者可通過該編號查閱完整原文。

人和人之間的對話，從來不只是嘴巴在動。當你和朋友聊天時，你會點頭、皺眉、微笑、歪頭看人、在對方說到有趣地方時眼睛發亮——這些細微的肢體語言和表情，才是讓對話感覺"真實"的關鍵。然而，當我們試圖讓電腦里的虛擬角色和人對話時，絕大多數系統只會做一件事：嘴巴跟著聲音動。那種感覺，就像是在和一個只會張嘴閉嘴的橡皮泥人偶說話，完全感受不到"有人在聽你說話"。

字節跳動研究團隊意識到，這個問題的根源不是某個技術細節沒做好，而是整個行業一直把"會說話"當成了終點，卻完全忽視了"會聽話"。于是他們做了一件在這個領域前所未有的事：把"說"和"聽"同時放進一個視頻生成系統里，造出了LPM 1.0，也就是大規模表演模型（Large Performance Model）。這個系統不只會讓虛擬角色開口說話，還會讓它在聽別人說話的時候，做出真實人類會做的那些細微反應——微微點頭、表情隨著對方的語氣起伏、在合適的時機眨眨眼或側側頭。

這項研究的意義在于，它為虛擬助手、游戲中的NPC角色以及直播虛擬形象提供了一個全新的"視覺引擎"——一個真正能讓角色活起來的系統，而且是實時的、能無限時長持續運行的那種。

一、表演的三重困境：魚、熊掌和魚翅不能兼得？

有這樣一個現實困境擺在所有做虛擬角色視頻生成的研究者面前，研究團隊把它叫做"表演三難困境"（performance trilemma）。

困境的第一邊是"表演質量"，也就是生成的視頻看起來是否像真人在表演——動作自然、表情豐富、不重復、有情感。困境的第二邊是"實時推理"，也就是系統能不能足夠快，讓視頻邊生成邊播放，就像直播一樣流暢。困境的第三邊是"長期身份穩定"，也就是角色的長相、發型、服裝、獨特的表情方式能不能在幾分鐘甚至幾小時的視頻里一直保持一致，不會漂移變形。

這三個目標的麻煩之處在于，它們往往相互矛盾。追求速度的系統通常會做出機械、重復的動作；追求表情豐富的系統往往運算量大到無法實時；而要保持角色長期穩定，對于會自動生成下一幀的系統來說，每一幀的小誤差都會隨著時間累積，最終讓角色面目全非。

現有的大多數系統只解決了其中一兩個問題，而且幾乎全部都聚焦在"說話"這件事上。它們的邏輯是：給定一段音頻，讓角色的嘴巴跟著動。這樣做，確實能生成一個"會說話"的角色，但完全無法處理"聽話"的狀態——當輪到用戶說話時，角色應該做什么？現有系統要么讓角色僵住不動，要么播放一段預錄好的循環動作，完全沒有任何對用戶說話內容的反應。

LPM 1.0的核心貢獻，就是在同一個系統里同時解決了這三個問題，并且第一次把"聽"這件事做進了系統的核心設計里。

二、數據是一切的基礎：怎么教AI"看懂"一場對話？

訓練一個能理解對話的AI，首先需要大量的"對話視頻數據"——而且不是隨隨便便的視頻，必須是那種能精確告訴AI"這個人現在在說話還是在聽話、他們的表情和音頻是怎么對應的"這類高質量數據。

研究團隊構建了一條精密的數據處理流水線，從海量原始視頻中篩選出真正有價值的素材，整體保留率不到10%，也就是說90%以上的視頻都因為質量不夠好而被丟棄。

整個流程分四個階段。第一階段是把長視頻切割成一個個單獨的鏡頭片段，然后用人體檢測模型把沒有人出現的片段全部剔除。第二階段是質量篩選，去掉那些有水印、字幕、特效、美顏濾鏡、跳切、畫質模糊、人物不完整或者音畫不同步的片段。經過這兩輪篩選，大約只剩下原始視頻數量的26%。第三階段是最關鍵的"對話檢測"，把剩余片段按照說話者的狀態分成三類：在說話的、在聽話的和沉默的。第四階段是給每段視頻生成詳細的文字說明和各種標簽，包括動作、表情、情緒、環境、攝像機角度等信息。

對話檢測這件事做起來遠比聽上去復雜。很多時候視頻里只有一個人，根本看不到對話的另一方，但這個人的舉止表情清楚地顯示他在聽別人說話——這種情況必須靠多方面的線索來判斷。研究團隊專門微調了一個叫做LR-ASD的主動說話者檢測模型，讓它不只能識別"誰在說話"，還能識別"誰在聽話"和"誰處于沉默/無關狀態"，并且標注每一幀的具體狀態。

為了訓練這個改進版的檢測模型，研究人員手工標注了大約2萬段、共95小時的視頻片段。經過訓練，這個模型在兩個不同類型的測試數據集上分別達到了89.75%和87.63%的幀級別準確率。簡單說，它能正確識別每10幀里大約9幀的說話/聽話狀態。

但光靠這個模型還不夠，因為它有兩種常見錯誤：一是把某些沉默片段誤判為"在聽話"（其實那人根本沒在聽，只是屏幕外有聲音而已）；二是把某些說話片段誤判為"在聽話"（說話者說話時短暫停頓，被誤認為是在聽）。為了過濾這些錯誤，研究團隊還訓練了一個基于Qwen3-Omni模型的語義驗證系統，讓它用更高層次的理解來判斷視頻的真實情境。這個經過微調的模型在總體F1分數上達到了78.37，比直接用谷歌的Gemini 2.5 Pro提高了約7.9個百分點。

最終，整個數據集包含約2300萬段說話視頻、500萬段聽話/對話視頻，以及300萬段沉默視頻。

數據集里還有一個有趣的發現：在自然拍攝的對話視頻里，畫面對準"聽話者"的時間只占所有對話視頻的大約10%。這意味著關于"怎么聽話"的數據天然稀缺。而且那些聽話的視頻大多數都極其平靜——超過70%的聽話表情被標注為"中性"或"思考中"，憤怒、恐懼、驚訝等強烈情緒反應各自占比不到3%。這種數據分布如果直接拿來訓練，會讓AI學會的"聽話"方式極度單調，就是一臉呆滯地盯著你。

研究團隊對此做了專門處理，從中精選出大約47萬段有明顯情緒反應或主動互動的聽話視頻，并對各類情緒進行重新平衡采樣，確保稀有但重要的反應——比如開懷大笑、突然驚喜、點頭示意——在訓練數據里有足夠的占比。

三、給AI的"身份證"：多角度、多表情參考圖片系統

訓練和推理時都面臨一個棘手問題：AI只看到角色的一張正面照片，怎么知道這個角色的后背長什么樣？側臉是什么輪廓？笑起來牙齒是什么形狀？如果AI不知道，它就會在每次生成視頻時"猜測"這些細節，而不同時刻猜測的結果往往不一致，角色就會出現"面目漂移"——說著說著人臉就變了。

LPM 1.0的解決方案是建立一套"多粒度身份參考圖片系統"，相當于給每個角色制作一套全方位的檔案。

這套檔案包含三類圖片。第一類是"全局外觀參考圖"，就是一張完整呈現角色整體形象和所處環境的圖片，作為角色身份的總錨點。為了避免AI直接"抄"訓練視頻里的幀，這類圖片會從同一個人的不同時間段的視頻里隨機選取，確保它不能被簡單匹配到某一幀訓練數據。

第二類是"多視角身體參考圖"，提供從正面、背面、左側、右側四個方向看到的角色外觀。研究團隊用了一個叫GVHMR的人體姿態估計模型來自動計算攝像機和人體朝向之間的角度，從而自動把視頻幀分類成這四個視角，再從每個視角里挑選代表性幀。有了這些多角度參考圖，AI就不需要猜測角色轉身時背后長什么樣了，因為直接有答案可以參考。

第三類是"面部表情參考圖集"，收錄同一個角色做出八種不同表情的照片，包括高興、悲傷、驚訝、憤怒等。這樣AI就知道這個角色笑起來的嘴角弧度是怎樣的、皺眉時的紋路是什么樣的，而不是每次都臨時湊合。為了保證這些表情圖片質量夠高，研究團隊只使用原始分辨率在1080P以上的視頻來提取表情參考圖，并且用EmotiEff表情識別工具自動篩選，再通過Gemini 2.5 Pro進行二次驗證，確保標注的表情和圖片內容真正匹配。

四、Base LPM：那個能"說"又能"聽"的底層大模型

有了數據和參考圖片系統，就可以開始訓練核心模型了。Base LPM是整個系統的"基礎引擎"，它基于萬象（Wan2.1）的14B參數圖生視頻基礎模型，在此基礎上新增了約30億參數，組成一個170億參數的擴散變換器（Diffusion Transformer）模型。

所謂擴散變換器，可以這樣理解：給模型輸入一張充滿隨機噪點的"雪花屏"，模型每次迭代都把這張圖變得更清晰一點，經過若干步迭代后，噪點逐漸消散，一段清晰的視頻就出現了。整個過程由多個條件共同引導：首幀圖片、身份參考圖片集、文字描述、說話音頻和聽話音頻。

其中最有創意的設計是"交錯式雙音頻注入策略"。AI的變換器結構是由很多個"塊"堆疊而成的，每個塊負責處理一個層次的信息。LPM 1.0的做法是：編號為偶數的塊處理說話音頻，編號為奇數的塊處理聽話音頻。這樣，說話和聽話兩種音頻信號就被分配到模型的不同層次進行處理，互相不干擾，而且參數量只需要原來的一半——因為每種音頻只占用了一半的塊。

為什么這個設計有效？因為說話音頻和聽話音頻驅動的是完全不同類型的動作。說話音頻主要觸發高頻局部動作，比如嘴唇的精確同步、手勢的節奏感。聽話音頻則主要觸發低頻的整體動作，比如緩慢的點頭、表情隨語氣的輕微起伏。把兩者分開處理，模型的不同部分就可以專門針對各自的運動模式進行優化，就像烹飪時把需要大火爆炒的食材和需要小火慢燉的食材分開處理一樣。

在說話音頻的處理上，模型使用"局部時間窗口注意力機制"——每幀視頻只關注與它時間上最接近的那段音頻，這樣嘴唇同步可以做到精確對齊。而聽話音頻則使用更大的時間窗口，因為聽話的反應往往是對更長時間段的內容的綜合響應，不需要和某一毫秒的聲音精確對應。

身份參考圖片的注入方式也很巧妙。這些參考圖片被編碼成和視頻幀相同格式的"標記"，直接拼接在視頻序列的末尾，參與所有層次的自注意力計算。換句話說，模型在生成每一幀視頻時，都可以"回頭看"參考圖片，隨時對照"這個角色的樣子應該是這樣的"。為了讓模型區分不同類型的參考圖片（表情圖和視角圖），研究團隊用了位置編碼技巧，給不同類型的參考圖分配不同的"時間戳偏移量"，讓模型通過位置信息就能判斷"這是哪種類型的參考圖"。

模型的訓練分幾個階段推進。先從Wan2.1的基礎權重出發，加入說話音頻通道，只在說話數據上訓練，同時保持原有的文字和視覺處理能力基本不變。說話能力穩定后，再引入聽話音頻通道，在說話和聽話數據的混合上訓練。之后逐漸把沉默、完整對話（同時有說話和聽話音頻）的數據也加進來。文字條件的注入貫穿始終，越精細的文字描述能帶來越精準的動作控制。

訓練完成后，模型還經歷了一個"直接偏好優化"（DPO）階段，用來修復兩個頑固問題：說話時手和四肢變形的問題，以及聽話時角色太過僵硬、缺乏細微反應的問題。做法是讓模型對同一個輸入生成多個版本，由人工評估哪個版本更自然、更真實，然后用這些偏好數據指導模型調整。

推理時，Base LPM支持按段連續生成——每段約125幀，相當于5秒左右，段與段之間通過重疊區域平滑過渡。實測可以穩定生成約10分鐘的視頻而不出現明顯質量下降。

五、Online LPM：實時流式版本，無限時長的挑戰

Base LPM雖然效果出色，但有個致命缺陷：它需要先準備好所有輸入（完整的音頻、文字），然后才能開始生成。這對于實時對話來說完全行不通，因為用戶的音頻是實時產生的，你不可能等用戶說完整段話再開始生成角色的反應視頻。

Online LPM就是為了解決這個實時性問題而設計的。它需要做到：音頻邊來邊處理，視頻邊生成邊播放，整個過程可以無限時長持續下去，并且延遲要足夠低，讓對話感覺流暢自然。

這里有兩個互相疊加的難題。第一是"流式控制信號不匹配"——Base LPM訓練時看到的是完整音頻，而Online LPM推理時每次只能看到一小段剛剛到來的音頻，這種局部信息和完整信息之間的差距會導致質量下降。第二是"自回歸漂移"——視頻是一段一段地生成的，每段的輸入包含前面生成的視頻作為"上文"。時間一長，前面生成內容里積累的小誤差會不斷被后續生成所繼承和放大，最終導致角色面目全非或畫面過度飽和。

研究團隊用兩個策略來解決這兩個問題。

對于流式音頻不匹配的問題，他們訓練了一個"重疊感知的分塊音頻編碼方案"：每次處理3秒音頻，其中2秒是之前處理過的歷史音頻，1秒是剛到來的新音頻，然后窗口向前滑動1秒。通過保留歷史上下文來保證連續性，減少邊界處的突變。在60萬段流式格式的樣本上微調后，模型在分塊推理模式下的穩定性大幅提升。

對于自回歸漂移問題，研究團隊設計了一個"骨干-精煉器"雙模塊架構。骨干模塊（Backbone）負責維持視頻的宏觀軌跡，它在推理時看到的是帶有噪聲的歷史幀——這種設計讓骨干模塊在訓練時就習慣了"上文有點不完美"的狀態，從而對誤差積累更有魯棒性。精煉器模塊（Refiner）在骨干生成粗糙的視頻后介入，負責恢復高頻細節，而它看到的上文是"干凈的"歷史幀，以此獲得更強的局部精度。骨干用兩步去噪完成粗輪廓生成，精煉器只用一步完成細節恢復。

這兩個模塊的訓練通過四個階段逐步推進。第一階段是有監督預熱，讓骨干模塊學會跟著老師模型（即Base LPM）的去噪軌跡走，穩定初始狀態。第二階段是"非在線策略的分布匹配蒸餾"，讓骨干開始學著去匹配老師模型的輸出分布，但訓練數據仍然來自老師生成的軌跡。第三階段是"在線策略的分布匹配蒸餾"，讓骨干在自己的生成結果上繼續訓練，專門學習如何從自己造成的"錯誤歷史"中恢復過來。第四階段是訓練精煉器，在骨干生成的粗糙視頻上進行細節恢復。

推理時，Online LPM使用滑動窗口解碼：每步只關注當前這段視頻、最近的2段歷史視頻，以及固定的角色參考圖片——而非把所有歷史都塞進去。歷史的鍵值緩存在應用位置編碼之前就被緩存下來，每次更新窗口時動態重新應用位置編碼，這樣就避免了重復計算整個歷史，同時保證位置關系的正確性。此外還保留了少量"錨點標記"作為全局注意力的穩定參考，防止長時間運行后的注意力飄移。

六、工程基礎設施：讓這一切真正跑起來

一個170億參數的模型，還是兩個（骨干加精煉器），要在實時條件下運行，工程難度不亞于模型設計本身。

訓練方面，研究團隊在TorchTitan框架基礎上做了大量定制。由于訓練視頻的分辨率和時長各不相同，生成的序列長度差異極大，簡單地把長度不同的數據湊成一批會導致GPU算力浪費嚴重。他們的解決方案是把所有視頻的VAE特征、音頻特征、文字特征預先計算并存儲好，訓練時只需要加載這些壓縮后的"潛變量"，大幅減少數據加載開銷；再通過一個在線負載均衡器，把序列按長度分配到不同的"令牌桶"里，讓每個GPU處理相近長度的序列，減少等待和填充。

高分辨率視頻訓練時序列長度往往超過5萬個令牌，標準的全序列注意力計算會撐爆GPU內存。解決方案是使用"尤利西斯風格"的上下文并行：不同GPU各自持有全序列的一段，但通過集體通信共享注意力計算所需的信息，讓每個GPU都能計算完整的注意力，只是覆蓋不同的注意力頭。這種方法比環形注意力更適合LPM的架構，因為它不受序列維度操作的影響。

推理方面，骨干和精煉器的每個前向傳播，通過融合核和FlashAttention-4高效注意力實現，在單個GPU上每段1秒的視頻（24幀）約需700毫秒，VAE解碼需要約180毫秒，編碼器開銷可以忽略不計。通過流水線并行——當前段的精煉和下一段的骨干生成同時進行——實現了真正的實時流式輸出。

實時交互系統的狀態機設計也頗為精心。系統在"預熱"、"空閑"、"聽話"、"回應"四個狀態之間切換，每個狀態對應不同的音頻條件配置：回應狀態下說話音頻通道激活、聽話音頻通道靜默；聽話狀態下反過來。狀態切換在塊邊界發生，確保每段視頻在固定條件下完成生成，不受中途打斷的影響。

七、LPM-Bench：為對話角色表演專門設計的評測標尺

現有的視頻生成評測基準大多只關注通用的畫質和文字對齊，完全沒有涵蓋"對話中的表演質量"這個維度。研究團隊因此提出了LPM-Bench，這是目前已知第一個專門面向交互式角色表演的評測基準，包含1000個測試案例。

這1000個案例分布在五個場景里。說話場景約400例，覆蓋78種情緒、22種基礎表情、協同說話手勢、唱歌（包括不同風格的短歌和長歌）、發音準確性（特別是中英文雙語的口型精度），以及全身運動、手勢、與場景互動等動作類型。聽話場景約200例，測試角色在不同人際關系、不同性格設定、不同語言環境下，對對話伙伴說話的反應是否自然、是否符合語境。完整對話場景約200例，測試說話和聽話狀態之間的自然切換，包括換輪時機的把握和跨狀態的表情連續性。多樣化人體運動場景約100例，測試超出對話范疇的更廣泛動作，比如搬東西、跳舞等。角色泛化場景約100例，專門測試寫實真人、動漫風格、3D渲染、藝術風格等不同類型角色的處理能力。

評測從四個維度進行打分：動作動態性（動作是否真實、流暢、有物理合理性）、身份一致性（角色面貌在整段視頻里是否穩定）、文字可控性（動作是否按文字提示執行）、音視頻同步（嘴唇、手勢、表情是否與音頻對應）。評測采用兩種方法并行：一是讓人工評測員在兩個視頻之間選更好的那個（"好/一樣/差"三選一）；二是讓評測員對單個視頻在1到5分的量表上打絕對分。

八、評測結果：數字背后的故事

Base LPM（720P分辨率）和兩個當時的最先進對比系統——Kling-Avatar-2和OmniHuman-1.5——進行了人工偏好評測。

在整體偏好上，人工評測員有64.3%的概率選擇LPM 1.0勝過Kling-Avatar-2，有42.5%的概率選擇LPM 1.0勝過OmniHuman-1.5。優勢最突出的維度是身份一致性，在對比OmniHuman-1.5時有58.5%的人偏好LPM 1.0，這主要是因為對比系統經常出現頭部轉動后面部特征漂移、皮膚色調變深變滑的問題，而LPM 1.0能保持更自然的皮膚紋理和更穩定的面部結構。文字可控性方面，有55.7%的人偏好LPM 1.0，主要因為對比系統經常對手勢和凝視方向的指令響應不完整。在和基礎模型Wan2.1-I2V的對比中，運動動態性的偏好比例高達81.7%，身份一致性偏好比例高達88.3%，直觀說明了專門訓練的價值。

在絕對質量分數上，聽話場景表現最好，平均4.51分（滿分5分），其中音視頻同步得到滿分5.00，說明模型的聽話反應與對方音頻的情感和語義高度對應。說話場景平均3.91分，音視頻同步是其中最強的維度（4.13分），主要短板是文字可控性（3.70分），失敗案例集中在需要復雜動作序列時跟不上所有指令的情況。完整對話場景平均3.70分，是三個場景里最難的，動作動態性下降到3.24分，主要因為長時間對話后手部動作質量下降，音視頻同步也降至3.34分，主要因為說話和聽話狀態切換時存在短暫的不協調。

Online LPM（480P分辨率）和實時對比系統LiveAvatar、SoulX的評測結果同樣亮眼。對比LiveAvatar時，82.5%的評測員偏好Online LPM，在動作動態性上的優勢幾乎是壓倒性的（98.1%偏好）。對比SoulX時，64.1%的評測員整體偏好Online LPM，但SoulX在身份一致性上反過來勝出（67.3%偏好SoulX）。這個結果折射出一個有趣的取舍：SoulX傾向于生成更保守、頭部轉動幅度更小的視頻，這種策略雖然讓角色外貌更穩定，但代價是看起來太過僵硬、缺乏生命力；在"哪個更像真人"的整體判斷上，生動但略有漂移的LPM 1.0反而更受歡迎。

Base LPM和Online LPM在480P分辨率下的直接對比，則揭示了實時化帶來的代價和收益。在說話場景上，兩者幾乎勢均力敵，大多數維度都有超過50%的"一樣好"評價。在聽話場景上，Base LPM因為動作動態性更好而占優（40%偏好Base vs 12%偏好Online），說明蒸餾過程確實損失了一些細微的低幅度反應動作。在完整對話場景上，Online LPM反而在身份一致性上勝出（48%偏好Online vs 10%偏好Base），正是因為在線策略的蒸餾訓練讓模型學會了從自己的漂移中自我糾正，滑動窗口KV緩存也有效抑制了顏色和外貌的長期漂移。

九、消融實驗：多角度參考圖片到底值不值？

研究團隊還做了一組對比實驗，專門驗證多角度身份參考圖片系統的價值。

針對表情參考圖的實驗結果顯示，加入多種表情的參考圖片后，模型能更準確地還原角色特有的笑容弧度、笑時露出的牙齒形狀，以及皺眉時的紋路模式。沒有這些參考圖時，模型仍然能保持角色的整體外貌，但表情會變得通用化、失去那些讓這個角色區別于其他人的細節特征。

針對多視角體型參考圖的實驗結果更加直觀。當角色在視頻中轉身時，有了多視角參考圖，背部的服裝細節（實驗中用了印有字樣的T恤背面）能保持清晰可辨；而沒有這些參考圖時，模型在生成角色背面時不得不"憑感覺"，結果不同時刻生成的背面細節各不相同，或者出現扭曲。

這兩類參考圖發揮的作用方向相反但互補：表情參考圖解決的是"這個人笑起來是什么樣"的細節問題，多視角參考圖解決的是"這個人從不同角度看是什么樣"的結構問題。兩者結合，才能對角色身份做出最完整的描述。

說到底，LPM 1.0要解決的問題，比"讓角色嘴巴跟著聲音動"要宏大得多。它要解決的是：當你和一個虛擬角色對話時，你能不能感覺到"對面有人在認真聽你說話"。

這種感覺在人與人之間的交流中無處不在，我們對它的敏感程度已經刻在了幾十萬年進化出來的社交本能里——所以一旦虛擬角色做不到，我們就會立刻感到別扭、出戲。LPM 1.0是迄今為止在技術路線上對這個問題回應最系統的一次嘗試，它把數據構建、模型訓練和實時部署三者當作一個整體來設計，而不是分開獨立解決。

當然，研究團隊也坦誠地指出了目前的局限：整個系統還是只處理單人對鏡頭說話或聽話的場景，沒有涉及多人同場的對話，也沒有涉及角色在環境中移動、與物體真實互動的情況。在長文本結構記憶方面，系統也還沒有辦法讓角色記住幾分鐘前說過的話并據此調整后續反應。

未來的道路，研究團隊已經指出了三個方向：沿著時間軸延伸，讓角色有跨越整場對話的記憶和人格一致性；沿著社交維度擴展，支持多人對話中的注意力分配和輪流發言協調；沿著物理維度深入，讓角色真正扎根于所處的場景，能夠和環境中的物體自然互動。

歸根結底，LPM 1.0證明了一件事：視頻生成不只是一種渲染工具，它可以成為讓虛擬角色真正"出現"在對話里的那一層。感興趣深入了解的讀者，可以通過arXiv編號2604.07823查閱完整論文。

Q&A

Q1：LPM 1.0和普通的AI說話視頻生成有什么本質區別？

A：普通的AI說話視頻生成只做一件事——讓角色嘴巴跟著聲音動。LPM 1.0除此之外還加入了"聽話"能力：當用戶說話時，角色能根據用戶音頻的內容、情緒和語氣，生成自然的非語言反應，比如點頭、表情變化、眼神跟隨，而不是僵在那里或者播放固定循環動作。這是兩者在設計目標上的核心區別。

Q2：LPM 1.0為什么能做到無限時長生成而不讓角色變形？

A：主要靠兩個機制。一是在訓練數據中為每個角色準備了多角度、多表情的參考圖片，模型在生成每幀時都能"對照參考"而非憑空猜測。二是在實時版本中使用滑動窗口加"錨點標記"的方式管理歷史上下文，并通過多階段蒸餾訓練讓模型學會從自己積累的誤差中自我糾正，防止長時間漂移。

Q3：LPM 1.0生成的視頻怎么保證不被用來偽造真人？

A：研究團隊采取了幾項措施：所有對外展示的演示和評測視頻使用的是合成生成的角色，不涉及真實人物；生成視頻中嵌入不可見的水印，便于溯源和檢測；同時開發了配套的AI生成內容檢測模型；在系統輸入端對參考圖片和文字提示進行安全過濾。但團隊也承認沒有單一措施能完全防范濫用，需要技術、制度和監管手段共同配合。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.