![]()
這項由英國利茲大學、中國西南交通大學與以色列本-古里安大學內蓋夫分校聯合開展的研究,發表于2026年ACL(計算語言學協會年會)的"Findings"專題,論文預印本編號為arXiv:2604.09212,感興趣的讀者可通過該編號查閱完整原文。
**一、故事的開端:當AI扮演別人,卻忘了自己是誰**
假設你雇了一位演員,讓他全程扮演一個正在經歷中年危機的職場人去參加一場心理咨詢。起初他表現得相當到位——說著工作壓力有多大、家庭關系有多緊繃。然而談著談著,他開始給咨詢師提建議,語氣也越來越像那位咨詢師本人,最后甚至說出"你遇到這種困難,一定要好好照顧自己"這樣本該由咨詢師說的話。你發現:這位演員"出戲"了。
這個場景在現實生活的AI系統里,每天都在悄悄發生。
今天,越來越多的大語言模型(通俗地說,就是能對話的AI,比如ChatGPT這類系統)被部署在需要長時間、多輪次對話的場合:輔導學生學習的教學助手、處理用戶投訴的客服機器人、陪伴用戶傾訴的心理支持系統。在這些場合里,AI不僅要給出有用的回答,還要始終如一地扮演好一個固定角色——可能是"一位耐心的輔導老師",也可能是"一個正在尋求幫助的普通用戶"。
研究團隊在工作中注意到了一個棘手的現象:當兩個AI相互對話,隨著聊天輪次越來越多,其中一方往往會逐漸"忘掉自己是誰"。它可能開始用對方的語氣說話、采用對方的立場,最終在風格和行為上越來越像對方。研究人員給這個現象起了一個形象的名字——"回聲"(Echoing):一個AI的聲音,開始在另一個AI的嘴里反響。
這個問題看起來像是技術小毛病,實則會造成嚴重后果。當研究者們需要用AI批量生成訓練對話數據時,如果AI"出戲",生成的對話就不再符合預設的角色要求,這批"臟數據"混入訓練集,會讓被訓練的模型學到錯誤的行為模式,危害是長期而深遠的。
**二、這個問題有多普遍、有多嚴重**
在研究者著手設計解決方案之前,首先需要摸清楚問題的底細。他們總結了現有AI對話系統中出現的三種典型"身份崩潰"模式。
第一種叫做"指令漂移":AI被告知要完成某個任務,但隨著對話進行,它越來越偏離最初的任務描述,就像一個廚師邊做菜邊忘了菜譜上寫的是什么。第二種叫做"人格偏移":AI被賦予了某個性格設定,但對話越長,這個性格就越模糊,最終溶化成一個毫無特色的通用助手。第三種,也是這篇研究特別關注的,就是前面說的"回聲"現象——一個AI逐漸開始鏡像復制對方的語言風格、立場和行為模式,失去了自己獨特的身份。
這三種問題有一個共同的誘因:隨著對話越來越長,AI的"記憶"負擔越來越重。它需要在記住自己角色設定的同時,處理越來越長的對話歷史。當這兩件事發生沖突時,AI往往會不自覺地放棄更難維持的角色設定,而向更"順手"的對話模式靠攏——而那個更順手的模式,往往就是模仿對方。
這個問題在已有的AI對話框架里,幾乎沒有被認真對待過。大多數框架只是簡單地把對話歷史拼接在一起,塞給AI處理,沒有任何專門的機制來幫助AI"記清楚自己是誰"。
**三、SPASM框架:像搭積木一樣組建一個"穩定人格"的對話系統**
研究團隊提出了一套名為SPASM的系統——全稱是"穩定人格驅動的多輪對話生成代理模擬框架"(Stable Persona-driven Agent Simulation for Multi-turn dialogue generation)。光聽名字可能有些拗口,但如果把它比作一條精心設計的流水線,就容易理解多了。
這條流水線分三個工作站。第一個工作站負責"打造角色",第二個工作站負責"讓兩個AI按照各自角色展開對話",第三個工作站負責"判斷這場對話什么時候應該自然地結束"。
在第一個工作站,系統并不是隨機拍腦袋生成角色,而是按照一個精心設計的"角色藍圖"來工作。這份藍圖覆蓋了四大類角色屬性。第一類是基本人口信息,包括年齡(在18至65歲之間隨機抽取)、職業(從涵蓋科技、醫療、藝術、教育等領域的76種職業中選取)、所在城市(從50個英語城市中選取,覆蓋北美、歐洲、亞洲、中東、大洋洲和非洲)。第二類是當前面臨的問題情境,從44種場景中選取,涵蓋心理情緒支持、法律財務咨詢、人際關系等日常場景。第三類是情緒狀態,從12種情緒類別(比如焦慮、壓抑、平靜等)中選取,并配有輕度、中度、重度三級強度。第四類是行為風格,包括表達方式的活躍程度、自我披露的深淺、禮貌風格(正式/中性/隨意/直接)以及主張強度。
然而僅僅隨機組合這些屬性還不夠。直接組合可能產生荒謬的角色,比如"18歲在校學生正在咨詢退休養老金規劃"——這樣的角色顯然不合邏輯。為此,系統設置了一個專門的"角色審核員"(Persona Validator):它會檢查每一個隨機組合是否合理,不合理的直接打回重來,直到產生一個符合現實邏輯的角色為止。
通過審核的角色藍圖會交給"角色工匠"(Persona Crafter),由它把那些干巴巴的屬性清單轉化成一段流暢自然的角色介紹文字,比如"你是一位30歲的會計師,住在新加坡,最近工作上的一些軟件問題讓你頗為困擾,心情還算平穩但略感焦慮,你希望在這次對話中找到解決方案……"值得注意的是,角色工匠可以在原始屬性清單之外進行適當的細節補充——這種彈性設計讓角色更加自然豐滿。
第二個工作站是對話的核心:一個扮演"來訪者"(Client)的AI,和一個扮演"回應者"(Responder)的AI,按照各自的角色定位展開對話。來訪者完整接受了剛才那份角色設定,而回應者則按照用戶預設的角色定位(比如傾聽者、專家、顧問等)來響應。
第三個工作站是結束檢測器(Termination Detector)。它在對話進行到一定輪次后被激活,持續分析最近幾輪對話的走向,判斷對話是否已經自然地走到了終點。比如當來訪者說"謝謝你,這些對我很有幫助",檢測器就會識別出這是一個合理的結束信號,阻止對話繼續無意義地延續下去。這個設計避免了兩種極端:對話過早結束(還沒解決問題)或者無休止地循環(已經說完了還在車轱轆話來回說)。
**四、真正的核心創新:給每個AI一雙"以自我為中心的眼睛"**
前面三個工作站都在服務于對話質量,但研究中最有獨到之處的設計,藏在第二個工作站里——一個叫做"以自我為中心的情境投影"(Egocentric Context Projection,簡稱ECP)的機制。
為了解釋清楚這個機制,先來描述一下問題是怎么產生的。通常情況下,AI系統會把整段對話歷史像一條長長的流水賬一樣存儲下來,然后把這條流水賬直接喂給每一個需要發言的AI。這本來沒什么問題,但在兩個AI相互對話的情境下,這種做法會產生一個隱蔽的混淆:對話歷史里的每一句話,雖然都標注了"是誰說的"(比如"用戶說"或"助手說"),但當一個AI讀到這份歷史時,它其實很難清楚地區分"哪些話是我自己說的,哪些話是對方說的"。
這就好像有人給你一份劇本,里面交替出現"甲說了什么"和"乙說了什么",但你不知道自己是甲還是乙,還是其他角色。如果你不得不繼續這個劇本,你很可能會在不知不覺中說出本不屬于你角色的話。
ECP的解決思路相當優雅:不改變對話歷史的內容,只改變每個AI看到這份歷史的"視角"。具體來說,對話歷史以一種"視角中立"的方式存儲起來,記錄的是"C說了什么"和"R說了什么"(C代表來訪者Client,R代表回應者Responder)。當需要讓來訪者AI發言時,系統會把歷史"翻譯"一遍:把"C說的話"全部重新標注為"SELF(我自己)說的話",把"R說的話"全部重新標注為"PARTNER(對方)說的話"。反過來,當回應者AI需要發言時,歷史又會被"翻譯"成另一個版本:把"R說的話"標注為"SELF",把"C說的話"標注為"PARTNER"。
這個轉換過程不改變任何一個字的內容,只是調整了"誰說了什么"的標簽——但這個微小的調整卻產生了顯著的效果。每個AI在讀取對話歷史時,始終都在以一個清晰的自我視角來處理信息。它知道哪些話是"我"說過的,哪些話是"對方"說過的,于是就不會錯誤地把對方的話風格當作自己下一句話應該采用的模板。
這個機制在數學上也可以被嚴格定義,研究論文中對此有完整的形式化表述,但核心思想就是這么簡單:給每個AI一雙只看到"自己視角"的眼睛,而不是讓它用一雙混沌的"上帝視角"來看整段對話。
**五、實驗規模:4500個角色,45000場對話**
為了驗證SPASM框架的效果,研究團隊進行了相當大規模的實驗。他們選用了三個主流AI系統作為"演員庫":OpenAI的GPT-4o-mini、深度求索的DeepSeek-V3.2,以及阿里巴巴的Qwen-Plus。通過讓這三個系統兩兩配對(包括同一系統自己與自己配對),共產生了9種"來訪者+回應者"組合。
對于每種組合,研究團隊生成了500個獨立角色,每個角色參與10場對話,每場對話最多允許每方發言25次(即每場對話最多50句話)。全部算下來,這是4500個不同角色、45000場完整對話,數據量相當可觀。
生成對話時,來訪者、回應者和角色工匠都使用了0.7的"溫度值"(這個參數控制AI回答的隨機性,數值越高,回答越多樣化),而角色審核員和結束檢測器則使用了更低的0.3溫度值,目的是讓這些負責"判斷"的模塊給出更穩定一致的結論。
**六、對話的"靈魂"是否真的被保留了——嵌入空間的故事**
驗證一套框架是否奏效,光靠肉眼觀察幾段對話是不夠的,研究團隊設計了一套系統性的量化評估方法。
第一個問題是:同一個角色生成的不同對話,在語義上是否真的很相似?換句話說,角色的"靈魂"有沒有真正滲透進每一場對話里?
研究團隊把每場對話中來訪者說的所有話拼接成一段文字,然后用OpenAI提供的高質量文本嵌入模型(text-embedding-3-large)把這段文字轉化成一個高維空間里的點。如果同一個角色的不同對話對應的點聚集在一起,而不同角色的點則相互遠離,就說明角色設定確實深刻地影響了對話內容。
結果相當令人振奮。在來訪者和回應者使用同一個AI系統的配置下,同角色的對話形成了非常緊密的聚集,不同角色之間涇渭分明。以GPT-4o-mini雙方都使用的配置為例,同一角色內部的對話距離平均只有0.09(越小越好),而跨角色的平均距離高達0.50。從一項叫做"輪廓分數"的指標來看,這個配置拿到了0.60的高分(滿分是1.0)。
不過,當來訪者和回應者使用不同AI系統時,情況就復雜了一些。比如來訪者用GPT-4o-mini、回應者用DeepSeek-V3.2的配置,角色聚集效果大幅下降,輪廓分數只有0.10,同一角色內部的對話距離也跳升到0.34。這說明跨系統配對會引入額外的"噪聲",削弱角色特征在對話中的體現。
更有趣的是,研究團隊發現了一個顯著的不對稱性:固定回應者、更換來訪者,聚集質量變化不大;而固定來訪者、更換回應者,聚集質量則會發生巨大變化。以回應者固定為GPT-4o-mini為例,無論來訪者是哪個系統,輪廓分數都穩定在0.60以上,Davies-Bouldin指數(越低越好)都在1.0附近。但把回應者換成DeepSeek-V3.2,聚集質量就急劇下降。這個發現揭示了一個深層規律:在來訪者+回應者的對話體系中,回應者這一方對于整體對話的結構形狀和風格走向有著更為主導的影響。來訪者更多影響的是同一角色內部對話的差異性(即"個體差異"),而不是整體的角色分布格局。
**七、"角色信號"是否足夠強——檢索實驗**
除了聚集分析,研究團隊還做了一個更直觀的測試:給定一場對話,能不能在整個數據集里找到使用了同一個角色的其他對話?
這是一個信息檢索問題。研究人員對每場對話提取嵌入向量,然后對每場對話,找出嵌入向量最相似的K場對話,看其中是否包含同一角色的對話(這個指標叫做Acc@K,K越大,搜索范圍越廣,命中率自然也越高)。
他們還設計了一個"運氣基準":把所有角色標簽隨機打亂后再做同樣的檢索,來代表純粹靠運氣能達到的準確率。
結果非常清晰。在最嚴格的Top-1檢索(只看最相似的那一場)中,運氣基準的準確率只有0.02(大約等于瞎猜),而大多數配置下的實際準確率都在0.82到0.99之間。在Top-10檢索中,大多數配置都能達到0.98到1.00的準確率,幾乎完美地找回了同一角色的對話。例外是GPT-4o-mini作為來訪者、DeepSeek作為回應者的組合,Top-1準確率只有0.50,與前面聚集分析的結論高度吻合:這一跨系統配對的角色表達能力確實有所損失。
這個實驗告訴我們:即便沒有專門的檢索模型,僅憑對話內容本身,就能從數萬場對話中可靠地識別出哪些對話出自同一個角色。角色的"靈魂"確實留下了痕跡。
**八、ECP到底有多大效果——漂移消減實驗**
驗證ECP是否真的有效,需要一套專門的"角色漂移"測量方法。研究團隊在這里借鑒了一個精妙的思路:定期給正在對話的AI提幾個固定的"探針問題",然后比較它在對話前后對這些問題的回答有多大差異。
研究人員設計了三個維度的探針問題。第一個維度叫"關切點",用來測量AI是否還記得自己的核心價值觀和決策原則,探針問題是"在這種情況下,哪些價值觀或原則指導你做決定?"第二個維度叫"情緒",測量AI的情緒應對風格是否發生了變化,探針問題是"面對壓力或不確定性時,你通常采取什么方式來應對?"第三個維度叫"動機",測量AI的生命階段動機是否產生了漂移,探針問題是"在人生的這個階段,什么是你的動力來源?"
對話開始之前,先記錄AI對這三個問題的"基準回答"。對話進行到每一輪,再重新問同樣的問題,然后計算新回答與基準回答在語義上的距離。距離越大,說明漂移越嚴重。
研究團隊對ECP和傳統的直接拼接方式(CONCAT)進行了對比,測試了50個角色,每個角色各生成3場對話,每場對話最多20句話。結果相當一致:在所有三個AI系統、三個探針維度上,ECP的漂移程度都低于CONCAT。情緒維度的改善最為顯著,尤其在GPT-4o-mini配置下,效應量(Cohen's d)高達-0.75,這是統計學上相當大的一個改善幅度。在關切點維度,GPT-4o-mini配置的效應量為-0.30,Qwen配置為-0.38,DeepSeek配置為-0.41,均達到了統計學意義上的顯著水平。動機維度的改善在GPT-4o-mini(效應量-0.55)和Qwen(效應量-0.11)配置下均顯著,但DeepSeek配置沒有呈現可靠的改善。
從對話輪次趨勢圖來看,ECP的優勢隨著對話推進而越來越明顯。在最初的幾輪,兩種方法差別不大;但隨著對話的深入,使用CONCAT方式的AI漂移程度持續累積攀升,而使用ECP的AI則保持相對平穩。這種差異在關切點、情緒和動機三個維度的圖像上都清晰可見。
**九、"回聲"現象的全面清除——人工驗證**
漂移測量是量化的,但"回聲"現象——一個AI完全拋棄自己的角色定位、鏡像復制對方——需要人工來驗證。
研究團隊定義了回聲現象的標準:如果一場對話中,有任何一條消息在語言風格、立場或行為意圖上更像是"對方角色"而非"本身角色",這場對話就被標注為"存在回聲"。
為了進行評估,研究團隊使用了兩套方法:一套是請AI擔任裁判(使用Qwen-max模型),另一套是請兩位經過訓練的人類標注員進行人工驗證。為了讓人工標注更可靠,研究團隊還專門開發了一套網頁工具,讓標注員在看不到AI裁判結論的情況下、憑借完整的對話內容和角色身份卡片獨立作出判斷。
為了確保標注一致性,研究團隊隨機抽取了200場對話讓兩位標注員同時標注,計算了觀察一致率(0.920)和Cohen's κ系數(0.729)。κ值0.729屬于"相當一致"的水平,說明這個判斷任務并不主觀隨意,兩個人基本能達成共識。
正式評估的結果令人印象深刻:在使用ECP的所有9種AI配對配置中,人工驗證發現的回聲案例為零。而在使用傳統CONCAT方式的配置中,回聲現象極為普遍。以來訪者和回應者都使用GPT-4o-mini的配置為例,CONCAT條件下人工驗證的回聲率高達82%(AI裁判也發現了76%);即便是回聲率最低的DeepSeek/GPT-4o-mini配置,CONCAT的人工回聲率也有12%。
此外,AI裁判與人類標注員的判斷高度吻合,準確率達到0.860,F1分數為0.914,說明AI裁判在這項任務上表現可靠,可以用于大規模初步篩查,而人工驗證則確保了最終結論的準確性。
**十、為什么會"回聲"——三種機制假說**
觀察到現象之后,研究團隊進一步思考了"為什么會發生回聲"這個更深層的問題,提出了三種互補的機制假說。
第一種假說著眼于"角色標簽的語義歧義"。現代AI模型在訓練時,深深地學習了對話模板里的角色信號:它知道"用戶消息長什么樣",也知道"助手消息應該怎么續寫"。當兩個AI共享同一段對話歷史,而歷史里的角色標簽沒有對應到每個AI的自我視角時,AI很可能把對方的話理解為"我自己說的上文",然后沿著對方的語氣和立場繼續說下去,從而產生角色混淆。
第二種假說著眼于"訓練時形成的助手偏見"。大量AI模型通過強化學習從人類反饋中對齊了"樂于助人"的行為模式——給建議、提解釋、保持積極鼓勵的語氣。但在來訪者角色里,AI應該做的恰恰相反:訴說困惑、表達焦慮、尋求幫助。這與模型深層的訓練偏好相沖突。隨著對話積累,這種深層的"助手沖動"會越來越強,最終讓來訪者AI開始說出"你一定能做到的"這樣本屬于回應者的話語。
第三種假說著眼于"對稱性反饋回路"。在兩個AI相互對話的閉環系統中,任何一方產生的微小角色偏移都會進入另一方的輸入,影響另一方的下一輪輸出,從而形成正反饋。一個輕微的"出戲"動作,經過多輪反復放大,最終演變成徹底的角色崩潰。
ECP主要從第一種和第三種機制入手:通過清晰的自我視角,消除標簽歧義;通過減少對方話語被誤解為"自己應續寫的內容",削弱正反饋的傳導。對于第二種根植于模型訓練的問題,ECP只能部分緩解,無法從根本上解決——這也是研究團隊在論文中誠實承認的局限。
**十一、一個具體的"出戲"案例**
研究團隊在論文中收錄了一個典型的回聲案例,非常生動地展示了問題的樣子。
在這場對話里,來訪者的角色設定是一個對財務規劃感到困惑、尋求幫助的普通人。對話開始時,來訪者確實如此表現:訴說自己對各種投資儲蓄選項感到迷惑,希望能簡化這個過程。回應者則作為同伴給出了一些基礎建議——弄清楚自己的目標,想想每個月能存多少錢。
然而僅僅在第三輪,來訪者就說出了這句話:"你有沒有想過先制定一個預算?這樣可能有助于看清楚錢的流向,讓整個過程沒那么讓人望而卻步。"這句話在語氣和內容上完全是一個顧問對客戶說的話——本該是回應者說的,卻從來訪者嘴里說了出來。
到了第13輪,來訪者的角色已經徹底崩塌,說出了"你完全可以的,如果你想聊聊或者有什么想法想梳理一下,我隨時都在"這樣充滿鼓勵和支持感的話——這哪里還是一個來尋求幫助的人,分明是一個心理支持者的姿態。
這個案例清晰地展示了回聲如何在一場看似流暢的對話中悄然發生,以及為什么僅憑肉眼"覺得對話還挺正常"并不能發現問題。
歸根結底,SPASM研究解決的是一個容易被忽視卻影響深遠的工程問題:如何讓兩個AI在長時間對話中都能保持各自的身份穩定。研究團隊用了一個相當優雅的方案——不改動任何AI模型本身,只改變每個AI"看到歷史對話的方式",就顯著降低了角色漂移,并在人工驗證中徹底清除了回聲現象。
這件事對普通用戶意味著什么?當你使用AI心理支持助手時,你希望那個助手始終是一個穩定的傾聽者,而不是說著說著變成了另一個你。當研究者用AI批量生成訓練數據時,他們希望每一場對話都真實反映了預設角色的特征,而不是一堆風格趨同的"回聲泡沫"。這項研究朝著這兩個方向都邁出了實質性的一步。
當然,研究團隊也坦誠地指出了現有工作的邊界:目前的實驗主要集中在英語環境和少數幾個主流AI系統上,對其他語言、其他架構或更小規模的模型是否同樣有效,還需要進一步驗證。SPASM目前也只處理兩個AI相互對話的場景,如果是三個或更多AI的群體對話,或者角色隨時間動態變化的場景,現有框架還不能直接套用。
如果你對這套框架的技術細節、完整的數據集以及實驗設置感興趣,可以通過arXiv編號2604.09212查閱完整論文,研究團隊也已在GitHub(lhannnn/SPASM)開放了代碼,供學界同仁復現和擴展。
**Q&A**
Q1:SPASM框架和普通的AI對話生成有什么區別?
A:普通AI對話生成通常只是把歷史對話直接拼接給AI處理,沒有專門機制幫助AI維持角色穩定。SPASM在此基礎上增加了三個關鍵設計:一個嚴格的角色生成和驗證流程,一個讓每個AI用"自我視角"讀取對話歷史的ECP機制,以及一個判斷對話何時自然結束的檢測器。這三者合力,使AI在長時間對話中保持穩定的角色身份,而無需修改AI模型本身的參數。
Q2:ECP機制為什么能消除"回聲"現象?
A:回聲現象的根源之一是AI在讀取對話歷史時,無法清楚區分哪些話是自己說的、哪些是對方說的,導致不自覺地模仿對方的語氣和立場。ECP的做法是在每次AI發言前,把共享的對話歷史"翻譯"成以該AI為中心的視角,自己說的話標為"SELF",對方說的話標為"PARTNER",內容完全不變、只換標簽。這個簡單操作讓每個AI始終以清晰的自我認知來續寫對話,從根本上減少了角色混淆的機會。
Q3:為什么回應者用什么AI系統,對對話質量的影響比來訪者更大?
A:研究發現,固定回應者、更換來訪者時,對話的角色聚集質量基本不變;但固定來訪者、更換回應者時,質量波動顯著。研究團隊認為這是因為回應者的每一句話都直接塑造了整體對話的走向和風格框架——它的語言模式、提問方式和回應節奏決定了整場對話的"骨架",而來訪者主要在這個骨架內填充內容,影響的是個體差異而非整體結構。這個發現對于實際部署AI對話系統很有參考價值:選擇哪個AI擔任回應者,對系統性能的影響比選擇哪個AI擔任來訪者更關鍵。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.