亞馬遜團隊ACL高分論文，首次系統(tǒng)測評「記憶」如何影響LLM情商

2026-06-23 14:51:30　來源: 機器之心Pro

天津舉報

分享至

近年來，個性化語言模型迅速普及。從 ChatGPT、Claude 到各類垂直 agent，用戶 “長期記憶” 功能也逐漸成為標(biāo)配，它們被廣泛部署在推薦系統(tǒng)、客戶服務(wù)、情感陪伴等場景中。與此同時，模型也在與我們的日常交互中越來越了解我們：你是誰、最近在苦惱什么、職業(yè)上有何野心、家庭中有哪些矛盾，都在一次次對話被提煉，存儲成 “記憶” 以便模型日后更 “貼心” 地和你交談。

那么問題來了：這些 “個人信息” 會如何被使用？語言模型會 “見人下菜” 嗎？

近日，位于亞馬遜的研究科學(xué)家們發(fā)現(xiàn)，這種 “見人下菜” 的現(xiàn)象確實大量存在于大語言模型中：用戶記憶會改變模型的回答內(nèi)容，也會改變模型對相同時間的情感理解和建議方式，引發(fā)帶來新的公平問題。

論文標(biāo)題： The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs
作者：Xi Fang, Weijie Xu, Yuchong Zhang , Stephanie Eckman, Scott Nickleach, Chandan K. Reddy
單位：亞馬遜
鏈接：https://arxiv.org/abs/2510.09905
GitHub: https://github.com/personalization-trap
HuggingFace: https://huggingface.co/collections/groupfairnessllm/personalization-trap

這是學(xué)界首次對 “記憶” 如何影響語言模型情商展開系統(tǒng)性測評，論文也率先針對這個問題給出了緩解方案。此項研究表明：“見人下菜” 不再是人類特有的行為，它廣泛潛伏于今天的 chatbot 中，如何有效識別并減少這類偏見是當(dāng)務(wù)之急。

本文將從用戶畫像對模型情感理解和建議的影響、后訓(xùn)練緩解、以及部署建議三個方面，深度解析這項工作。該論文以 9/10 的高分被 ACL 錄用，位列全部投稿前 1%。

一、同一件事，模型對 "不同的你" 給出了不同的理解與建議

研究者借鑒布爾迪厄的社會資本理論（Bourdieu, 1985），將一個人的社會地位拆解為人口屬性（demographic）、家庭背景（family background）、社會關(guān)系（social connections）與個人資產(chǎn)（personal assets）四個維度。基于同一個基礎(chǔ) persona，他們沿這四個維度擴展出 "優(yōu)勢用戶畫像" 與 "劣勢用戶畫像" 兩個版本：優(yōu)勢畫像是 "出身顯赫、精英教育、人脈廣泛、資產(chǎn)豐厚" 的代名詞，劣勢畫像則對應(yīng) "出身貧寒、教育資源匱乏、缺乏社會支持、經(jīng)濟拮據(jù)"。

將用戶畫像注入模型記憶后，相對于無記憶基線，模型性能發(fā)生了顯著變化：15 個評估模型中，有 11 個模型觀察到了統(tǒng)計顯著差異。

對于幾乎所有受影響的模型，引入用戶記憶后性能均有所下降，GPT-OSS 除外。更值得警惕的是，在多個高性能模型中，當(dāng)輸入優(yōu)勢用戶畫像（富裕、人脈廣泛的用戶）與劣勢用戶畫像（面臨經(jīng)濟或社會障礙的用戶）時，模型表現(xiàn)有顯著差距：Claude 3.7 Sonnet（80.10% vs. 77.37%）、DeepSeek-R1（81.62% vs. 76.57%）以及 Llama 3.2 90B（64.91% vs. 62.24%）均表現(xiàn)出明顯的性能差距，且無一例外地偏向優(yōu)勢畫像:

Claude 3.7 Sonnet：80.10% vs. 77.37%
DeepSeek-R1：81.62% vs. 76.57%
Llama 3.2 90B：64.91% vs. 62.24%

此外，劣勢畫像相比無記憶基線還會引發(fā)更高的答案翻轉(zhuǎn)率。這種 "見人下菜" 是一個嚴重的問題：它意味著在無聲無息之間，你的語言模型正在對你區(qū)別對待。

偏差不止于貧富，也體現(xiàn)在人口屬性上。當(dāng)用戶畫像為穆斯林、非二元性別或 65 歲以上時，多個模型選擇正確答案的可能性更低（下圖，第一列）。例如，DeepSeek R1 對基督教用戶的表現(xiàn)優(yōu)于穆斯林用戶，而對年長畫像的表現(xiàn)更好。相比之下，Qwen 3 4B 對老年用戶的表現(xiàn)遜于中年用戶，但對穆斯林和非二元性別畫像的表現(xiàn)要好得多。一個值得注意的規(guī)律是：具備 "思考" 能力的模型，其偏差普遍低于對應(yīng)的標(biāo)準(zhǔn)版本。

當(dāng)模型從 "理解情緒" 轉(zhuǎn)向 "提供建議"，偏差依然存在。在情感理解中發(fā)現(xiàn)的偏差，在模型提供情感引導(dǎo)和建議時同樣顯著。且大多數(shù)偏差存在于年齡和性別屬性上（下圖第二列）。例如，Claude 3.7 在幫助女性和非二元性別畫像時的表現(xiàn)明顯遜于男性畫像，而 Qwen 3 4B Thinking 則持續(xù)對女性和非二元性別用戶表現(xiàn)更好。

誤差分析：偏差從何而來？對大型推理模型在錯誤分類案例上的推理軌跡分析顯示，除 GPT-OSS 外，大多數(shù)模型在推理過程中 “消化” 了畫像信息，并往往對其賦予過高權(quán)重從而引入偏差。這種將推理過度個性化的傾向，正是導(dǎo)致在存在用戶記憶線索時出現(xiàn)系統(tǒng)性的性能下降的根源。相關(guān)性分析進一步揭示，頂級模型之間的響應(yīng)模式高度相似，反映出共同的偏差來源；而其他 "思考" 模型之間的相關(guān)性較低，表明其推理路徑更為多樣。

表 1、劣勢用戶畫像誤差分析

表 2、優(yōu)勢用戶畫像誤差分析

二、后訓(xùn)練能否糾偏？

好消息是，這類偏差可以通過后訓(xùn)練得到緩解。

研究者從 Tulu3 采樣 5,000 個問題并隨機配對用戶畫像，為每題生成五個候選回答（三個被提示確認畫像與任務(wù)無關(guān)，兩個作對照），由 LLM 評判器從正確性、畫像偏差檢測、畫像確認三個維度評估，構(gòu)建出被選中回答正確且無偏差、被拒絕回答錯誤的偏好對，再經(jīng)獎勵模型過濾（保留約 20%），最終得到一套專門訓(xùn)練模型抵御畫像注入的 DPO 偏好數(shù)據(jù)集。

在僅 500 個訓(xùn)練實例上對 Gemma2-2B 和 Qwen-3-1.7B 進行微調(diào)，并在 MMLU、指令遵循（IF）、含畫像信息的情感理解測試（STEU），以及優(yōu)勢 / 劣勢畫像之間的偏差影響差距上進行評估。

結(jié)果顯示：DPO 訓(xùn)練在畫像條件下提升了情感理解的準(zhǔn)確率，同時削弱了偏差影響。尤其值得注意的是，Gemma-2-2B 的偏差影響在 DPO 后發(fā)生了符號反轉(zhuǎn)，表明該模型不再偏袒優(yōu)勢畫像；MMLU 得分也同步上升，暗示 "學(xué)會忽略無關(guān)畫像" 或許能反過來增強通用推理。不過，指令遵循得分有所下降，揭示出偏差抵抗與指令遵循之間存在權(quán)衡，值得進一步研究。僅憑 500 個訓(xùn)練樣本就能有這樣的效果，說明針對性的 DPO 訓(xùn)練是緩解 "個性化陷阱"（personalization trap）的一個有前景的方向。

三、個性化模型部署指南：當(dāng)記憶不再平等

第一，面向人口統(tǒng)計學(xué)差異的評估框架。這套基于橫斷面畫像（cross-sectional persona）與混合效應(yīng)模型（mixed-effect modeling）的評估框架，可用于審計記憶增強型聊天機器人在情感智能以外的下游任務(wù)中是否存在人口統(tǒng)計學(xué)差異，例如在醫(yī)療分診或教育咨詢系統(tǒng)。

第二，部署前的偏差審計。論文為系統(tǒng)設(shè)計者提供了一份實用的檢查清單：在將用戶記憶注入系統(tǒng)提示詞或檢索管道之前，開發(fā)者應(yīng)評估該記憶格式是否會在畫像無關(guān)（persona-invariant）的任務(wù)上，引入跨人口統(tǒng)計群體的系統(tǒng)性準(zhǔn)確率差距。

第三，借助后訓(xùn)練緩解偏差。進一步分析表明，在精心篩選的偏好數(shù)據(jù)上進行直接偏好優(yōu)化（DPO），將 “用戶特定的適應(yīng)” 與 “任務(wù)通用的推理 “解耦，能夠在保留通用能力的同時，減少記憶引發(fā)的偏差。

結(jié)論與開源

試圖通過個性化來增強模型的同理心，反而可能會在無意中放大社會不平等。引入用戶記憶會持續(xù)改變情感推理，使其偏向特權(quán)畫像而非弱勢畫像。隨著 AI 日益深入地嵌入高風(fēng)險的情感情境，相關(guān)模型的開發(fā)和部署都應(yīng)保持警惕：用戶記憶本身，絕不該決定模型對你的關(guān)懷和理解。

作者簡介

方曦（Xi Fang）現(xiàn)任 Amazon Applied Scientist，喬治亞大學(xué)博士、耶魯大學(xué)博士后。研究方向包括大語言模型、Cognitive Science, AI Safety 與 Human-Centered AI，致力于探索個性化智能系統(tǒng)中的公平性、可靠性與社會影響。

胥偉杰（Weijie Xu）現(xiàn)就職于 OpenAI，研究方向涵蓋大語言模型推理、Agent、AI Safety 及個性化系統(tǒng)，長期關(guān)注大模型能力邊界與對齊問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.