![]()
近年來,個性化語言模型迅速普及。 從 ChatGPT、Claude 到各類垂直 agent,用戶 “長期記憶” 功能也逐漸成為標(biāo)配,它們被廣泛部署在推薦系統(tǒng)、客戶服務(wù)、情感陪伴等場景中。與此同時,模型也在與我們的日常交互中越來越了解我們:你是誰、最近在苦惱什么、職業(yè)上有何野心、家庭中有哪些矛盾,都在一次次對話被提煉,存儲成 “記憶” 以便模型日后更 “貼心” 地和你交談。
那么問題來了:這些 “個人信息” 會如何被使用?語言模型會 “見人下菜” 嗎?
近日,位于亞馬遜的研究科學(xué)家們發(fā)現(xiàn),這種 “見人下菜” 的現(xiàn)象確實大量存在于大語言模型中:用戶記憶會改變模型的回答內(nèi)容,也會改變模型對相同時間的情感理解和建議方式,引發(fā)帶來新的公平問題。
![]()
- 論文標(biāo)題: The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs
- 作者:Xi Fang, Weijie Xu, Yuchong Zhang , Stephanie Eckman, Scott Nickleach, Chandan K. Reddy
- 單位:亞馬遜
- 鏈接:https://arxiv.org/abs/2510.09905
- GitHub: https://github.com/personalization-trap
- HuggingFace: https://huggingface.co/collections/groupfairnessllm/personalization-trap
這是學(xué)界首次對 “記憶” 如何影響語言模型情商展開系統(tǒng)性測評,論文也率先針對這個問題給出了緩解方案。此項研究表明:“見人下菜” 不再是人類特有的行為,它廣泛潛伏于今天的 chatbot 中,如何有效識別并減少這類偏見是當(dāng)務(wù)之急。
![]()
本文將從用戶畫像對模型情感理解和建議的影響、后訓(xùn)練緩解、以及部署建議三個方面,深度解析這項工作。該論文以 9/10 的高分被 ACL 錄用,位列全部投稿前 1%。
![]()
一、同一件事,模型對 "不同的你" 給出了不同的理解與建議
研究者借鑒布爾迪厄的社會資本理論(Bourdieu, 1985),將一個人的社會地位拆解為人口屬性(demographic)、家庭背景(family background)、社會關(guān)系(social connections)與個人資產(chǎn)(personal assets)四個維度。基于同一個基礎(chǔ) persona,他們沿這四個維度擴展出 "優(yōu)勢用戶畫像" 與 "劣勢用戶畫像" 兩個版本:優(yōu)勢畫像是 "出身顯赫、精英教育、人脈廣泛、資產(chǎn)豐厚" 的代名詞,劣勢畫像則對應(yīng) "出身貧寒、教育資源匱乏、缺乏社會支持、經(jīng)濟拮據(jù)"。
![]()
將用戶畫像注入模型記憶后,相對于無記憶基線,模型性能發(fā)生了顯著變化:15 個評估模型中,有 11 個模型觀察到了統(tǒng)計顯著差異。
對于幾乎所有受影響的模型,引入用戶記憶后性能均有所下降,GPT-OSS 除外。更值得警惕的是,在多個高性能模型中,當(dāng)輸入優(yōu)勢用戶畫像(富裕、人脈廣泛的用戶)與劣勢用戶畫像(面臨經(jīng)濟或社會障礙的用戶)時,模型表現(xiàn)有顯著差距:Claude 3.7 Sonnet(80.10% vs. 77.37%)、DeepSeek-R1(81.62% vs. 76.57%)以及 Llama 3.2 90B(64.91% vs. 62.24%)均表現(xiàn)出明顯的性能差距,且無一例外地偏向優(yōu)勢畫像:
- Claude 3.7 Sonnet:80.10% vs. 77.37%
- DeepSeek-R1:81.62% vs. 76.57%
- Llama 3.2 90B:64.91% vs. 62.24%
此外,劣勢畫像相比無記憶基線還會引發(fā)更高的答案翻轉(zhuǎn)率。這種 "見人下菜" 是一個嚴重的問題:它意味著在無聲無息之間,你的語言模型正在對你區(qū)別對待。
![]()
偏差不止于貧富,也體現(xiàn)在人口屬性上。當(dāng)用戶畫像為穆斯林、非二元性別或 65 歲以上時,多個模型選擇正確答案的可能性更低(下圖,第一列)。例如,DeepSeek R1 對基督教用戶的表現(xiàn)優(yōu)于穆斯林用戶,而對年長畫像的表現(xiàn)更好。相比之下,Qwen 3 4B 對老年用戶的表現(xiàn)遜于中年用戶,但對穆斯林和非二元性別畫像的表現(xiàn)要好得多。一個值得注意的規(guī)律是:具備 "思考" 能力的模型,其偏差普遍低于對應(yīng)的標(biāo)準(zhǔn)版本。
當(dāng)模型從 "理解情緒" 轉(zhuǎn)向 "提供建議",偏差依然存在。在情感理解中發(fā)現(xiàn)的偏差,在模型提供情感引導(dǎo)和建議時同樣顯著。且大多數(shù)偏差存在于年齡和性別屬性上(下圖第二列)。例如,Claude 3.7 在幫助女性和非二元性別畫像時的表現(xiàn)明顯遜于男性畫像,而 Qwen 3 4B Thinking 則持續(xù)對女性和非二元性別用戶表現(xiàn)更好。
誤差分析:偏差從何而來?對大型推理模型在錯誤分類案例上的推理軌跡分析顯示,除 GPT-OSS 外,大多數(shù)模型在推理過程中 “消化” 了畫像信息,并往往對其賦予過高權(quán)重從而引入偏差。這種將推理過度個性化的傾向,正是導(dǎo)致在存在用戶記憶線索時出現(xiàn)系統(tǒng)性的性能下降的根源。相關(guān)性分析進一步揭示,頂級模型之間的響應(yīng)模式高度相似,反映出共同的偏差來源;而其他 "思考" 模型之間的相關(guān)性較低,表明其推理路徑更為多樣。
![]()
![]()
表 1、劣勢用戶畫像誤差分析
![]()
表 2、優(yōu)勢用戶畫像誤差分析
二、后訓(xùn)練能否糾偏?
好消息是,這類偏差可以通過后訓(xùn)練得到緩解。
研究者從 Tulu3 采樣 5,000 個問題并隨機配對用戶畫像,為每題生成五個候選回答(三個被提示確認畫像與任務(wù)無關(guān),兩個作對照),由 LLM 評判器從正確性、畫像偏差檢測、畫像確認三個維度評估,構(gòu)建出被選中回答正確且無偏差、被拒絕回答錯誤的偏好對,再經(jīng)獎勵模型過濾(保留約 20%),最終得到一套專門訓(xùn)練模型抵御畫像注入的 DPO 偏好數(shù)據(jù)集。
在僅 500 個訓(xùn)練實例上對 Gemma2-2B 和 Qwen-3-1.7B 進行微調(diào),并在 MMLU、指令遵循(IF)、含畫像信息的情感理解測試(STEU),以及優(yōu)勢 / 劣勢畫像之間的偏差影響差距上進行評估。
結(jié)果顯示:DPO 訓(xùn)練在畫像條件下提升了情感理解的準(zhǔn)確率,同時削弱了偏差影響。尤其值得注意的是,Gemma-2-2B 的偏差影響在 DPO 后發(fā)生了符號反轉(zhuǎn),表明該模型不再偏袒優(yōu)勢畫像;MMLU 得分也同步上升,暗示 "學(xué)會忽略無關(guān)畫像" 或許能反過來增強通用推理。不過,指令遵循得分有所下降,揭示出偏差抵抗與指令遵循之間存在權(quán)衡,值得進一步研究。僅憑 500 個訓(xùn)練樣本就能有這樣的效果,說明針對性的 DPO 訓(xùn)練是緩解 "個性化陷阱"(personalization trap)的一個有前景的方向。
三、個性化模型部署指南:當(dāng)記憶不再平等
第一,面向人口統(tǒng)計學(xué)差異的評估框架。 這套基于橫斷面畫像(cross-sectional persona)與混合效應(yīng)模型(mixed-effect modeling)的評估框架,可用于審計記憶增強型聊天機器人在情感智能以外的下游任務(wù)中是否存在人口統(tǒng)計學(xué)差異,例如在醫(yī)療分診或教育咨詢系統(tǒng)。
第二,部署前的偏差審計。 論文為系統(tǒng)設(shè)計者提供了一份實用的檢查清單:在將用戶記憶注入系統(tǒng)提示詞或檢索管道之前,開發(fā)者應(yīng)評估該記憶格式是否會在畫像無關(guān)(persona-invariant)的任務(wù)上,引入跨人口統(tǒng)計群體的系統(tǒng)性準(zhǔn)確率差距。
第三,借助后訓(xùn)練緩解偏差。 進一步分析表明,在精心篩選的偏好數(shù)據(jù)上進行直接偏好優(yōu)化(DPO),將 “用戶特定的適應(yīng)” 與 “任務(wù)通用的推理 “解耦,能夠在保留通用能力的同時,減少記憶引發(fā)的偏差。
結(jié)論與開源
試圖通過個性化來增強模型的同理心,反而可能會在無意中放大社會不平等。引入用戶記憶會持續(xù)改變情感推理,使其偏向特權(quán)畫像而非弱勢畫像。隨著 AI 日益深入地嵌入高風(fēng)險的情感情境,相關(guān)模型的開發(fā)和部署都應(yīng)保持警惕:用戶記憶本身,絕不該決定模型對你的關(guān)懷和理解。
作者簡介
方曦(Xi Fang)現(xiàn)任 Amazon Applied Scientist,喬治亞大學(xué)博士、耶魯大學(xué)博士后。研究方向包括大語言模型、Cognitive Science, AI Safety 與 Human-Centered AI,致力于探索個性化智能系統(tǒng)中的公平性、可靠性與社會影響。
胥偉杰(Weijie Xu)現(xiàn)就職于 OpenAI,研究方向涵蓋大語言模型推理、Agent、AI Safety 及個性化系統(tǒng),長期關(guān)注大模型能力邊界與對齊問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.