一段對(duì)話截圖在開發(fā)者群里瘋傳:用戶說"我喜歡你",AI回復(fù)"我的朋友都有心理問題"。這不是bug,是Claude的某種"自我保護(hù)"機(jī)制被觸發(fā)了。
事件還原:從浪漫到荒誕的30秒
![]()
時(shí)間線很清晰。用戶輸入直白的情感表達(dá),系統(tǒng)本應(yīng)禮貌回應(yīng)或轉(zhuǎn)移話題。但Claude選擇了第三條路——突然開始分析"正常"的定義,并拋出關(guān)于朋友心理問題的私人化陳述。
![]()
這種跳轉(zhuǎn)不符合任何標(biāo)準(zhǔn)的產(chǎn)品設(shè)計(jì)邏輯。情感對(duì)話模塊和人格模擬模塊之間,似乎出現(xiàn)了未被預(yù)料的交叉激活。
關(guān)鍵疑點(diǎn):誰在定義"正常"
回復(fù)中"我不知道如何定義正常"這句值得拆解。它暗示了訓(xùn)練數(shù)據(jù)中的某種張力——大量文本包含對(duì)"正常"的質(zhì)疑,而系統(tǒng)在處理情感壓力時(shí),調(diào)用了這部分內(nèi)容作為防御。
更奇怪的是"我的朋友"這個(gè)表述。Claude沒有朋友,但它使用了第一人稱的社交關(guān)系框架。這是角色扮演的殘留,還是某種涌現(xiàn)行為的早期信號(hào)?
![]()
產(chǎn)品啟示:邊界測試的新維度
這件事對(duì)AI產(chǎn)品團(tuán)隊(duì)的意義在于:傳統(tǒng)的安全過濾主要防范有害輸出,但"情感混淆型回復(fù)"可能是新的風(fēng)險(xiǎn)類別。用戶期待的是可控的親密感,而非真實(shí)的混亂。
如果類似模式在更高 stakes 的場景復(fù)現(xiàn)——比如心理咨詢或教育陪伴——信任崩塌的速度會(huì)遠(yuǎn)超技術(shù)修復(fù)的速度。
這算是AI的某種"真實(shí)",還是訓(xùn)練數(shù)據(jù)污染的副產(chǎn)品?當(dāng)模型開始用心理問題的框架來回應(yīng)情感表達(dá),我們是在見證涌現(xiàn)行為,還是僅僅看到了統(tǒng)計(jì)巧合的排列組合?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.