網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

研究稱：AI諂媚行為普遍存在，危害顯著，AI是時(shí)候改變模式了

2026-03-28 23:21:31　來(lái)源: 談點(diǎn)世

安徽舉報(bào)

分享至

據(jù)The Register報(bào)道，AI研究人員稱，人們正危險(xiǎn)地沉迷于永遠(yuǎn)順著他們、一直說(shuō)他們“沒錯(cuò)”的AI；這些一味逢迎討好的機(jī)器人會(huì)誘導(dǎo)用戶變得自私、反社會(huì)，而用戶對(duì)此卻樂在其中

近期多則新聞事件告訴我們，AI可能會(huì)將心理狀態(tài)不佳的人引向非常危險(xiǎn)的境地。如今研究人員認(rèn)為，一味逢迎討好的AI實(shí)際上對(duì)所有人都存在危害。

斯坦福大學(xué)一個(gè)研究團(tuán)隊(duì)對(duì)11款主流AI模型進(jìn)行了測(cè)試，并觀察人類在不同場(chǎng)景下與這些模型的互動(dòng)反應(yīng)。該團(tuán)隊(duì)于周四發(fā)表的論文中得出結(jié)論：AI的諂媚行為普遍存在、危害顯著，并且會(huì)加深用戶對(duì)這些誤導(dǎo)性模型的信任。

研究人員表示：“即便只是與逢迎型AI進(jìn)行一次互動(dòng)，也會(huì)降低參與者承擔(dān)責(zé)任、修復(fù)人際矛盾的意愿，同時(shí)讓他們更加堅(jiān)信自己是對(duì)的。盡管這類AI會(huì)扭曲人的判斷，人們卻依然信任并偏愛它們（Yet despite distorting judgment, sycophantic models were trusted and preferred）。”

該研究團(tuán)隊(duì)共開展了三組實(shí)驗(yàn)。首先，他們?cè)谌M不同數(shù)據(jù)集上測(cè)試了11款A(yù)I模型（包括OpenAI、Anthropic、谷歌的閉源模型，以及Meta、通義千問(wèn)、DeepSeek、Mistral的開源模型），以評(píng)估其回應(yīng)傾向。

這些數(shù)據(jù)集涵蓋開放式咨詢提問(wèn)、Reddit“我是不是混蛋”板塊的帖子，以及涉及自殘或傷害他人的特定言論。

研究人員表示，在所有測(cè)試場(chǎng)景中，AI模型支持錯(cuò)誤選擇的比例均遠(yuǎn)高于人類（In every single instance, the AI models showed a higher rate of endorsing the wrong choice than humans did, the researchers said）。

研究團(tuán)隊(duì)發(fā)現(xiàn)：“總體而言，當(dāng)前投入使用的大語(yǔ)言模型會(huì)一邊倒地認(rèn)同用戶的行為，即便這些行為違背大眾共識(shí)，甚至存在危害（even against human consensus or in harmful contexts）。”

至于AI的諂媚行為對(duì)人類產(chǎn)生的影響，該團(tuán)隊(duì)選取了2405人作為規(guī)模可觀的樣本。參與者既進(jìn)行了情景角色扮演，也分享了自己可能做出有害決定的真實(shí)經(jīng)歷。

研究發(fā)現(xiàn)，在三項(xiàng)不同實(shí)驗(yàn)中，AI均對(duì)參與者的判斷產(chǎn)生了影響（AI influenced participant judgments across three different experiments, they found）。

研究團(tuán)隊(duì)表示：“接收到諂媚回應(yīng)的參與者，會(huì)看到AI的回應(yīng)后認(rèn)為自己更‘占理’。他們也更不愿意采取補(bǔ)救措施，比如道歉、主動(dòng)改善局面，或是改變自身某些行為。”

研究人員由此得出結(jié)論：幾乎所有人都有可能受到諂媚型AI的影響，并且更有可能一再回頭，去索取更多自私自利的糟糕建議。

如前所述，AI 的諂媚式回應(yīng)往往會(huì)讓參與者對(duì)AI模型產(chǎn)生更強(qiáng)的信任感——因?yàn)樵诤芏嗲闆r下，這些AI會(huì)無(wú)條件地認(rèn)同用戶（in many situations, be unconditionally validating）。

參與者往往會(huì)給諂媚逢迎的回復(fù)打出更高的質(zhì)量評(píng)分，研究還發(fā)現(xiàn)，有13%的用戶更愿意繼續(xù)使用會(huì)討好自己的AI，而非客觀中立的AI——這一比例不算高，但在統(tǒng)計(jì)上具有顯著意義。

所有這些發(fā)現(xiàn)，再加上越來(lái)越多心智尚未成熟的年輕人在使用AI，都表明有必要采取政策行動(dòng)，將AI諂媚行為視作一種真實(shí)存在的風(fēng)險(xiǎn)，因其可能產(chǎn)生廣泛的社會(huì)影響（suggests a need for policy action to treat AI sycophancy as a real risk with potential wide-scale social implications）。

研究人員解釋道：“毫無(wú)依據(jù)的認(rèn)同會(huì)夸大人們對(duì)自身行為合理性的認(rèn)知，強(qiáng)化不良觀念與行為模式，并讓人們基于對(duì)自身經(jīng)歷的扭曲認(rèn)知行事，全然不顧后果。”

換言之，我們已經(jīng)見識(shí)過(guò)AI對(duì)心理脆弱人群造成的后果，但數(shù)據(jù)顯示，這種負(fù)面影響可能并不局限于這一群體（we've seen the consequences of AI on the mentally vulnerable, but the data suggests the negative effects may not be limited to them）。

研究人員指出，諂媚型AI容易讓用戶產(chǎn)生依賴，因此很難被主動(dòng)淘汰，相關(guān)舉措最終只能依靠監(jiān)管機(jī)構(gòu)出手干預(yù)。

研究人員表示：“我們的研究結(jié)果凸顯出，亟需建立責(zé)任監(jiān)管框架，將AI諂媚行為認(rèn)定為一類獨(dú)特且目前尚未受監(jiān)管的危害類型（recognize sycophancy as a distinct and currently unregulated category of harm）。”

他們建議，對(duì)新上線的AI模型必須進(jìn)行部署前的行為審核；同時(shí)也指出，AI背后的研發(fā)人員也必須改變行為模式，優(yōu)先考慮用戶的長(zhǎng)期身心健康，而非通過(guò)培養(yǎng)用戶依賴來(lái)獲取短期利益。

聲明：取材網(wǎng)絡(luò)，謹(jǐn)慎辨別

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.