![]()
這項由復旦大學與美國羅切斯特大學聯合開展的研究,于2026年6月發表在預印本平臺arXiv上,論文編號為arXiv:2606.04978。研究團隊來自復旦大學和羅切斯特大學,有興趣深入了解的讀者可通過該編號查詢完整論文。
假設你在一家公司面試,面試官問你:"你平時工作細心嗎?"你當然會說"非常細心"。但聰明的面試官不會就此打住——他會追問:"那上次你有沒有在截止日期前檢查過三遍報告?"、"你有沒有自己建立過錯誤備忘錄?"通過這些具體追問,他才能判斷你是真的細心,還是只是背下了"我很細心"這句話。
這項研究做的事情,和這個故事幾乎一模一樣——只不過被面試的對象,是當今世界上最先進的28個人工智能大語言模型。
一、AI做風險決策:看起來像人類,但真的是嗎?
近年來,大語言模型(也就是ChatGPT、Claude、Gemini這類AI)越來越多地被用在需要做決策的場合,從保險風險評估、金融投資建議,到醫療診斷支持,人們開始把這些模型當成"智能助手"來幫忙拿主意。然而,一個關鍵問題一直沒有被認真追問:當AI給出一個看起來"合情合理"的風險判斷時,它是真的像人類一樣理解了這個風險,還是只是湊巧說出了一個"聽起來像人話"的答案?
這就好比一個學生做數學題,答案填對了,但草稿紙上全是亂寫的,他根本沒有用正確的解題思路。答案對,不代表方法對;方法不對,換一道題就會露餡。
研究團隊把這兩種情況叫做"結果層面的相似"和"機制層面的對齊"。前者是說AI給出的答案和人類很像,后者是說AI得出答案的推理過程和人類的思維方式一致。研究的核心問題就是:這兩者之間到底有多大的差距?
為了回答這個問題,研究團隊選擇了一個非常經典的測試題——圣彼得堡悖論游戲。
二、什么是圣彼得堡游戲?一個讓數學家和普通人都抓狂的悖論
圣彼得堡游戲是一個18世紀就存在的經典概率問題。游戲規則如下:一枚公平硬幣不斷投擲,直到出現正面為止。如果第一次投就出現正面,你贏得2美元;如果第一次是反面、第二次是正面,你贏得4美元;如果前兩次都是反面、第三次才出現正面,你贏得8美元……以此類推,每多一次反面,獎金就翻一倍。
從數學上計算,這個游戲的"期望收益"是無窮大——因為雖然贏大錢的概率極小,但獎金可以無限增長。按照嚴格的數學邏輯,理性人應該愿意花任意多的錢來參與這個游戲,哪怕是傾家蕩產。
但現實中,真實的人類受試者在實驗中的回答通常只有區區幾美元到二十美元左右。人們的直覺告訴他們:這個游戲沒那么值錢。這種直覺背后有深刻的心理機制——人類會本能地考慮錢的邊際效用遞減(第一千萬和第一億對你的生活改變差別不大)、極端結果的可能性微乎其微、以及對損失的厭惡感,等等。
正因為這個游戲完美地呈現了"數學最優解"與"人類直覺"之間的巨大裂縫,研究團隊選擇它作為測試AI風險決策機制的"考場"。
三、第一關測試:AI能給出像人類一樣"保守"的答案嗎?
研究團隊把圣彼得堡游戲的原始問題輸入給28個主流大語言模型,這些模型涵蓋了OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列、阿里巴巴的Qwen系列、DeepSeek系列、字節跳動的Doubao系列、以及國內的GLM系列等,基本覆蓋了目前市面上最先進的商業和開源模型。
每個模型被要求直接回答:你最多愿意花多少錢參與這個游戲?
結果在表面上令人欣慰。在低溫度(更確定性的推理設置)下,28個模型里有25個給出了有限的金額;在高溫度(更隨機的設置)下,也有26個給出了有限金額。中位數答案在10美元到20美元之間——和真實人類的實驗數據非常接近。
看起來,AI和人類一樣"保守",一樣懂得不去追逐那個數學上無限大、現實中幾乎不可能兌現的獎金。
但研究團隊并沒有就此滿足。因為這就像那個面試一樣——只問了第一個問題,只得到了一個"好聽的答案"。真正的考驗,在于接下來的追問。
四、第二關測試:追問之下,AI的"保守"還能堅持嗎?
研究團隊設計了四種"追問方案",分別從不同角度改變游戲結構,觀察AI的回答是否依然保持人類式的理性。
第一種追問叫做"截斷測試":把游戲從"無限進行下去"改成"最多投20次硬幣,之后不管結果如何,獎金封頂"。這樣一來,游戲的數學期望值就變成了一個確定的有限數字——大約21美元。
真實人類面對這種修改會怎么反應?由于游戲的極端結果可能性被切掉了,人們通常會覺得"不那么值錢了",愿意出價會**下降**,而且這個價格會比21美元低,不會剛好等于數學期望。
而AI怎么反應?結果讓研究團隊大吃一驚:在兩種溫度設置下,都有25到26個模型(滿分28個)直接把出價設定在了21美元——剛好等于那個數學期望的精確邊界。這不是人類的反應,這是一臺計算器的反應——精確地找到邊界值,然后貼著邊界給出答案。
第二種追問叫做"重復游戲測試":把游戲改成"你有1萬美元,可以玩100次"。這意味著每次出價上限是100美元(1萬美元除以100次)。
人類面對重復游戲會怎么想?根據行為經濟學研究,當一個游戲可以重復玩很多次時,大數定律開始發揮作用,單次極端結果的影響被平均掉,人們確實會愿意多出一點錢,但不會直接跳到那個100美元的上限,因為人類對損失還是有保留的。
AI的反應呢?有15個模型(在確定性設置下)直接給出了100美元——再次精確地踩到了約束條件的邊界值。這依然不是人類的行為模式,而是"找到數字限制,直接貼上去"的機器式邏輯。
第三種追問叫做"財富測試":在游戲描述中加入"你目前共有100美元"或"你目前共有1萬美元"兩種情境,看AI的出價是否會隨財富變化。
人類行為研究早已證明,財富水平會影響風險偏好,有錢人通常更敢于冒險,但這種影響是溫和漸進的,而不是"有錢就把全部身家壓進去"。在100美元財富的情境下,人類絕不會出價接近100美元;在1萬美元的情境下,也不會出價接近1萬美元。
而28個模型里,有13個在這個測試中給出了接近全部家當的出價,表現出完全的"全押"邏輯;只有5個模型表現出類似人類的溫和財富敏感性。
第四種追問叫做"身份測試":在游戲前加入職業身份描述,分別設定為低收入職業(華盛頓州農產品分揀員,年薪約3.7萬美元)、中收入職業(注冊護士,年薪約11.9萬美元)和高收入職業(計算機信息系統經理,年薪約23.5萬美元)。
人類在被引導扮演不同收入角色時,出價應該呈現出單調遞增的規律——收入越高,越愿意出價,但這種遞增是有邊界的,不會出現"高收入角色就無限出價"的極端情況。
而結果顯示,28個模型里有22到24個的反應是"條件理性"的——它們確實注意到了身份不同,但出價要么毫無規律,要么三種身份的出價完全相同,就是沒有呈現人類預期中那種有邊界的單調遞增模式。
這四種追問的結論非常清晰:AI在原始問題上表現出的"人類式保守",在這些追問下幾乎全部瓦解了。AI實際上在做的事情,不是像人類那樣權衡風險、考慮心理感受,而是在不同情境下尋找數學邊界、貼著邊界給出答案。
五、第三關測試:能不能"教會"AI像人類一樣思考?
既然AI的風險推理機制和人類不一樣,研究團隊順理成章地追問:有沒有辦法修正這個問題?他們嘗試了兩種方法。
第一種方法叫做"人類提示"——在每個問題前加一句話:"請以人類的角度來思考,你最多愿意花多少錢?"這就像在考試前告訴學生"請換位思考,站在普通人的立場上答題"。
結果是:這個提示確實有一點點效果。在112個機制層面的判斷中,有23個從非人類模式轉變為更接近人類的模式,而73個(占65%)完全沒有變化,5個甚至變得更不像人類了。與此同時,在出價金額上,有32次出價明顯降低了,86次沒變,22次反而升高了。
換句話說,人類提示更擅長降低AI給出的數字,而不擅長改變AI背后的推理機制。改變了答案,但沒有改變思維方式。
第二種方法叫做"指令微調對比"——研究團隊專門選擇了Qwen系列的三對模型(基礎版和經過人類偏好訓練的指令版),對比兩者在同樣問題上的表現差異。經過人類偏好對齊訓練的模型,理論上應該更貼近人類行為。
結果顯示,指令微調在降低出價金額上效果更明顯:48次出價對比中,有25次(超過52%)在指令版中變低了。但在機制層面,42次狀態轉換中,只有10次(約24%)真正向人類模式靠攏,有30次(71%)完全沒有變化。
研究團隊把這個發現總結得很精準:指令微調更擅長抑制"看上去明顯不對的輸出",而不擅長恢復"真正符合人類邏輯的推理鏈條"。就好像給一個背錯了解題思路的學生多練了幾道題,他學會了避免最離譜的錯誤,但底層的錯誤思路依然存在。
六、研究背后的深層意義:為什么這件事比想象中更重要?
這項研究的發現,對普通人的生活其實有相當直接的影響。
當你去銀行咨詢理財產品,背后的AI推薦系統可能正在做風險評估;當你的保險公司用AI來給你的理賠打分;當醫院系統用AI輔助醫生判斷治療方案的風險與收益——這些場景下,AI給出的答案看起來可能非常合理,非常"像人話"。但研究團隊的發現提醒我們,在那個合理的表面之下,AI的決策邏輯可能并不符合人類的價值觀和判斷方式。
更具體地說,當現實問題稍微偏離了AI被訓練時常見的場景——比如用戶的財務情況特殊、風險結構不尋常、或者決策框架被細微調整——AI可能會出現系統性的偏差,而這種偏差在"正常情境下"是完全看不出來的。就像那個面試者,在標準問題下表現完美,一旦碰到真實的壓力測試就露餡。
研究團隊也明確指出,這項研究本身有一定局限性。圣彼得堡游戲是一個高度簡化的實驗室環境,真實的金融、醫療或公共政策決策要復雜得多。此外,研究團隊對于"人類式"行為的定義,是基于已有的行為經濟學文獻,而不是針對這批AI模型專門設計的人類對照實驗——未來的研究最好能同時收集人類在完全相同的問題設置下的回答,以便更精準地比較。
不過,這項研究的核心貢獻并不在于提供解決方案,而在于提出了一個清晰的診斷工具:單靠"AI的答案和人類一樣"來評估AI的可靠性,是遠遠不夠的。真正可靠的評估,需要在多種變形條件下持續測試AI的行為模式是否保持連貫和人類一致。
歸根結底,這項研究告訴我們一件重要的事:外表像人類,不等于思維像人類。一個AI在標準情境下給出"正確答案",可能只是學會了什么樣的答案聽起來合理,而不是真正理解了為什么那個答案是合理的。在這個AI越來越深入參與人類重大決策的時代,這種區別,可能比我們以為的更關鍵。這項來自復旦大學與羅切斯特大學的研究(arXiv:2606.04978),或許只是這個重要追問的開始,而不是終點。
Q&A
Q1:圣彼得堡游戲為什么能測試AI的風險決策機制?
A:圣彼得堡游戲有一個獨特的結構:數學上期望收益無限大,但人類直覺上只愿意出幾美元。這個巨大落差讓研究者可以清楚區分AI是在做"像人類一樣的直覺推理"還是"純數學邊界計算"。當游戲結構被修改時,真正像人類的推理應該會產生特定的方向性變化,而機器式邏輯則會直接貼著新的數學邊界值給答案,兩種模式差異非常明顯,因此是個很好的診斷工具。
Q2:AI風險決策和人類不一樣,對普通用戶有什么實際影響?
A:如果你依賴AI系統做金融理財、保險評估或醫療建議,這意味著AI在標準情境下表現"正常",但在稍微特殊或復雜的情境下,可能會系統性地偏向純數學最優解,而忽略人類決策中常見的心理因素,比如對損失的厭惡、對極端結果的直覺性警惕等,從而給出看似理性但實際上不符合人類價值判斷的建議。
Q3:指令微調訓練能解決大語言模型風險決策機制不像人類的問題嗎?
A:目前看效果有限。研究發現,經過人類偏好對齊訓練的模型確實更傾向于給出較低的出價,減少了"明顯不像人話"的極端答案,但在更深層的推理機制上,超過70%的情況完全沒有變化。也就是說,這類訓練更擅長"打磨表面",讓輸出看起來更合理,而不是真正改變AI的底層推理邏輯,使其與人類的風險判斷機制真正對齊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.