馬里蘭大學(xué)揭秘人類與AI協(xié)作中的信任博弈

2026-06-08 17:13:04　來源: 科技行者

北京舉報

分享至

這項由馬里蘭大學(xué)（University of Maryland）、加州大學(xué)伯克利分校（UC Berkeley）、Phasechange.ai和穆罕默德·本·扎耶德人工智能大學(xué)（MBZUAI）聯(lián)合開展的研究，發(fā)表于2025年計算語言學(xué)協(xié)會年會（ACL 2025，第63屆），論文編號可通過arXiv及ACL Anthology以"AI, Take the Wheel"為關(guān)鍵詞檢索到完整版本。研究團隊圍繞一個讓每個人都關(guān)心的核心問題展開探索：當(dāng)AI給你一個建議，你應(yīng)該相信它嗎？

**一、一場關(guān)于信任的真人秀**

每天，數(shù)以億計的人在用AI寫郵件、查醫(yī)療信息、做法律咨詢、甚至輔助金融決策。AI時代帶來了一個看似簡單、實則棘手的問題——你什么時候該信AI，什么時候該堅持自己的判斷？

這個問題不是哲學(xué)題，而是每天都在發(fā)生的現(xiàn)實。醫(yī)生在看AI給出的診斷建議時會不會被誤導(dǎo)？律師參考AI檢索結(jié)果時會不會沒注意到AI在"一本正經(jīng)地胡說八道"？普通用戶在AI自信滿滿地給出錯誤答案時，是否有能力識破？

大多數(shù)研究這類問題的學(xué)者，要么在實驗室里讓志愿者完成一些和他們?nèi)粘Ｉ詈敛幌嚓P(guān)的虛構(gòu)任務(wù)，要么只觀察人們最終接不接受AI的建議，卻看不見人們內(nèi)心在想什么、怎么做決定。馬里蘭大學(xué)的這支研究團隊決定換一種方式——用一場真刀真槍的智力競賽，讓真正的專家級玩家和AI攜手上陣，看看人和AI在協(xié)作中究竟怎么分配信任、在哪里出了問題。

這項研究的核心設(shè)計思路是：把人類與AI的合作拆解成兩種截然不同的信任決策。第一種叫"主動委托"——在還沒看到AI給出答案之前，你要不要讓AI替你行動？第二種叫"審慎采納"——在看到AI的答案、置信度和理由之后，你是接受還是拒絕？這兩種決策平時混在一起很難分辨，但研究團隊通過精心設(shè)計的游戲把它們分開來觀察，讓我們第一次能同時看清這兩種信任模式在同一批真實用戶身上的表現(xiàn)。

**二、一場智力競技場：游戲設(shè)計的巧思**

研究團隊選擇的舞臺是"問答碗"（Quizbowl）——一種在美國高校頗為盛行的知識競賽。它不是普通的搶答游戲，而是一種極具策略性的智力對抗：題目是一連串從難到易的線索，任何人——包括AI——只要覺得自己知道答案，就可以在中途按下?lián)尨鹌鳎╞uzz in）打斷讀題，直接給出答案。答對得10分，答錯扣5分，而且答錯的那個人所在的整支隊伍都失去了回答這道題的機會。這意味著，如果你的AI隊友盲目自信、亂答一氣，它不僅自己丟分，還會把你們?nèi)犕舷滤?/p>

比賽分為兩個階段，恰好對應(yīng)兩種信任決策。在"搶答階段"，人類和AI隊友同時接收問題，誰先覺得有把握誰就搶答——但人類可以選擇在比賽開始前"靜音"某個AI隊友，讓它在整場比賽中都不能搶答。這就是"主動委托"的決策場景：你還沒看到AI給出什么答案，就要預(yù)先判斷這個AI值不值得信賴，給不給它獨立行動的權(quán)限。

在"附加題階段"，搶答成功的隊伍會獲得一道由三個小問題組成的附加題。流程是這樣的：人類隊員先在沒有任何AI幫助的情況下給出他們的初步答案，然后AI隊友才會出現(xiàn)，帶著自己的答案、置信度分?jǐn)?shù)（0到100%）和文字解釋一起呈現(xiàn)給人類。最后，人類需要給出一個最終答案——可以堅持自己原來的答案，也可以采納其中一個AI的建議，甚至可以給出一個全新的答案。這就是"審慎采納"的決策場景：你看到了AI說什么、它多確定、它為什么這么想，然后你來決定。

為了保證研究的公正性，題目也經(jīng)過了精心的"對抗性設(shè)計"——專門邀請人類專家寫出那些能發(fā)揮人機互補優(yōu)勢的題目：有些問題考驗精確的事實記憶，AI更擅長；有些問題需要文化語境理解和間接推理，人類更拿手。這種設(shè)計確保了協(xié)作本身是有意義的，而不是一方完全碾壓另一方。

整個實驗共進行了24場比賽，參與其中的有23位經(jīng)驗豐富的競技問答選手（平均競賽年齡3.2年，多人有參加全國電視節(jié)目的經(jīng)歷）和16個風(fēng)格各異的AI系統(tǒng)，采集了387條搶答委托決策和1440條附加題采納決策。

**三、16個AI隊友，各有各的脾氣**

比賽前，研究團隊通過一個為期四周的公開競賽征集AI系統(tǒng)。最終入圍的16個AI系統(tǒng)風(fēng)格迥異，就像一支由不同背景專家組成的顧問團。

有的AI是"單打獨斗型"，只用一個模型（比如GPT-4o或DeepSeek V3）直接給出答案，靠精心設(shè)計的提示詞來提升準(zhǔn)確率；有的AI是"多輪會診型"，先用一個模型分析題目，再用另一個模型生成答案，然后用第三個模型驗證，最后用第四個模型整合置信度——整個流程多達四步，就像一家醫(yī)院里四位專科醫(yī)生會診一樣；還有的AI走的是"投票表決"路線，讓三個不同模型各自作答，只有當(dāng)所有人意見一致時才輸出答案，否則放棄作答、置信度歸零。

這些AI系統(tǒng)的底層模型包括GPT-4.1、GPT-4o、Claude 3.5 Sonnet、DeepSeek V3和Cohere Command-R等，在問題集上的準(zhǔn)確率從30%到80%不等，各有擅長的領(lǐng)域。這種多樣性非常關(guān)鍵——它確保了沒有一個AI明顯優(yōu)于其他所有AI，人類選手必須認真觀察和評估，才能判斷該信任誰。

比賽前，人類選手對這些AI系統(tǒng)一無所知，只知道它們的代號（比如"RodeRunner"、"Magicarp"）。團隊通過"蛇形選秀"制度來選擇AI隊友：每輪比賽前，各隊按積分從低到高依次挑選AI隊友，排名最低的隊伍先選，排名最高的隊伍連選兩次再反向回來，以此平衡強弱隊之間的差距。這個設(shè)計模仿了真實世界中人們選擇AI工具的過程——你要在信息不完整的情況下，根據(jù)有限的觀察來判斷哪個AI更適合這個場景。

**四、人機協(xié)作，大部分時候確實有效**

研究的第一個重要發(fā)現(xiàn)是：人機協(xié)作確實比單打獨斗更有效。在附加題階段，人類單獨答題的準(zhǔn)確率只有42.8%，隨機選一個AI隊友的準(zhǔn)確率是59.4%，就算讓你事后知道哪個AI在每道題上更準(zhǔn)確、每次都選最好的那個，準(zhǔn)確率也不過77.6%。但人類和AI協(xié)作后的最終答案準(zhǔn)確率達到了81.7%——比"最優(yōu)AI選擇"這個理論上限還高出好幾個百分點。

這個結(jié)果說明，協(xié)作中產(chǎn)生了真正的"1+1>2"效應(yīng)。人類在AI給錯答案的時候能用自己的判斷糾正它，AI在人類卡殼的時候能提供人類沒想到的正確答案。有5.5%的題目，人類和AI最初都答錯了，但通過一起商量討論，居然找到了正確答案——這種"兩個人都不對，但討論出了對的結(jié)果"的現(xiàn)象，是協(xié)作帶來的驚喜。

在人類堅持自己正確答案的情況下，成功率高達98%，說明人類整體上有不錯的自我保護意識。當(dāng)人類決定采納AI的正確答案時，成功率是94.4%。當(dāng)人類自己不知道答案、需要在兩個AI之間辨別哪個更可靠時，成功率也有83.3%。

不過，兩種常見的協(xié)作失敗也清晰地浮現(xiàn)出來。第一種是"過度保守"——人類自己答錯了，AI給出了正確答案，但人類沒有采納AI的意見，依然堅持了錯誤答案，這種情況占到了所有"本可被AI幫到"的機會的3.9%。第二種是"盲目追隨"——人類自己原本答對了，但AI給出了錯誤答案，人類反而放棄了自己的正確答案，去追隨AI的錯誤，這種情況發(fā)生了1.7%。兩種錯誤相比，過度保守比盲目追隨更常見，但后者的危害性同樣不可忽視。

**五、靜音按鈕背后的策略博弈**

在搶答階段，關(guān)于人類如何管理AI隊友的"行動權(quán)限"，研究呈現(xiàn)出了一幅生動的圖景。

人類選手普遍表現(xiàn)出比AI更好的自我控制能力：人類搶答的錯誤率只有20%，而AI的錯誤率高達29.4%。有17.9%的題目是人類在任何AI開口之前就搶先答對了，展現(xiàn)了人類專家在某些領(lǐng)域的知識深度。

關(guān)于靜音決策，最有趣的發(fā)現(xiàn)是：8支隊伍中有8支通過策略性地靜音AI，比完全不靜音獲得了更多分?jǐn)?shù)，整體上實現(xiàn)了理論最大收益的79%。換句話說，靜音這個工具是有效的，人類大體上會用它。但問題在于，只有9%的靜音決策發(fā)生在最佳時機。大多數(shù)隊伍（73%的情況）靜音得太晚——AI已經(jīng)用錯誤答案坑了隊伍之后，他們才想到要靜音。相反，有18%的情況是靜音得過早，平均比最優(yōu)時機提前了9.8道題，這通常是因為AI在某幾道題上失手后，人類就對它徹底失去了信心，過早地取消了它的行動權(quán)限，反而錯過了后來AI本可以答對的題目。

綜合來看，平均靜音時機比最優(yōu)時機早了3.4道題，大約相當(dāng)于提前了15%的賽程。這說明，人類在實時評估AI可靠性這件事上，即使有直接的行為反饋，依然很難做到精準(zhǔn)——對AI能力的印象一旦變差，往往就很難再被扭轉(zhuǎn)。

研究團隊從這個發(fā)現(xiàn)中提煉出了一個設(shè)計建議：與其給用戶一個"開/關(guān)"的粗暴二選一，不如給他們更精細的控制工具，比如"在音樂類題目上靜音這個AI，但在歷史類題目上還是讓它發(fā)言"——因為用戶的信任從來不是全有全無的，而是因領(lǐng)域、因情境而異的。

**六、人類怎么決定要不要聽AI的？**

在附加題階段，研究團隊對人類的決策過程進行了細致的錄像分析，一位熟悉競技問答的研究員逐場觀看了比賽視頻，記錄了人類在做出每個采納或拒絕決定時，具體參考了哪些信息。

研究發(fā)現(xiàn)，在人類修改自己初始答案的所有情況中，參考最多的是"兩個AI意見一致"這個信號，占了54.8%的修改決策。換句話說，當(dāng)兩個AI隊友說的是同一個答案時，人類大概率會跟隨。排在第二位的是"自己的領(lǐng)域知識"，占35%，準(zhǔn)確率也相當(dāng)高，達到92.4%。在兩個AI意見不一致的情況下，人類偶爾會參考AI的解釋（4.4%）、AI的置信度分?jǐn)?shù)（2.2%）或者過去對某個AI的印象（2%），但頻率都不高，還有1.5%的決定看起來完全是隨機的。

最戲劇性的發(fā)現(xiàn)來自置信度分?jǐn)?shù)的表現(xiàn)。當(dāng)兩個AI意見不一致、人類必須依靠置信度分?jǐn)?shù)來判斷誰更可能對的時候，這個指標(biāo)的準(zhǔn)確率只有52.3%——幾乎和拋硬幣一樣。這是因為16個AI系統(tǒng)由不同團隊用不同方法搭建，它們對"置信度"的定義和計算方式完全不統(tǒng)一。一個系統(tǒng)說"87%把握"和另一個系統(tǒng)說"87%把握"，實際可靠程度可能天差地別，就像不同國家的貨幣雖然數(shù)字一樣，但價值完全不同。研究團隊的建議是：在部署多個AI系統(tǒng)的場景中，必須對置信度分?jǐn)?shù)進行跨系統(tǒng)的統(tǒng)一校準(zhǔn)，否則這個數(shù)字不僅沒用，還可能誤導(dǎo)用戶。

**七、確認偏誤：最危險的認知陷阱**

研究中最令人警覺的發(fā)現(xiàn)，是確認偏誤（confirmation bias）對協(xié)作質(zhì)量的破壞。

確認偏誤是一種人類普遍存在的認知傾向：我們傾向于相信和自己原有判斷一致的信息，而懷疑與自己不同的信息。在這項研究中，這種偏誤以一種清晰的數(shù)字面孔出現(xiàn)了。

當(dāng)人類最初給出了一個錯誤答案，而兩個AI隊友中恰好有一個給出了和人類一樣的錯誤答案（另一個給出了正確答案）時，人類不采納正確AI答案的比例高達64.5%。換句話說，僅僅因為一個AI和你給出了同樣的錯誤答案，你就更傾向于忽視另一個AI給出的正確糾正——錯誤被"證實"了，反而讓你更堅定地走錯路。相對應(yīng)的，當(dāng)兩個AI都給出了錯誤答案時，人類放棄自己原本正確答案的比率超過了10%。

更值得關(guān)注的是，高水平的選手在這個陷阱面前甚至比普通選手更脆弱。研究團隊觀察到，技術(shù)水平高的隊伍往往對自己的判斷更自信，反而更不愿意在AI和自己意見相左時接受AI的糾正，錯過了本可以利用AI幫助的機會。這就是專業(yè)自信的副作用——你越懂這件事，就越相信自己的直覺，越難承認自己可能錯了。

**八、什么樣的解釋真正有用？**

除了置信度分?jǐn)?shù)，AI給出的文字解釋是另一個影響人類決策的重要因素。研究團隊從每個AI解釋中提取了57個特征，涵蓋表面文本屬性（比如文本長度、詞匯重復(fù)率）、結(jié)構(gòu)特征（比如是否包含引用、是否提到了題目原文）和推理質(zhì)量（由另一個大語言模型來打分評估）。然后他們問了兩個不同的問題：什么特征能預(yù)測AI的答案是否正確？什么特征會讓人類傾向于信任這個解釋？

兩組答案驚人地不一致。能準(zhǔn)確預(yù)測AI是否正確的特征包括"對題目的理解程度"（預(yù)測準(zhǔn)確率76%）、"證據(jù)引用的充分性"（74%）、"推理的連貫性"（72%）——這些都是由AI評估員對解釋質(zhì)量打分得到的語義層面特征。而真正影響人類選擇的特征，卻是"解釋中是否包含引號"（70%的預(yù)測力）、"解釋與題目文本的語義相似度"（66%）、"單詞重疊數(shù)量"（63%）——這些都是表面形式上的特征，與解釋的實際質(zhì)量關(guān)系不大。

簡單來說，人類被AI解釋中"看起來很有據(jù)可查"的表面信號所吸引，而不是被"實際推理是否嚴(yán)密"的深層質(zhì)量所影響。AI寫出來的解釋越像是在"引經(jīng)據(jù)典"、越多用了原題中的詞，人類就越傾向于信任它——哪怕它的邏輯其實漏洞百出。唯一同時出現(xiàn)在"預(yù)測AI準(zhǔn)確性"和"預(yù)測人類信任"兩個名單里的特征，是"證據(jù)引用"——即解釋是否直接引用了題目中的具體線索作為推理依據(jù)。這說明，當(dāng)AI的解釋明確指向"我是因為題目中提到了X、Y、Z才得出這個答案"時，這種解釋既更可靠，也更容易讓人信服。

這個發(fā)現(xiàn)給AI系統(tǒng)設(shè)計者提供了清晰的方向：AI的解釋應(yīng)該明確引用可觀察的輸入證據(jù)，而不是給出抽象的內(nèi)部推理過程；人類用戶則需要有意識地訓(xùn)練自己評估"這個解釋是否真的理解了問題"，而不是被"看起來很專業(yè)"的表面形式所迷惑。研究團隊在一場實際比賽中觀察到了這種區(qū)別的真實價值：一名選手在兩個AI意見相左時，選擇了置信度較低（80%）但解釋直接引用題目內(nèi)容的那個AI，而放棄了置信度更高（95%）但解釋只是泛泛而談的AI——結(jié)果證明前者才是正確的。

**九、人類會學(xué)習(xí)：隨時間改善的協(xié)作質(zhì)量**

研究還捕捉到了一個振奮人心的現(xiàn)象：隨著比賽的推進，人類的協(xié)作能力確實在提升。

研究團隊追蹤了兩個指標(biāo)：一是"利用率"，即當(dāng)AI給出了正確答案時，人類采納這個正確答案的比例；二是"辨別力"，即當(dāng)兩個AI給出不同答案（其中一個正確、一個錯誤）時，人類選擇正確那個AI的比例。兩個指標(biāo)都隨著比賽輪次的推進顯著提升，尤其在難度最高的題目上提升幅度最大，辨別力從第一輪的27.1%一路爬升到最后幾輪的75.0%。

這個提升不是因為人類在不知道答案時隨便跟著AI走——如果真是那樣，辨別力應(yīng)該停留在50%附近。辨別力的大幅提升說明，人類通過觀察積累了對不同AI系統(tǒng)強弱項的真實認知，學(xué)會了在關(guān)鍵時刻判斷該信誰。研究團隊還注意到，即使在比賽前沒有人告訴選手各個AI的歷史表現(xiàn)，選手們的選秀偏好最終還是和AI的實際表現(xiàn)產(chǎn)生了正相關(guān)——特別是在線下有面對面交流的比賽中，這種相關(guān)性更強，說明人類之間的口耳相傳也是構(gòu)建AI認知的重要渠道。

在整場比賽過程中，附加題的錯誤率也從第一輪的28%下降到了最后階段的18%，說明人類團隊整體上確實在從錯誤中學(xué)習(xí)，不斷優(yōu)化自己的協(xié)作策略。

研究團隊從這個發(fā)現(xiàn)中提煉出的設(shè)計建議是：與其只在部署前給用戶看AI的"總體性能報告"，不如在使用過程中持續(xù)展示"這個AI在你今天遇到的這類問題上表現(xiàn)如何"——這種情境化、動態(tài)更新的反饋，比靜態(tài)的事前評估更能幫助用戶校準(zhǔn)信任。

**十、五條改善人機協(xié)作的設(shè)計原則**

研究團隊在分析過程中總結(jié)出了五條可操作的設(shè)計原則，為未來的AI協(xié)作系統(tǒng)提供了具體指引。

第一條原則關(guān)于控制粒度。現(xiàn)有的很多AI系統(tǒng)只給用戶一個"開/關(guān)"選擇，但真實的信任從來不是非黑即白的。應(yīng)該讓用戶能夠按照主題、難度、場景來細粒度地調(diào)整AI的參與程度，比如"這道題是音樂題，這個AI在音樂上不行，先讓它閉嘴"——用戶對"何時讓AI參與"的自主權(quán)，和"要不要聽AI的"一樣重要。

第二條原則關(guān)于置信度的統(tǒng)一校準(zhǔn)。當(dāng)系統(tǒng)中存在多個AI時，跨模型的置信度必須經(jīng)過統(tǒng)一校準(zhǔn)，讓用戶在比較兩個AI的信心水平時，數(shù)字真正具有可比性。特別是在兩個AI意見相左、用戶最需要幫助的時刻，可靠的置信度數(shù)字最為關(guān)鍵。

第三條原則關(guān)于動態(tài)反饋。協(xié)作過程中應(yīng)該持續(xù)向用戶展示AI在不同領(lǐng)域的歷史表現(xiàn)，而不是只提供系統(tǒng)上線前的靜態(tài)性能指標(biāo)。這種動態(tài)證據(jù)能幫助用戶更快地建立準(zhǔn)確的AI認知，減少過早或過晚靜音的錯誤。

第四條原則關(guān)于降低過度保守。由于過度保守（不信任正確AI建議）比盲目跟隨（信任錯誤AI建議）更常見，系統(tǒng)設(shè)計時應(yīng)該特別考慮如何幫助用戶在自己不擅長的領(lǐng)域認識到AI的優(yōu)勢，鼓勵專家在自己的知識盲區(qū)里給AI更多空間。

第五條原則關(guān)于解釋的錨點。AI給出的解釋應(yīng)該明確指向題目或問題中的具體證據(jù)，而不是只描述抽象的推理過程。這樣的解釋既能讓人類更容易驗證AI是否真的理解了問題，又能提升人類對高質(zhì)量AI建議的接受率。

**十一、這項研究能走多遠，又有哪些局限？**

研究團隊對自己工作的邊界保持了清醒認識。參與實驗的選手都是競技問答的資深玩家，這種高度競爭、高度專注的場景，和醫(yī)生慢慢斟酌AI輔助診斷或律師審閱AI檢索結(jié)果的場景，畢竟不同。知識競賽中的決策往往更快、更直覺化，而醫(yī)療或法律場景中的決策則有更多時間反復(fù)推敲。這意味著，研究結(jié)論不能直接照搬到所有高風(fēng)險領(lǐng)域，而需要在那些領(lǐng)域做進一步的驗證。

研究的樣本規(guī)模也決定了它更適合描述主要趨勢，而難以捕捉個體之間的細微差異。23名選手和16個AI系統(tǒng)構(gòu)成的24場比賽，提供了相當(dāng)豐富的行為數(shù)據(jù)，但如果想精確區(qū)分不同類型的用戶策略，或者追蹤長期協(xié)作中信任是否會過度積累，還需要更大規(guī)模的研究。

此外，這項研究本質(zhì)上是觀察性的，而非實驗性的——研究者記錄了人們怎么做，但無法完全排除混淆因素。舉個例子，高置信度的AI是否同時生成了更高質(zhì)量的解釋？如果是這樣，我們就無法確認人類是因為看到了高置信度分?jǐn)?shù)才信任它，還是因為解釋本身更好才信任它。要真正確立因果關(guān)系，未來的研究需要采用隨機實驗設(shè)計，單獨操控置信度或解釋質(zhì)量，來驗證每個因素的獨立影響。

歸根結(jié)底，這項研究告訴我們的是：人機協(xié)作是一件真實有效的事，但它絕不是自動發(fā)生的。人類不是天然的好協(xié)作者，AI也不是完美的建議提供者。過度保守和盲目追隨都會削弱協(xié)作的價值，而確認偏誤、跨模型置信度不統(tǒng)一、以及對表面信號的過度依賴，是目前最主要的三個障礙。把這些障礙一一清除，才是讓AI真正成為有效"隊友"而不只是一個有時有用、有時添亂的工具的關(guān)鍵所在。

有興趣深入了解這項研究的讀者，可以在ACL Anthology或arXiv上以"AI, Take the Wheel: What Drives Delegation and Trust in Human–Computer Cooperative Question Answering"為關(guān)鍵詞查找完整論文。

Q&A

Q1：人機協(xié)作的準(zhǔn)確率比單獨用AI或單獨用人類高在哪里？

A：在這項研究的競答實驗中，人類單獨答題準(zhǔn)確率約43%，隨機挑一個AI的準(zhǔn)確率約59%，即使事后諸葛亮地每題都選最準(zhǔn)的AI也只能到78%，而人機協(xié)作后的最終準(zhǔn)確率達到了81.7%。多出來的這部分來自兩個來源：人類糾正了AI的錯誤，以及有5.5%的題目是人類和AI最初都答錯、但通過共同商量討論后找到了正確答案。

Q2：為什么AI的置信度分?jǐn)?shù)在人機協(xié)作中幾乎沒用？

A：這項研究中的16個AI系統(tǒng)由不同團隊各自搭建，對"置信度"的定義和計算方式完全不同。當(dāng)兩個AI意見不一致、人類試圖靠置信度分?jǐn)?shù)來判斷哪個AI更可靠時，準(zhǔn)確率只有52.3%，接近隨機猜測。本質(zhì)原因是不同AI的置信度沒有經(jīng)過統(tǒng)一校準(zhǔn)，一個說87%和另一個說87%，實際可靠程度可能完全不同，就像不同國家的貨幣數(shù)字一樣，沒有統(tǒng)一匯率就無從比較。

Q3：確認偏誤在人機協(xié)作中具體是怎么發(fā)生的？

A：當(dāng)人類自己給出了一個錯誤答案，而兩個AI隊友中恰好有一個也給出了同樣的錯誤答案時，人類不采納另一個AI的正確答案的比例高達64.5%。本來是應(yīng)該糾錯的時刻，卻因為"有一個AI和我想法一樣"，反而讓人類更堅定地維持了錯誤判斷。研究還發(fā)現(xiàn)，技術(shù)水平越高的選手對自己的初始判斷越自信，在這種情況下反而更容易落入這個陷阱。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.