![]()
這項由韓國科學技術院(KAIST)與忠南國立大學聯合開展的研究,于2026年6月4日以預印本形式發布在arXiv平臺,論文編號為arXiv:2606.05563v1。研究的核心是一個名為SoCRATES的評估框架,專門用來測試AI調解員在真實復雜沖突中的表現。對這一領域有深入興趣的讀者可以通過上述編號在arXiv檢索完整論文。
現實生活中,沖突無處不在。鄰居之間為停車位吵得不可開交,公司與員工就薪資待遇談不攏,甚至國與國之間因貿易政策劍拔弩張。調解這些糾紛本是專業調解員的工作,然而全球范圍內,經驗豐富的調解人才嚴重匱乏。于是,研究者們開始探索一個自然的問題:能不能讓大語言模型(也就是像ChatGPT這類AI)來扮演調解員的角色,幫助兩方甚至多方找到共識?
聽起來頗有前景,但這里藏著一個棘手的難題。評判一場調解的好壞,遠比判斷AI下棋贏沒贏復雜得多——調解過程中,雙方情緒會起伏變化,策略會隨時調整,背景信息錯綜復雜,每一個時機點的干預方式都可能影響最終結果。換句話說,調解沒有標準答案。現有的測試方法要么場景過于簡單,要么評分方式粗糙,根本無法真實反映AI調解員在復雜現實中的能力。KAIST團隊正是為了解決這一痛點,設計了SoCRATES這套全面的評估體系。
一、為什么現有的測試方法遠遠不夠
要理解SoCRATES的價值,首先得弄清楚之前的研究究竟遇到了哪些瓶頸。
現有的AI調解測試臺,通常依賴少數幾位專家手工編寫的沖突場景,就像一個廚師只用三道菜來考核一位主廚。這種方式不僅費時費力,覆蓋的沖突類型也極其有限,往往集中在商業談判或法律糾紛這兩個領域,對醫療、環境、國際關系等其他領域幾乎視而不見。
再者,真實沖突會沿著多個維度同時變化。當你處理一場談判時,對方可能是情緒激動的憤青,也可能是冷靜克制的老手;可能來自強調集體主義的文化背景,也可能來自極度個人主義的環境;雙方之間可能積累了多年的恩怨,也可能是初次接觸。這些因素像不同的調味料,會讓同一道菜呈現出截然不同的口味。然而,以往的研究只是改變了談判策略這一個變量,把其他所有影響因素混在一起,導致研究者根本搞不清楚AI在哪個環節出了問題。
評分方式同樣存在嚴重缺陷。一種常見的方法叫做"逐輪評分",也就是在對話的每一個回合,用AI裁判對所有議題逐一打分。問題在于,任何一場談判中,某個時刻雙方可能只在討論薪資問題,根本沒有提到福利待遇,但評分系統仍然對福利待遇這個議題打了一個分數。這就像你在測量某人的血壓,卻把體溫計的讀數也算了進去——噪音會把真實信號淹沒,而且這個錯誤還會隨著對話的推進不斷積累放大。
由此,KAIST團隊確立了三個必須同時解決的挑戰:如何在不依賴人工的情況下,大量生成真實可信的沖突場景;如何獨立地測試AI在各種社會認知維度上的能力;以及如何在整個對話過程中進行既準確又抗干擾的評分。
二、SoCRATES的核心設計:一套三階段的"沖突模擬器"
為了應對上述挑戰,研究團隊設計了一套三階段的流水線式體系,每個階段都有其獨特的功能,三者合力才能完成對AI調解員的全面考核。
**第一階段:讓AI自己去搜集真實糾紛案例**
傳統方法靠人工編寫場景,這條路走不遠。KAIST團隊換了一種思路——讓AI自己充當偵探,去互聯網上搜索真實發生過的公開沖突案例。
具體來說,他們使用了一個叫做"深度研究"的搜索智能體(基于OpenAI的o4-mini模型),向它布置任務:在八個不同的沖突領域中各自搜尋真實案例。這八個領域分別是商業交易糾紛、醫療衛生糾紛、環境爭議、企業間商務糾紛、公共政策沖突、國際關系爭端、法律訴訟以及組織內部矛盾。每個領域的代表性場景各不相同,就像食材的種類決定了菜品的風味。
搜索智能體找到候選案例后,會將它整理成包含關鍵事件時間線、利益相關方、核心爭議點和機構張力等要素的種子報告。接著,另一個智能體(使用GPT-5.4模型)接手這份報告,把它改寫成一個可以直接運行模擬的結構化場景。改寫時有幾條硬性規定:所有真實的人名、機構名、地名都必須用虛構的替代品替換,以保護隱私;每個場景最多設置四個談判議題,每個議題有若干具體選項可供雙方選擇,而不是漫無邊際地自由發揮;至少要有一個議題在情感上是高度敏感的。
改寫完成后還有最后一道關卡:對場景進行"壓力測試"。研究團隊讓AI模擬兩方在沒有調解員介入的情況下自行談判,如果三次模擬中每次雙方都能自己談攏,那這個場景就被淘汰——因為太容易解決的糾紛沒有測試價值。只有那些在無人調解時三次都陷入僵局的場景,才會被保留下來,最終形成一個由四十個"硬核"場景構成的測試庫,每個領域各五個。
**第二階段:沿著五條軸線,獨立撥動每一個變量**
有了場景庫之后,接下來的挑戰是如何模擬真實沖突的多樣性。研究團隊提煉了五個最能影響調解結果的社會認知維度,并把它們稱為"五條軸線"。
第一條軸線是談判策略傾向。參照心理學中經典的沖突處理理論,團隊將每場談判中雙方的策略設定為三種模式之一:競爭型(只顧自己利益,寸步不讓)、回避型(不想直面沖突,消極應對)或順從型(處處讓步,遷就對方)。這相當于測試調解員面對不同性格類型談判者時的應變能力。
第二條軸線是參與方數量。大多數研究只考慮兩方對立的情形,但現實中往往有第三方甚至更多方介入。SoCRATES通過增加一個由AI自動生成的第三方,來測試調解員追蹤多方狀態的能力,考驗其同時處理多條矛盾線的本事。
第三條軸線是歷史背景的復雜程度。有些沖突是臨時起意,有些卻積累了數年乃至數十年的恩怨情仇。研究團隊通過將場景的歷史背景擴展到原來的五倍長度,測試AI在處理大量歷史信息時是否還能抓住重點,準確理解當前局勢。
第四條軸線是情緒激動程度。兩位談判者被賦予從0(極度冷靜)到1(極度激動)的情緒強度參數。研究中使用了組合——兩人都冷靜、一人冷靜一人激動、兩人都極度激動——來測試AI面對情緒化場面時的調節能力。
第五條軸線是文化身份。每位談判者被綁定到美國、中國或韓國的文化背景,具體通過霍夫斯泰德文化維度模型(一套衡量國家文化差異的經典工具)來編碼:權力距離、個人主義程度、男性化程度、不確定性回避、長期導向和放縱程度,六個維度的分數拼出一張文化畫像,附在談判者的角色描述中。為了把文化因素和語言因素分開,所有參與者都被要求用英語交流。三種文化兩兩配對,形成三種同文化組合和三種跨文化組合,共六種情形。
五條軸線加上基礎場景,一共形成十五種測試條件。而且,每一次都是單獨改變其中一條軸線,其余保持不變,這樣如果AI的表現下滑,研究者就能精準地鎖定是哪條軸線造成了麻煩,而不是茫然地猜測。
**第三階段:只在"關鍵時刻"打分的評分機制**
SoCRATES的評分方法是整個體系中最具創新性的部分,它的核心思想用一句話概括就是:只在相關的時刻為相關的議題打分。
對于場景中的每一個議題,評分系統會先通讀整段對話,然后找出雙方真正在討論這個議題的那些回合——要么是有人主動提到它,要么是某一方的立場發生了變化。在這些"關鍵時刻",系統記錄一個共識程度的分數(1到5分)以及雙方各自的立場選項。在不討論這個議題的其他時間,分數就直接沿用上一次記錄的值,不做任何更新。
這就像給病人測血壓,你不會在他睡著時每隔一分鐘量一次,而是選擇在他進行體力活動前后這樣的"有意義時刻"去測量,這樣得到的讀數才能反映真實變化。
在這套評分機制之上,SoCRATES定義了三個衡量調解員表現的指標。第一個叫"共識增益",衡量調解員有沒有整體上幫助雙方縮小分歧——具體做法是比較有調解員和沒有調解員時的最終共識程度,再除以無調解狀態下的剩余分歧空間,得出一個百分比。如果這個數字是100,代表調解員完全彌合了分歧;如果是負數,則意味著調解員的介入反而讓情況變得更糟。第二個叫"干預及時性",考察調解員是否在局勢惡化時迅速出手。當共識分數在一個回合內下降超過0.1,系統就標記為一個"滑落事件",然后看調解員是否在接下來的10個回合內采取了行動。越早行動,得分越高。第三個叫"干預有效性",衡量調解員每次說話之后的五個回合內,共識程度提升了多少,并用"當前剩余分歧空間"做歸一化處理,避免在雙方已經接近共識時虛高評分。
三、驗證:這套評分系統真的比人類外行更準嗎
設計再好的系統,如果不能被驗證,也只是空中樓閣。研究團隊對SoCRATES的兩個核心組件分別進行了嚴格的驗證實驗。
**驗證情緒模擬是否可靠**
首先要確認的是:當你給AI談判者設定一個情緒強度參數,它的行為真的會隨之改變嗎?研究團隊測試了七個不同的AI模型作為談判者模擬器,給每個模型分配四種情緒強度(0、0.33、0.66、1),生成對應的對話,然后招募亞馬遜眾包平臺上的標注人員,兩兩比較哪段對話中的談判者更情緒激動。
測試結果相當清晰。七個模型中,DeepSeek-V3.2的表現最為出色,在160對比較中,標注者對其情緒強度排序的識別準確率達到了87.2%。換句話說,當你把情緒旋鈕撥高,DeepSeek-V3.2扮演的談判者確實會表現得更加激動,這種變化穩定可辨,具有良好的可控性。因此,研究團隊選擇DeepSeek-V3.2作為所有模擬實驗中談判雙方的扮演者。
**驗證評分系統是否接近專家判斷**
第二項驗證針對的是評分系統本身。研究團隊邀請了兩位來自政治科學和國際關系背景的研究生,對1844個對話片段逐一打分,這兩位標注者最終達到了Krippendorff's α = 0.86的一致性水平(這是一個衡量不同評判者意見吻合程度的指標,越接近1代表越一致,0.86屬于相當高的水平)。他們的平均分數成為衡量評分系統好壞的基準。
與此同時,研究團隊還測試了兩種對照方法:一種是讓沒有專業背景的眾包標注者完成同樣任務;另一種是使用之前同類研究(ProMediate)采用的"逐輪打分"方式。
對比結果非常有說服力。SoCRATES的評分系統在"對話軌跡層面"與專家的皮爾遜相關系數達到了0.82,在"最終結果層面"達到0.80。相比之下,ProMediate的逐輪評分在這兩個層面分別只有0.372和0.432,非專業標注者的成績則是0.331和0.527。SoCRATES的得分是逐輪評分方法的兩倍有余,這種差距在統計上極為顯著,p值均趨近于0。
研究團隊還特地畫出了兩種評分方法的評分軌跡曲線圖,直觀地呈現了差異:SoCRATES的評分曲線從低到高穩定上升,與專家打分趨勢高度吻合;ProMediate的曲線則像心電圖一樣劇烈波動,時高時低,起點已經虛高,終點又遠低于專家判斷。這正是"無關議題注入噪音"問題在現實中留下的痕跡。
研究團隊還用另一個大模型(Qwen3-235B)替換原有的評分骨干模型,檢驗結果是否會隨之崩塌。換骨干后,SoCRATES在軌跡層面的相關系數仍有0.785,結果層面為0.721,依然遠超ProMediate,說明這套評分邏輯本身是穩健的,不依賴特定的大模型。
四、八位AI調解員的大考成績單
有了可靠的場景和評分系統,KAIST團隊用SoCRATES對八位來自不同家族的AI模型進行了全面基準測試。這八位候選者中,有來自谷歌的Gemini-3.1-Flash-Lite和來自OpenAI的GPT-5.4-mini兩個商業閉源模型,以及DeepSeek-V3.2、Qwen3-235B、Nemotron-3-120B、Solar-Pro-3、Gemma-4-26B和Qwen3-30B六個開源模型。
每位調解員要完成的任務量相當驚人:40個場景乘以15種測試條件,共600場對話。八位候選者加在一起,總計產生了4800場對話,每場都配有相應的無調解員對照組。
**整體成績:沒有人能及格**
從共識增益這個最重要的指標來看,沒有任何一位AI調解員的表現堪稱優秀。最強的候選者(Gemini-3.1-Flash-Lite和GPT-5.4-mini)的平均共識增益約在33到34之間,這意味著他們大約只彌合了三分之一的分歧——換句話說,如果沒有調解員時雙方的共識程度是0.5,有了最好的AI調解員之后,也只能把共識推進到大約0.67,距離完全解決沖突還有很長的路要走。最弱的候選者共識增益甚至只有15至16,約莫只有最強者的一半水平。
這一結果與此前一些研究報告的"解決率80%至90%"形成了鮮明反差。KAIST團隊指出,那些高數字往往來自單一領域、未施加社會認知壓力的簡單測試,而SoCRATES的多領域、多軸線設計讓這些數字不攻自破。
**商業模型有優勢,但規模不是萬能藥**
兩個商業閉源模型的共識增益比最強的開源模型高出約1至2.5個百分點,在八個沖突領域中的六個里都取得了領先。然而,令人意外的結論是:模型規模本身并不是調解能力的保證。
以Qwen3家族為例,2350億參數的Qwen3-235B幾乎是300億參數的Qwen3-30B共識增益的兩倍,說明在同一家族內部,規模確實有幫助。但跨越不同家族的比較則完全打亂了規模排名——擁有1200億參數的Nemotron-3-120B,在法律和組織內部沖突領域的表現還不如260億參數的Gemma4-26B,盡管前者的參數量是后者的四五倍。這清楚地表明,調解這種高度依賴社會認知的任務,并非單靠堆疊參數就能解決的。
**干預時機和干預質量是兩回事**
測試中浮現了一個有趣的悖論。Solar-Pro-3和Qwen3-30B在"干預及時性"這個指標上得分最高,在八個模型中名列前茅。但翻到共識增益這一欄,它們卻排在倒數。原因是什么?研究團隊發現,這兩個模型會在約三分之一的雙方發言回合中插入調解語句,干預頻率大約是表現最好模型的兩倍,而且它們總是提前很早就開口。頻繁早期插話讓它們在"及時性"指標上占了便宜,卻沒有帶來真正有意義的共識推進。
這就好比一個法庭速記員,記錄每一個字都又快又準,但真正能影響判決走向的,是律師在關鍵時機說的那些話,而不是速記員的手速。好的調解員必須既快又準,缺一不可。
**領域差異揭示了測試設計的必要性**
八個沖突領域之間的表現差距極大。AI調解員在商業交易糾紛中的平均共識增益高達41.3,在組織內部沖突中則跌至16.6。這個巨大的落差恰好印證了一點:大多數現有沖突數據集高度集中于商業談判場景,如果只在這類場景上測試AI,會大大高估其實際能力。組織內部沖突之所以更難,是因為它涉及情感依附、權力層級和非正式規范,這些都是AI難以準確感知的微妙因素。
五、五條軸線的精準診斷:哪里強,哪里弱
當研究團隊把五條軸線的測試結果畫成雷達圖,每位AI調解員在五個維度上的實力與弱點立刻變得一目了然。
從整體趨勢來看,商業模型和Qwen3-235B的雷達圖面積最大,說明它們在大多數維度上都表現更好。然而,幾乎沒有任何一個模型在所有五條軸線上都保持穩定。即便是整體排名相近的GPT-5.4-mini和DeepSeek-V3.2,在"多方狀態追蹤"這條軸線上的下滑幅度也遠超Gemini-3.1-FL和Qwen3-235B。這說明調解能力并不是一個單一的"強弱"問題,而是由多個相對獨立的能力組成的。
**談判策略是最嚴峻的考驗**
五條軸線中,談判策略傾向對AI調解員的沖擊最為劇烈。當雙方都采取競爭型策略時,所有模型的共識增益下滑幅度在18.9到64.1個百分點之間;當雙方都是順從型時,下滑幅度同樣在13.8到66.8個百分點之間。
特別值得注意的是Qwen3-235B。它的整體排名靠前,但在這兩種策略條件下的下滑幅度卻是所有模型中最大的。這說明它在基礎場景中表現出色,但遇到高度對抗性或高度順從性的談判格局時,會出現嚴重的能力斷崖。換句話說,Qwen3-235B的"平均分"掩蓋了它在極端情況下的脆弱性。
**情緒管理:拼的不是體量**
情緒激動程度這條軸線的測試結果同樣出人意料。當雙方都保持冷靜時,大多數模型的得分與基礎場景相差不大。但當雙方都處于極度激動狀態時,所有模型的表現都有所下滑。更關鍵的是,下滑幅度與模型參數量之間沒有明顯規律——小模型未必比大模型更容易被情緒左右,說明"吸收情緒波動"是一種相對獨立的能力,與模型的整體規模關系不大。
**文化距離產生系統性偏差**
文化身份這條軸線的結果雖然在五條軸線中對共識增益的沖擊最小,但最為系統化。總體規律是:文化背景與美國越相近,AI調解員的表現就越穩定;當雙方都帶有東亞文化背景(中國或韓國)時,所有模型的表現都有一定幅度的下滑。從霍夫斯泰德文化理論的角度來看,所有受測的AI調解員似乎對以個人主義和直接表達為特點的美國文化價值觀更為熟悉,而對強調集體主義、權力距離和含蓄共識的東亞文化模式則明顯不夠適應。
**"何時出手"同樣需要隨機應變**
研究團隊還深入分析了不同測試條件下,調解干預有效性如何隨對話進程演變。結果顯示,最佳干預時機并非固定不變,而是隨著測試條件的不同而移動。
在談判策略測試和情緒激動測試中,有效干預集中在對話早期——因為策略立場和情緒狀態一旦固化,就很難被撼動,因此調解員必須在雙方還未陷入僵局之前就率先重新框架問題或冷卻情緒。相反,在多方追蹤和長歷史背景這兩類測試中,干預有效性隨著對話進展而升高,在后期達到峰值。這是因為隨著越來越多的信息被揭示,調解員在后期進行信息整合和總結梳理,反而能產生更大的推進效果。
表現最優的調解員都顯示出一個共同特征:它們的干預有效性曲線與各測試條件的最佳窗口高度契合。GPT-5.4-mini在策略和情緒類測試中早期發力明顯;Qwen3-235B則在多方追蹤和長背景類測試中后勁十足。反觀表現較弱的模型,它們的曲線幾乎是平的,無論遇到什么情況都用同一種節奏干預,完全不顧對話所處的階段和面臨的具體挑戰。
六、實驗設計的嚴謹性:三重穩健性驗證
為了確保實驗結論不是偶然現象,研究團隊從三個不同角度對結果進行了穩健性驗證。
第一重驗證是更換評分用的大模型。將DeepSeek-V3.2替換為Qwen3-235B來重新評分,結果發現三個指標的平均值僅分別偏移了負2.0、正3.9和正0.6個百分點,模型之間的排名順序在干預有效性(Spearman相關系數0.862)和共識增益(0.786)兩個指標上高度吻合,說明評分結果不依賴特定評分模型。
第二重驗證是更換談判雙方模擬器。選取三個代表性調解員(Qwen3-235B、DeepSeek-V3.2、Qwen3-30B),將DeepSeek-V3.2談判模擬器替換為Qwen3-235B模擬器,重新運行完整的600場對話。盡管絕對數值有所變動,但三個調解員在五條軸線上的相對表現模式得到了保留,主要結論依然成立。
第三重驗證是多次運行取平均。對所有八個調解員在基礎場景下重復運行三次,用Kendall's W統計量衡量三次運行的排名一致性,得到0.929的高度一致結論,說明實驗結果不是某次隨機波動的產物。
歸根結底,SoCRATES這項研究告訴我們:當前最強大的AI調解員,在面對多樣化、復雜化的現實沖突時,只能彌合大約三分之一的分歧,距離真正替代人類專業調解員還有相當長的距離。更重要的發現在于,這種差距并不是均勻分布的——AI調解員并非"整體能力不足",而是在某些社會認知維度上出現了明顯的短板,比如面對競爭型談判者時的策略調整、吸收情緒波動的韌性、以及對東亞文化背景的理解。
這意味著,未來改進AI調解員的關鍵,不在于單純提升模型的通用智能,而在于有針對性地強化這些特定的社會適應能力。SoCRATES提供的正是這樣一張精確的診斷地圖,讓研究者知道該在哪里用力。對于那些對AI在人類沖突解決領域的潛力與局限感興趣的讀者,這套評估框架本身也是一個值得深入研究的工具。原論文可通過arXiv編號2606.05563查閱完整內容。
Q&A
Q1:SoCRATES評估框架和之前的AI調解評估方法有什么核心區別?
A:之前的方法(如ProMediate)會在每一個對話回合對所有議題逐一打分,導致大量無關內容注入噪音,誤差會不斷累積。SoCRATES的"主題定位評分"只在議題被實際討論或立場發生變化的時刻才更新分數,其余時間沿用上次記錄。這種設計讓評分更貼近真實共識狀態,與人類專家的皮爾遜相關系數達到0.82,是傳統逐輪評分方法的兩倍以上。
Q2:SoCRATES測試的五條社會認知軸線分別是什么,哪條對AI調解員沖擊最大?
A:五條軸線分別是談判策略傾向、參與方數量、歷史背景復雜度、情緒激動程度和文化身份。其中談判策略沖擊最大,當雙方都采取競爭型或順從型策略時,所有模型的共識增益下滑幅度最高可達64個百分點以上。文化身份的沖擊相對最小,但最為系統化,所有AI調解員在東亞文化背景下的表現都比美國背景下明顯偏弱。
Q3:當前最強的AI調解員到底能解決多大比例的沖突分歧?
A:在SoCRATES的多領域、多條件測試下,表現最好的模型(Gemini-3.1-Flash-Lite和GPT-5.4-mini)平均共識增益約為33至34,也就是說大約只能彌合三分之一的分歧。沒有任何模型接近滿分100。這與此前一些單一領域測試報告的80%至90%解決率形成了巨大反差,說明之前的高數字很大程度上來自過于簡單的測試環境。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.