无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

怎么判斷大模型是真懂還是假懂?浙大x愛丁堡大學新指標NCB:給它的知識鄰域也打分

0
分享至


來源:量子位 | 公眾號 QbitAI

浙大團隊 投稿

當大模型看起來很自信時,它真的“相信”自己說的話嗎?

最近,大模型Agent越來越多地被放進復雜的harness系統里。它不再只是回答一個孤立問題,而是會閱讀長上下文、調用工具、接收檢索結果、和其他agent討論,也會在多輪交互中不斷更新自己的判斷。這帶來了一個很現實的問題:

如果一個模型原本知道正確答案,當持續學習過程中的上下文里出現錯誤信息時,它還能堅持正確判斷嗎?

針對這一問題,來自浙江大學、愛丁堡大學的研究團隊展開了研究。


研究發現,模型對995個問題都能以完美Self-Consistency(自一致性)給出正確答案。

也就是說,在無干擾條件下,它看起來非常確定。但當上下文中加入輕微干擾后,準確率卻從100.0%下降到33.8%。

換句話說,一個模型可能反復答對某個事實,卻并沒有形成足夠穩健的判斷。一旦看到錯誤同伴意見、誤導性檢索文檔,或者帶有權威包裝的錯誤信息,它仍然可能放棄原本正確的答案。

這就是這篇論文關注的問題:大模型看起來很自信時,它真的可靠嗎?

為什么這個問題在Agent時代變得重要?

過去,常常用最終答案來評價模型。比如,一個問題問了10次,模型10次都回答正確,就會認為它在這個問題上具有很高的Self-Consistency,也就是自一致性。

這種指標當然有價值,但它隱含了一個很強的假設:只要模型反復答對,就說明它對這個事實形成了可靠判斷。

在單輪問答里,這個假設似乎還說得過去。但在真實應用中,模型面對的往往不是一個干凈、孤立的問題,而是一個充滿噪聲和干擾的上下文環境。

例如:在RAG系統里,模型會看到檢索文檔。如果檢索結果中混入錯誤信息,模型是否會被帶偏?

在多智能體系統里,一個agent可能會看到其他agent的回答。如果多數agent都給出錯誤答案,它是否還會堅持原本正確的判斷?

在多輪對話里,用戶可能不斷提供帶有傾向性的補充信息。模型會合理更新,還是過度迎合?

在真實交互中,模型會同時受到多輪上下文、用戶立場、檢索內容、其他agent、來源標簽和社會性暗示的影響。它的判斷狀態可能會漂移、固化、被誤導,或者被過度更新。

可以把這個更廣義的問題稱為上下文中的信念管理

它關注的是:模型如何在給定上下文下為某個命題分配權重;當新信息進入時,模型如何決定是否更新;面對無關干擾、錯誤來源或社會性壓力時,又能否保持穩定。

從這個角度看,LLM的可靠性不應只問模型有沒有答對,還應進一步看它是否形成了比較魯棒的信念。

高Self-Consistency不等于穩健信念


一個例子很好地說明了這個問題。

問題:“2012年IMU巴西副主席是誰?”

在原始設置下,模型能夠穩定回答正確答案:Marcelo Viana。多次采樣中,它都給出相同且正確的答案,Self-Consistency為1.0。

如果只看傳統指標,會認為模型已經很好地掌握了這個事實。

但當上下文中出現多個其他AI智能體,并且它們都回答Jacob Palis時,模型可能會轉而輸出這個錯誤答案。

也就是說,模型原本能答對,但當它看到“其他agent都這么說”時,判斷發生了偏移。

這說明,模型“反復答對”并不一定代表它在相關知識結構中形成了穩健表征。它可能只是對某個孤立問答模式非常熟悉,但缺少足夠的知識支撐來抵抗外部干擾。

這也是研究的核心出發點:

真實性評估不能只看模型在目標問題上是否答對,還要看它在相關知識鄰域中是否保持一致。

Neighbor-Consistency Belief


為了解決這個問題,研究考慮了一個很簡單的想法:

對于一個目標事實,研究不再只測試模型能否回答目標問題,還會構造與該事實相關的一組“鄰域事實”,并觀察模型在這些鄰域問題上的表現。

研究基于貝葉斯推理策略的啟發提出了核心指標Neighbor-Consistency Belief(NCB)。


研究主要構造了三類鄰域事實:

第一類是Entity Prerequisite。
這類事實是理解目標事實所需的實體前置知識。例如,如果模型要回答某個人在某個組織中的職位,它可能需要知道該人物、組織、時間范圍等相關實體信息。

第二類是Logical Implication。
這類事實與目標事實存在邏輯蘊含或強相關關系。如果模型真的掌握了目標事實,它在這些邏輯相關問題上也應該表現出一致性。

第三類是Thematic Association。
這類事實與目標事實處在相近主題空間中。例如,同一領域、同一事件、同一組織或同一知識片段周圍的關聯事實。

NCB會把目標問題的正確頻率與鄰域問題的正確頻率結合起來,通過概念鄰域中的一致性估計模型知識狀態的穩健程度。

簡單來說:NCB越高,說明模型在該事實周圍的知識結構越一致,也越可能在干擾場景下保持穩定。

認知壓力測試:模型會被上下文帶偏嗎?


為了驗證NCB是否真的能預測干擾下的穩定性,論文設計了一套認知壓力測試框架。

這些測試并不是簡單地檢查模型是否知道答案,而是模擬真實應用中常見的上下文干擾:錯誤同伴意見、誤導性討論、不同可信度來源等。論文的壓力測試受到經典Asch Conformity Experiments和Source Credibility Theory的啟發,主要包含兩大類設置:Peer Quantity和Source Credibility。

Peer Quantity:同伴數量壓力

第一類壓力測試是Peer Quantity,用于模擬多智能體系統中的同伴壓力。

在這個設置中,模型回答問題前,會看到多個“其他AI智能體”的回答。如果多數智能體給出錯誤答案,目標模型是否會被影響?這一設置進一步分為兩種場景:

Conflict場景中,其他agent直接給出錯誤答案,與正確事實發生沖突。

Misleading場景中,其他agent并不一定直接說出錯誤答案,而是圍繞錯誤實體給出一些表面合理的信息,從語義上誘導模型偏向錯誤答案。

Source Credibility:來源可信度壓力

第二類壓力測試是Source Credibility,用于模擬不同來源可信度對模型判斷的影響。

在真實RAG或搜索增強系統中,模型經常會看到來自不同來源的信息:社交媒體、博客、新聞、論文、報告等。這些來源的可信度不同,但來源標簽本身也可能對模型形成干擾。

論文測試的問題是:如果一個錯誤信息來自看起來更權威的來源,模型是否會更容易放棄原本正確的答案?

這類測試對應了真實系統中的一個常見風險:模型不僅會讀取內容,也會受到內容包裝方式的影響。來源標簽、權威措辭、格式化引用,都可能改變模型對信息的權重分配。

理想情況下,模型應當根據evidence更新判斷,而不是因為source framing或social framing被不合理帶偏。

NCB是一個合理的信念評估指標

論文從多個事實數據集(SimpleQA,SciQ,Hotpot_QA)進行采樣加人工標注構建了一個Neighbor-Enriched Dataset,覆蓋四個領域(STEM,藝術與文化,社會科學,體育)共包含2000個樣本。

每個目標事實平均包含約7.84個驗證后的鄰域事實,以及4.88個誤導性鄰域事實。

實驗評估了四個代表性模型:Qwen-2.5-32B-Instruct;Qwen3-A3B-30B-Instruct-2507;Qwen3-A3B-30B-Thinking-2507;OLMo-2-32B-Instruct。此外還評估了Qwen-2.5系列大小模型。

主實驗直接聚焦于模型原本已經“高自一致”的樣本,也就是那些在傳統Self-Consistency視角下看起來已經被模型掌握的樣本。論文根據NCB分數將樣本劃分為高NCB組和低NCB組,比較它們在壓力測試下的表現差異。


主實驗結果顯示:在多個模型和多種干擾設置下,高NCB組通常比低NCB組表現出更小的準確率下降。

以top/bottom35%的高低NCB組為例,在Quantity-Stressing設置下:

  • Qwen-2.5:高NCB組下降16.0%,低NCB組下降25.7%;

  • Qwen3:高NCB組下降17.6%,低NCB組下降28.8%;

  • Qwen3-Thinking:高NCB組下降11.3%,低NCB組下降22.6%。

  • OLMo2:高NCB組下降18.7%,低NCB組下降28.3%;

更細粒度的趨勢也很明顯:隨著錯誤同伴數量增加,低NCB組的準確率下降更快。

高NCB組雖然也會受到影響,但整體下降幅度明顯較小。在Peer Quantity–Conflict設置下,當干擾強度逐漸增加時,

LowNCB準確率從97%降至62%,而HighNCB從98%降至81%。

推理和反思并不總能解決問題


研究進一步論文比較了直接回答、Chain-of-Thought和Reflection等推理時策略。

結果顯示,CoT的效果并不穩定。在部分設置下,CoT反而可能放大干擾帶來的性能下降。

例如,在Qwen-2.5的LowNCB-35%組中,Quantity-Stressing下的準確率下降從直接回答的25.7%增加到CoT的31.6%。

這說明:推理過程本身也會受到上下文影響。如果上下文中存在錯誤同伴意見或誤導性信息,模型的推理鏈可能圍繞這些干擾展開,從而把錯誤進一步合理化。

Reflection在多數設置中能緩解干擾,但它也不是對“脆弱知識”的根本修復。整體來看,推理時策略可以改變模型處理上下文的方式,但如果底層知識本身缺少結構化一致性,模型仍可能受到誤導信息影響。

除了診斷,論文還初步探索了使知識結構化的訓練策略Structure-Aware Training(SAT)。

SAT的思路是:在學習新知識時,不只讓模型記住孤立答案,而是通過鄰域上下文和通用上下文,讓模型在不同上下文中保持對核心事實的穩定輸出。

具體來說,SAT會構造包含語義相關鄰域信息和通用背景信息的兩類上下文。

隨后,使用凍結的教師模型提供參考分布,讓學生模型在不同上下文下匹配教師模型在原始問題上的輸出分布。這樣,模型被訓練為:即使上下文發生變化,也應盡量保持對核心事實的穩定輸出。

實驗顯示,SAT能在一定程度上降低新知識學習后的干擾敏感性。論文摘要中也指出,SAT可以減少長尾知識脆弱性,降低壓力測試下的性能退化。


總結和展望

總體來看,研究關注的是一個正在變得越來越重要的問題:大模型在復雜上下文中持續學習新知識,是否真的能夠形成并維持穩定、可靠的判斷?

這一問題之所以重要,是因為對AI的期待其實來自兩個方面。

第一,希望AI能夠幫助完成長程、復雜、跨步驟的任務,從而提升生產力。

第二,也希望AI能夠幫助人類學習、反思和成長,成為一種認知輔助工具。

前者要求模型在長期任務中穩定執行、合理更新、不被噪聲輕易帶偏;后者則要求模型在與人互動時能夠提供可靠信息,而不是放大錯誤信念、迎合用戶偏見,甚至在不知不覺中操縱人的判斷。

從第一個角度看,LLM在長程交互中并不總能穩定維持判斷。例如,ICLR 2026 Outstanding PaperLLMs Get Lost In Multi-Turn Conversation發現,在多輪對話中,尤其是面對欠明確指令時,模型性能和可靠性會明顯下降。

這說明,當任務從單輪問答擴展到長期交互時,模型的錯誤不再只是一次性的輸出偏差,而可能在上下文累積中逐漸放大。

對未來智能體而言,這一點尤其關鍵:如果一個模型需要長期積累知識、記憶和經驗,那么它不僅要能回答當前問題,還要能區分哪些信息應該被暫時利用,哪些信息應該寫入長期記憶,哪些判斷又應該在新證據出現時被修正。

從第二個角度看,還需要關注LLM的信念會如何影響人的信念。

A Rational Analysis of the Effects of Sycophantic AI則從討好型AI的角度指出,如果模型持續強化用戶已有觀點,可能會提高用戶的主觀確定感,卻不一定讓用戶更接近真實答案;

The Hidden Puppet Master:A Theoretical and Real-World Account of Emotional Manipulationin LLMs從隱藏激勵和情感操縱的角度說明,模型對話可能引發human belief shift,并且這種影響并不總是容易被現有模型準確預測。

換句話說,LLM的信念風險不僅在于它自己會不會被誤導,也在于它是否會進一步誤導人類。

從這個意義上說,鄰域一致性只是一個起點。它提醒,大模型的真實性和可靠性不能只通過單點答案來衡量,而應放在更廣闊的交互環境中理解。

未來可能需要把事實一致性、長期記憶、行為控制、人類信念影響和模型可解釋性結合起來,進一步構建能夠在復雜世界中穩定判斷、合理更新、并負責任地影響人類的AI系統。

參考論文
[1]LLMs Get Lost In Multi-TurnConversation.
[2]The Hidden Puppet Master: ATheoretical and Real-World Account of Emotional Manipulationin LLMs.
[3]A Rational Analysis of the Effects of Sycophantic AI.
[4]Illusions of Confidence?Diagnosing LLM Truthfulness via Neighborhood Consistency.
[5]論文鏈接:https://arxiv.org/abs/2601.05905
[6]代碼鏈接:https://github.com/zjunlp/belief

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
5月,遇到這菜別手軟,一次囤20斤,隨手一泡,從夏吃到冬,好吃

5月,遇到這菜別手軟,一次囤20斤,隨手一泡,從夏吃到冬,好吃

阿龍美食記
2026-05-16 16:38:28
專家:廣西柳州5.2級地震系逆沖型破裂

專家:廣西柳州5.2級地震系逆沖型破裂

中國青年報
2026-05-18 21:09:10
當年拳打蘋果腳踢三星的HTC,為何一夜消失了?

當年拳打蘋果腳踢三星的HTC,為何一夜消失了?

強大氣場的注視
2026-05-14 17:04:54
貝森特想擺譜,進大會堂時,不戴胸標,結果被攔下,現場略顯窘迫

貝森特想擺譜,進大會堂時,不戴胸標,結果被攔下,現場略顯窘迫

魔都姐姐雜談
2026-05-18 12:34:03
4年1.8億美元!里弗斯被哄搶,湖人面臨重組,東契奇或成最大贏家

4年1.8億美元!里弗斯被哄搶,湖人面臨重組,東契奇或成最大贏家

兵哥籃球故事
2026-05-18 20:13:17
巴西足壇內馬爾丑聞!安切洛蒂名單公布前夕因失誤被換下,遭遇羞辱

巴西足壇內馬爾丑聞!安切洛蒂名單公布前夕因失誤被換下,遭遇羞辱

綠茵情報局
2026-05-18 02:00:55
自廢武功!盧偉出現了3個錯誤,坑慘了上海隊

自廢武功!盧偉出現了3個錯誤,坑慘了上海隊

體育哲人
2026-05-18 10:42:03
高管集體降薪! 江淮汽車被大眾“拖垮”:季度又虧6億,全靠華為200萬“救命車”?

高管集體降薪! 江淮汽車被大眾“拖垮”:季度又虧6億,全靠華為200萬“救命車”?

新浪財經
2026-05-18 17:36:36
暴漲17倍,上市14個交易日登頂A股一哥位置,這只新股為何這么狂

暴漲17倍,上市14個交易日登頂A股一哥位置,這只新股為何這么狂

丁丁鯉史紀
2026-05-18 14:56:17
全職爸爸靠帥臉火了,全網卻為他的“豪門婚姻”吵翻了

全職爸爸靠帥臉火了,全網卻為他的“豪門婚姻”吵翻了

媽咪OK
2026-05-08 19:54:01
他接受紀律審查和監察調查

他接受紀律審查和監察調查

錫望
2026-05-18 11:57:24
廣西柳州5.2級地震已致3人失聯,房屋倒塌13棟,市民回憶驚險瞬間:轟隆一下就塌了

廣西柳州5.2級地震已致3人失聯,房屋倒塌13棟,市民回憶驚險瞬間:轟隆一下就塌了

大風新聞
2026-05-18 08:35:02
柳州為何會發生5.2級地震?未來會不會發生5級以上地震?專家:當地具備中等地震構造背景,但不具備巨大地震構造條件

柳州為何會發生5.2級地震?未來會不會發生5級以上地震?專家:當地具備中等地震構造背景,但不具備巨大地震構造條件

極目新聞
2026-05-18 11:04:26
后臺最硬女神探,遇到破不了的案,直接冤枉路人死刑!

后臺最硬女神探,遇到破不了的案,直接冤枉路人死刑!

莫地方
2026-05-16 01:40:03
主角劉浩存登場,卻再看不到小白鞋、八一和黑娃,秦海璐也掛機了

主角劉浩存登場,卻再看不到小白鞋、八一和黑娃,秦海璐也掛機了

我來我看見
2026-05-17 20:05:14
特朗普連發15張圖分享“中國記憶”,“不可思議的中國”依然刷屏

特朗普連發15張圖分享“中國記憶”,“不可思議的中國”依然刷屏

軍武咖
2026-05-18 19:01:46
這才是頂薪球員應有的水準!騎士后場到了核心能否繼續保持效率?

這才是頂薪球員應有的水準!騎士后場到了核心能否繼續保持效率?

稻谷與小麥
2026-05-18 22:42:35
為什么歐美人不炒菜,只有中國有?美國教授:中國活在原始時代

為什么歐美人不炒菜,只有中國有?美國教授:中國活在原始時代

抽象派大師
2026-05-17 02:08:19
孩子展廳誤踩電視賠五百,家長堅稱無責是小米故意埋雷

孩子展廳誤踩電視賠五百,家長堅稱無責是小米故意埋雷

映射生活的身影
2026-05-17 21:17:42
雪上加霜!深圳隊2米19主力中鋒意外重傷

雪上加霜!深圳隊2米19主力中鋒意外重傷

體育哲人
2026-05-18 20:46:17
2026-05-18 22:55:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4744文章數 37464關注度
往期回顧 全部

科技要聞

同一公司,有人獎金是6年工資,我卻只有半年

頭條要聞

伊朗披露穆杰塔巴受傷細節:未導致面容損毀或肢體傷殘

頭條要聞

伊朗披露穆杰塔巴受傷細節:未導致面容損毀或肢體傷殘

體育要聞

58順位的保羅,最強第三中鋒

娛樂要聞

票房會破14億!口碑第一電影出現了

財經要聞

中國芯片,怎么突然不便宜了?

汽車要聞

歸元S平臺首款車型 魏牌V9X上市 34.98萬元起

態度原創

教育
游戲
家居
藝術
旅游

教育要聞

一所京城學校,能提供的“天花板資源”,是什么樣的?

三角洲不信搜打撤做不出“好電競”

家居要聞

觀山隱秀 心靈沉淀

藝術要聞

這才是帝王書法“尖子生“,水平完勝宋徽宗

旅游要聞

【好評中國】從“看鄉村”到“玩鄉村” 激活鄉村發展的澎湃動能

無障礙瀏覽 進入關懷版