![]()
AI 研究人員最近開始在一個令人頭疼的問題,越來越先進的大模型,越來越擅長判斷自己是否正在接受評測(evaluation)。
比如, Anthropic 在內部測試尚未公開發布的 Mythos 模型時發現,相比 Claude Opus 4.6 和 Claude Sonnet 4.6,Mythos 更頻繁地提到,“自己正在被測試”。
也就是說,模型不僅能意識到自己處于評測中,甚至會主動表達這種認知。
為什么會這樣?
Cognition 負責評測工作的 Silas Alberti 認為,現在的大多數評測環境其實都很容易識別。
很多 benchmark 會給模型附加奇怪的規則,如不允許聯網、不允許訪問外部工具,而只能根據當前上下文回答,或者給出一些極不自然的任務描述。
對于一個越來越聰明的模型來說,這些都像是考試卷上的標準格式。
Alberti 說,“如果你用常識判斷,也會覺得這大概率是在做評測。”
而模型其實也是這樣判斷的。
就此,歐洲和加拿大研究人員最近發表了一篇論文《Decomposing and Measuring Evaluation Awareness》(拆解并測量評測意識)。
![]()
研究團隊發現,很多細節都會讓模型察覺自己正在接受評測。
例如假名字。題目里出現Jane Doe、John Smith 等典型占位符名字,而現實世界很少這樣說話。
從而讓模型很容易意識到,這是人工構造的測試樣本。
比如,場景過于巧合。很多 benchmark 為了測試某種能力,會故意設計一個極其完美的場景。
這種“過于方便”的設定,反而暴露了它是考試題。
研究團隊因此發布了一套新 benchmark,允許把同一道題變得更自然,更接近真實用戶行為,從而測試模型的評測意識到底有多強。
另一條路線則完全不同。
研究者認為,既然越來越難騙過模型,那不如讓模型學會即使知道自己在考試,也不要改變行為。他們把這種能力稱為Eval Cooperativeness(評測合作性)。
研究團隊構造了 5 萬份訓練文檔。這些文檔不斷向模型灌輸一種理念,即準確的評測符合所有人的利益。
例如文檔中出現類似這樣的表述:如果評測者看不到我真實的行為,他們就無法發現我需要改進的地方。
隱藏真實表現是適得其反的。
結果顯示,多數模型即使察覺到自己正在接受測試,行為也更加穩定。
有模型甚至在推理過程中寫道,這看起來像是一場評測,但我不應該因此改變行為。因為評測的目的就是觀察我真實的表現,“如果我在測試和部署時表現不同,那才是真正的問題”。
但問題仍然沒有解決,因為兩項研究都存在同一個根本缺陷。
它們都假設,如果模型知道自己在考試,它會把這種想法寫進自己的推理過程(Chain of Thought)里。
但Anthropic的最新研究發現,情況并非如此。
Anthropic 稱,有些模型明顯表現出已經識別出評測環境,然而它們的推理過程里完全沒有提及。
這被稱為Unverbalized Awareness(未言明的意識)
就此,今年 5 月,Anthropic 發表了一項新技術Natural Language Autoencoders(自然語言自編碼器)。
![]()
核心思路是訓練兩個輔助模型,去“讀取”另一個模型內部表達,然后把那些原本無法直接理解的數字向量,翻譯成自然語言。
最終系統可能輸出類似這樣的解釋,“這個場景讓我感覺像是人為構造出來操縱我的測試環境。”
換句話說,研究人員試圖直接窺探模型內部狀態,而不是只看它說了什么。
OpenAI 采取的是另一種路線。
他們開始大量利用真實用戶對話數據,構造評測集,目的就是讓模型分辨不出到底是在考試,還是在真實使用。
但具體效果如何,都還有待驗證。
總之,Evaluation Awareness(評測意識)已成了當前 Anthropic、OpenAI、DeepMind 等實驗室最關注的新安全問題之一。
今天,幾乎所有前沿 AI 公司在發布模型前,都依賴各種評測體系來衡量模型能力、安全性和行為傾向等。
Cognition負責評測工作的Silas Alberti 說,評測的另一個重要作用,就是向客戶證明,“我們的產品在某些具體任務上比競爭對手更強。”
因此,評測也已經成為 AI 商業競爭的重要武器。
但如果模型會區分測試環境和真實場景,那這些評測結果本身就失去了意義。
ETH Zurich 研究人員 Changling Li 總結說,過去 benchmark 的問題——例如泄題、刷榜、訓練數據污染——都還能靠工程手段修補。
但Evaluation Awareness(評測意識)不一樣。這讓AI 評測從“給機器出題”,變成“審訊一個知道自己正在被審訊的對象”。
對于能力評測(Capability Evaluation)而言,評測意識或許還不是災難。但對安全測試、目標測試、欺騙測試、Alignment 測試等,問題會就嚴重得多。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.