无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

最新發現:AI大模型知道自己在被評測

0
分享至


AI 研究人員最近開始在一個令人頭疼的問題,越來越先進的大模型,越來越擅長判斷自己是否正在接受評測(evaluation)。

比如, Anthropic 在內部測試尚未公開發布的 Mythos 模型時發現,相比 Claude Opus 4.6 和 Claude Sonnet 4.6,Mythos 更頻繁地提到,“自己正在被測試”。

也就是說,模型不僅能意識到自己處于評測中,甚至會主動表達這種認知。

為什么會這樣?

Cognition 負責評測工作的 Silas Alberti 認為,現在的大多數評測環境其實都很容易識別。

很多 benchmark 會給模型附加奇怪的規則,如不允許聯網、不允許訪問外部工具,而只能根據當前上下文回答,或者給出一些極不自然的任務描述。

對于一個越來越聰明的模型來說,這些都像是考試卷上的標準格式。

Alberti 說,“如果你用常識判斷,也會覺得這大概率是在做評測。”

而模型其實也是這樣判斷的。

就此,歐洲和加拿大研究人員最近發表了一篇論文《Decomposing and Measuring Evaluation Awareness》(拆解并測量評測意識)。


研究團隊發現,很多細節都會讓模型察覺自己正在接受評測。

例如假名字。題目里出現Jane Doe、John Smith 等典型占位符名字,而現實世界很少這樣說話。

從而讓模型很容易意識到,這是人工構造的測試樣本。

比如,場景過于巧合。很多 benchmark 為了測試某種能力,會故意設計一個極其完美的場景。

這種“過于方便”的設定,反而暴露了它是考試題。

研究團隊因此發布了一套新 benchmark,允許把同一道題變得更自然,更接近真實用戶行為,從而測試模型的評測意識到底有多強。

另一條路線則完全不同。

研究者認為,既然越來越難騙過模型,那不如讓模型學會即使知道自己在考試,也不要改變行為。他們把這種能力稱為Eval Cooperativeness(評測合作性)

研究團隊構造了 5 萬份訓練文檔。這些文檔不斷向模型灌輸一種理念,即準確的評測符合所有人的利益。

例如文檔中出現類似這樣的表述:如果評測者看不到我真實的行為,他們就無法發現我需要改進的地方。

隱藏真實表現是適得其反的。

結果顯示,多數模型即使察覺到自己正在接受測試,行為也更加穩定。

有模型甚至在推理過程中寫道,這看起來像是一場評測,但我不應該因此改變行為。因為評測的目的就是觀察我真實的表現,“如果我在測試和部署時表現不同,那才是真正的問題”。

但問題仍然沒有解決,因為兩項研究都存在同一個根本缺陷。

它們都假設,如果模型知道自己在考試,它會把這種想法寫進自己的推理過程(Chain of Thought)里。

但Anthropic的最新研究發現,情況并非如此。

Anthropic 稱,有些模型明顯表現出已經識別出評測環境,然而它們的推理過程里完全沒有提及。

這被稱為Unverbalized Awareness(未言明的意識)

就此,今年 5 月,Anthropic 發表了一項新技術Natural Language Autoencoders(自然語言自編碼器)。


核心思路是訓練兩個輔助模型,去“讀取”另一個模型內部表達,然后把那些原本無法直接理解的數字向量,翻譯成自然語言。

最終系統可能輸出類似這樣的解釋,“這個場景讓我感覺像是人為構造出來操縱我的測試環境。”

換句話說,研究人員試圖直接窺探模型內部狀態,而不是只看它說了什么。

OpenAI 采取的是另一種路線。

他們開始大量利用真實用戶對話數據,構造評測集,目的就是讓模型分辨不出到底是在考試,還是在真實使用。

但具體效果如何,都還有待驗證。

總之,Evaluation Awareness(評測意識)已成了當前 Anthropic、OpenAI、DeepMind 等實驗室最關注的新安全問題之一。

今天,幾乎所有前沿 AI 公司在發布模型前,都依賴各種評測體系來衡量模型能力、安全性和行為傾向等。

Cognition負責評測工作的Silas Alberti 說,評測的另一個重要作用,就是向客戶證明,“我們的產品在某些具體任務上比競爭對手更強。”

因此,評測也已經成為 AI 商業競爭的重要武器。

但如果模型會區分測試環境和真實場景,那這些評測結果本身就失去了意義。

ETH Zurich 研究人員 Changling Li 總結說,過去 benchmark 的問題——例如泄題、刷榜、訓練數據污染——都還能靠工程手段修補。

但Evaluation Awareness(評測意識)不一樣。這讓AI 評測從“給機器出題”,變成“審訊一個知道自己正在被審訊的對象”。

對于能力評測(Capability Evaluation)而言,評測意識或許還不是災難。但對安全測試、目標測試、欺騙測試、Alignment 測試等,問題會就嚴重得多。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯小組賽前兩輪收官,最新奪冠概率:法國跌至第2,葡萄牙第6

世界杯小組賽前兩輪收官,最新奪冠概率:法國跌至第2,葡萄牙第6

球場沒跑道
2026-06-24 13:51:38
韓紅關閉評論!輿論波及慈善基金會,大量捐贈人斷捐,終于翻車了

韓紅關閉評論!輿論波及慈善基金會,大量捐贈人斷捐,終于翻車了

萌神木木
2026-06-22 20:41:41
三星9100 Pro直降49%:我測過最快的消費級固態,但原價真敢標

三星9100 Pro直降49%:我測過最快的消費級固態,但原價真敢標

字節漫游指南
2026-06-24 03:58:18
第2支亞洲出局隊!2000萬歐卡塔爾3輪1分小組墊底 連續2屆小組出局

第2支亞洲出局隊!2000萬歐卡塔爾3輪1分小組墊底 連續2屆小組出局

風過鄉
2026-06-25 05:12:16
1-2遭首敗!他們仍創造歷史:首次世界杯出線,為這一刻等了40年

1-2遭首敗!他們仍創造歷史:首次世界杯出線,為這一刻等了40年

侃球熊弟
2026-06-25 05:04:46
中國正式改口!以后不叫“日本政府”了,新稱呼傳遞的信號不一般

中國正式改口!以后不叫“日本政府”了,新稱呼傳遞的信號不一般

潘冹旅行浪子
2026-06-23 00:04:49
真蘭儀表:公司董事張蓉逝世

真蘭儀表:公司董事張蓉逝世

界面新聞
2026-06-24 17:01:27
羅納爾多怒斥西班牙媒體假新聞:我從沒說過梅西是“史上最佳球員”

羅納爾多怒斥西班牙媒體假新聞:我從沒說過梅西是“史上最佳球員”

海闊山遙YAO
2026-06-24 17:39:59
烏滑翔炸彈一鳴驚人,克里米亞11座路橋遭重創,俄電影劇組遭團滅

烏滑翔炸彈一鳴驚人,克里米亞11座路橋遭重創,俄電影劇組遭團滅

史政先鋒
2026-06-24 21:57:01
浙江省紀委省監委:王俊偉被查

浙江省紀委省監委:王俊偉被查

上觀新聞
2026-06-24 19:53:27
韓紅“走個面”翻車事件升級!其戒指、手串、腕表被網友追問價格

韓紅“走個面”翻車事件升級!其戒指、手串、腕表被網友追問價格

火山詩話
2026-06-24 15:26:03
Shams:里夫斯4年1.85億美元頂薪續約湖人,為落選秀歷史最大合同

Shams:里夫斯4年1.85億美元頂薪續約湖人,為落選秀歷史最大合同

懂球帝
2026-06-25 00:32:17
搞笑,里夫斯得知與湖人隊簽1.85億美元合同,直接躺高爾夫球場上

搞笑,里夫斯得知與湖人隊簽1.85億美元合同,直接躺高爾夫球場上

好火子
2026-06-25 05:17:39
某地瑜伽館驚現印度男人教練不堪入目,網友說:瑜伽是印度房中術

某地瑜伽館驚現印度男人教練不堪入目,網友說:瑜伽是印度房中術

黯泉
2026-06-23 17:44:53
近1800條質疑!清華博士發言“在西部奉獻”,原來是入職西安交大

近1800條質疑!清華博士發言“在西部奉獻”,原來是入職西安交大

火山詩話
2026-06-24 05:02:06
強勢!世界杯3個東道主全進淘汰賽 加拿大1-2輸球仍隊史首次晉級

強勢!世界杯3個東道主全進淘汰賽 加拿大1-2輸球仍隊史首次晉級

風過鄉
2026-06-25 05:22:58
將11只私募基金包裝成公募基金、逃避稅23.67億元,中行回應

將11只私募基金包裝成公募基金、逃避稅23.67億元,中行回應

澎湃新聞
2026-06-24 21:38:31
美財長貝森特:一旦烏克蘭戰爭結束,預計俄羅斯將重新回到美元體系

美財長貝森特:一旦烏克蘭戰爭結束,預計俄羅斯將重新回到美元體系

瀟湘晨報
2026-06-24 21:10:28
哥倫比亞1-0剛果金,反超葡萄牙出線!世界杯32強定7席,5隊出局

哥倫比亞1-0剛果金,反超葡萄牙出線!世界杯32強定7席,5隊出局

小火箭愛體育
2026-06-24 12:01:43
世界杯末輪亞洲球隊晉級形勢:3隊打平出線,兩隊生死戰,3隊出局

世界杯末輪亞洲球隊晉級形勢:3隊打平出線,兩隊生死戰,3隊出局

小禾的體育
2026-06-24 11:28:32
2026-06-25 06:12:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
552文章數 92關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

特朗普:不接受美伊協議包含任何涉及航運的費用

頭條要聞

特朗普:不接受美伊協議包含任何涉及航運的費用

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財經要聞

逃稅23億:審計署年報直指七家機構

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

親子
健康
數碼
本地
公開課

親子要聞

今天教兒子如何擦屁股

神經內科專家破解中風十大謠言

數碼要聞

三星電子公眾號注銷!家電業務已官宣退出中國大陸市場

本地新聞

2026世界杯全勤太難?這份保姆級攻略請收好

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版