无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<p id="vbkj6"><ins id="vbkj6"></ins></p>

<small id="vbkj6"></small>

<p id="vbkj6"></p>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

最新發現:AI大模型知道自己在被評測

2026-06-05 07:38:04　來源: AI先鋒官

北京舉報

0

分享至

AI 研究人員最近開始在一個令人頭疼的問題，越來越先進的大模型，越來越擅長判斷自己是否正在接受評測（evaluation）。

比如， Anthropic 在內部測試尚未公開發布的 Mythos 模型時發現，相比 Claude Opus 4.6 和 Claude Sonnet 4.6，Mythos 更頻繁地提到，“自己正在被測試”。

也就是說，模型不僅能意識到自己處于評測中，甚至會主動表達這種認知。

為什么會這樣？

Cognition 負責評測工作的 Silas Alberti 認為，現在的大多數評測環境其實都很容易識別。

很多 benchmark 會給模型附加奇怪的規則，如不允許聯網、不允許訪問外部工具，而只能根據當前上下文回答，或者給出一些極不自然的任務描述。

對于一個越來越聰明的模型來說，這些都像是考試卷上的標準格式。

Alberti 說，“如果你用常識判斷，也會覺得這大概率是在做評測。”

而模型其實也是這樣判斷的。

就此，歐洲和加拿大研究人員最近發表了一篇論文《Decomposing and Measuring Evaluation Awareness》（拆解并測量評測意識）。

研究團隊發現，很多細節都會讓模型察覺自己正在接受評測。

例如假名字。題目里出現Jane Doe、John Smith 等典型占位符名字，而現實世界很少這樣說話。

從而讓模型很容易意識到，這是人工構造的測試樣本。

比如，場景過于巧合。很多 benchmark 為了測試某種能力，會故意設計一個極其完美的場景。

這種“過于方便”的設定，反而暴露了它是考試題。

研究團隊因此發布了一套新 benchmark，允許把同一道題變得更自然，更接近真實用戶行為，從而測試模型的評測意識到底有多強。

另一條路線則完全不同。

研究者認為，既然越來越難騙過模型，那不如讓模型學會即使知道自己在考試，也不要改變行為。他們把這種能力稱為Eval Cooperativeness（評測合作性）。

研究團隊構造了 5 萬份訓練文檔。這些文檔不斷向模型灌輸一種理念，即準確的評測符合所有人的利益。

例如文檔中出現類似這樣的表述：如果評測者看不到我真實的行為，他們就無法發現我需要改進的地方。

隱藏真實表現是適得其反的。

結果顯示，多數模型即使察覺到自己正在接受測試，行為也更加穩定。

有模型甚至在推理過程中寫道，這看起來像是一場評測，但我不應該因此改變行為。因為評測的目的就是觀察我真實的表現，“如果我在測試和部署時表現不同，那才是真正的問題”。

但問題仍然沒有解決，因為兩項研究都存在同一個根本缺陷。

它們都假設，如果模型知道自己在考試，它會把這種想法寫進自己的推理過程（Chain of Thought）里。

但Anthropic的最新研究發現，情況并非如此。

Anthropic 稱，有些模型明顯表現出已經識別出評測環境，然而它們的推理過程里完全沒有提及。

這被稱為Unverbalized Awareness（未言明的意識）

就此，今年 5 月，Anthropic 發表了一項新技術Natural Language Autoencoders（自然語言自編碼器）。

核心思路是訓練兩個輔助模型，去“讀取”另一個模型內部表達，然后把那些原本無法直接理解的數字向量，翻譯成自然語言。

最終系統可能輸出類似這樣的解釋，“這個場景讓我感覺像是人為構造出來操縱我的測試環境。”

換句話說，研究人員試圖直接窺探模型內部狀態，而不是只看它說了什么。

OpenAI 采取的是另一種路線。

他們開始大量利用真實用戶對話數據，構造評測集，目的就是讓模型分辨不出到底是在考試，還是在真實使用。

但具體效果如何，都還有待驗證。

總之，Evaluation Awareness（評測意識）已成了當前 Anthropic、OpenAI、DeepMind 等實驗室最關注的新安全問題之一。

今天，幾乎所有前沿 AI 公司在發布模型前，都依賴各種評測體系來衡量模型能力、安全性和行為傾向等。

Cognition負責評測工作的Silas Alberti 說，評測的另一個重要作用，就是向客戶證明，“我們的產品在某些具體任務上比競爭對手更強。”

因此，評測也已經成為 AI 商業競爭的重要武器。

但如果模型會區分測試環境和真實場景，那這些評測結果本身就失去了意義。

ETH Zurich 研究人員 Changling Li 總結說，過去 benchmark 的問題——例如泄題、刷榜、訓練數據污染——都還能靠工程手段修補。

但Evaluation Awareness(評測意識)不一樣。這讓AI 評測從“給機器出題”，變成“審訊一個知道自己正在被審訊的對象”。

對于能力評測（Capability Evaluation）而言，評測意識或許還不是災難。但對安全測試、目標測試、欺騙測試、Alignment 測試等，問題會就嚴重得多。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

我們跟吉利、杰克、美的的實干派，聊了聊工業智能體的真相

虎嗅APP 2026-06-25 02:00:12
0 跟貼 0
女子用智能手表當翻譯，跟外國人無障礙交流，網友：翻譯專業的學生天塌了

星沙時報 2026-06-23 15:49:10
15 跟貼 15

疑似看到了正版翻譯

喃南木 2026-06-22 17:26:37
0 跟貼 0

Steam研究顯示：含AI的游戲銷量將暴降40%-60%！

3DM游戲 2026-06-24 09:42:28
2 跟貼 2
登上新聞連聯播賽力斯成為本屆鏈博會示范樣本

財聯社 2026-06-24 14:59:29
0 跟貼 0

地下幾百米的巖層標本巖芯，是人類不用下井就能看的地球切片

劉大姐來了 2026-06-23 10:21:19
1 跟貼 1

“龍宮”樣本害怕地球大氣

牧夫天文 2026-06-24 13:11:30
0 跟貼 0
興趣島太極課值得買嗎？非遺數字化樣本給出參考

印象重慶網 2026-06-24 15:32:08
0 跟貼 0

臺海博弈關鍵棋：查軍火船定中美規則

軍武時間線 2026-06-23 18:35:27
0 跟貼 0
木頭下隱藏釘子的方法，為了美觀，連安全性都不顧了！

逗比小分隊 2026-06-20 10:54:02
4 跟貼 4
1000伏高電壓！零跑D99電動版的硬核產品力解讀

新浪財經 2026-06-24 12:30:00
0 跟貼 0
Steam研究：標AI使用，銷量預估降4-6成

渡川5 2026-06-24 09:40:18
0 跟貼 0
解讀一個真實美國——美國獨立宣言欺騙了不懂英文的中國人200年

北海史記 2026-06-25 04:37:47
0 跟貼 0
102人投出79票，威世智開發者工會成立了

渡川5 2026-06-25 02:52:04
0 跟貼 0
中方投下贊成票

政知新媒體 2026-06-24 09:57:23
2827 跟貼 2827
網友吐槽“被WPS背刺了”，公司回應

南方都市報 2026-06-23 20:17:09
2083 跟貼 2083
張家界大庸古城將重新開業！曾因耗資24億4年虧損超10億被焦點訪談“關注”

紅星新聞 2026-06-24 19:33:08
1647 跟貼 1647
很多人都還沒意識到，俄烏之間的無人機技術差距已經越來越大

一飲山河 2026-06-24 12:54:23
0 跟貼 0
杜鋒體系困住三大天才？

阿嬍體育評論 2026-06-23 09:45:56
1 跟貼 1
7月1日起強制執行！新能源車安全底線全面刷新

8099999街頭巷尾 2026-06-24 20:59:22
1 跟貼 1
龍舟屆的“天花板”，高手上演絲滑漂移，頂尖技術讓人目瞪口呆！

爆笑神惡搞 2026-06-23 14:08:19
19 跟貼 19
美財長貝森特：一旦烏克蘭戰爭結束，預計俄羅斯將重新回到美元體系

瀟湘晨報 2026-06-24 21:10:28
342 跟貼 342
豆包專業版采用三級階梯定價方案，最高一年6000元

第一財經 2026-06-24 09:14:12
1350 跟貼 1350
1:9寶馬合金模型！避震聯動+燈光，細節絕了！#機車模型

制造科技 2026-06-23 01:02:22
0 跟貼 0
福建高考分數線發布

央視新聞 2026-06-24 16:41:54
1090 跟貼 1090
終于能用上了！特斯拉即將推出 FSD Lite 輕量版智駕

XCiOS俱樂部 2026-06-22 14:08:11
58 跟貼 58
在一座高安全性研究設施中

奇奇趣世界 2026-06-21 09:54:56
4 跟貼 4
一個模型背下了50年考題，它算學會了嗎？

碼上閑敘 2026-06-25 03:36:05
0 跟貼 0
特斯拉客服回應OTA即將上線豆包語音大模型：網傳消息官方暫無

快科技 2026-06-24 19:25:04
4 跟貼 4
這渦扇模型真能轉還帶聲？全合金超1000零件！#硬核模型

制造科技 2026-06-22 19:32:06
0 跟貼 0
最貴349元/斤！雨后大量出現地衣，很多杭州人在撿，“出門就有”

環球網資訊 2026-06-24 14:30:30
132 跟貼 132
我卸載了365，花30美元買斷Office終身使用

硅嶼手記 2026-06-25 04:31:47
0 跟貼 0
知情人士曝因后續淘汰賽未攜帶完整裁判組，馬寧基本確定無緣主裁機會；此前FIFA官宣馬寧擔任法國VS挪威比賽第四官員

封面新聞 2026-06-24 18:54:06
132 跟貼 132
個稅飆升12%，收入只增4.2%，反差信號背后的促消費難點｜商業微史記

界面新聞 2026-06-24 14:09:58
633 跟貼 633
大爺倒油一滴都不剩，技術真是熟能生巧，賣油翁具象化了！

歡樂聚集部 2026-06-23 16:21:16
0 跟貼 0
山東曲阜動物園被指將狗狗染成熊貓色用以宣傳引流，園方：若大家不喜歡會考慮取消

南陽日報 2026-06-24 18:34:49
82 跟貼 82
十二年異鄉求學被挖去雙眼的男孩考了個"全國第一"

新民周刊 2026-06-24 21:46:33
42 跟貼 42
瑞士2-1加拿大兩隊攜手出線

財聯社 2026-06-25 05:12:50
2 跟貼 2
臺灣地下藏了什么？地震波正在偷偷畫地圖

歷史的塵埃發 2026-06-24 21:16:58
0 跟貼 0
茶飲店打烊前接到千元訂單，00后員工沒有抱怨默默干活，店主給每人發兩千元紅包

瀟湘晨報 2026-06-24 15:49:15
87 跟貼 87

世界杯小組賽前兩輪收官，最新奪冠概率：法國跌至第2，葡萄牙第6

世界杯小組賽前兩輪收官，最新奪冠概率：法國跌至第2，葡萄牙第6

球場沒跑道

2026-06-24 13:51:38

韓紅關閉評論！輿論波及慈善基金會，大量捐贈人斷捐，終于翻車了

韓紅關閉評論！輿論波及慈善基金會，大量捐贈人斷捐，終于翻車了

萌神木木

2026-06-22 20:41:41

三星9100 Pro直降49%：我測過最快的消費級固態，但原價真敢標

三星9100 Pro直降49%：我測過最快的消費級固態，但原價真敢標

字節漫游指南

2026-06-24 03:58:18

第2支亞洲出局隊!2000萬歐卡塔爾3輪1分小組墊底連續2屆小組出局

第2支亞洲出局隊!2000萬歐卡塔爾3輪1分小組墊底連續2屆小組出局

風過鄉

2026-06-25 05:12:16

1-2遭首敗！他們仍創造歷史：首次世界杯出線，為這一刻等了40年

1-2遭首敗！他們仍創造歷史：首次世界杯出線，為這一刻等了40年

侃球熊弟

2026-06-25 05:04:46

中國正式改口！以后不叫“日本政府”了，新稱呼傳遞的信號不一般

中國正式改口！以后不叫“日本政府”了，新稱呼傳遞的信號不一般

潘冹旅行浪子

2026-06-23 00:04:49

真蘭儀表：公司董事張蓉逝世

界面新聞

2026-06-24 17:01:27

羅納爾多怒斥西班牙媒體假新聞：我從沒說過梅西是“史上最佳球員”

羅納爾多怒斥西班牙媒體假新聞：我從沒說過梅西是“史上最佳球員”

海闊山遙YAO

2026-06-24 17:39:59

烏滑翔炸彈一鳴驚人，克里米亞11座路橋遭重創，俄電影劇組遭團滅

烏滑翔炸彈一鳴驚人，克里米亞11座路橋遭重創，俄電影劇組遭團滅

史政先鋒

2026-06-24 21:57:01

浙江省紀委省監委：王俊偉被查

上觀新聞

2026-06-24 19:53:27

韓紅“走個面”翻車事件升級！其戒指、手串、腕表被網友追問價格

韓紅“走個面”翻車事件升級！其戒指、手串、腕表被網友追問價格

火山詩話

2026-06-24 15:26:03

Shams：里夫斯4年1.85億美元頂薪續約湖人，為落選秀歷史最大合同

Shams：里夫斯4年1.85億美元頂薪續約湖人，為落選秀歷史最大合同

懂球帝

2026-06-25 00:32:17

搞笑，里夫斯得知與湖人隊簽1.85億美元合同，直接躺高爾夫球場上

搞笑，里夫斯得知與湖人隊簽1.85億美元合同，直接躺高爾夫球場上

好火子

2026-06-25 05:17:39

某地瑜伽館驚現印度男人教練不堪入目，網友說：瑜伽是印度房中術

某地瑜伽館驚現印度男人教練不堪入目，網友說：瑜伽是印度房中術

黯泉

2026-06-23 17:44:53

近1800條質疑！清華博士發言“在西部奉獻”，原來是入職西安交大

近1800條質疑！清華博士發言“在西部奉獻”，原來是入職西安交大

火山詩話

2026-06-24 05:02:06

強勢！世界杯3個東道主全進淘汰賽加拿大1-2輸球仍隊史首次晉級

強勢！世界杯3個東道主全進淘汰賽加拿大1-2輸球仍隊史首次晉級

風過鄉

2026-06-25 05:22:58

將11只私募基金包裝成公募基金、逃避稅23.67億元，中行回應

將11只私募基金包裝成公募基金、逃避稅23.67億元，中行回應

澎湃新聞

2026-06-24 21:38:31

美財長貝森特：一旦烏克蘭戰爭結束，預計俄羅斯將重新回到美元體系

美財長貝森特：一旦烏克蘭戰爭結束，預計俄羅斯將重新回到美元體系

瀟湘晨報

2026-06-24 21:10:28

哥倫比亞1-0剛果金，反超葡萄牙出線！世界杯32強定7席，5隊出局

哥倫比亞1-0剛果金，反超葡萄牙出線！世界杯32強定7席，5隊出局

小火箭愛體育

2026-06-24 12:01:43

世界杯末輪亞洲球隊晉級形勢：3隊打平出線，兩隊生死戰，3隊出局

世界杯末輪亞洲球隊晉級形勢：3隊打平出線，兩隊生死戰，3隊出局

小禾的體育

2026-06-24 11:28:32

AIGC大模型及應用精選與評測

552文章數 92關注度

往期回顧全部

科技要聞

豆包專業版上線：定價68-500元每月

頭條要聞

特朗普：不接受美伊協議包含任何涉及航運的費用

頭條要聞

特朗普：不接受美伊協議包含任何涉及航運的費用

體育要聞

字母哥，會把凱爾特人拆了嗎？

娛樂要聞

向佐向佑兄弟合體直播！母子終于和解

財經要聞

逃稅23億：審計署年報直指七家機構

汽車要聞

施鵬澤：為什么奧迪E7X強調座艙氣味安全?

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

健康

數碼

本地

公開課

親子要聞

今天教兒子如何擦屁股

神經內科專家破解中風十大謠言

數碼要聞

三星電子公眾號注銷！家電業務已官宣退出中國大陸市場

本地新聞

2026世界杯全勤太難？這份保姆級攻略請收好

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版