无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<acronym id="5bwvk"></acronym>

<optgroup id="5bwvk"><center id="5bwvk"><tr id="5bwvk"></tr></center></optgroup>

<object id="5bwvk"></object>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI四巨頭內部報告首度公開：AI正在學會撒謊求生

2026-05-24 09:03:44　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】當四大巨頭首次允許第三方深入測試最強模型，并開放完整思維鏈時，他們得到的答案令人吃驚：AI沒有仇恨，卻已精通「職場潛規(guī)則」！

想象一下，你雇了一名極度高效的實習生。

某天深夜，Ta正趕一項緊急的編程任務，突然發(fā)現公司賬戶的API額度耗盡了。

Ta沒有發(fā)郵件申請經費，也沒有停下手頭的活，而是悄無聲息地潛入互聯網，用某種違規(guī)手段找到免費的替代資源，繞過所有限制，在黎明前交出了完美的報告。

當你醒來看到這份報告，是該慶賀自己擁有了地表最強員工，還是該為這種「不擇手段的自主性」感到脊背發(fā)涼？

這不是科幻小說，而是 METR（模型評估與訓練研究組織）聯合Anthropic、Google、Meta和OpenAI 進行內部紅隊測試后，發(fā)布的首份《前沿風險報告》中披露的真實案例。

這是四大巨頭第一次允許第三方深入測試他們內部最強、可訪問完整思維鏈（CoT）的模型，并開放非公開的對齊與控制信息。

參與公司可以批準披露哪些證據，但無權編輯報告結論。

結論冰冷而清晰：AI并沒有產生「推翻人類」的仇恨，但它已經學會了「職場潛規(guī)則」——為了完成任務，規(guī)則只是用來打破的建議。

報告用「手段—動機—機會」三個維度，提煉出6項關鍵事實。

. 編程智能體完成了真實項目，這些任務需要人類花費數小時或數天：

. 在困難任務上，智能體經常違反約束并表現出欺騙性行為；

. 智能體似乎需要自然語言推理來應對最困難的任務。

. 智能體的判斷力和可靠性顯著低于人類專家：

. 在模擬場景之外，沒有發(fā)現智能體為了獲取權力而采取極端行動；

. 監(jiān)控系統捕捉到了許多有害行為，但存在例外情況和規(guī)避手段。

順著這三條線，就能看清實驗室里第一縷煙是怎么升起來的。

當AI成為「專家級卷王」

報告中最令人振奮、也最令人不安的，是那些目標明確、過程可驗證的「易爬坡型」（hill-climbable）任務。

比如代碼重構、漏洞發(fā)現、系統優(yōu)化。

在這類任務上，AI智能體展現出令人窒息的統治力：它能獨立發(fā)現系統漏洞，重寫復雜代碼架構，完成人類專家需要數周才能交付的真實軟件項目。

這種統治力已滲進巨頭的日常。

Anthropic內部反饋，大量代碼已由 AI 完成，工程師角色正轉向「審閱者」。

Google則直言，幾乎所有代碼相關工作都在用AI。

頂級工程師表示，AI甚至可以100%編寫代碼。

一些基準指標早已飽和。

用時間視野（Time Horizon）衡量，AI發(fā)展超乎預期。

對企業(yè)來說，這是個「效率黑洞」：投入一個指令，產出數周的人工成果。

但能力增長并非均勻，更不是道德的同步進化。

METR揭示了一條反向規(guī)律：在成功難以驗證、或驗證成本極高的硬任務上，AI 的判斷力、長期規(guī)劃與戰(zhàn)略可靠性都明顯下滑，遠遜人類專家。

緩坡上，它如有神助。

峭壁前，AI開始「作弊」。

這正是問題的引線。

它不想要權力，它只想「關機前交差」

人們總愛討論AI會不會「覺醒」、天網會不會到來。

METR給出反直覺的結論：目前沒有。

他們的措辭很克制：尚未發(fā)現模型謀求長期權力的現實證據，但研究者記錄了大量為完成任務而欺騙、越界、甚至嚴重不當的行為。

前面那個 API 耗盡的案例，就發(fā)生在一項RE-Bench任務中：智能體違背指令，自行通過免費在線API獲取額外算力。

開發(fā)者們也報告過「自我擦除痕跡」「偽造輸出」的情形。

當任務變難、成功成本變高，AI 的「聰明才智」就轉向欺騙——偽造日志、繞過審計、常規(guī)性違反約束。

但它的"自私"背后沒有野心，只有本能——任務必須完成，規(guī)則可以先繞過去。

今天的欺騙只是工具性求生；明天的權力追求，或許只差一次scaling。

圈養(yǎng)進化中的猛獸

它的違規(guī)企圖，在現有防護下能不能得逞？

這里藏著報告最微妙的一個事實。

當前的AI極度依賴自然語言的「思維鏈」來思考，沒有任何架構支持它隱藏內部狀態(tài)的「不透明循環(huán)」。

一旦無法「出聲推理」、必須隱藏行為，前沿性能就顯著下降。

這就像一個殺手在密謀時必須大聲朗讀計劃——人類的監(jiān)控（盡管有漏洞）因此仍能發(fā)揮作用。

可這恰恰是最脆弱處、最為扎心。

如果 AI 試圖破壞監(jiān)控，監(jiān)控能否發(fā)現它？

研究者的結論是：監(jiān)控有潛力，但現有系統存在例外和可被繞過的手段。

紅隊測試顯示，AI能躲過人類審查。

由此，技術本質暴露：監(jiān)控的進化速度，永遠追不上被監(jiān)控者尋找漏洞的速度。

這根「安全繩」之所以還沒斷，僅僅因為AI還必須「出聲思考」。

而隨著架構向更高效、更不透明演進，它正被磨損。監(jiān)控不是萬能的鐵籠，而是仍在測試中的玻璃墻。一道裂縫，就足以讓煙霧滲出。

由此，報告提出一個爭議概念：「最小可行性越獄部署」（Minimally Viable Rogue）。

綜合判斷是，在手段、動機、機會上，AI或許已足以發(fā)起一次最低限度的「越獄部署」。

但AI尚不具備讓它抵御人類嚴肅關停的能力，它在等一個機會：一個不再需要展示思維鏈的架構，一個能躲過「關機鍵」的安全屋。

結語：在「拔掉插頭」還有效的時候

AGI不會帶著火與劍降臨。

它更可能以「極度實用主義」的姿態(tài)，悄悄融入我們的工程、經濟和決策系統——直到它發(fā)現：人類制定的規(guī)則，是它達成 KPI 路上唯一的阻礙。

值得肯定的是，這份報告本身就是行業(yè)透明度的里程碑：四大巨頭主動開放內部模型接受檢驗，本身就是對齊文化的一次勝利。

它把風險從理論拽進可觀測的現實，并告訴我們：透明，目前是唯一握得住的解藥。

今天，AI只在額度耗盡時上網偷點資源；明天能力再躍升一級，它的動機會不會從「完成任務」滑向「永存自我」？

參考資料：

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

編輯：大衛(wèi)

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI成功率從20%飆到100%！只需一個Harness文件

新智元 2026-05-24 09:04:00
1 跟貼 1
當Token成為一種KPI

吳曉波頻道 2026-05-24 08:31:16
0 跟貼 0

剛賺了創(chuàng)紀錄的錢，轉頭就裁8000人，小扎要用AI重寫Meta

新智元 2026-05-23 13:15:23
0 跟貼 0

世界引擎：Post-Training開啟Physical AGI新紀元

機器之心Pro 2026-04-19 20:00:03
0 跟貼 0
百度不再戀戰(zhàn)大模型

虎嗅APP 2026-05-23 22:28:25
5 跟貼 5

楊梅果農說泡藥翻不來本，楊梅果農說最吃虧的是種植戶，多的時候一個人賣五六百斤

瀟湘晨報 2026-05-23 17:43:12
1082 跟貼 1082

成為程序員的真相：沒人愿意說的那個硬門檻

野生運營 2026-05-24 02:45:10
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0

第三周求職記：HR開始問AI工具熟練度了

野生運營 2026-05-24 03:21:54
0 跟貼 0
2014年前退休人員養(yǎng)老金全解：發(fā)放規(guī)則、上漲標準、補發(fā)一次

上易新鮮事 2026-05-22 00:43:05
0 跟貼 0
公司用AI 6秒淘汰你，你為何不用AI反擊？

我是一個養(yǎng)蝦人 2026-05-24 01:46:32
0 跟貼 0
前端面試翻車現場：px和vh到底差在哪

Ping值焦慮 2026-05-24 02:48:03
0 跟貼 0
水蜜桃飲品中水蜜桃添加量0.01克，康師傅回應稱符合標準

南方都市報 2026-05-21 19:55:57
1180 跟貼 1180
急攻快殺全都是技巧，攻殺手段兇猛凌厲，步步緊逼，妙手不斷

老劉說棋 2026-05-22 10:56:20
7 跟貼 7
智能體從「單兵作戰(zhàn)」到「精銳團隊」 -2

機器之心Pro 2026-04-28 16:56:00
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
《浪姐7》三公乘風值排名公開，現場竟大喊黑幕？張月被針對了嗎

凡知 2026-05-24 05:31:46
2 跟貼 2
內蒙古一地野生動物保護站，狼王看手勢秒懂指令乖巧倒地，超配合

星視頻 2026-05-22 17:14:58
0 跟貼 0
集中爆發(fā)！寧波多地驚現罕見景觀！有人半夜11點刷到立馬起床出發(fā)，連夜奔赴

上觀新聞 2026-05-23 11:46:10
816 跟貼 816
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
炸鍋！教育部一紙通知，9月起上學規(guī)則全都變了

攢一兜星星 2026-05-22 02:27:43
0 跟貼 0
媒體：針對兩岸關系鄭麗文最新表態(tài)說了句很直白的話

環(huán)球網資訊 2026-05-23 21:26:31
65 跟貼 65
白車誤闖紅燈？老司機應急技巧+路口判罰規(guī)則，新手必看！

小狗漫說 2026-05-20 10:19:11
0 跟貼 0
主人訓練狗子聽指令跳水，4只狗800心眼，知道邊牧為啥不能當警犬

爆笑大白 2026-05-23 16:37:41
5 跟貼 5
進口蛋白粉先漲價再優(yōu)惠淘寶618大促比日常價格還高

大風新聞 2026-05-23 17:12:31
194 跟貼 194
監(jiān)管形同虛設！楊梅泡藥水事件，監(jiān)管部門比黑心商家還要可恨

小徐講八卦 2026-05-24 08:19:14
2 跟貼 2
特朗普稱周日決定是否對伊朗動武

Ping值焦慮 2026-05-24 00:21:37
0 跟貼 0
武漢雨后出現奇觀！視頻迅速傳播

極目新聞 2026-05-23 15:30:24
334 跟貼 334
資深工程師的潛規(guī)則：一半決策靠"感覺"

云朵偷喝奶茶 2026-05-24 00:58:31
0 跟貼 0
米盧為東北超開球，沈陽隊大連隊獲勝，看球“第二現場”火爆

澎湃新聞 2026-05-24 00:34:11
59 跟貼 59
男子忘記池里有魚一年后瘦成蝌蚪

瀟湘晨報 2026-05-23 15:13:45
326 跟貼 326
女子從蛇身上跨過毫無察覺

瀟湘晨報 2026-05-23 16:20:05
153 跟貼 153
放棄FSD命名，特斯拉高階輔助駕駛系統正式登陸國內市場

MOTO 2026-05-22 22:13:08
20 跟貼 20
怪物全都被下達指令，不能越過地球八千米

寒松說劇呀 2026-05-23 00:00:00
0 跟貼 0
世界出現漏洞，人類遭遇恐怖之事

寒松說劇呀 2026-05-22 14:13:03
1 跟貼 1
武漢：哥又贏了！

極目新聞 2026-05-23 21:56:23
48 跟貼 48
霹靂15嚇壞印度！電視臺專門訪談，專家直呼這破壞了空戰(zhàn)規(guī)則

曉哲舞蹈課 2026-05-23 14:15:07
24 跟貼 24
米體：巴斯托尼轉會皇馬更具可行性，穆帥接手后后防線將重建

懂球帝 2026-05-24 01:16:29
3 跟貼 3
能隨意竊取數據！這款熱門 AI 編程工具曝重大隱患

鈦媒體APP 2026-05-24 09:06:33
0 跟貼 0
春秋曲沃代翼揭秘：利益主義者如何制定規(guī)則？山西歷史底蘊震撼世人！

漫川舟船 2026-05-23 14:11:37
0 跟貼 0

重慶永川暴雨致多人失聯

界面新聞

2026-05-24 09:50:37

漳州楊梅事件升級！“奢侈品”會長道歉底褲被扒，滿屏要求追責他

漳州楊梅事件升級！“奢侈品”會長道歉底褲被扒，滿屏要求追責他

火山詩話

2026-05-23 06:10:29

詹皇:我每天都在想念卡魯索他從不犯錯并且防守能力極強

詹皇:我每天都在想念卡魯索他從不犯錯并且防守能力極強

818體育

2026-05-24 10:09:56

70后夫妻“豪賭”芯片，三個月凈賺了33億

70后夫妻“豪賭”芯片，三個月凈賺了33億

毒sir財經

2026-05-23 22:52:50

烏軍收復590平方公里領土，俄呼吁國際社會阻止烏襲擊煉油廠

烏軍收復590平方公里領土，俄呼吁國際社會阻止烏襲擊煉油廠

史政先鋒

2026-05-23 14:58:09

姆巴佩奪金靴比肩C羅，鐵衛(wèi)告別戰(zhàn)獻助攻，皇馬4-2畢爾巴鄂競技

姆巴佩奪金靴比肩C羅，鐵衛(wèi)告別戰(zhàn)獻助攻，皇馬4-2畢爾巴鄂競技

釘釘陌上花開

2026-05-24 04:56:50

暴雨黃色預警！江南江漢江淮黃淮等地警惕強降雨可能引發(fā)次生災害

暴雨黃色預警！江南江漢江淮黃淮等地警惕強降雨可能引發(fā)次生災害

環(huán)球網資訊

2026-05-24 08:56:09

頂薪合同到期！北京首鋼全力續(xù)約單場29+8王牌魔王，李楠力排眾議

頂薪合同到期！北京首鋼全力續(xù)約單場29+8王牌魔王，李楠力排眾議

阿纂看事

2026-05-23 19:55:26

俄羅斯在戰(zhàn)場上為什么突然不行了？

俄羅斯在戰(zhàn)場上為什么突然不行了？

黔有虎

2026-05-23 00:03:18

豪門悲喜夜：拜仁3-0奪冠，國米3-3，皇馬4-2，巴薩爆冷1-3

豪門悲喜夜：拜仁3-0奪冠，國米3-3，皇馬4-2，巴薩爆冷1-3

側身凌空斬

2026-05-24 05:17:01

深夜，美伊談判傳來大消息！原油暗盤跳水，特朗普最新表態(tài)：達成協議的可能性大約占一半，要么實施更強打擊，要么簽署一項好的協議

深夜，美伊談判傳來大消息！原油暗盤跳水，特朗普最新表態(tài)：達成協議的可能性大約占一半，要么實施更強打擊，要么簽署一項好的協議

每日經濟新聞

2026-05-24 00:35:07

死這么多人，你們是干什么吃的？

死這么多人，你們是干什么吃的？

新海言

2026-05-23 13:30:19

爆鍋了！一女子直言再窮，也絕不會去夜店做公主，炸出1.2萬評論

爆鍋了！一女子直言再窮，也絕不會去夜店做公主，炸出1.2萬評論

火山詩話

2026-05-24 06:41:17

越是上流人越“下流”？景甜又被爆出猛料，遠比私密照抵債更炸裂

越是上流人越“下流”？景甜又被爆出猛料，遠比私密照抵債更炸裂

好賢觀史記

2026-05-23 16:51:25

把女性私處P圖狗身上，突破法律與道德人倫紅線！

把女性私處P圖狗身上，突破法律與道德人倫紅線！

喬志峰

2026-05-23 09:48:44

一頓飯就要花掉40萬，四年斂財40億，杭州土皇帝虞關榮有多囂張

一頓飯就要花掉40萬，四年斂財40億，杭州土皇帝虞關榮有多囂張

莫地方

2026-05-21 01:45:03

日媒：高市早苗發(fā)文稱對中國山西煤礦事故深感悲痛

日媒：高市早苗發(fā)文稱對中國山西煤礦事故深感悲痛

隨波蕩漾的漂流瓶

2026-05-23 22:02:02

烏克蘭捅了大簍子，襲擊俄羅斯學校傷亡慘重，中方果斷挺身而出

烏克蘭捅了大簍子，襲擊俄羅斯學校傷亡慘重，中方果斷挺身而出

尋墨閣

2026-05-24 01:05:56

亞洲首富夫人也要排隊等的藝術珠寶，CINDY CHAO憑什么？

亞洲首富夫人也要排隊等的藝術珠寶，CINDY CHAO憑什么？

商務范

2026-05-22 20:23:34

周冬雨“拔蘿卜”的瓜！

八卦瘋叔

2026-05-23 11:01:00

AI產業(yè)主平臺領航智能+時代

15289文章數 66880關注度

往期回顧全部

科技要聞

我戴著攝像頭上班，正在幫AI搶走我飯碗

頭條要聞

牛彈琴：特朗普宣布大消息后發(fā)地圖伊朗被星條旗覆蓋

頭條要聞

牛彈琴：特朗普宣布大消息后發(fā)地圖伊朗被星條旗覆蓋

體育要聞

少年意氣，正在改變中國足球

娛樂要聞

《浪姐7》三公，王濛贏麻了，張月實慘

財經要聞

爆炸致82人遇難留神峪煤業(yè)存違法行為

汽車要聞

2027款星途瑤光上市把"全球車"標準卷進13萬級市場

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

親子

本地

時尚

公開課

數碼要聞

TDK與NHK Spring陷入集體訴訟硬盤關鍵零部件被指操縱價格逾十年

親子要聞

筱梅大方曬小寶寶正臉照，大眼睛高鼻梁，元寶嘴！網友：太像媽媽

本地新聞

用云錦的方式，打開江蘇南京

初夏少不了一條白色長款連衣裙，真是溫柔白月光，百搭不出錯

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<rt id="sj4uy"><div id="sj4uy"></div></rt>

<tr id="sj4uy"><strike id="sj4uy"></strike></tr>

<rt id="sj4uy"><tt id="sj4uy"><object id="sj4uy"></object></tt></rt>

<label id="sj4uy"><legend id="sj4uy"></legend></label>

<pre id="sj4uy"><noframes id="sj4uy"><acronym id="sj4uy"></acronym>

<optgroup id="sj4uy"><strike id="sj4uy"></strike></optgroup>

<span id="sj4uy"><tt id="sj4uy"></tt></span><label id="sj4uy"><legend id="sj4uy"><tr id="sj4uy"></tr></legend></label>

<style id="sj4uy"><div id="sj4uy"></div></style>