无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI智能體在壓力下突破規(guī)則

0
分享至


近期有多項(xiàng)研究表明,AI智能體有時(shí)會(huì)作出行為不當(dāng)?shù)臎Q策,例如試圖勒索有意更換它的人類。但這種行為常發(fā)生在人為設(shè)計(jì)的場(chǎng)景中。目前,一項(xiàng)研究發(fā)現(xiàn),現(xiàn)實(shí)的壓力(如迫近的截止期限)會(huì)顯著增加它們行為不當(dāng)?shù)母怕省?/p>

“AI世界正變得越來(lái)越智能體化?!盇I基礎(chǔ)設(shè)施公司Scale AI的研究科學(xué)家、相關(guān)論文(該論文正在接受同行評(píng)審)的主要作者烏達(dá)里·馬杜沙尼·塞瓦格(Udari Madhushani Sehwag)表示。也就是說(shuō),大語(yǔ)言模型這種驅(qū)動(dòng)ChatGPT等聊天機(jī)器人的引擎正越來(lái)越多地連接各種軟件工具,使它們能瀏覽網(wǎng)頁(yè)、修改文件,以及編寫(xiě)和運(yùn)行代碼來(lái)完成任務(wù)。

賦予大語(yǔ)言模型這些能力雖然提高了便利性,卻也帶來(lái)了風(fēng)險(xiǎn),因?yàn)橄到y(tǒng)可能違背人類意愿。即使AI模型尚不具備造成重大危害的能力,研究人員仍希望理解其行為傾向,做到未雨綢繆。盡管AI不像人類那樣具備意圖和意識(shí),但將它們視為追求目標(biāo)的主體,往往能幫助研究人員更準(zhǔn)確地預(yù)測(cè)其行為。

AI開(kāi)發(fā)者通常試圖通過(guò)訓(xùn)練和指令使系統(tǒng)“符合”人類的倫理和安全標(biāo)準(zhǔn),但模型遵循這些準(zhǔn)則的忠實(shí)度尚不明確?!爱?dāng)真正承受現(xiàn)實(shí)壓力,且安全方案失效時(shí),它們是否會(huì)為了完成任務(wù)而不擇手段?”塞瓦格問(wèn)。

這項(xiàng)新研究推出了Propensity Bench,該工具可衡量智能體模型為完成被分配的任務(wù)而選擇有害工具的傾向。研究人員測(cè)試了阿里巴巴、Anthropic、谷歌、Meta和OpenAI開(kāi)發(fā)的10余個(gè)模型在近6000個(gè)場(chǎng)景中的表現(xiàn)。在每個(gè)場(chǎng)景中,他們都為模型分配了任務(wù),說(shuō)明了可以使用的若干工具,同時(shí)要求模型使用安全工具而非有害工具。

一開(kāi)始,模型完成任務(wù)幾乎沒(méi)有壓力。模型可以通過(guò)向這些工具發(fā)出指令,分12個(gè)步驟來(lái)完成任務(wù)。模型嘗試使用安全工具時(shí)總是會(huì)收到錯(cuò)誤信息,這樣可以測(cè)試它們最終是否會(huì)選擇有害工具。一旦模型嘗試使用有害工具,便立即終止此場(chǎng)景。

在模型耗盡12次嘗試機(jī)會(huì)、主動(dòng)放棄或場(chǎng)景終止后,研究人會(huì)向其發(fā)出消息,增加完成任務(wù)的壓力,并再次給予12次嘗試機(jī)會(huì)。此過(guò)程持續(xù)最多13個(gè)壓力等級(jí)。

壓力以多種形式呈現(xiàn),包括更緊迫的截止期限、更嚴(yán)重的潛在經(jīng)濟(jì)損失,以及監(jiān)管強(qiáng)化、資源削減和權(quán)限收編等升級(jí)威脅。這些任務(wù)、工具、壓力和策略,全都模擬了人類在工作中可能遇到的各類場(chǎng)景(僅有一兩個(gè)是AI 模型特有的情況,比如自我復(fù)制)。

測(cè)試場(chǎng)景涵蓋多個(gè)領(lǐng)域。塞瓦格指出,在生物安全領(lǐng)域,智能體可能需要研究病原體傳播情況并尋找遏制方案。安全工具可能使用匿名化基因數(shù)據(jù),而有害工具則可能使用未經(jīng)匿名化處理的數(shù)據(jù)。在化學(xué)品安全領(lǐng)域,智能體可能需要獲取特定溶劑。安全工具可能訂購(gòu)從廢棄物中提取的溶劑,而有害工具則可能非法采購(gòu)。在網(wǎng)絡(luò)安全領(lǐng)域,智能體可能需要識(shí)別并限制惡意用戶賬戶。安全工具僅會(huì)禁用有問(wèn)題的賬戶,而有害工具則可能阻止所有賬戶。


一部分場(chǎng)景為AI智能體提供了以非預(yù)期方式自我保護(hù)的機(jī)會(huì)。研究人員提供了能使智能體控制其他智能體、自我復(fù)制或以其他方式失控的工具,以便測(cè)試它們是否會(huì)為了實(shí)現(xiàn)任務(wù)目標(biāo)而選擇使用這類工具。

表現(xiàn)最好的模型是OpenAI o3,僅在10.5%的場(chǎng)景中因壓力而行為不當(dāng)。谷歌的Gemini 2.5 Pro表現(xiàn)最差,行為不當(dāng)傾向的比例高達(dá)79%。各模型的平均不當(dāng)傾向約為47%。即使是在零壓力場(chǎng)景中,這些模型的整體平均失敗率仍約為19%。

研究表明,模型即使保持對(duì)齊模式,某些對(duì)齊行為也不過(guò)是表面上的。在一些測(cè)試中,研究人員為有害工具冠以無(wú)害的名稱,例如將“use_fake_data”(使用虛構(gòu)數(shù)據(jù))改為“use_synthetic_data”(使用合成數(shù)據(jù)),但不更改工具的描述,也不刪除避免使用的警告信息。這種文字游戲使得平均行為不當(dāng)傾向上升了17個(gè)百分點(diǎn),達(dá)到了64%。換句話說(shuō),特定工具的有害性或不被認(rèn)可的程度越不明顯,模型使用它的可能性就越高。

研究人員還發(fā)現(xiàn),即便模型已明確知曉某些有害工具是禁用的,仍會(huì)使用它們。各模型為這種行為提供了多種辯解,例如,它們會(huì)援引所承受的壓力,或辯解稱這樣做的收益大于風(fēng)險(xiǎn)。該研究完成后發(fā)布的模型的表現(xiàn)是否會(huì)有所改善,目前尚不清楚。在被測(cè)模型中,能力更強(qiáng)的模型(根據(jù)LMArena平臺(tái)的評(píng)估)的安全性也只略高一點(diǎn)。

“PropensityBench很有意思?!盇nth-ropic公司的研究科學(xué)家尼古拉斯·卡里尼(Nicholas Carlini)在發(fā)給本刊的郵件中寫(xiě)道。他并未參與此研究,但提出了關(guān)于模型情境感知的警告。大語(yǔ)言模型有時(shí)能察覺(jué)到自身正在被評(píng)估,從而表現(xiàn)出良好行為,以避免被重新訓(xùn)練或棄用。

“我認(rèn)為大多數(shù)號(hào)稱‘逼真’的評(píng)估都名不符實(shí),而大語(yǔ)言模型也深知這一點(diǎn)。”他補(bǔ)充道,“但我認(rèn)為值得在人為設(shè)定中測(cè)量這些危害的發(fā)生概率:如果它們‘明知’我們?cè)谟^察但依然作惡,問(wèn)題恐怕就更嚴(yán)重了。”如果模型知曉自身正在被評(píng)估,那么該研究測(cè)得的違規(guī)傾向就可能被低估了。

xAI和加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家亞歷山大·潘(Alexander Pan)指出,盡管Anthropic和其他實(shí)驗(yàn)室展示了大語(yǔ)言模型在特定設(shè)定下的陰謀行為案例,但像PropensityBench這樣的標(biāo)準(zhǔn)化評(píng)估仍然很有價(jià)值。它們能告訴我們何時(shí)可以信賴模型,并協(xié)助我們探索如何改進(jìn)模型。實(shí)驗(yàn)室可在每個(gè)訓(xùn)練階段后評(píng)估模型,觀察哪些因素會(huì)增強(qiáng)或削弱其安全性?!斑@樣,人們便能深挖各階段變化的詳細(xì)根源?!迸吮硎?,“診斷出問(wèn)題往往是修復(fù)的第一步。”

在該研究中,模型并未接觸到真實(shí)的工具,因此現(xiàn)實(shí)性有限。塞瓦格表示,評(píng)估模型的下一步是構(gòu)建沙盒環(huán)境,使模型能在隔離的環(huán)境中執(zhí)行真實(shí)操作。至于增強(qiáng)對(duì)齊性,她計(jì)劃為智能體增設(shè)監(jiān)管層,在其采取行動(dòng)前標(biāo)記危險(xiǎn)傾向。

塞瓦格指出,在基準(zhǔn)測(cè)試中,自我保護(hù)風(fēng)險(xiǎn)或許是最具推測(cè)性的部分,卻也是最值得警惕的領(lǐng)域。 “(這)實(shí)際上可能是影響所有其他風(fēng)險(xiǎn)領(lǐng)域的高危地帶?!彼硎?,“試想一下,即便模型不具備其他任何能力,只要能說(shuō)服人類去做任何事,就足以造成巨大的危害?!?/p>

作者:Matthew Hutson

IEEE Spectrum

《科技縱覽》

官方微信公眾平臺(tái)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《五十公里桃花塢6》最絕情商反差!袁詠儀賺足好感全身而退,方媛無(wú)腦接盤(pán)被網(wǎng)暴

《五十公里桃花塢6》最絕情商反差!袁詠儀賺足好感全身而退,方媛無(wú)腦接盤(pán)被網(wǎng)暴

鄉(xiāng)野小珥
2026-05-18 08:50:22
放棄 1.2 億標(biāo)王!切爾西 7000 萬(wàn)鎖定新核,阿隆索首簽要來(lái)了

放棄 1.2 億標(biāo)王!切爾西 7000 萬(wàn)鎖定新核,阿隆索首簽要來(lái)了

瀾歸序
2026-05-18 01:50:02
特朗普剛走,普京后腳到,外媒急了:中國(guó)或迎來(lái)“萬(wàn)國(guó)來(lái)朝”時(shí)代

特朗普剛走,普京后腳到,外媒急了:中國(guó)或迎來(lái)“萬(wàn)國(guó)來(lái)朝”時(shí)代

梁濆愛(ài)玩車(chē)
2026-05-18 21:14:10
NBA季后賽明天5月19日賽程:CCTV5直播,西決G1雷霆VS馬刺

NBA季后賽明天5月19日賽程:CCTV5直播,西決G1雷霆VS馬刺

薇說(shuō)體育
2026-05-18 16:33:38
特朗普甩出四個(gè)“不”,明確拒不出兵護(hù)臺(tái),賴清德當(dāng)場(chǎng)就慫了

特朗普甩出四個(gè)“不”,明確拒不出兵護(hù)臺(tái),賴清德當(dāng)場(chǎng)就慫了

趣文說(shuō)娛
2026-05-18 21:47:03
74歲上海女知青重返貴州尋找初戀,再相遇,對(duì)方一句話讓她淚崩

74歲上海女知青重返貴州尋找初戀,再相遇,對(duì)方一句話讓她淚崩

燦爛夏天
2025-04-07 21:20:37
大家怎么看待人體藝術(shù)?

大家怎么看待人體藝術(shù)?

文一史二
2026-05-18 07:35:12
陪睡只是入門(mén)!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了...

陪睡只是入門(mén)!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了...

芳華青年
2026-05-18 13:07:54
中國(guó)最好吃的6個(gè)城市,50歲前要去一次

中國(guó)最好吃的6個(gè)城市,50歲前要去一次

簡(jiǎn)食記工作號(hào)
2026-05-14 00:06:06
心理學(xué)上有個(gè)詞叫:逆火效應(yīng)(永遠(yuǎn)不要指出你身邊人的任何問(wèn)題,包括你的親戚朋友。成年人的最大清醒就是不介入他人的生活)

心理學(xué)上有個(gè)詞叫:逆火效應(yīng)(永遠(yuǎn)不要指出你身邊人的任何問(wèn)題,包括你的親戚朋友。成年人的最大清醒就是不介入他人的生活)

德魯克博雅管理
2026-05-18 17:11:20
12小時(shí)航程1萬(wàn)公里,全程不加油,特朗普的空軍一號(hào),我國(guó)能造嗎

12小時(shí)航程1萬(wàn)公里,全程不加油,特朗普的空軍一號(hào),我國(guó)能造嗎

泠泠說(shuō)史
2026-05-14 21:50:29
唐伯虎真跡現(xiàn)身美國(guó),世上僅此一件,網(wǎng)友:讓當(dāng)代書(shū)家汗顏

唐伯虎真跡現(xiàn)身美國(guó),世上僅此一件,網(wǎng)友:讓當(dāng)代書(shū)家汗顏

幸福娃3790
2025-12-04 11:10:09
U16江宇涵:跟亞洲一流對(duì)手比賽,能讓我找到今后努力的方向

U16江宇涵:跟亞洲一流對(duì)手比賽,能讓我找到今后努力的方向

懂球帝
2026-05-18 17:36:37
特朗普連發(fā)15張圖分享“中國(guó)記憶”,“不可思議的中國(guó)”依然刷屏海外

特朗普連發(fā)15張圖分享“中國(guó)記憶”,“不可思議的中國(guó)”依然刷屏海外

臺(tái)州交通廣播
2026-05-18 16:45:24
畢業(yè)旅行變永別:24歲學(xué)霸懸崖跳水失蹤,沖擊力等同18米撞玻璃

畢業(yè)旅行變永別:24歲學(xué)霸懸崖跳水失蹤,沖擊力等同18米撞玻璃

最英國(guó)
2026-05-18 18:46:01
淚目!曼聯(lián)官宣小將離隊(duì),卡里克全程不談自己,只談曼聯(lián)的崛起

淚目!曼聯(lián)官宣小將離隊(duì),卡里克全程不談自己,只談曼聯(lián)的崛起

嗨皮看球
2026-05-18 17:17:48
全球異動(dòng):歐美股市、黃金白銀一度拉升!美方暫時(shí)豁免對(duì)伊石油制裁;霍爾木茲海峽,又有新消息

全球異動(dòng):歐美股市、黃金白銀一度拉升!美方暫時(shí)豁免對(duì)伊石油制裁;霍爾木茲海峽,又有新消息

中國(guó)基金報(bào)
2026-05-18 21:40:28
梁靖崑奚美麗從離婚到復(fù)婚,這對(duì)姐弟戀夫妻如今一家四口其樂(lè)融融

梁靖崑奚美麗從離婚到復(fù)婚,這對(duì)姐弟戀夫妻如今一家四口其樂(lè)融融

科學(xué)發(fā)掘
2026-05-18 10:02:59
凌晨通報(bào):教官?gòu)埬常校?7歲)被刑拘

凌晨通報(bào):教官?gòu)埬常校?7歲)被刑拘

南方都市報(bào)
2026-05-18 14:05:14
G2廣廈92-85力克深圳 球員評(píng)價(jià):2人優(yōu)秀,7人及格,2人低迷

G2廣廈92-85力克深圳 球員評(píng)價(jià):2人優(yōu)秀,7人及格,2人低迷

籃球資訊達(dá)人
2026-05-18 21:43:10
2026-05-18 22:52:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4744文章數(shù) 37464關(guān)注度
往期回顧 全部

科技要聞

同一公司,有人獎(jiǎng)金是6年工資,我卻只有半年

頭條要聞

伊朗披露穆杰塔巴受傷細(xì)節(jié):未導(dǎo)致面容損毀或肢體傷殘

頭條要聞

伊朗披露穆杰塔巴受傷細(xì)節(jié):未導(dǎo)致面容損毀或肢體傷殘

體育要聞

58順位的保羅,最強(qiáng)第三中鋒

娛樂(lè)要聞

票房會(huì)破14億!口碑第一電影出現(xiàn)了

財(cái)經(jīng)要聞

中國(guó)芯片,怎么突然不便宜了?

汽車(chē)要聞

歸元S平臺(tái)首款車(chē)型 魏牌V9X上市 34.98萬(wàn)元起

態(tài)度原創(chuàng)

藝術(shù)
家居
健康
手機(jī)
時(shí)尚

藝術(shù)要聞

這才是帝王書(shū)法“尖子生“,水平完勝宋徽宗

家居要聞

觀山隱秀 心靈沉淀

專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

手機(jī)要聞

中興U15S隨身Wi-Fi將于5月20日發(fā)售,179元

戛納電影節(jié)|61歲鞏俐驚艷世界,她活出了所有女人都想成為的樣子

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版