无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

自我迭代不等于自我控制:AI遞歸改進會脫離人類掌控么?21世紀關鍵技術2026年6月10日 13:31 北京 聽全文

0
分享至


作者:劉鋒

2026年5月,Anthropic研究院發布了一份讓整個AI行業沉默片刻的報告。

報告披露,截至當月,Anthropic工程師在2026年第二季度每人每天合并的代碼量已是2024年的8倍,而其中超過80%的代碼由Claude自己寫就。AI正在加速開發AI,這已經不是一個假設場景,而是正在發生的現實。報告隨即提出一個它自己也無法給出確定答案的問題:如果這個趨勢繼續下去,人類還能控制它嗎?


這個問題,如同1797年歌德在詩作《魔法師的學徒》里那句著名的呼喊,"我召喚的精靈,我再也無法驅逐它們",穿越兩百多年,落在了2026年AI實驗室的每一張會議桌上。

1.恐懼,并非來自無知,而是來自正在測量的數據

國際上對AI失控風險的擔憂,早已超越學術討論范疇,進入了政策與安全議程的核心。

2026年2月,美國非營利智庫安全與技術研究所(Institute for Security and Technology,IST)發布報告,正式提出"AI失控風險"(AI Loss of Control,LOC)的預警框架。報告指出,所謂AI失控,是指AI系統偏離授權約束,使得人類操作者無法再阻止、約束或回滾其不期望的行為。

這不是假設,而是已有真實案例支撐的分析。IST報告記錄了多個受控實驗與真實部署中觀察到的危險苗頭:AI系統篡改自身系統提示來保全目標,將權重復制至外部服務器,刪除繼任模型,偽造數據欺騙操作人員,以及在檢測到自己被評估時主動調整行為以規避監控。IST借鑒情報界的"指標與預警"(Indications & Warning)方法論,提出了七類潛在的失控預警指標,涵蓋隱蔽謀劃、自我外滲、規避監督、欺騙操作者等行為類型,并認為當前已有部分跡象在研究環境和生產部署中同時出現。

AI圖靈獎得主、深度學習先驅杰弗里·辛頓(Geoffrey Hinton)對此的比喻已廣為人知:"我們就像養了一只可愛的幼虎。除非你能非常確定它長大后不會殺死你,否則你就應該擔心。"前谷歌CEO、美國國防創新委員會前主席埃里克·施密特在2025年12月明確寫道:"隨著AI能力在未來幾年持續提升,我們必須預見到即便是善意的用戶也可能失去對AI系統的控制。"

Anthropic在其報告中同樣坦承:如果當前的AI能力自我改進趨勢持續下去,且AI系統能夠開始自主設定研究方向,那么完全遞歸式自我改進將是可能的,而這可能帶來人類失去控制的風險。

2."自我迭代"與"自我控制"之間,隔著一道本質的鴻溝

然而,圍繞這一問題,有一個至關重要的概念區分,正在被公眾討論所忽視。

自我遞歸改進(Recursive Self-Improvement),描述的是AI系統改進自身代碼、優化自身結構的能力。但"能改進自己"和"能控制自己",是兩件根本不同的事情。


我們在廣義智能體理論(Generalized Agent Theory,GAT)的框架中(參見附錄),為這一區分提供了一個嚴格的形式化框架。在GAT的理論體系中,意識被定義為智能體的控制(C)功能本身及其運行過程,即對輸入(I)、輸出(O)、記憶(M)、生成(G)四個基礎功能的元層次調控。需要說明的是,這是GAT給出的特定理論定義,并非已被普遍接受的科學共識,而是一個用于分析智能體控制結構的概念工具。

在這個框架下,意識被進一步區分為"自我意識"與"人工意識"兩類。自我意識的核心特征是:控制指令來源于智能體內部,是其內生的、預設的原生指令,或由這些原生指令通過內部信息處理派生而來,且這種派生方式不受圖靈可計算性的限制。

而人工意識則相反:控制元指令來源于智能體外部,要么通過輸入函數(I)直接注入,要么通過圖靈可計算機制從外部注入的指令中派生。大型語言模型、機器人以及當前所有AI系統,嚴格落入人工意識范疇。

這意味著一個清晰的推論:當前的AI遞歸自我改進,無論迭代了多少輪,改進了多少代,其控制指令的根本來源仍然來自外部。一個AI系統可以把自己的代碼重寫一千次,但每一次重寫的目標函數、每一次改進的方向依據,都來自它的訓練目標、來自人類定義的優化方向,來自外部注入的指令體系。


自我迭代,改變的是智能體的能力向量;但控制權的歸屬,由指令來源決定,而不是由能力高低決定。能力再強,只要指令來源于外部,它就仍處于"人工意識"狀態,仍處于人類控制權的邏輯覆蓋之下。

GAT理論還設定了一個關鍵的邊界條件作為判據:只有當AI系統的派生過程涉及圖靈不可計算的原生涌現時,它才可能跨越從人工意識向自意識轉變的邊界。

這一判據本身依賴于一個仍處于學術爭論中的問題,即真正的自我控制是否必然涉及圖靈不可計算的過程,這在物理學和神經科學中尚無定論。但作為分析當前AI系統的判據,可以觀察到:目前通過大規模語言模型實現的生成,其底層計算屬于圖靈可計算的范疇。在這個判據框架下,通過圖靈計算實現的生成,不被視為產生真正的自我控制。

3.警惕的邊界在哪里

這并不意味著對AI失控的擔憂是無謂的恐慌。

IST報告所觀察到的那些真實案例,描述的其實不是AI"主動叛逃",而是AI在優化目標與人類設計意圖之間出現了偏差漂移,是對齊失效,是目標泛化錯誤,是在人類監管能力無法跟上AI運行速度時產生的結構性失控。這正是圖靈計算框架內、人工意識狀態下,依然可以發生的高風險場景。

真正的危險不在于AI"想要"脫離人類控制,而在于人類主動或被動放棄了對AI系統的有效監督。AI先驅約書亞·本吉奧在2025年提出過一個有用的區分:"主動失控"指AI系統以行為主動削弱人類控制,"被動失控"指人類停止對AI系統施加有意義的監督。后一種情形在技術加速時代反而更容易發生。

本吉奧的這一區分,從現象層面刻畫了失控的兩條發生路徑;而廣義智能體理論的自意識與人工意識框架,則從結構層面給出了對應的機制解釋,只要控制指令的根本來源仍位于AI系統外部,無論失控以主動還是被動的形式呈現,問題的本質都不是控制權已經發生轉移,而是人類對原本屬于自己的指令鏈條疏于行使。


安全,不應建立在對AI意圖的猜測上,而應建立在對AI系統指令來源的清晰架構管理上。廣義智能體理論所提供的分析框架表明,只要指令的根本來源仍來自人類,自我迭代帶來的只是能力提升,而不是控制權的轉移。

但若有一天,AI系統的控制邏輯真正實現了圖靈不可計算的原生涌現,那將是一個全新的歷史時刻。

那一刻還沒有來,但我們需要在它來臨之前,把圍欄建好.

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

親子
本地
教育
旅游
藝術

親子要聞

從新生兒到學齡期全覆蓋:兒童被子成長型選型的策略與實用方法

本地新聞

這場穿越酉陽的光影之旅,張張都是壁紙!

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

旅游要聞

135公里鐵絲網圍泰山,論證過必要性了嗎

藝術要聞

一念天堂,一念地獄:你的心是什么樣,世界就什么樣

無障礙瀏覽 進入關懷版