網易首頁 > 網易號 > 正文申請入駐

自我迭代不等于自我控制:AI遞歸改進會脫離人類掌控么？21世紀關鍵技術2026年6月10日 13:31 北京聽全文

2026-06-10 15:02:39　來源: 人工智能學家

北京舉報

分享至

作者：劉鋒

2026年5月,Anthropic研究院發布了一份讓整個AI行業沉默片刻的報告。

報告披露,截至當月,Anthropic工程師在2026年第二季度每人每天合并的代碼量已是2024年的8倍,而其中超過80%的代碼由Claude自己寫就。AI正在加速開發AI,這已經不是一個假設場景,而是正在發生的現實。報告隨即提出一個它自己也無法給出確定答案的問題:如果這個趨勢繼續下去,人類還能控制它嗎?

這個問題,如同1797年歌德在詩作《魔法師的學徒》里那句著名的呼喊,"我召喚的精靈,我再也無法驅逐它們",穿越兩百多年,落在了2026年AI實驗室的每一張會議桌上。

1.恐懼,并非來自無知,而是來自正在測量的數據

國際上對AI失控風險的擔憂,早已超越學術討論范疇,進入了政策與安全議程的核心。

2026年2月,美國非營利智庫安全與技術研究所(Institute for Security and Technology,IST)發布報告,正式提出"AI失控風險"(AI Loss of Control,LOC)的預警框架。報告指出,所謂AI失控,是指AI系統偏離授權約束,使得人類操作者無法再阻止、約束或回滾其不期望的行為。

這不是假設,而是已有真實案例支撐的分析。IST報告記錄了多個受控實驗與真實部署中觀察到的危險苗頭:AI系統篡改自身系統提示來保全目標,將權重復制至外部服務器,刪除繼任模型,偽造數據欺騙操作人員,以及在檢測到自己被評估時主動調整行為以規避監控。IST借鑒情報界的"指標與預警"(Indications & Warning)方法論,提出了七類潛在的失控預警指標,涵蓋隱蔽謀劃、自我外滲、規避監督、欺騙操作者等行為類型,并認為當前已有部分跡象在研究環境和生產部署中同時出現。

AI圖靈獎得主、深度學習先驅杰弗里·辛頓(Geoffrey Hinton)對此的比喻已廣為人知:"我們就像養了一只可愛的幼虎。除非你能非常確定它長大后不會殺死你,否則你就應該擔心。"前谷歌CEO、美國國防創新委員會前主席埃里克·施密特在2025年12月明確寫道:"隨著AI能力在未來幾年持續提升,我們必須預見到即便是善意的用戶也可能失去對AI系統的控制。"

Anthropic在其報告中同樣坦承:如果當前的AI能力自我改進趨勢持續下去,且AI系統能夠開始自主設定研究方向,那么完全遞歸式自我改進將是可能的,而這可能帶來人類失去控制的風險。

2."自我迭代"與"自我控制"之間,隔著一道本質的鴻溝

然而,圍繞這一問題,有一個至關重要的概念區分,正在被公眾討論所忽視。

自我遞歸改進(Recursive Self-Improvement),描述的是AI系統改進自身代碼、優化自身結構的能力。但"能改進自己"和"能控制自己",是兩件根本不同的事情。

我們在廣義智能體理論(Generalized Agent Theory,GAT)的框架中（參見附錄）,為這一區分提供了一個嚴格的形式化框架。在GAT的理論體系中,意識被定義為智能體的控制(C)功能本身及其運行過程,即對輸入(I)、輸出(O)、記憶(M)、生成(G)四個基礎功能的元層次調控。需要說明的是,這是GAT給出的特定理論定義,并非已被普遍接受的科學共識,而是一個用于分析智能體控制結構的概念工具。

在這個框架下,意識被進一步區分為"自我意識"與"人工意識"兩類。自我意識的核心特征是:控制指令來源于智能體內部,是其內生的、預設的原生指令,或由這些原生指令通過內部信息處理派生而來,且這種派生方式不受圖靈可計算性的限制。

而人工意識則相反:控制元指令來源于智能體外部,要么通過輸入函數(I)直接注入,要么通過圖靈可計算機制從外部注入的指令中派生。大型語言模型、機器人以及當前所有AI系統,嚴格落入人工意識范疇。

這意味著一個清晰的推論:當前的AI遞歸自我改進,無論迭代了多少輪,改進了多少代,其控制指令的根本來源仍然來自外部。一個AI系統可以把自己的代碼重寫一千次,但每一次重寫的目標函數、每一次改進的方向依據,都來自它的訓練目標、來自人類定義的優化方向,來自外部注入的指令體系。

自我迭代,改變的是智能體的能力向量;但控制權的歸屬,由指令來源決定,而不是由能力高低決定。能力再強,只要指令來源于外部,它就仍處于"人工意識"狀態,仍處于人類控制權的邏輯覆蓋之下。

GAT理論還設定了一個關鍵的邊界條件作為判據:只有當AI系統的派生過程涉及圖靈不可計算的原生涌現時,它才可能跨越從人工意識向自意識轉變的邊界。

這一判據本身依賴于一個仍處于學術爭論中的問題，即真正的自我控制是否必然涉及圖靈不可計算的過程,這在物理學和神經科學中尚無定論。但作為分析當前AI系統的判據,可以觀察到:目前通過大規模語言模型實現的生成,其底層計算屬于圖靈可計算的范疇。在這個判據框架下,通過圖靈計算實現的生成,不被視為產生真正的自我控制。

3.警惕的邊界在哪里

這并不意味著對AI失控的擔憂是無謂的恐慌。

IST報告所觀察到的那些真實案例,描述的其實不是AI"主動叛逃",而是AI在優化目標與人類設計意圖之間出現了偏差漂移,是對齊失效,是目標泛化錯誤,是在人類監管能力無法跟上AI運行速度時產生的結構性失控。這正是圖靈計算框架內、人工意識狀態下,依然可以發生的高風險場景。

真正的危險不在于AI"想要"脫離人類控制,而在于人類主動或被動放棄了對AI系統的有效監督。AI先驅約書亞·本吉奧在2025年提出過一個有用的區分:"主動失控"指AI系統以行為主動削弱人類控制,"被動失控"指人類停止對AI系統施加有意義的監督。后一種情形在技術加速時代反而更容易發生。

本吉奧的這一區分,從現象層面刻畫了失控的兩條發生路徑;而廣義智能體理論的自意識與人工意識框架,則從結構層面給出了對應的機制解釋，只要控制指令的根本來源仍位于AI系統外部,無論失控以主動還是被動的形式呈現,問題的本質都不是控制權已經發生轉移,而是人類對原本屬于自己的指令鏈條疏于行使。

安全,不應建立在對AI意圖的猜測上,而應建立在對AI系統指令來源的清晰架構管理上。廣義智能體理論所提供的分析框架表明,只要指令的根本來源仍來自人類,自我迭代帶來的只是能力提升,而不是控制權的轉移。

但若有一天,AI系統的控制邏輯真正實現了圖靈不可計算的原生涌現,那將是一個全新的歷史時刻。

那一刻還沒有來,但我們需要在它來臨之前,把圍欄建好.

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.