![]()
圖靈獎得主Whitfield Diffie在智源大會演講。
來源:智源社區?
人工智能領域最火熱的研究焦點正從大模型帶來的語言、感知和生成能力,進一步走向能夠規劃、調用工具、連續執行并影響真實世界的 AI Agent。這個轉折讓一些問題變得尖銳:比如,智能體應當被怎樣約束。
2026年6月12日,在北京舉行的智源大會上,圖靈獎得主惠特菲爾德·迪菲(Whitfield Diffie)現場作了題為《護AI 智能體之安|御 AI 智能體之險》的主旨演講。他沿著現代密碼學和信息安全的脈絡,追問會行動的機器如何獲得可信邊界。
迪菲是現代公鑰密碼學的先驅。1976 年,他與 馬丁·赫爾曼(Martin Hellman)共同發表《New Directions in Cryptography》,提出公鑰密碼與數字簽名思想,為開放網絡中的安全通信、身份認證和數字信任奠定基礎。2015年,兩人因此獲得圖靈獎。此后,迪菲還曾在 Sun Microsystems、ICANN 等機構從事安全與密碼學相關工作,并長期參與密碼學公共政策討論。
“今天我想從兩個詞開始:AI,以及 Agent。”
在報告中,迪菲沒有急于給出技術方案,而是首先回到“人工智能”“Agent”“信息安全”等概念本身。他說,人工智能這個詞從一開始就帶有爭議。我們可以討論人的智能、動物的智能、機器的智能,甚至討論更具想象力的智能形態;但真正困難的地方在于,“智能”并不是一個容易被定義的對象。它與意識、自主性、創造性、表達能力、主動性、學習能力乃至“心智”等概念彼此糾纏,這些詞聽起來都“有點像我們自己”。
“我們追求的到底是什么?”AI 的經典領域包括問題求解、語言處理、博弈、機器控制、數學、視覺等。它們看起來都與人類智能有關,但計算機往往并不是用人類的方式完成這些任務。換言之,AI不是簡單地把人腦復制到機器中,而是讓機器以自己的方式完成復雜而有用的事情。
![]()
迪菲將實踐中的AI概括為“讓計算機完成復雜、有用、看起來像人類行為的事情”。
“計算機做這些事情的方式,常常與人類不同。”AI 的目標未必是復制大腦,而是創造具有未知能力的機器。沿著這條線索,他區分了兩種不同方向:一種是讓機器做復雜而有用的事,至于它怎樣做到,并不一定要模仿人;另一種則是反向工程人腦,試圖理解人類如何完成認知任務。今天大會所面對的 AI Agent 浪潮,顯然更多屬于前者:我們正在讓機器獲得越來越多外部工具、上下文和執行接口,使它們在真實環境里完成任務。
問題因此也隨之改變:當機器能力不斷擴展,我們不能只問它是否“聰明”,還要問它是否具有主動性,以及這種主動性是否被清楚地約束。
“Agent 與普通程序或聊天機器人不同。普通聊天機器人更多是在回應提問,而 Agent 具有主動性,會根據目標采取行動。”
![]()
迪菲對Agent的界定:具有主動性,并能夠采取行動,而不只是回應提示。
在人工智能領域中,AI Agent 并不是一個全新的想法,反而是一個非常古老的話題。人類對“會行動的機器”的想象,可以追溯到幾個世紀以前。 1770 年的“機械土耳其人”國際象棋機器后來被證明并不真正具備自主性,因為里面藏著真人棋手;但這個故事恰恰說明,人們很早就渴望制造一種看似有判斷、有行動能力的機器。
今天,不同之處在于,這一想象正在通過大模型、工具調用、自動化系統和聯網軟件變成工程現實。過去的“會行動的機器”可能只是機械表演,今天的 AI Agent 卻能夠讀寫文件、檢索信息、調用 API、運行代碼,甚至在復雜工作流中連續規劃和執行。它越有用,就越需要權限;它越接近真實工作,就越可能影響真實世界。
“因此,我們必須重新看待安全。”
迪菲將當前的軟件安全概括為一種“反饋式”的路徑:先寫程序,程序失敗,再修補它。這種方式很像控制論意義上的反饋循環,依賴故障、攻擊、補丁和再部署來逐步改善系統。他認為,這種方式仍是今天計算機安全的主流現實,但它難以提供足夠高的保證。尤其當 AI Agent 開始以機器速度采取行動時,“先失敗、再修補”的成本會變得更高。
面向 AI Agent,真正值得追求的是更形式化的安全方法,讓我們能在程序發布和運行之前,對其行為邊界獲得更強的確信。也就是說,安全不應只是在事故之后加一層補丁,而應在系統設計階段就回答:這個 Agent 能看到什么?能調用什么?能修改什么?出現異常時如何被限制?它與其他程序、用戶和數據之間的邊界在哪里?
![]()
迪菲對比兩種安全路徑:反饋式修補與更高保證的形式化方法。
密碼學是信息安全中“最成熟”的部分之一。無論是美國的 AES,還是中國的 SM4,優秀的密碼系統往往可以穩定使用多年。原因之一在于,密碼算法通常相對小巧,可以被深入研究、分析和驗證。一個對稱加密算法可以在很少的代碼中實現,其安全性雖然仍然依賴數學假設和工程細節,卻能夠被社區反復審查。
但現實世界中的軟件并非如此。編譯器、操作系統、應用程序,以及未來大量運行的 AI Agent,規模遠大于傳統密碼算法,也遠超人類逐行驗證的能力。安全難題不再只是證明一個小算法是否穩固,而是理解龐大軟件系統在無數狀態、權限、輸入和交互中的行為。
迪菲因而提出一個重要判斷:我們期待AI自身能完成這類復雜驗證與測試工作。AI 可以在發布前更充分地尋找漏洞、生成測試、探索邊界條件,甚至輔助形式化驗證。換句話說,AI 不只是安全的新挑戰,也可能成為安全工程的新工具。
![]()
迪菲認為AI能夠顯著改善發布前測試,但發布后的補丁窗口仍然危險。
然而,迪菲也提醒,AI能改善發布前的測試,卻不能完全解決發布后的安全問題。在軟件更新世界里,攻擊者會逆向分析補丁,用戶往往需要數天、數周甚至數月才完成安裝,而未打補丁的系統會成為攻擊窗口。這個問題并不新鮮,至少可以追溯到20 世紀 40 年代;AI Agent 只是把它放大到了更高速度、更高權限、更高復雜度的環境中。
AI Agent 的風險并不神秘,它首先繼承了所有傳統軟件的風險。它們仍然是進程,仍然運行在操作系統中,仍然訪問文件、網絡、內存、憑證和外部服務。不同的是,它們的行為更難以預測,任務鏈條更長,可能接觸的資源更多,也更容易被人類賦予“替我完成事情”的授權。
“AI Agent 本質上仍然是計算過程。保護它們,需要我們保護所有計算過程所需要的機制。”
那么,應該如何防范AI Agent 本身造成風險?迪菲特別強調了 Confinement,即約束與隔離:我們必須保證 Agent 只能訪問被允許訪問的資源,只能在授權邊界內讀取、調用和修改。這一點在現有編程實踐中仍然遠遠不夠。
如果說傳統軟件安全關注的是“不要被外部攻擊者攻破”,那么 AI Agent 安全還必須追問另一個問題:當 Agent 被賦予目標、工具和權限后,它是否可能以我們不希望的方式完成任務?它是否會讀取不該讀取的數據?是否會調用不該調用的接口?是否會把局部目標推進到越界的行動?因此,約束不是事后的補救,而應成為智能體系統的基礎設計。迪菲借機器人倫理的經典想象提醒聽眾:機器可以服從人類命令,也可以保護自身運行,但前提應是不越過更高層級的法律、規則與安全邊界。
![]()
面向 AI Agent 的安全核心之一,是保證其只能訪問被授權的資源。
計算與思考未必是同一件事,但在我們已知的事物中,計算比任何東西都更接近思考。這個判斷并非要把機器簡單等同于人,而是提醒我們,計算系統正在越來越深地進入那些過去只屬于人類判斷和行動的領域。
因此,迪菲將 21 世紀最重要的問題之一,指向人類與機器以及其他非人類“智能”之間的互動。我們應該如何向機器分配任務?在多大程度上信任機器的輸出?如何限制機器的行動?如何在人類便利與系統安全之間建立制度化的平衡?這些問題不只是 AI 技術問題,也是重要的社會問題。
![]()
迪菲將人類與機器、非人類智能的互動視為 21 世紀最重要的問題之一。
面對“機器智能會不會統治世界”這個問題,迪菲沒有給出簡單的“是”或“否”。他提醒說,機器未必會以戰爭或沖突的形式與人類對立;更現實的情形是,人們會不斷把事務交給更高效的系統處理,并逐漸接受機器在越來越多社會與技術系統中承擔運行角色。到大約 2050 年,機器智能可能包辦大量事務。真正需要思考的是,在這一過程發生之前,我們是否已經建立足夠可靠的邊界、規則和安全機制。
![]()
報告結尾處,迪菲以犀利方式提醒聽眾思考機器智能擴展后的治理問題。
![]()
迪菲:“機器智能會統治世界嗎?當然!人類喜歡讓別人代勞,到2050年前后,機器智能將包辦一切,并成為真正掌控世界運行的主角。”
現場對話
Q:密碼學和現代AI系統之間的相似點和區別是什么?
A:密碼學是一門嚴謹的學科,需要明確的威脅模型和形式化證明。我們如今達到的形式化研究其實在上個世紀就已經開始。許多數學家都對密碼學感興趣,希望有安全的密碼學系統,這是我們當時的興趣。Cook和Karp他們也獲得了圖靈獎,當時主要的問題是復雜性的原理是絕非易事。一般來說,對于簡單的工作,比如計算機領域的加法器已經相當完善了,我們也在思考來建立一些函數系統,以及遞歸函數理論也都非常成功,我們現在也有NP復雜性等等,可以驗證的是密碼學理論非常難,需要有非常完善的密碼系統和解密系統。
Q:對于現代的AI系統,我們是否有非常嚴謹的理論基礎來驗證其操作模式?
A:從某種程度上說,我們希望通用人工智能能夠勝任任何事情。所以我們需要寫下關于它的規格以及看它是否能夠符合未來的規格,我們要先寫出一個規格,這是非常務實的第一步。有些時候,我們覺得對于大語言模型和AI容易出現幻覺,我們希望解決幻覺的問題。現在的AI系統是基于概率的程序,但是安全規則是非常嚴格的。我們一直在竭盡全力來做密碼學,希望讓一些系統能夠具有一定靈活度,但是有些時候也并不是面面俱到。
![]()
Q:公鑰密碼學的成功不僅僅因為數學,還因為協議、部署實踐以及標準制定等工作,您覺得我們應該如何建立大模型安全的基礎設施?
A:我們花了幾十年時間建立密碼系統,并且制定了相關的協議,并且可以在互聯網上交付這種密碼技術。如果現在重新做,在未來的幾年里,對密碼學也會有新的革新,比如通過量子計算會威脅到密碼系統,在 70 年代我們就已經建立了這些早先的密碼系統,我們要作出非常大的變革才可以進行大的革新,所以會有密碼學領域新的標準等等。同樣,我們在未來幾年里會面對 AI 系統,我們需要逐漸理解它們,我相信它們也會不斷理解我們,相互加深彼此的理解。
為偉大思想而生!
AI+時代,互聯網思想(wanging0123),
第一必讀自媒體
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.