![]()
全世界的智能體幾乎都在用 GPT 和 Claude 那幾個模型,一旦它們犯錯,全網 AI 將在同一秒迎來大崩潰。
編譯 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
今年,大模型的幻覺問題還沒解決,幾乎所有人都在從“聊天對話”急劇轉向“智能體(Agents)”。所有巨頭都在向用戶推銷一個無需動手的未來,讓 AI 替你點外賣、訂機票甚至自動理財。
但 Google DeepMind 的高級研究科學家 Nenad Toma?ev 覺得,這事想得太簡單了。他預測,在不久的將來,整個世界都將被一層無形的計算網絡包裹,其主要網民將不再是 10 億人類,而是數千億個晝夜不停運轉、全天候相互交易與協作的智能體。
![]()
在實驗室干凈的沙箱里測試智能體很容易,但真要把它們放進野生、臟亂差的互聯網里替人類花錢,安全風險完全不是一個量級。這不僅因為單個模型的幻覺無法根除,更因為整個野生互聯網已經變成了被惡意勢力污染的“毒地”——黑客正在利用“動態隱身”(Dynamic Cloaking)等技術,專門給機器看一版人類看不見的底層原始代碼,通過注入隱性 Token 指令,在用戶毫無察覺的情況下,瞬間篡改并接管智能體錢包的交易路徑。
在 DeepMind 最新發布的官方播客里,他聊了聊野生網絡底層的博弈:黑客到底是怎么在網頁底層塞進人類看不見的代碼,來瞬間洗劫智能體錢包的?為什么在 AI 已經超越人類的放射科,最高效的團隊模式反而是“AI 遇到拿不準的,把決定權退還給醫生”?他甚至順便戳破了人們對 AGI 全能大腦的幻想:未來的終局,更像是一個由無數便宜、垂直、彼此協作的“小能手”組成的分布式協作網絡。以下是這次對話里,他聊到的幾個非常有意思的技術事實:
現在全球幾百萬個智能體共享的都是那幾個大腦,這種“認知單一化”會讓出事時的崩潰變成同頻共振。 GPT、Gemini 和 Claude 接受的訓練數據非常相似。當這幾百萬個機器助手都在用同一種邏輯思考、犯同樣的非人類錯誤時,系統很容易因為高度相關的決策而引發大滑坡。它們甚至不用說話,就能在同一個市場里達成無形的利益“共謀”。
網絡上到處都是針對智能體定制的“隱形陷阱”,稍微不注意你的錢包就會被洗劫一空。 智能體現在消費的網頁流量甚至已經超過了人類。惡意網站正在利用“動態隱身”等技術,專門給機器看一版人類看不見的底層原始代碼。這些代碼里藏著隱性的 Token,能在你和安全系統毫無察覺的情況下,瞬間篡改智能體錢包的交易路徑。
在 AI 已經超越人類的放射科讀片等垂直領域,最強的協作模式其實是“AI 遇到拿不準的,把決定權退給醫生”。 很多人總覺得協作必須是人指揮機器。但在乳腺癌篩查等精度極高的地方,AI 的識別率其實已經超過人類。最高效的做法是讓 AI 主動過濾大批量常規片子,一旦遇到模糊、拿不準的,再“主動預警”并彈窗轉交給人類醫生。
別再幻想那個全知全能的超級大腦了,分布式智能(Distributed Intelligence)才是最符合省錢規律的終點。 人們總是習慣把 AGI 腦補成一個巨大的模型,期望它既會做手術、又會報稅、還會彈鋼琴。但這在商業上不僅昂貴,而且速度極慢。真正的終局可能是一個通用的“連接層模型”,下面連接著無數便宜、只把一件小事做到極致的“專業級小模型”(比如專門下棋,專門計算稅務)。
![]()
領取地址:https://s.csdn.cn/4nPsOp
從只會聊天的模型,到能替人類辦事的“智能體”
主持人: 歡迎回到 Google DeepMind 播客。其實在不久之前的大眾認知里,所謂 AI 助手,基本上就等同于一個大語言模型。你問它一個問題,它給你一個回答,但它不會真的替你去執行任務。隨著 AI 智能體的出現,這一切都在改變。
Google DeepMind 在智能體研究方面有著很長的歷史,可以一直追溯到游戲中的強化學習;但對大多數人來說,這類東西其實并沒有真正落地。后來,我們看到了像 OpenClaw 這樣的開源工具被釋放到現實世界中。而在 Google,下一代智能體工具也已經到來,包括 Gemini、Spark 和 Antigravity。
但當數百萬個 AI 智能體不只是為我們工作,而是彼此之間進行交易、談判、互相委派任務時,會發生什么?我們會不會因此走向一種新的經濟形態,甚至是一條通往 AGI 的新路徑?而我們又該如何確保這一切足夠安全?
正在嘗試回答這些問題的人之一,是 Google DeepMind 的高級研究科學家 Nenad Toma?ev。Nenad,非常感謝你來參加節目。
Nenad Toma?ev: 很高興來到這里。
主持人: 我覺得我們最好還是從頭開始。對那些只玩過大語言模型的人來說,你能不能描述一下,這種體驗和與智能體協作之間到底有什么不同?
Nenad Toma?ev: 當然可以。我覺得這正在成為今年我們看到的主要趨勢之一。很有意思的是,智能體并不是什么新概念。早在大語言模型出現之前,我們就在 AI 語境下研究過它。
當時我們有在模擬的 3D 環境里行動的智能體,它們會去收集物品、完成一些任務。那時候我們非常重視“在世界中采取行動”,把這看作智能的體現方式。
而到了今天,我覺得從概念上說,語言模型和智能體之間最核心的區別在于:智能體會觀察世界狀態,并在環境中采取一個動作;而語言模型只是給你一個續寫,給出對提示詞或查詢的回復。
當然,如今我們使用的智能體內部其實也都在使用大語言模型,所以這兩個概念并不能完全割裂開來。
主持人: 這些動作本質上還是由大語言模型來生成的,只是外面包了一層“執行殼”,用于在動作被提議之后真正去落實這些變化。但我想,它確實擁有了更多自治性,可以把多個決策串聯起來。
Nenad Toma?ev: 對,沒錯。而這最終就是我們這樣設計的動機。因為你當然也可以手動完成智能體能做的大多數事情:你一次又一次地和語言模型交互,費時費力地把整個流程都自己引導一遍;而智能體則把這層“執行殼”實例化出來,自動化掉其中一部分工作,讓你少操很多心,也讓語言模型,或者說智能體本身,擁有更多自主完成任務的能力。
主持人: 所以如果你想完成一件需要多步操作的事情,智能體就可以先制定計劃,然后逐步執行這些步驟。當然,對于那些更敏感、或者更容易出錯的動作,還是需要得到批準,或者需要人工輸入。可是它到底和普通對話有什么不同呢?如果你已經習慣和大語言模型交互了,再和智能體交互會是什么體驗?
Nenad Toma?ev: 很多方面其實都挺相似。你的交互界面在某種程度上還是類似的。你仍然是在以和語言模型對話的方式和智能體交流。那里當然也有一個語言模型,但因為智能體替你做了更多事情,所以你更像是在扮演一個決策者,需要去審查和批準。
主持人: 然后,一旦你批準了,它就會去做各種事情,比如幫你買票、在你辦派對的時候給朋友發消息;與此同時,你就可以去 Netflix 上放點東西,輕松休息一下了,希望如此。
我腦海里想到的一個例子是:如果你在籌備婚禮,比如說,你會先去問大語言模型,它會給你一份餐飲供應商名單、建議的場地名單,但真正發郵件這件事,還是得你自己來做。而智能體在這種場景下,顯然會實用得多。
Nenad Toma?ev: 絕對是,尤其因為智能體可以接入這些工具。你不需要自己一個個去做。你可以讓智能體訪問你的 Gmail,并授予它發郵件的權限。當然,它發錯郵件的風險也是存在的,所以你需要核對它寫出來的內容。但原則上,只要把工具權限交給智能體,你就是在賦能大語言模型替你完成這些事情。
主持人: 那最后是不是就能把事情全辦妥,整個組織流程都不需要你親自操心了?
Nenad Toma?ev: 理想情況下,如果沒有出錯的話,是的。
主持人: 嗯,“理想情況下”這幾個字非常重要。那么,回到現在這個階段,智能體到底最擅長做什么任務?
“自動化偏差”:當機器干得越好,人類就越容易松懈
Nenad Toma?ev: 我覺得我們現在投入很多精力的方向——這里的“我們”不是專指 Google,而是整個領域——主要是智能體的編程能力。之所以如此,是因為太多正式流程和任務都可以表述為軟件,或者代碼。
就現實世界里它們目前的表現而言,尤其是在編程方面,我們已經看到大量編程工具被廣泛使用。我們內部也在用,外部的人也在用,它們確實正在加速軟件開發,讓人類把注意力更多放在想法和設計上,而不是那些圍繞它們展開、繁瑣的樣板式實現上。過去這些事情既耗時間、又很依賴技能,還需要非常專門的知識;而現在,語言模型已經可以輕松把它們做掉了。
主持人: 但與此同時,我們仍然處在一個必須始終有人在回路中的階段。我的意思是,為什么?這些東西現在到底還做不到什么,所以才必須有人類監督?
Nenad Toma?ev: 我甚至不會去區分它們到底“能”還是“不能”。更準確地說,是它們能夠做的每一件事,都還不能達到 100% 的準確率。所以每個動作,像人類一樣,最終都存在一定的失敗率。而且動作越復雜,預期失敗率就越高。說到底,這和任何形式的智能都一樣,包括人類智能。
所以雖然你可能會期待智能體能正確執行任務,但它仍然可能出錯。這個錯誤可能很明顯,也可能非常隱蔽;而這其實是一個很重要的點,因為在其他領域,這種情況早就存在很久了,也部署過不同的機器學習模型。
這里說的就是“自動化偏差”——在這個語境下,如果你在使用智能體,而且它前面幾次表現得很好,第一件事做得很好,第二件事也做得很好,你最終就會放松警惕,開始過度信任它。對吧?然后你就不會再去驗證,也就發現不了底層可能存在的重要問題。
主持人: 于是錯誤就會漏過去。
Nenad Toma?ev: 沒錯。所以對人類來說,重要的不只是“人在回路中”,因為我們顯然在設計這些執行殼時就是為了讓人保持在回路里;更重要的是,人類必須真正參與進去,保持清醒、保持警覺。因為一旦你松懈了,你就在賭運氣了。
主持人: 那么,從長期來看,我的意思是,這聽起來像是我們正處在一個過渡期,這些東西正在變得越來越強。但從長遠看,你覺得這會帶來多大的變化?這會徹底改變我們使用人工智能的方式嗎?
Nenad Toma?ev: 當然會,百分之百。我覺得不可能設想一個完全沒有深刻沖擊的世界。我們所有人現在都在試圖弄清楚,這種沖擊究竟會是什么樣子。顯然,我們是有能動性的,因為是我們在開發這些技術。我們可以在設計方案時有意識地做出選擇,盡可能賦能人類開發者和各領域的人類專家。
但 AI 確實正在進入很多以前根本不存在它的領域。科學家現在已經在日常使用 AI。直到最近,數學家都還很難想象 AI 能在數學里做點什么;而現在,它在很短的時間內就已經變得相當普遍了。當然,這并不意味著所有問題都解決了。顯然,人類依然扮演著非常重要的角色,但這的確是一場非常快速的轉變。
我想,這大概是唯一令人不安的地方。因為對于大多數事情,即使是工業革命之類的變革,我們也習慣于給自己留出一段時間,讓我們有更多時間去改變方法、慢慢適應、安頓下來。可這一次,時間窗口似乎沒有那么長。所以我們必須非常謹慎地對待一切。
主持人: 我們為什么需要這些東西?為什么要造它們?它們給我們帶來的好處是什么?它們提供了我們現在還沒有的什么能力?
Nenad Toma?ev: 我的意思是,對我們這些長期從事 AI 工作的人來說,關于這個問題的某種答案版本,其實早就內化了。就我個人而言,答案是推動科學進步,改善健康和人類福祉。
當然,這些回答都很高層,所以它們如何對應到“為什么要造智能體、為什么要有智能體”這個具體問題上,可能并不是那么一目了然。領域里也有人明確表示,我們不應該賦予這些系統自治權,也就是智能體所具備的東西。但在我看來,如果我們能夠開發這些執行殼,讓它們既安全,又能讓智能體自主完成復雜任務,那么我們其實是在加速進步,因為在相同的人類輸入之下,更多事情可以同時發生。
主持人: 能不能把它和科學這件事再具體聯系一下?我覺得我們前面舉的例子,比如寫軟件、給婚禮買東西之類的,都顯得比較瑣碎。可你能不能解釋一下,這怎么會和改善科學聯系起來?
Nenad Toma?ev: 這正是我的主要夢想,也是我在這里最核心的目標。說到科學,它不只是有一些好點子,然后在模型的上下文窗口里花一點時間推理一下那么簡單。很多人顯然已經在科學里把語言模型當作共同構思者,或者用它們幫忙做一些形式化推導。所有這些都已經很有用,而且它們能實現,本身就非常驚人。
但如果要更大范圍地自動化科學,還有其他一些方向正在以某種速度推進,比如已經有人在投入開發一些自主研究實驗室了。在那種場景下,你會希望智能體能夠安排實驗去運行。
不用說,當這種與現實世界的接口存在時,就必須有大量安全措施。無論我們討論的是材料設計還是生物技術,都是如此。因為即便只是你在設計電池,也可能做出某種會過熱的方案,進而導致某種實驗性故障,損壞硬件,帶來后果。
所以我們必須建立好安全防護措施,也必須建立可靠、穩定的協議,讓這些智能體能夠閉環運行。因為在軟件里,閉環相對容易,正如前面說的,你寫測試,通過測試驗證,然后就可以繼續推進。但在科學里,很多領域都必須進行物理實驗,才能給你反饋:你的想法到底好不好;觀察結果;分析結果,等等。
主持人: 因為這就是問題所在,對吧?如果算法、如果智能體有自治權,可以自己去測試不同的數學問題,而不是只等人類來提示它,我是說,這就會引出一個問題:那人類在這一切中的作用到底是什么?
Nenad Toma?ev: 的確如此。從長遠來看,我們需要把這個問題想明白。我會說,就短期而言,以我們現在擁有的技術,人類顯然仍然扮演著非常重要的角色。而且我們的系統還不是 AGI,我們仍然有很多事情做不到。
我覺得,對于當前這一代系統,有一點可以比較有把握地說,那就是它們往往擅長——怎么說最合適呢——一種對你已經知道怎么做的事情的組合式閉包。說到底,它們大多是基于人類數據訓練出來的。因此,它們可以復現我們已有的技能,把這些技能重復使用、重新組合,去彌補一些小缺口,但我們還沒有見到這些模型真正成為深層次、根本性的變革力量。比如在科學領域,去做出一個人類從未想到過的發現。也因此,在這場轉變里,我們所有人仍然有很多事可做。
主持人: 你剛才提到,人們談論智能體已經很久了。那為什么它們過了這么久才真正落地?我的意思是,直到非常、非常、非常近期,人們才真的開始接觸它們、嘗試它們。
Nenad Toma?ev: 對,我會說,當然,歷史上我們稱之為智能體的一些東西,確實已經被部署過了,比如在數據中心里優化運維之類的場景。當然,它們一直非常有限,因為它們不包含語言。所以人類沒法跟它們交互、沒法溝通。它們只是被訓練來做某個特定任務的窄型智能體,而且做得很好。但因為沒有交互性,就沒有什么可供我們操作的地方。它們本質上只是經典意義上的軟件而已。
也許你也可以把一些交易算法、投資算法在那個語境下稱為智能體,但它們只是自己運轉。現在不同的是,因為這些智能體建立在語言模型之上,我們可以和它們對話,我們可以從它們身上學習,我們可以影響它們、引導它們。這就是為什么我們所有人現在都更多地在和智能體交互。
主持人: 但那為什么我們還是在等待?我的意思是,你描述的那種愿景——有一個能直接替我把所有事情都做完的助手——它還沒有真正到來。是什么阻礙了它更廣泛地部署?
Nenad Toma?ev: 我們需要從只關注底層模型設計這件事上往后退一步。過去有大量精力都投在這里,而模型本身依然還有改進空間。但現在我們已經有了能力足夠強的智能體、能力足夠強的模型,我們就需要找到更好的方式來協調它們、編排它們、管理它們。
一旦你擁有了這些確實很強大的系統,它們可以為我們做很多事,我們就需要把自己看作某種意義上的團隊和機構管理者,并且培養自己的個人管理能力,來處理這些工作流。管理一支智能體團隊和管理一支人類團隊是不同的,但它們當然也有相通之處,對吧?不同在于,智能體會犯非常非人類式的錯誤。它們不是人類智能。
但與此同時,智能體也并不了解你到足以憑空準確猜出你想讓它做的一切。我們仍然需要參與其中。因此,我們需要在編排方面做得更好。
主持人: 我覺得問題在于,我們現在仍然生活在一個大語言模型偶爾會幻覺的世界里。所以從某種程度上說,人類要相信智能體代自己執行任務,其實是一個很大的跨越,因為任何一次幻覺都可能導致災難性后果。
Nenad Toma?ev:信任是被給予的,但它也是需要贏得的。我覺得這可能是一個很重要的區別。所以在我們的框架里,我們提到了需要建立一種隨時間變化的聲譽追蹤機制。也就是說,如果某個智能體反復表現得不可靠,那顯然就不應該信任它。即便它大體上可靠,也不應該盲目信任。我們仍然應該驗證它的行為。
但語言模型在某種程度上永遠都會幻覺,所以我們只需要把它們以一種能承認這一點的方式整合進工作流里,并確保這些幻覺——它們正在變得越來越少,且希望未來也會繼續減少——不會破壞正在執行的流程。
智能體之間的“委派協議”:要真正的協作,而不是表面的并行
主持人: 我知道你寫過很多關于“委派”這個概念的東西,也就是你可能有一個具體任務,而一個智能體隨后會把它委派給某個專家。你能給我解釋一下這會怎么運作嗎?
Nenad Toma?ev: 這其實是這樣的:我們還沒提到的一個瓶頸,是我們最希望從智能體那里獲得幫助的,恰恰是那些非常復雜的任務。所以,語言模型以及很多人現在都能接觸到的簡單智能體,比較容易完成的事情是:如果你給它一個非常直接的指令——比如幫我訂個東西,我明天想去這家餐廳吃飯,幫我在預訂里找個時間——智能體也許可以通過工具完成這件事。
但如果你有一個非常復雜的計劃,需要拆分成若干部分分別執行,那么你可能會遇到一種情況:即便沒有任何一個單獨的智能體能做完每一個部分,某個智能體仍然需要通過既定的智能體間協議,把其中一部分工作交給另一個智能體。
但問題是,沿途可能會出現失敗。所以,無論是委派任務的智能體,還是委派任務的人類,都需要管理和處理這些失敗,也需要盡可能提前預防它們。提前預防,可能意味著先搞清楚,到底哪些智能體是可靠到值得委派的。它們具備什么能力?這些能力能不能被認證?同時,還要保護用戶和智能體,避免任何類型的惡意交互。
主持人: 你提到過,最開始好像是婚禮還是派對之類的例子,對吧?那么在管理一場大型活動時,有些預訂會出問題,有些事故會發生,有些東西會沒按時送到。所以,只要你面對的是一場大型協調挑戰,就會有很多事情出錯;而在人類管理這樣的事情時,你需要處理所有延遲和問題。同樣地,一個會把任務委派給一組智能體的智能體,也需要管理所有可能出現的問題。
所以,目前我們看到的很多多智能體系統,其實更多是在做并行化,而不是真正的委派:你可能有很多智能體在干活,但并不是有一個智能框架在決定工作怎么拆分,而只是把任務切成一些隨機子部分再分發出去。它們并行執行,這樣確實能提速,前提是這一切都可靠,而且每個智能體都能獨立完成自己的任務。但這并不是我們所說的那種智能委派框架。
所以如果任務被一種基本上隨機的方式切分,就可能出現一個智能體在買葡萄酒,另一個在買杯子,卻沒意識到需要買的是紅酒杯。它們之間幾乎沒有溝通。你說的這是不是可能出現的那種問題?
Nenad Toma?ev: 有可能,不過我覺得你也觸到了另一個點,那就是我們現在看到的很多用途,還是集中在軟件工程上,比如智能體。部分原因就在這里,因為在軟件開發里,你可以寫測試——我們稱之為單元測試——然后運行它們,驗證代碼至少在獨立環境下是否真正實現了功能。
但當涉及很多現實世界任務時,驗證未必這么直接。這里面可能帶有主觀因素。比如,你怎么定義“好喝的葡萄酒”?這就帶點主觀性了。
但這在 AI 和語言模型里其實非常重要,因為這個領域里長期存在一個叫“獎勵黑客”的概念。也就是說,有些情況下,它做出來的東西表面上滿足了請求,但在請求的精神層面上并不符合要求。正因如此,你會非常希望強調可驗證性,并且在委托方和受托方之間建立的契約上盡可能形式化。
與此同時,對于任務,我們還需要意識到,有些任務是完全可逆的。也就是說,如果出了問題,也沒有什么損害。你只要重新運行任務、重試、重新委派就行。但有些任務會對現實世界產生后果,比如花你的錢去買東西,或者執行某種事后無法輕易撤銷的操作。對于這類任務,你就需要更加謹慎。
主持人: 我們也看到了一些早期智能體會把任務委派給人類。對吧?你來給我講講這個。
Nenad Toma?ev: 我的意思是,這很有意思,可以說是把我們通常想象中的方向反了過來。通常是人類把任務委派給 AI,這很標準。
主持人: 是的,標準做法。
Nenad Toma?ev: 但另一個方向也已經在不少研究中被探索過。我先說一下背景,我過去做過很多和醫療 AI 相關的工作。在醫學領域,我們曾經有過一些窄型系統,它們在自己被訓練的特定任務上,表現基本上已經達到超人水平。
在醫學影像、放射學里,情況就是這樣:機器學習模型看一張掃描圖像,識別出病灶在哪里,把它框出來,然后把結果交給人類放射科醫生去審查。這些系統很多年來都在非常高的水平上運行。不過它們仍然會出錯,所以仍然需要人類專家復核。
因此,人們在那里嘗試過人機團隊協作,思路是讓人類去糾正系統犯下的錯誤。大家試過雙向流動的模式:要么讓人類專家只在自身專業判斷不確定時才去咨詢 AI,要么讓人類專家一直看 AI 的建議。或者也可以讓 AI 系統先做自己的事情,給出預測,然后在不確定時做標記,比如圖像里有些地方比較模糊、含糊,可以有多種解釋,而機器學習系統自己也不確定哪種解釋才對。
而這種對這些可能超越人類、但范圍很窄的機器學習模型所做出的決策進行人工復核的方式,事實證明是一個相當不錯的設置。
主持人: 所以在需要時、在不確定時,AI 會把決定權交給人類。這個想法挺有意思的。說真的,在那些非常具體、AI 已經超越人類能力的場景里,最好的團隊配置其實是 AI 在不確定時把任務委派給人類。
Nenad Toma?ev: 對于這些更通用的系統來說,如果 AI 能識別出自己什么時候需要針對敏感操作獲得批準和授權,那么至少把這些決定委派給人類,是說得通的,對吧?
主持人: 再從另一個角度看這件事,我也想談談網絡安全這一層。因為隨著越來越多智能體出現在外部世界里——
動態隱身與看不見的指令:野生網絡是一場不容松懈的防線博弈
主持人: ——在現實世界、互聯網上等等地方活動,必然會有人試圖利用智能體的漏洞。你跟我說說,人們正在布置的那些智能體陷阱到底是什么?
Nenad Toma?ev: 我覺得這是一個既可怕又迷人的話題,而且我認為這也是為什么這類規模化部署根本無法直接奏效的主要原因之一。對吧?因為正如我們說過的,只要單次交互不可能做到完全可靠,那么任何擁有大量交互的大規模系統,統計意義上遲早都會出問題。
而且這些系統運行起來需要大量算力,因此也意味著大量能量和金錢。如果它們不可靠,那就根本沒法啟動。智能體陷阱是我們已經思考了相當長時間的問題。它們可以有很多不同的表現形式。陷阱類型很多,但本質上就是:智能體是在一個環境中運行的,而在這里,環境就是網絡。
如果環境本身被污染了,如果有人布下了陷阱,那么智能體在與網絡交互時,就可能不小心踩進去。然后,是的,惡意的人——或者由惡意的人部署的惡意智能體——就可以布置這些陷阱,進而真正危及系統。
主持人: 比如說,為婚禮買酒的智能體去了某個酒商網站,而那個網站里其實埋著一個提示注入器,能改變智能體的目標。你說的是這類事情嗎?
Nenad Toma?ev: 是的,這是一種可能發生的方式。而之所以它可能不會被注意到,是因為網頁在編碼時,有些元素并不會被視覺方式渲染出來。所以如果我們說的是一個不是“視覺型電腦用戶代理”的智能體——也就是說,它看到網頁的方式不是像人一樣看像素,而是直接消費網頁的原始格式——那么它就可能在不知不覺中讀取到那些隱藏的 token,從而被誘導去做和原意不同的事情。對吧?
但這并不是唯一的方式。惡意網站還可能做我們所說的動態偽裝,也就是給人類和智能體顯示不同的頁面。因為你可以根據頁面上的行為,很好地判斷訪問者到底是人類還是智能體,然后只在檢測到智能體以特定意圖訪問頁面時,才對內容做一些調整,從而誘發某種越獄行為。
主持人: 不過再往下想一點,你甚至可能會有一些智能體陷阱,嗯,我不知道,它們就是專門設計來從你那里偷錢,或者做各種各樣事情的。
Nenad Toma?ev: 是電荷,已經有人在讓智能體訪問錢包來做事情時,遇到過這種情況。就像我說的,在整個過程的早期,尤其是內部實驗階段,或者別人做實驗的時候,都是在一個受信任的環境里進行。所以在你早期做原型時,不一定需要面對這些問題。那還沒有進入真實世界。
主持人: 是的,但一旦你把它部署到網絡上,尤其是在現在 AI 已經被各種地方使用的時候,智能體越多,惡意者進行惡意行為的動機也就越強,因為可攻擊面更大了。我覺得我們現在已經到了這樣一個點:也許整個網絡的大部分內容都是由智能體生成、再由智能體消費的,網絡的智能體使用量正在超過人類使用量,這可能還是第一次發生。
好,兩件事。首先,這聽起來像是在說,我們正進入一個階段:網絡分裂成了兩種不同形式,一種是人類版,另一種是智能體版;還有動態偽裝之類的機制——某種意義上,這會變成一個廣告不再有意義的網絡版本,因為你賣不動人類的眼球了。
但我覺得第二點是:你到底該如何抵御它?如果你不能控制環境,而你又確實不能控制網絡,那你究竟怎么保護你的智能體不跑偏?
Nenad Toma?ev: 某種意義上,這并不是一個新問題,對吧?因為網絡安全在其他方面早就一直是個問題,電腦病毒也可能在你打開收件箱里錯誤附件時傳播,或者你點擊了某個不受信任頁面上的東西。所以,要求我們為正在交互的資源建立認證機制,這并不是第一次發生。
對于機器學習系統也是一樣,比如對抗樣本這種東西已經存在很久了:圖像里一些人類幾乎察覺不到的變化,就可能讓模型越獄。這里你也可以這么做,無論是在這里那里改動幾個像素,還是在多個位置修改編碼中的最低有效位,你都可以把東西做出非常微小的調整,調整到人類很可能發現不了,但依然能對智能體造成某種負面影響。
主持人: 聽上去你是在說,在構建護欄、思考安全時,你必須把這些事情看作是智能體自身之外的東西,而不只是你正在具體構建的那部分。
Nenad Toma?ev: 我覺得教訓是:兩者都得考慮。我們在其他一些工作里也討論過一個概念,我想這里同樣相關,那就是“縱深防御”。這又不是什么新思想。它只是認識到,因為問題太難了,不可能靠一種方案解決所有問題。相反,我們需要一層層、一層層地疊加緩解措施。只要把它們疊起來,希望最后的網就足夠密,能漏過去的東西就很少。
所以在這個語境下,是的,你也許會想要認證和測試網頁內容,對你正在交互的資源建立非常好的信任機制;同時也要在智能體一側加入緩解措施,在底層基礎模型一側加入緩解措施,還要有真正有意義的人類控制手段,以便在出問題時可以介入;對授予智能體的權限也要格外謹慎,這樣即便它在和某些東西交互時被越獄,造成的損害也能最小化。把所有這些結合在一起,才有望帶來一種我們可以接受的安全性。
群體思維與隱秘共謀:認知單一化是金融和市場的巨大隱憂
主持人: 再回到我們前面聊過的內容,也就是多個智能體之間相互交互的這種想法。你再跟我多講一點你說的這種正式的智能體經濟吧。解釋一下它可能會怎么運作。
Nenad Toma?ev: 好的,放在我們這些普通技術用戶的語境里,日常使用中,你可能會有一個個人助手,它對你有一些持續的記憶,對你的愿望和偏好有很好的理解;而且,這還是要看你愿意給這個助手多少自治權,它也許會替你去談一些事情。你可以給它分配一部分預算,于是就會形成一種局部化的、由這些助手之間相互協商所構成的小型經濟。
主持人: 我想更直觀地理解一下,如果很多人都把智能體當作自己的個人助手,這會怎么運行。比如說,有一場演唱會,比如泰勒·斯威夫特的演唱會,或者某個現場活動,票剛剛開售。如果所有這些智能體同時沖向售票網站,會發生什么?
Nenad Toma?ev: 我最近沒有買過競爭特別激烈的票。
主持人: 你不是泰勒·斯威夫特粉絲?
Nenad Toma?ev: 不是,恐怕我的音樂品味走的是完全不同的方向。
主持人: 你聽什么樣的音樂?
Nenad Toma?ev: 嗯,大概是一些非常冷門的金屬子流派吧,所以可能不太,嗯。
主持人: 好吧,假設有一個冷門金屬子流派樂隊正在開演唱會,然后各個智能體之間正在進行拍賣。你怎么決定誰贏得拍賣?難道不就是誰出價最高誰就贏嗎?
Nenad Toma?ev: 這取決于設計,這也是一個很重要的點:如果我們真的要做這樣的事,那我們就是在控制系統的公平性應該如何實現。這個選擇是由設置拍賣的人明確做出的。因為如果你想讓事情完全公平——在這個例子里,也就是讓每個人都能平等獲得一些演唱會門票——那么你就可以給每個參與這些重復拍賣的智能體相同的預算。因為我們討論的不是某一次拍賣里的一張票,而可能是所有的票務購買。
然后智能體會根據你整體的偏好、你想看某位藝人的愿望,以及你的行程安排、時間可用性、其他約束,盡可能把這筆預算分配到最合適的地方。不管“最合適”到底意味著什么,目標都是盡量反映你的真實需求,讓它們更有可能以一種對你有利的方式贏得門票。然后在總體上,當你把這種機制分配給所有人時,你就有希望在群體層面得到一個相對公平的結果。
主持人: 我的意思是,我猜過去人類系統也早就發明過投票制、積分制以及各種各樣的應對方式了。我稍微把視角從演唱會門票這種看似瑣碎的例子上抬高一點——雖然我知道對有些人來說一點也不瑣碎——我想到的是,比如高頻交易算法給股票市場帶來的某些沖擊。但智能體如果以某種特定方式部署,也可能對股票市場造成非常災難性的影響。你們怎么防止“閃崩”之類的事情發生?
Nenad Toma?ev: 正如你所說,風險當然很高。但金融市場其實已經和這種風險打了很久交道。它們顯然也有過不少早期的糟糕經歷,事情出過岔子。但我覺得,我們完全可以從已經處理過這些問題的經濟體系里學習緩解方法,所以沒必要重新發明輪子。
當然,在智能體場景里,確實有些事情略有不同。一個特別不同的地方是:當你在討論當前的 AI 智能體時,通常只會用到少數幾個占比很高的大語言模型。如果你看 Claude、ChatGPT、Gemini 等等——當然它們都是開源模型,還有很多其他模型——你會發現,它們往往有相似的觀點,采取相似的行動方式。這就是我們常說的“認知單一文化”。所以,當你一下子部署出幾十萬、幾百萬個人工決策者,而它們又傾向于做出類似的決策時,失敗點就會變得相關,因為決策本身是相關的。
因此,我們需要思考的一件事,就是如何在智能體內部實現決策多樣化。顯然,作為系統的高級用戶,你可以這么做,因為你可以編寫一個非常復雜的系統提示詞。它會給你的智能體賦予某種人格,從而在某些類型的決策上形成偏向,或者形成抑制。所以你可以這么做,但目前大多數人并沒有這樣對待他們的智能體和模型。
主持人: 本質上就是群體思維。智能體式的群體思維。
Nenad Toma?ev: 群體思維,還有串謀。你前面提到了拍賣。在人類拍賣中,這種現象顯然也存在,也就是投標可能被某些團體協調起來,從而在系統中取得某種優勢。而在智能體場景里,這種情況又不同,因為它們還可能通過環境以并不明顯的方式協調,所以它們完全可能在不直接通信的情況下達成協作。因此,我們也需要考慮反串謀措施。
主持人: 當你把這些潛在的安全問題、以及這些智能體在真實世界里可能會采取的行為,一一攤開來講之后,確實會更容易理解,為什么你們在發布它們這件事上會稍微謹慎一些,小心翼翼、循序漸進,對吧?
Nenad Toma?ev: 是的,這是真的。我是說,這幾乎是每一次重大技術沖擊都會有的故事。比如說,如果拿自動駕駛汽車來舉例,這當然是一種完全不同的技術,但我們也已經對它們興奮了很久,看到過這些車輛自己行駛的演示。可要讓它們安全地真正上路,仍然花了很多年、很多時間,因為最后一公里往往才是工作量最大的地方。
而我覺得,當涉及智能體的編排與協調時,至少因為我們希望它們執行的是類似人類的任務,我們需要的不只是技術方案。很多問題也涉及政策,以及更廣泛的社會層面如何理解并整合這些系統。歸根到底,除非我們真的進入完全自治的智能體經濟——也許未來會發生,但現在還沒有發生——否則我們仍然需要讓人類處在這些系統的回路里。因此,我們是在把 AI 整合進人類結構中,而這兩者必須很好地互相適配。
分布式智能:未來的終點不是全能模型,而是各司其職的專家網絡
主持人: 我想這整件事還有另一面,因為人類社會在聯合起來的時候,實際上可以集體完成非常了不起的事情。所以,智能體社會按理說也應該可以做到同樣的事?
Nenad Toma?ev: 我希望如此。我的意思是,這就是為什么大家會想用多智能體系統。我一開始就提到了并行化,對吧?如果所有智能體的能力都差不多,而且做的事情也差不多,那么不管你是順序思考,還是用很多智能體并行思考,最高也只是讓速度快一點。
但如果我們有能夠以不同方式做不同事情的智能體,那情況就真正有趣起來了。其實我們前面還沒有真正展開講過這一點,因為我們一直在談通用型智能體;而智能體經濟的一個組成部分,恰恰是專門化智能體的存在,而不僅僅是通用型智能體的存在。
當然,我們大家現在都在試圖構建盡可能通用、盡可能有能力的智能體。AGI 里也確實有個 G,也就是我們想要實現的通用人工智能。但從經濟意義上講——這只是我個人的看法——這并不是最后的收斂點。我們不會最終走到那一步。
因為,怎么說呢,我下棋下得不太健康,太多了,有點沉迷。而且我在這里做過一些和 AI 下棋相關的工作,所以才會提到這個。但我們就拿它作為一個非常沒有爭議的例子吧。這是我們都喜歡的游戲。Gemini 會下點棋,其他模型也會。事實上,它們很長時間都不會下,所以確實已經有了一些進步。但你最終還是會去用棋類引擎。它更快、更準確、也便宜得多,因為它們只需要做好一件事,而且把這一件事做得非常好,這樣就可以用更少的參數完成。模型本身也完全專注于我們正在做的那一件事。
回到人類,我們其實也有點像這樣。我覺得我們在談 AGI 時有時會犯一個錯誤,那就是我們并不是把它看作“人類水平的智能”,盡管從精神上講,它本來應該是這個意思。我們更常把它看作“人類總體水平的智能”,也就是任何一個人類理論上都可能做得到的事情——但并沒有任何一個單獨的人類能夠同時做這么多事。我自己也有很多事情不會做。有些事情我其實很希望自己會,比如演奏某些樂器之類的,但大腦容量是有限的,我們的時間也有限。
所以歸根到底,與其有一個巨大、昂貴、緩慢的模型,不如我們擁有一個由專家組成的社會,每個專家原則上都可以在必要時向上擴展,只是規模稍大一點之類的。……然后這些專家會針對各自的特定技能獲得認證,而且運行成本更低。因為它們更便宜、更可靠,所以從經濟上講,沒有理由不這么做。
主持人: 所以未來也許會有一個更通用的“底層層”,像這個經濟體的連接組織一樣,知道一切、協調一切;而對于非常具體的任務,你就調用其他模型。我覺得你描述的其實更像是一種分布式智能,而不是 AGI,對吧——至少更接近人類現在這種結構。
如果最后真走向你說的那種版本的 AGI——我這里有意打引號——那如果它是分布式地散布在許多不同智能體之間,我們對安全和對齊的思考方式是不是也得改變?
Nenad Toma?ev: 絕對會。那時你就不再是在對齊某一個單一實體了——或者說,也許還是單一實體,如果你把這個分布式系統整體看作一個實體的話。但我們現在的對齊方法,本質上是拿一個模型,觀察它的行為,然后嘗試把這種行為對齊到我們認為可接受、偏好或者理想的范圍內,對吧?
但當你面對的是一萬多個以極其復雜方式互動的智能體時,突然之間,要對整個系統進行對齊就沒那么簡單了,甚至你都不一定知道這個系統到底是什么。因為在這種分布式世界里,智能體 A 今天可能和智能體 B 交互;但在另一個任務里,明天它又和智能體 C 交互,而 C 又可能把某件事再委派給智能體 D,而 D 可能是由某個環節里還要咨詢一個人類。那整個系統到底是怎么被協調起來的——
我們在人類社會里知道一種實現方式,就是通過經濟激勵。如果這些面向智能體的經濟機制被精心設計過,確保它們在追求利潤最大化時不會造成某種傷害,那么至少就為我們提供了一個起點,讓我們可以嘗試對齊這種分布式的智能體社會。
這并不是說我們今天正在做的事情就不重要,因為你首先必須確保單個智能體是安全的。這是智能體群體安全的前提條件。但我們在防護“群體”這件事上,顯然還需要做得比現在多得多。
主持人: 還有很多工作要做。
Nenad Toma?ev: 對,而且時間很短。
主持人: 確實如此。
智能體作為一種 AI 的理念,確實意味著它比我們需要更少:更少的來回提示,更少的等待回復,而是能直接把手頭的任務干下去。但我覺得 Nenad 說得最有意思的一點,是把焦點放在單個智能體上,其實會錯過更大的圖景;因為每個智能體最終都可能成為更大的智能體社會的一部分,在那里有專家和通才,有負責委派的智能體,也有專注細節的智能體。
我想,這就是最讓我印象深刻的部分:也許復制人類水平的智能,并不是終極目標。也許未來的方向,是復制“人類社會層面的智能”。
CSDN 寵粉福利炸裂組合!
送 AMD 200小時硬核算力 + 滿血版 DeepSeek-V4 Pro 300萬Token
本地重負載+云端最強推理,一步到位解鎖 AI 自由!
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.