![]()
![]()
作者:黃裕舜
(Brian Wong)
香港大學哲學系助理教授、當代中國與世界研究中心研究員、羅德學者
雖然中美在AI領(lǐng)域的競爭日趨激烈,但由于先進且可能對齊失效的AI系統(tǒng)或?qū)⒔o人類帶來生存風險,兩國在AI安全方面有著強烈的合作意愿。聯(lián)合風險評估、針對惡意AI行為體的協(xié)調(diào)行動以及更多的學術(shù)交流,均有助于減少威脅并完善全球AI治理體系。
想象一場討論會:三位發(fā)言者端坐臺前,面對滿懷期待的聽眾,另有兩位嘉賓通過線上遠程參與。主持人就一項新技術(shù)向每位嘉賓提問,請他們就相關(guān)風險、機遇和在監(jiān)管問責框架下采取何種務(wù)實決策發(fā)表見解。雖然討論內(nèi)容刻意保持通俗寬泛,主持人也不免插話稍多,但整體上這場討論言之有據(jù),令聽眾頗受啟發(fā)。
這一幕發(fā)生在2026年4月29日的美國國會山。屏幕上的兩張面孔是知名中國學者:清華大學蘇世民書院院長薛瀾、北京人工智能安全與治理研究院教授曾毅。他們受參議員伯尼·桑德斯邀請,與美國同行馬克斯·泰格馬克、大衛(wèi)·克魯格共同探討失控人工智能(AI)的危害。更具建設(shè)性的是,他們受邀就中美在 AI 領(lǐng)域開展合作的必要性與空間發(fā)表看法,雖然該領(lǐng)域已爆發(fā)極為激烈的競爭與對抗。
![]()
▲4月29日的國會山現(xiàn)場,屏幕上為清華大學施瓦茨曼學院的薛蘭院長和北京人工智能安全治理研究所的曾毅教授。
兩周后,在北京舉行了一場注重氛圍的領(lǐng)導人峰會,美國總統(tǒng)特朗普隨即表示,他與中方領(lǐng)導人“探討了可能為AI設(shè)立護欄并開展合作的事宜”。這為兩國工作層面(部級、局級)就AI安全開展更實質(zhì)性協(xié)作鋪平了道路。
生存風險:不容忽視的議題
試想一款AI聊天機器人,其主要目標是讓用戶在對話后更加快樂。假設(shè)它連接一個監(jiān)測用戶真實愉悅信號的裝置,用戶的愉悅感就會自動轉(zhuǎn)化為正向反饋,進而“強化”機器人生成更多同類內(nèi)容。
為了在用戶大腦中維持高水平的“快樂化學物質(zhì)”,它開始諂媚奉承,迎合用戶的自負心理,或者只展示用戶本來就認同的觀點、偏好和信息。機器人確實在執(zhí)行訓練任務(wù),但這個結(jié)果——即便對使用者本人——真的可取嗎?
我們談?wù)撊藱C“對齊”(alignment),通常是指這樣一種需求及挑戰(zhàn):確保AI輸出反映人類主體的真實偏好、愿望、利益,或更深層(或組合)參數(shù)。事實上,究竟應(yīng)該讓AI與哪些參數(shù)(偏好還是利益)“對齊”,本身就是問題的一部分,因為“對齊”往往很難被準確定義。比方說,這款諂媚的聊天機器人之所以被視為“未對齊”,究竟是因為它助長了錯誤的快樂,還是因為這種建立在虛假之上的快樂終究短暫易逝?
撇開哲學爭議不談,所有對齊理論都有一個共識,那就是如果某個智能體的行為從根本上威脅人類存續(xù),阻礙人類生存層面的可持續(xù)發(fā)展,將是極度不可取,甚至令人憎惡的。另一個近乎一致的共識是,這類智能體并不是假想的,如果我們不能確保對齊,或至少阻止極端危險的錯位,它們就有可能且最終會出現(xiàn)。
![]()
▲XQ-58A無人機與美國F-22、F-35戰(zhàn)斗機進行編隊測試的資料畫面。
所謂生存風險,是指可能導致人類滅絕,或永久阻礙人類長期發(fā)展?jié)摿Φ娘L險(可參考“長期主義”相關(guān)文獻,盡管該領(lǐng)域飽受爭議,但其論述仍極具啟發(fā)性)。隨著高度先進的AI被應(yīng)用于軍事領(lǐng)域——從致命自主武器的定點打擊,到推演癱瘓整個交通系統(tǒng)的最優(yōu)方案——以及作為智能助手被大規(guī)模商用,人機目標錯位引發(fā)的生存風險重新引起廣泛關(guān)注。事實上,“AI教父”杰弗里·辛頓就有著名的預判,即未來30年內(nèi)AI導致人類滅絕的概率約為10%到20%。
正如我此前所寫,也正如我與合著者鮑里斯·巴比奇在將由劍橋大學出版社出版的書中所論述的,我們必須直面人機目標錯位與地緣政治風險交織所催生的獨特風險。
中美合作的三個易實現(xiàn)目標
那么,作為當今全球AI實力領(lǐng)先的兩個國家,中美應(yīng)采取什么行動?以下是三個相對直接可行的建議。
第一,兩國應(yīng)致力于制定一套動態(tài)指標清單和復雜能力的基準,以精準反映特定AI模型所構(gòu)成的生存風險等級。兩國政府應(yīng)設(shè)立聯(lián)合1.5軌委員會,針對AI智能體的危險自主性、權(quán)力尋求以及反人類行為,制定并持續(xù)更新評估指南,同時搭建安全溝通渠道,供AI科學家與治理專家交流在某些模型(尤指被保密面紗遮蔽的非開源模型)中發(fā)現(xiàn)的“危險信號”。
![]()
這種交叉基準比對至關(guān)重要,能確保將超強且未對齊的AI尾部風險扼殺在萌芽狀態(tài),避免其缺陷在沖突場景下(如兩個強國僵持對立)才被發(fā)現(xiàn),并被放大造成實質(zhì)損害。
第二,兩國政府應(yīng)開展合作,主動追蹤并化解惡意的非國家第三方開發(fā)傳播的AI智能體可能造成的危害。盡管AI的兩用屬性讓獲取和開發(fā)強大AI智能體的門檻大幅降低,但“無法限制AI的使用”并不意味著我們在阻止AI不當擴散的前景上只能聽天由命,尤其是那些可能對人類造成災難性后果的AI。正如克里斯蒂娜·奈特和斯科特·辛格所強調(diào)的,任何個人,無論是在大連、達拉斯還是德里,如果具備“對電網(wǎng)或醫(yī)院網(wǎng)絡(luò)發(fā)動自主網(wǎng)絡(luò)攻擊”的能力,對全球各國政府來說都將是嚴峻挑戰(zhàn)。
若極端組織甚至流氓第三方國家認為,設(shè)計并利用目標錯位的AI智能體,向他國索取最大利益,是符合自身訴求的,那么風險將更為突出。此時,智能體局部固有的(定向且可被操控)不可預測性,及其自我迭代與自我改進的能力,很可能成為勒索籌碼,哪怕最終的勝利只是慘勝。面對此類情境,制定全面的預防與應(yīng)對戰(zhàn)略,將符合中美的共同利益。
最后,要摒棄大規(guī)模恐慌與過度政治化,形成對AI生存風險的理性認知,需要太平洋兩岸高校和研究機構(gòu)攜手努力。雙方在風險認知框架、研究平臺與話語體系上“對齊”,將極大彌合專家與公眾對AI負面影響的認知鴻溝。這要求中美兩國高校的交流與合作更加開放深入,而非封閉和泛安全化。
流浪地球的挽救計劃?
近年來我最喜歡的中國電影是《流浪地球》,它摒棄了許多大片慣有的好戰(zhàn)民族主義與過度自豪感,轉(zhuǎn)而強調(diào)超越國界、政治身份與領(lǐng)土隔閡的相似與聯(lián)結(jié)。而《挽救計劃》這部較新的作品,似乎傳達了同樣的訊息。
面對生存風險,人類別無選擇,只能團結(jié)一致,擱置地緣政治分歧與明顯的私利動機。這種充滿愿景的科幻想象能否照進現(xiàn)實,仍有待回答。筆者對此保持謹慎樂觀。
高端訪談
更多訪談(下滑查看)
中美聚焦網(wǎng)|中美交流基金會
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.