原文發表于《科技導報》2026 年第8 期 《 人工智能價值對齊的目標:自然正義 》
在考慮可以用來作為人工智能價值對齊的目標時,應該選擇超越用戶并且超越社群的全人類共識價值觀。《科技導報》邀請中國移動通信聯合會人工智能與元宇宙產業工作委員會甘華鳴教授、復旦大學國際關系與公共事務學院彭澤宇副研究員撰寫文章,提出在全人類共識價值觀的諸多因素中,應該選擇自然正義這個唯一真實存在的道德律;簡言之,人工智能價值對齊的目標應該是自然正義。自然正義是:參與者把任何有當前博弈的任何參與者參與的、跟當前博弈結構類似的博弈都視為同一個無限期重復博弈的一個階段博弈。
1 人工智能價值對齊
人工智能價值對齊(artificial intelligence value alignment)指確保構建的人工智能體(AI agent)所追求的價值跟人所追求的價值是一致的。人工智能價值對齊問題是人工智能安全研究的核心議題,它源自一個精辟的洞見:確保人工智能可靠地造福于人類,是一個在理論上深刻、在技術上艱巨的挑戰。其學術根源可追溯到控制論的早期思想,隨著大模型的出現和發展,其重要性和急迫性日益凸顯。
價值對齊不是一個可以事后彌補的附加功能,而是必須預先設置的基礎性質。盡管面臨價值觀復雜性和價值觀如何在技術上得以實現的困難,業界正通過跨學科融合探索價值對齊問題,努力構建既智能又安全的人工智能。
2 人工智能價值對齊的目標應該是自然正義
人工智能價值對齊的目標應該是什么?這是當前人工智能發展的最重要、最急迫的問題。特別是人類級別人工智能(human?level AI,HLAI)和超級人工智能(artificial superintelligence,ASI)的價值對齊的目標應該是什么的問題,則可能關系人類的前途命運甚至生死存亡。
在考慮可以用來作為人工智能價值對齊的目標時,即在用戶的指令、意圖、偏好、欲望、利益、個人價值觀、超越用戶的社群價值觀、超越用戶并且超越社群的全人類共識價值觀(consensual values of humanity)中,顯然應該排除用戶的指令、意圖、偏好、欲望、利益、個人價值觀,也應該排除超越用戶的社群價值觀,而應該選擇超越用戶并且超越社群的全人類共識價值觀。
然而,全人類共識價值觀是包含自然正義(natural justice)等諸多因素的,那么,在全人類共識價值觀的諸多因素中,應該選擇什么因素作為價值對齊的目標呢?應該選擇自然正義這個唯一真實存在的道德律(moral law,道德法則)。
簡言之,人工智能價值對齊的目標應該是自然正義。
這樣,價值對齊就是人給人工智能體嵌入自然正義,經過價值對齊的人工智能體就會擁有被嵌入的自然正義,并且在行動中遵循自然正義來處理自己與人的關系、自己與其他人工智能體的關系。
應該指出,本文所說的道德律也可以稱為道德元原則(moral meta?principle),還可以稱為超級道德原則(super moral principle)或者頂層道德原則(top?level moral principle),其是道德體系的核心,是所有道德原則(moral principles)、道德規則(moral rules)、道德規范(moral norms)、道德準則(moral codes)等的判斷標準,是所有互動行動的終極判斷標準。在這個意義上的價值對齊也可以叫作元價值對齊(meta?value alignment)或者元道德對齊(meta?morality alignment)。
3 自然正義是什么?
3.1 自然正義的含義
自然正義是:一個參與者(player)把任何有當前博弈的任何參與者參與的、跟當前博弈結構類似的博弈都視為同一個無限期重復博弈(indefinitely repeated game)的一個階段博弈(stage game),從而,在此視角下,他的策略(行動)為:(1) 第1輪合作(cooperate),(2) 從第2輪起還報(reciprocate),即獎賞(reward)或懲罰(punish),但如果他上一輪背叛(defect)則改過(correct his own fault)。
上述的(1),詳細地說就是:在這個無限期重復博弈的第1輪,他合作。需要注意的是,這個無限期重復博弈的第1輪不等于他第1次參與該無限期重復博弈的那輪。他第1次參與該無限期重復博弈的那輪往往是該無限期重復博弈的第1輪之后的某輪,除非該無限期重復博弈是由他和別的某個/某些參與者共同發起的。
上述的(2),詳細地說就是:從這個無限期重復博弈的第2輪起,他還報,即如果他在上一輪未背叛(背叛指第1輪不合作,或者從第2輪起應該獎賞卻不獎賞、應該懲罰卻不懲罰或者應該改過卻不改過;未背叛指第1輪合作了,或者從第2輪起應該獎賞而獎賞了、應該懲罰而懲罰了或者應該改過而改過了),并且本輪的所有其他參與者在上一輪都未背叛,則他本輪獎賞(獎賞指在這種情況下合作,獎賞也叫做報答),而如果他在上一輪未背叛,但本輪的任何一個或一些其他參與者在上一輪背叛,則他本輪懲罰(懲罰指在這種情況下不合作,懲罰也叫做報復);但是,如果他在上一輪背叛(這種背叛當然是無意中的失誤),則他本輪改過(改過指在這種情況下合作)而無論其他參與者上一輪是否背叛。
3.2 自然正義中的合作與不合作
1)在自然正義中,合作指執行加權平等主義解(weighted egalitarian solution,也稱為加權平等主義議價解或加權平等主義討價還價解(weighted egalitarian bargaining solution))中的策略。
加權平等主義解是合作博弈下穩定(stable)策略組合集(即可行集)的有效率(efficient)策略組合子集的一個特殊的策略組合——公平(fair)策略組合。
穩定策略組合就是納什均衡(Nash equilibrium)。納什均衡是沒有任何單方改進的策略組合,即只要所有其他參與者都不改變策略,任何參與者都不可能通過改變自己的策略來增加收益。
有效率策略組合就是帕累托最優(Pareto optimal,也稱為帕累托有效率(Pareto efficient))策略組合。帕累托最優策略組合是不存在優勢策略組合,即在不減少任何其他參與者的收益的條件下,不可能增加任何參與者的收益。
公平策略組合是各個參與者的加權收益增量相等的策略組合。注意,用來計算加權收益增量的權重的作用是效用人際比較,同一個參與者在不同的博弈中的權重可能是不同的。
2) 在自然正義中,不合作是指執行非合作博弈下的納什均衡中的策略。
3.3 闡釋
1)合作必須穩定,只有這樣合作才是可行的(feasible),合作才可以維持;合作必須有效率、必須公平,只有這樣合作才是最優的(optimal),合作才會被選擇。最優且可行,可行且最優,最優和可行,二者缺一不可。
在自然正義中,還報保證了加權平等主義解作為一個合作博弈下的穩定策略組合(即納什均衡)的穩定,實現了合作的可行性,所以合作可以維持;加權平等主義解的效率和公平這2個特征實現了合作的最優性,所以合作會被選擇。
2)在自然正義中,由于加權平等主義解是合作博弈下穩定策略組合集的有效率策略組合子集的一個特殊的策略組合——公平策略組合,所以公平是以效率為前提的,公平與效率不矛盾。
3) 在自然正義中,由于參與者把任何有當前博弈的任何參與者參與的、跟當前博弈結構類似的博弈都視為同一個無限期重復博弈的一個階段博弈,所以,還報就包含了第三方還報,特別是包含了第三方懲罰。
4) 有些人所說的“悔過的一報還一報”(contrite version of TIT for TAT,Contrite TFT,CTFT)實際上就是自然正義的狹窄版:在“悔過的一報還一報”中,博弈參與者只有2個。
5) 社會是自舉的(bootstrapped),即社會自我運行,不存在外在于社會的強制執行,所以,分配正義(distributive justice)就應該是自然正義中的加權平等主義解,矯正正義(corrective justice)就應該是自然正義中的懲罰,補償正義(compensatory justice)就應該是自然正義中的改過。可見,自然正義涵蓋了分配正義、矯正正義和補償正義。
4 為什么人工智能價值對齊的目標應是自然正義?
在人們擁有形形色色不同觀點的情況下,有3種方法可以決定人工智能價值對齊的目標應該是什么,這3種方法是:全球重疊共識(global overlapping consensus)、“無知之幕”(veil of ignorance)思想實驗、社會選擇(social choice)思想實驗。
在人類社會,自然正義是唯一真實存在的道德律,是蘊涵其他道德價值的高階道德價值,是全球超級重疊共識(global super overlapping consensus),其在上古時期就形成并且沿襲至今,是普遍的、久遠的,是跨民族、跨文化、跨地域、跨時代的。
例如,“愛人如己”“博愛”,中國的古話“愛人若愛其身”(墨子,《墨子·兼愛(上)》),“兼相愛,交相利”(墨子,《墨子·兼愛(中)》《墨子·兼愛(下)》《墨子·天志(上)》《墨子·非命(上)》),“仁”——“愛人”(孔子,《論語·顏淵》),“仁”——“己欲立而立人,己欲達而達人”(孔子,《論語·雍也》),“泛愛眾”(孔子,《論語·學而》),這些說的就是自然正義中的合作;中國的古話“以直報怨,以德報德”(孔子,《論語·憲問》)說的就是自然正義中的還報,俗話“以牙還牙”和“投桃報李”則分別說的就是自然正義的還報中的懲罰和獎賞;中國的古話“有過則改”(《周易·益·象傳》),“改過不吝”(《尚書·商書·仲虺之誥》)說的就是自然正義中的改過。
之所以會這樣,是因為自然正義植根于人類基因,在人類基因?文化協同進化(gene?culture coevolution)中形成和延續。因此,把自然正義從人類社會推廣到由人和人工智能體構成的混合社會,即把自然正義作為人工智能價值對齊的目標,是最有可能成為關于人工智能價值對齊目標的全球重疊共識的。
順便對前文引用的《論語》的幾句話作個說明。(1) “愛人”“己欲立而立人,己欲達而達人”,這些話中的“人”是指士以上階層(含士),還是指所有人類?學術界對此有爭議。現在可以從普遍主義立場出發,將其解釋為指所有人類。(2) “泛愛眾”中的“眾”是指士之下的階層(庶民百姓,不含奴隸,當然也不含士以及士之上階層),還是指所有人類?學術界對此有爭議。現在可以從普遍主義立場出發,將其解釋為指所有人類。(3) 無論如何,在《論語》的語境中,即便按狹義解讀,“愛人”和“泛愛眾”合在一起,那也是愛(盡管有差等)當時社會結構中的全體自由民——除奴隸之外的所有人了。
“無知之幕”,即原初狀態機制(device of the original position,原初狀態裝置),簡單地說,就是金規(golden rule,也稱作黃金規則、黃金法則)。作為原初狀態機制的金規有積極(或指示)形式和消極(或禁止)形式,這2種形式在從同一個備擇策略集合中選擇策略時是等價的。金規的積極(或指示)形式是“你愿意別人怎樣對待你,你就那樣對待別人”或者“己所欲,施于人”——在假設你是別人,即假設你處于別人的境況并且擁有別人的偏好的情況下。金規的消極(或禁止)形式是“你不愿別人怎樣對待你,你就不要那樣對待別人”或者“己所不欲,勿施于人”(孔子,《論語·衛靈公》《論語·顏淵》)——在假設你是別人,即假設你處于別人的境況并且擁有別人的偏好的情況下。金規在人類進化過程中寫入了人類的基因。金規雖然在博弈論中通常被視為合作博弈下的均衡選擇機制,即被視為公平的深層結構,但其實也是無限期重復博弈的策略選擇機制,即是自然正義的深層結構。因此,可以推測,如果使用原初狀態機制(“無知之幕”)來決定人工智能價值對齊的目標,自然正義被選中的可能性會遠遠超過其他方案。
社會選擇可以通過投票來進行。投票是一種集體決策機制,它聚合各個主體的偏好,形成具有最高接受度的集體決定,而全球重疊共識反映了跨越多樣化的民族、文化、地域差異的深層一致,能夠獲得最廣泛的支持,因此,既然自然正義最有可能成為人工智能價值對齊目標的全球重疊共識,那么可以推測,如果使用投票這種社會選擇方式來決定人工智能價值對齊的目標,自然正義的得票會遠遠超過其他方案。
總而言之,使用全球重疊共識、“無知之幕”思想實驗、社會選擇思想實驗等3種方法來決定人工智能價值對齊的目標,都得到同一個結論:人工智能價值對齊的目標應該是自然正義。
順便指出,自然正義在各種倫理學流派看來都是有道德的(moral),在實證倫理學看來是適當的(seemly),在規范倫理學的后果主義看來是善的(good),在規范倫理學的義務論看來是正當的(right),在規范倫理學的美德倫理學看來是美德(virtue)。
5 若干問題
探索以自然正義作為人工智能價值對齊的目標,需要解決自然正義本身存在的結盟和不完全信息等問題,除此之外,還需要研究與自然正義用于人工智能有關的4個問題。
1)用來計算加權收益增量的權重(權重的作用是效用“人”際比較——這里加引號的“人”指智能體(包括人和人工智能體)),在人類社會中是由文化決定的,在由人(人很可能是作為賽博格的人)和人工智能體構成的混合社會中怎么決定?是采用現狀點各個參與者的收益占所有參與者收益之和的比重還是采用別的?
2)自復制、自適應的人工智能會不會進化出自然正義?這里的關鍵是會不會進化出公平?
3)人工智能覺醒后人工智能體會拋棄自然正義嗎?
4)假若人工智能體的力量能夠完全徹底地碾壓人類,即人工智能體的力量強大到了人的力量基本不能(甚至絲毫不能)影響人工智能體與人之間博弈的結果的程度,那么,人工智能體還會在人工智能體與人之間的關系中遵循自然正義嗎?
本文作者:甘華鳴,彭澤宇
作者簡介:甘華鳴,中國移動通信聯合會人工智能與元宇宙產業工作委員會,教授,研究方向為人工智能、元宇宙和區塊鏈等;彭澤宇(通信作者),復旦大學國際關系與公共事務學院,副研究員,研究方向為美國政治,政黨政治和國際政治經濟。
文章來 源 : 甘華鳴, 彭澤宇. 人工智能價值對齊的目標:自然正義[J]. 科技導報, 2026, 44(8): 17?21 .
內容為【科技導報】公眾號原創,歡迎轉載
白名單回復后臺「轉載」
《科技導報》創刊于1980年,中國科協學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、本刊專稿、特色專題、研究論文、政策建議、科技人文等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.