網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

以“人類”為名，Anthropic如何打造憲法式人工智能？

2026-03-31 14:51:25　來(lái)源: 礪石商業(yè)評(píng)論

天津舉報(bào)

分享至

導(dǎo)語(yǔ)：作為與谷歌、OpenAI并駕齊驅(qū)的全球三大頂尖大模型企業(yè)，Anthropic有著什么樣的與眾不同？

王劍/作者礪石商業(yè)評(píng)論/出品

2026年2月，硅谷有兩則新聞令人震驚。

先是Anthropic的安全負(fù)責(zé)人突然辭職，留下“世界處于危險(xiǎn)之中”的警告。

幾乎同時(shí)，五角大樓要求這家AI公司解除其王牌模型Claude的核心安全限制，卻遭到了堅(jiān)決地拒絕。

一家公司的安全負(fù)責(zé)人與一個(gè)國(guó)家力量，在同一時(shí)間，從兩個(gè)相反的方向，拉扯著同一條名為“AI安全”的韁繩。

而這根韁繩，正是這家名為Anthropic的公司存在的全部理由。

時(shí)間倒回2021年。出于對(duì)AI失控的深切恐懼，前OpenAI高管達(dá)里奧·阿莫迪（Dario Amodei）與負(fù)責(zé)安全政策的妹妹丹妮拉（Daniela Amodei）帶領(lǐng)七名同事出走，創(chuàng)立了Anthropic。

他們的核心命題只有一個(gè)：如何控制比人類更聰明的AI。

僅僅四年間，這個(gè)以“控制風(fēng)險(xiǎn)”為使命的理想主義賭注，獲得了驚人的商業(yè)回報(bào)：公司估值飆升至3800億美元，客戶名單囊括全球幾乎最頂級(jí)的企業(yè)。

然而，由于國(guó)家力量的介入，這家曾經(jīng)為防范風(fēng)險(xiǎn)而生的公司，似乎正被推入自己預(yù)言過(guò)的終極困局：你為世界鑄造的護(hù)欄越堅(jiān)固，試圖拆除它的力量就越強(qiáng)大。

要理解Anthropic為何會(huì)走上這條充滿理想主義的道路，又為何在此刻陷入自設(shè)的困局，需要回到一切的起點(diǎn)，看看賦予它最初基因的兩個(gè)人。

皮革與硅基

達(dá)里奧和丹妮拉出生于一個(gè)意大利裔家庭，父親是一位精通各類皮料的工匠，母親則在當(dāng)?shù)貓D書館從事項(xiàng)目管理工作。

兄妹二人自幼就讀于舊金山一所精英公立學(xué)校，成績(jī)都很優(yōu)異，畢業(yè)后卻走上了截然不同的人生道路。

哥哥達(dá)里奧的軌跡極具跳躍性，早年就讀于加州理工，中途轉(zhuǎn)至斯坦福取得物理學(xué)學(xué)士學(xué)位，隨后在普林斯頓獲得生物物理學(xué)博士學(xué)位，主攻神經(jīng)回路統(tǒng)計(jì)力學(xué)模型。

博士畢業(yè)后，他又回到斯坦福醫(yī)學(xué)院從事博士后研究，專注于利用質(zhì)譜技術(shù)分析細(xì)胞蛋白質(zhì)、尋找癌癥生物標(biāo)志物。

達(dá)里奧這個(gè)時(shí)期的經(jīng)歷，與AI毫無(wú)關(guān)聯(lián)。

轉(zhuǎn)變發(fā)生在2013年前后。

隨著深度學(xué)習(xí)浪潮初起，AI圈對(duì)具備深厚數(shù)理功底和系統(tǒng)思維的人才求賢若渴，達(dá)里奧憑借頂尖的學(xué)術(shù)背景和解決復(fù)雜問(wèn)題的能力，很快獲得了證明自己的機(jī)會(huì)。

2014年，他加入百度參與Deep Speech 2.0語(yǔ)音識(shí)別項(xiàng)目，該成果獲評(píng)當(dāng)年最重要的AI突破之一。

此后不到一年，他轉(zhuǎn)投Google Brain，在那里正式確立了自己在AI領(lǐng)域的核心方向：不只探索AI的能力邊界，更執(zhí)著于拆解AI的運(yùn)行原理。

相比哥哥，妹妹丹妮拉的發(fā)展則更為非典型。

她憑借古典長(zhǎng)笛獎(jiǎng)學(xué)金，在加州大學(xué)圣克魯茲分校攻讀英語(yǔ)文學(xué)學(xué)位，畢業(yè)后進(jìn)入公共事務(wù)領(lǐng)域，先后深耕全球健康研究、參與賓夕法尼亞州國(guó)會(huì)競(jìng)選、擔(dān)任國(guó)會(huì)議員辦公室通訊助理，在政策與政治核心圈層積累了豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。

隨后她轉(zhuǎn)向科技行業(yè)，作為金融科技公司Stripe的早期員工，親歷了初創(chuàng)企業(yè)從0到1的成長(zhǎng)。

外界這樣概括兄妹倆的角色：達(dá)里奧猶如眺望地平線的“望遠(yuǎn)鏡”，丹妮拉則是夯實(shí)地基的“建筑師”，一個(gè)指明AI的方向，另一個(gè)將方向筑成可執(zhí)行的制度與日程。

這種搭檔模式也讓達(dá)里奧想通了一個(gè)根本問(wèn)題：打造AI不只是讓機(jī)器更聰明，更是決定“聰明”該用于何處，這需要超越純技術(shù)的多元視角。

丹妮拉后來(lái)接受采訪時(shí)說(shuō)的一句話，則點(diǎn)明了他們共同追求的終極方向：“在AI時(shí)代，人類的特質(zhì)將變得更加重要，而不是更不重要。”

他們的父親，一位皮革工匠，一生都在研究材料的極限。

而現(xiàn)在，他的兩個(gè)孩子接過(guò)了這項(xiàng)工作的內(nèi)核，只是兄妹倆研究的“材料”變了，從皮革換成了可能定義人類未來(lái)的人工智能本身。

臨界點(diǎn)

2016年，達(dá)里奧離開(kāi)Google Brain，加入了剛剛成立不久的OpenAI；妹妹丹妮拉于2018年跟隨而來(lái)，負(fù)責(zé)人才建設(shè)，后轉(zhuǎn)向安全與政策。

接下來(lái)的五年，達(dá)里奧在OpenAI做到研究副總裁，主導(dǎo)了GPT-2和GPT-3的開(kāi)發(fā)，成為這家公司技術(shù)方向上最有分量的人之一。

兄妹二人在OpenAI都是較高級(jí)別的負(fù)責(zé)人，按理說(shuō)，沒(méi)有離開(kāi)的理由。

但裂痕恰恰在GPT-3開(kāi)發(fā)期間開(kāi)始公開(kāi)化。

隨著技術(shù)的演變，GPT-3已不是一個(gè)普通的迭代，其千億級(jí)的參數(shù)以及不斷涌現(xiàn)的強(qiáng)大通用能力，讓所有人都清醒地意識(shí)到，AI不再只是一個(gè)工具，它開(kāi)始具備一種難以預(yù)測(cè)、難以控制的“智能”潛力。

這不再僅僅是技術(shù)競(jìng)賽，更是人類與未知風(fēng)險(xiǎn)的一場(chǎng)時(shí)間賽跑。

于是，根本性的路線之爭(zhēng)浮出水面。

達(dá)里奧始終認(rèn)為，面對(duì)如此強(qiáng)大的模型，必須“放慢更新速度以防止惡意使用”，發(fā)布前需要前所未有的、漫長(zhǎng)的安全評(píng)估周期；而奧特曼的判斷是，公司必須抓住歷史機(jī)遇，快速迭代，盡快商業(yè)化，在競(jìng)爭(zhēng)中確立領(lǐng)先地位。

倆人中，一個(gè)看到了必須慎之又慎的“臨界點(diǎn)”，一個(gè)看到了不容有失的“時(shí)間窗”，可兩種不同思維的邏輯，在同一家公司里已無(wú)法共存。

2020年12月29日，OpenAI官方宣布達(dá)里奧離職，“一小批同事隨行”。這一小批，是7個(gè)人，包括妹妹丹妮拉。

2021年，Anthropic正式成立。公司名字來(lái)自希臘語(yǔ)“Anthropos”，意思是“人類”。

當(dāng)時(shí)有人問(wèn)達(dá)里奧，為什么要離開(kāi)一家他親手建立的公司。

他的回答是：“與別人的愿景爭(zhēng)論，是極其沒(méi)有效率的事情。”這句話沒(méi)有一個(gè)字在抱怨，但每個(gè)字似乎都在說(shuō)分歧有多深。

事實(shí)上，達(dá)里奧與奧特曼的分歧，本質(zhì)不是個(gè)人恩怨，而是對(duì)同一個(gè)問(wèn)題的根本性判斷不同：當(dāng)手里握著一個(gè)可能改變?nèi)祟愇拿髯呦虻募夹g(shù)，應(yīng)該先問(wèn)“它能做什么”，還是先問(wèn)“它應(yīng)該做什么”？

兩個(gè)答案都沒(méi)有錯(cuò)，只是難以在同一家公司里實(shí)現(xiàn)。

頗具戲劇性的是，2023年11月OpenAI董事會(huì)“宮斗”期間，曾秘密聯(lián)系已出走的達(dá)里奧，試探他是否愿意回歸，并取代奧特曼出任CEO，甚至探討了兩家公司合并的可能性。

達(dá)里奧拒絕了，這并非出于謙虛或顧慮，只因他親手為Anthropic注入的“安全第一”基因，與OpenAI“有效加速”的底層邏輯，從根源上就無(wú)法兼容。

為人工智能立法

Anthropic成立之初，被質(zhì)疑最多的是：你們和OpenAI有什么不一樣？

畢竟在外人看來(lái)，兩家企業(yè)都在做大語(yǔ)言模型，都在做AI助手，都在燒投資人的錢，似乎沒(méi)有本質(zhì)區(qū)別。

但兩者根本區(qū)別是，如何對(duì)人工智能構(gòu)建的體系進(jìn)行何種排序。

以O(shè)penAI為代表的行業(yè)主流選擇了“性能優(yōu)先，安全迭代”，其內(nèi)在邏輯是將AI視為一種急需快速推向市場(chǎng)、占領(lǐng)生態(tài)位的顛覆性產(chǎn)品。

簡(jiǎn)單來(lái)說(shuō)，這就是一種典型的、信奉“速度即壁壘”的互聯(lián)網(wǎng)增長(zhǎng)模式。

而Anthropic的路徑則呈現(xiàn)出一種深刻的“反共識(shí)”特質(zhì)，核心是“安全第一，功能殿后”。

這意味著，當(dāng)用戶的請(qǐng)求與“不造成損害”的核心原則相沖突時(shí)，Anthropic的模型會(huì)啟動(dòng)內(nèi)置的審查機(jī)制，選擇拒絕響應(yīng)。

舉個(gè)例子：當(dāng)用戶的一個(gè)請(qǐng)求可能隱含生成誤導(dǎo)信息的風(fēng)險(xiǎn)時(shí)，或某一句玩笑話可能被解讀為有害指令時(shí)，Anthropic旗下的Claude會(huì)選擇拒絕，而不去執(zhí)行。

顯然，這種設(shè)計(jì)并不符合用戶的期待，也讓Anthropic得到了很多差評(píng)。但達(dá)里奧以及團(tuán)隊(duì)并不在意，甚至還將這套邏輯做成了一個(gè)叫“Constitutional AI”（憲法式人工智能）的方法論。

這相當(dāng)于給AI制定一部“憲法”，即通過(guò)創(chuàng)造一套明確的價(jià)值觀原則，讓AI用這套原則評(píng)判和修正自己的輸出。

在此之前，硅谷AI公司的通行做法叫“人類反饋強(qiáng)化學(xué)習(xí)”（RLHF），即通過(guò)雇傭大量人工標(biāo)注員，對(duì)模型生成的回答逐一打分，告訴AI什么可以做，什么不可以做。

這個(gè)方法雖然有效，但存在一個(gè)根本缺陷：由于標(biāo)注員的價(jià)值觀難以統(tǒng)一，使得整個(gè)過(guò)程像個(gè)黑盒，沒(méi)人能搞清楚模型究竟學(xué)到了什么。

而Constitutional想解決的，正是這個(gè)黑盒問(wèn)題。

在達(dá)里奧看來(lái)，與其靠人來(lái)打分，不如先把原則寫清楚，讓AI對(duì)照原則審查自己。

前者旨在塑造一個(gè)“順從的助手”，后者則試圖培養(yǎng)一個(gè)“擁有原則的智能體”。

換言之，傳統(tǒng)方法是為AI配置無(wú)數(shù)“教練”，通過(guò)“績(jī)效激勵(lì)”引導(dǎo)其行為；而憲法式AI是為AI授予一部“法典”，界定其所有行為的元規(guī)則與絕對(duì)邊界。

這部“憲法”的核心，也最終被Anthropic濃縮成三個(gè)詞：無(wú)害（Harmless）、誠(chéng)實(shí)（Honest）、有幫助（Helpful）——也就是業(yè)內(nèi)熟知的“3H框架”。

這個(gè)順序不是隨機(jī)排列的。

“無(wú)害”排第一，意味著當(dāng)三者發(fā)生沖突時(shí)，Anthropic開(kāi)發(fā)的Claude必須先確保不造成傷害；其次是不說(shuō)謊，最后才是滿足用戶需求。

可以說(shuō)，這個(gè)優(yōu)先級(jí)，正是Anthropic與大多數(shù)AI公司最根本的分叉點(diǎn)。

這條路徑也必然伴隨著更高的工程復(fù)雜度、更長(zhǎng)的研發(fā)周期，以及在市場(chǎng)競(jìng)爭(zhēng)中因“不夠順從”而帶來(lái)的短期劣勢(shì)。

但達(dá)里奧曾說(shuō)過(guò)一句話，道出了這件事背后的底層動(dòng)機(jī)：“我們不理解自己的AI創(chuàng)造物是如何工作的。這在技術(shù)史上基本上是前所未有的。”

這是一個(gè)物理學(xué)博士的直覺(jué)，他始終認(rèn)為在關(guān)乎文明走向的技術(shù)演進(jìn)中，速度本身蘊(yùn)藏著難以預(yù)估的代價(jià)，而有些代價(jià)，很可能會(huì)超出了人類文明的承載極限。

因此，Anthropic所選擇的“慢”，恰恰是對(duì)一種可能未來(lái)的投資，一個(gè)智能依然可控的未來(lái)。

而這條被預(yù)設(shè)為更艱難的道路，在一個(gè)截然不同的競(jìng)技場(chǎng)里，卻將“慢”和“克制”鍛造成了一種稀缺的競(jìng)爭(zhēng)力。

信任經(jīng)濟(jì)學(xué)

如果只看用戶數(shù)量，Anthropic似乎處于下風(fēng)。

Claude的數(shù)千萬(wàn)月活躍用戶，與ChatGPT數(shù)億量級(jí)的規(guī)模相比，根本不在一個(gè)梯隊(duì)。

然而，在商業(yè)世界中，規(guī)模從來(lái)不是衡量成功的唯一標(biāo)尺。

真正的較量，實(shí)際上發(fā)生在另一個(gè)維度——企業(yè)級(jí)市場(chǎng)。這里比拼的不是流量，而是信任。

而Anthropic幾乎從創(chuàng)立之初，就精準(zhǔn)地押注于此，并得到了使用者的肯定。

創(chuàng)立僅僅四年時(shí)間，Anthropic近80%的收入來(lái)源于企業(yè)客戶，而非個(gè)人用戶。

一個(gè)更具說(shuō)服力的數(shù)據(jù)是，在《財(cái)富》全球500強(qiáng)中排名前十的巨頭里，有八家已是Claude的付費(fèi)用戶。與此同時(shí)，過(guò)去一年中，那些年度合同價(jià)值超過(guò)十萬(wàn)美元的大型客戶數(shù)量激增了近七倍。

這一切清晰地表明，Anthropic并未選擇在擁擠的消費(fèi)級(jí)市場(chǎng)“紅海”中血戰(zhàn)，而是成功地開(kāi)拓并牢牢占據(jù)了一片以“企業(yè)級(jí)信任”為核心的高價(jià)值“藍(lán)海”。

那么，企業(yè)為何紛紛選擇它？

根本原因，依然是Anthropic信奉和堅(jiān)持的“安全至上”原則。

正如達(dá)里奧曾指出的：“大多數(shù)人既低估了AI的潛力，也低估了它的風(fēng)險(xiǎn)。”

對(duì)于銀行、制藥公司或頂尖律所而言，它們需要的不是一個(gè)才華橫溢卻可能“信口開(kāi)河”的聊天伙伴，而是一個(gè)能無(wú)縫嵌入核心業(yè)務(wù)流程、行為絕對(duì)可預(yù)測(cè)、輸出極端穩(wěn)定、權(quán)責(zé)清晰無(wú)誤的“專業(yè)工具”。

試想，在處理臨床試驗(yàn)數(shù)據(jù)時(shí)，AI的任何推斷都必須有據(jù)可查；在審閱億元級(jí)別的并購(gòu)合同時(shí)，AI更不能“創(chuàng)造性”地編造條款，否則導(dǎo)致的將是災(zāi)難級(jí)的后果。

這些場(chǎng)景中，安全與可靠的商業(yè)價(jià)值，遠(yuǎn)高于創(chuàng)意與趣味。

而Anthropic將這種“可信”的承諾，真正轉(zhuǎn)化為了可被精確度量與驗(yàn)證的性能指標(biāo)。

2025年硅谷一項(xiàng)衡量AI“虛構(gòu)事實(shí)”傾向的核心測(cè)試“幻覺(jué)率”測(cè)試中，Claude 3.5 Sonnet僅為3.9%，顯著優(yōu)于行業(yè)基準(zhǔn)GPT-4的5.8%。

這一個(gè)多百分點(diǎn)的差距，在普通對(duì)話中或許難以察覺(jué)，但在藥物分子設(shè)計(jì)或金融風(fēng)險(xiǎn)建模中，則意味著風(fēng)險(xiǎn)等級(jí)的質(zhì)的不同。

如此微小的優(yōu)勢(shì)，也恰恰成為企業(yè)法務(wù)與風(fēng)控部門選擇供應(yīng)商時(shí)的決定性門檻。

市場(chǎng)其實(shí)也早為這份稀缺的“確定性”，給出了肯定。

據(jù)行業(yè)報(bào)告，Anthropic的年化營(yíng)收在短短14個(gè)月內(nèi)，從約10億美元飆升至近140億美元，實(shí)現(xiàn)了驚人的14倍增長(zhǎng)。

這一商業(yè)奇跡的背后，離不開(kāi)亞馬遜與谷歌等行業(yè)巨頭的鼎力支持。

它們分別通過(guò)累計(jì)40億和30億美元的資本投入，將Claude深度集成并優(yōu)先部署在各自的云服務(wù)平臺(tái)（AWS Bedrock與Google Vertex AI）之上。

這意味著，全球數(shù)百萬(wàn)家已經(jīng)依賴這些云服務(wù)的企業(yè)，可以在其現(xiàn)有、安全、合規(guī)的IT架構(gòu)內(nèi)，直接且便捷地調(diào)用Claude的能力。

而這兩大云平臺(tái)，實(shí)質(zhì)上成為Anthropic直達(dá)企業(yè)決策核心的、現(xiàn)成的全球化“高速通道”與強(qiáng)大的“信任背書”。

它們的投資，也讓Anthropic的“信任邏輯”再次得到驗(yàn)證，成為其在AI時(shí)代競(jìng)爭(zhēng)力的關(guān)鍵性背書。

與此同時(shí)，專為程序員設(shè)計(jì)的Claude Code，上線不到一年，年收入就沖到了25億美元。

這個(gè)數(shù)字的背后，是開(kāi)發(fā)者和企業(yè)用同樣的邏輯投票：他們把最值錢的東西（代碼和核心數(shù)據(jù)）交給Anthropic，不是因?yàn)樗麄兊腁I最炫酷，而是因?yàn)槠煜碌腁I行為最可預(yù)測(cè)、最穩(wěn)定。

在一個(gè)技術(shù)日新月異、充滿未知的行業(yè)里，這種“不犯錯(cuò)”的確定性，顯然比“什么都會(huì)”但偶爾胡來(lái)的“聰明”，要值錢得多。

在這個(gè)崇尚速度與規(guī)模的時(shí)代，Anthropic將對(duì)于安全邊界的審慎守護(hù)，最終鍛造為了一份能夠被企業(yè)客戶用巨額預(yù)算購(gòu)買的“確定性”承諾。

而Anthropic也以一種近乎固執(zhí)的堅(jiān)持證明了，“克制”本身可以成為一種強(qiáng)大且可商業(yè)化的核心競(jìng)爭(zhēng)力。

未解之題

回到文章開(kāi)篇的消息。

2026年2月9日，Anthropic的安全負(fù)責(zé)人Sharma辭職離任，留下一句簡(jiǎn)短卻沉重的警告：“世界處于危險(xiǎn)之中。”

就在同一個(gè)月，外界發(fā)現(xiàn)，Anthropic官網(wǎng)上的“安全承諾”已被悄然修改，替換為一個(gè)更溫和的表述：“風(fēng)險(xiǎn)報(bào)告”。

舊版承諾曾賦予安全團(tuán)隊(duì)一項(xiàng)關(guān)鍵權(quán)力，允許其在必要時(shí)“凍結(jié)”高風(fēng)險(xiǎn)模型的發(fā)布，可新版框架卻變得更為“靈活”。

這意味著，在商業(yè)目標(biāo)面前，Anthropic曾經(jīng)堅(jiān)守的安全原則防線可能已經(jīng)出現(xiàn)了松動(dòng)。

巧合的是，Sharma的離職，恰恰發(fā)生在這個(gè)變動(dòng)之后。

兩件事接踵而至，也傳遞出一個(gè)清晰的信號(hào)：商業(yè)擴(kuò)張的引力，明顯壓過(guò)了Anthropic曾經(jīng)倡導(dǎo)的“安全至上”初心。

AI的安全，從來(lái)不是一個(gè)可以一勞永逸“解決”的技術(shù)問(wèn)題，而是一種伴隨著能力增長(zhǎng)而日益繃緊的永恒張力。

不難看出，對(duì)一家技術(shù)型公司來(lái)說(shuō)，技術(shù)越強(qiáng)大，這份責(zé)任就越大；而商業(yè)越成功，所面臨的平衡壓力也越復(fù)雜。

對(duì)于Anthropic來(lái)說(shuō)，眼下更深層的困境正逐步浮現(xiàn)：自身所依賴的那部“AI憲法”，其核心原則究竟交由誰(shuí)來(lái)定義？

此外，Anthropic所堅(jiān)持的“過(guò)度安全”也一直被質(zhì)疑：那些因Claude堅(jiān)守原則而拒絕的請(qǐng)求中，是否會(huì)有真正有益、卻被誤擋在護(hù)欄之外的可能？

面對(duì)這種關(guān)于“度”的永恒爭(zhēng)議，很難得到真正的答案。

達(dá)里奧與丹妮拉選擇了躍入潮水之中，并試圖在洪流里拉起一道繩索，目的是“讓AI知曉它不應(yīng)涉足的邊界”。

可問(wèn)題是，這一切能否堅(jiān)持下去？

無(wú)人知曉，一切依然需要時(shí)間的檢驗(yàn)。

達(dá)里奧與丹妮拉的父親，那位意大利裔的皮革工匠，窮盡一生去理解手中材料的極限。

而如今，他的兩個(gè)孩子正在做著同樣的事。

只是這一次，他們手中的“材料”，叫做“人工智能”。

參考文獻(xiàn)：

中文文獻(xiàn)：

[1] 李根. 達(dá)里奧·阿莫迪：我們?yōu)槭裁匆x開(kāi)OpenAI[J]. 極客公園，2023(11). https：//www.geekpark.net/news/328741

[2] 沈建緣. Anthropic：一家以“安全”為名的AI獨(dú)角獸如何估值400億美元[J]. 財(cái)經(jīng)，2024(3)：48–53.

[3] 吳晨. AI安全的政治經(jīng)濟(jì)學(xué)：從Anthropic看大模型治理困局[J]. 哈佛商業(yè)評(píng)論（中文版），2024(6)：32–39.

[4] 謝璐. Claude vs ChatGPT：企業(yè)級(jí)AI市場(chǎng)的信任之戰(zhàn)[J]. 第一財(cái)經(jīng)周刊，2025(2)：54–59.

[5] 劉曠. Constitutional AI：當(dāng)人工智能擁有“憲法”[EB/OL]. 鈦媒體，2023-03-20. https：//www.tmtpost.com/6596873.html

[6] 王煜全. 大模型安全競(jìng)賽：美國(guó)AI公司的分化與重組[J]. 中國(guó)科技財(cái)富，2024(9)：22–27.

[7] 周源. 五角大樓與Claude：國(guó)家力量介入AI安全的邊界在哪里[N]. 21世紀(jì)經(jīng)濟(jì)報(bào)道，2026-02-15(A4).

[8] 俞朝翎. 從OpenAI到Anthropic：硅谷AI安全主義者的理念之爭(zhēng)[J]. 新經(jīng)濟(jì)導(dǎo)刊，2024(4)：18–25.

[9] 甲子光年. 亞馬遜40億美元押注Anthropic：云廠商的AI底座戰(zhàn)爭(zhēng)[EB/OL]. 甲子光年，2024-01-09. https：//www.jazzyear.com/article_info.html?id=1138

[10] 高小倩. HHH框架：Anthropic如何用“無(wú)害、誠(chéng)實(shí)、有幫助”重塑AI對(duì)齊[J]. 人工智能學(xué)報(bào)，2024，7(2)：45–52.

英文文獻(xiàn)：

[11] Amodei， D.， Mané， A.， Ziegler， D.， et al. (2022). Constitutional AI： Harmlessness from AI Feedback. Anthropic. https：//arxiv.org/abs/2212.08073

[12] Bai， Y.， Jones， A.， Ndousse， K.， et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv preprint， arXiv：2204.05862. https：//arxiv.org/abs/2204.05862

[13] Perez， S.， & Conger， K. (2023， November 20). OpenAI board considered Dario Amodei as potential CEO replacement during Altman drama. TechCrunch. https：//techcrunch.com/2023/11/20/openai-board-considered-dario-amodei-as-potential-ceo/

[14] Sharma， M. (2026， February 9). On leaving Anthropic [Public Statement]. https：//mrinankshweb.com/leaving-anthropic

[15] Wiggers， K. (2024， January 8). Amazon completes $4 billion Anthropic investment. TechCrunch. https：//techcrunch.com/2024/01/08/amazon-completes-4-billion-anthropic-investment/

[16] Bass， D.， & Gurman， M. (2025， December 4). Anthropic's annualized revenue hits $4 billion， nearing OpenAI. Bloomberg Technology. https：//www.bloomberg.com/news/articles/2025-12-04/anthropic-revenue

[17] Knight， W. (2023， May 2). The AI Safety Problem That Never Gets Solved. WIRED. https：//www.wired.com/story/anthropic-constitutional-ai-alignment/

[18] Anthropic. (2023). Claude's Constitution. Anthropic Research Blog. https：//www.anthropic.com/index/claudes-constitution

[19] Kang， C.， & Metz， C. (2021， April 6). Researchers Are Making More Than $1 Million， Even at a Nonprofit. The New York Times. https：//www.nytimes.com/2021/04/06/technology/openai-salaries.html

[20] Tiku， N. (2026， February 12). Pentagon asked Anthropic to strip Claude's safety limits. The answer was no. The Washington Post. https：//www.washingtonpost.com/technology/2026/02/12/pentagon-anthropic-claude-safety/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.