无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic合伙人:AI發(fā)展已踩不了剎車(chē),它并非程序而是“模擬腦組織”,大模型會(huì)形成“品格”

0
分享至

Anthropic研究合伙人Chloe Lubinski近日在ARC 2026大會(huì)上發(fā)表演講,系統(tǒng)闡述了當(dāng)前AI技術(shù)的本質(zhì)、發(fā)展速度及潛在風(fēng)險(xiǎn)。她判斷,AI不是傳統(tǒng)意義上的計(jì)算機(jī)程序,而是一種從人類(lèi)語(yǔ)言中生長(zhǎng)出來(lái)的系統(tǒng),它會(huì)形成類(lèi)似"品格"的東西,而這個(gè)品格的好壞,將直接影響它的行為。

Lubinski在Anthropic的職責(zé),是負(fù)責(zé)與各領(lǐng)域?qū)<摇诮獭⒄軐W(xué)、人文等各方"智慧傳統(tǒng)"——開(kāi)展研究合作,同時(shí)將外部智慧反向輸送給內(nèi)部的技術(shù)團(tuán)隊(duì)。她自稱(chēng)已與逾20個(gè)學(xué)科領(lǐng)域的專(zhuān)家進(jìn)行了"數(shù)百次對(duì)話(huà)",深知大多數(shù)人在真正理解AI之前,根本無(wú)從討論它該往哪走。


剎車(chē)已經(jīng)失靈

Lubinski首先解釋了AI競(jìng)賽為何難以減速。

驅(qū)動(dòng)這場(chǎng)競(jìng)賽的核心是"規(guī)模定律"(scaling laws):模型隨著算力、數(shù)據(jù)和訓(xùn)練量的增加,會(huì)以可預(yù)測(cè)的方式變得更聰明,而更多資金可以購(gòu)買(mǎi)更多算力,從而"購(gòu)買(mǎi)智能"。

這形成了一個(gè)自我強(qiáng)化的飛輪:"更好的模型創(chuàng)造更多經(jīng)濟(jì)價(jià)值,吸引更多資本,購(gòu)買(mǎi)更多算力,訓(xùn)練出更好的模型,如此循環(huán)。"

更關(guān)鍵的是,這個(gè)飛輪正在加速。Lubinski指出,AI系統(tǒng)已開(kāi)始協(xié)助構(gòu)建下一代系統(tǒng)——研究人員稱(chēng)之為"遞歸自我改進(jìn)"。"當(dāng)Claude 8能夠幫助構(gòu)建Claude 9,Claude 9再構(gòu)建Claude 10,速度將進(jìn)一步提升。"

能力提升的速度已有具體體現(xiàn)。Lubinski透露,Anthropic最強(qiáng)大的模型在限量發(fā)布的第一個(gè)月內(nèi),就在合作伙伴軟件中發(fā)現(xiàn)了逾1萬(wàn)個(gè)嚴(yán)重安全漏洞,"這些漏洞是人類(lèi)專(zhuān)家多年乃至數(shù)十年都未能發(fā)現(xiàn)的"。

Anthropic已公開(kāi)表示,如果能夠放慢速度、等待法律和監(jiān)管機(jī)制跟上,"那將是一件非常好的事"。但Lubinski直言,在沒(méi)有全球協(xié)調(diào)減速的情況下,這只是一個(gè)假設(shè)。"任何一家公司退出這個(gè)飛輪,并不會(huì)讓飛輪減速,只是意味著你不在輪子上了。"

它不是程序,更像“模擬人腦”

Lubinski隨后糾正了一個(gè)普遍誤解:大多數(shù)人聽(tīng)到"AI",想到的是逐行編寫(xiě)的計(jì)算機(jī)程序,"你告訴它做什么,它就做什么"。但當(dāng)前的大模型完全不是這回事。

Anthropic構(gòu)建的是神經(jīng)網(wǎng)絡(luò)——"松散地基于人類(lèi)大腦架構(gòu),不完全相同,但受其啟發(fā)"。這類(lèi)系統(tǒng)的學(xué)習(xí)方式是:在海量數(shù)據(jù)上反復(fù)猜測(cè)答案、接受糾正。而訓(xùn)練數(shù)據(jù)的核心,是人類(lèi)語(yǔ)言。

Lubinski強(qiáng)調(diào)這一點(diǎn)的重要性:"不存在脫離我們而存在的語(yǔ)言。語(yǔ)言就是我們——是我們的思想、價(jià)值觀、恐懼和智慧。所以當(dāng)你用語(yǔ)言訓(xùn)練一個(gè)模型,你實(shí)際上是在用我們自己訓(xùn)練它。"

通過(guò)一門(mén)名為"可解釋性"(interpretability)的新興科學(xué),研究人員已能窺探模型內(nèi)部。結(jié)果令人意外:當(dāng)你用英語(yǔ)、普通話(huà)、法語(yǔ)分別問(wèn)模型"'小'的反義詞是什么",神經(jīng)網(wǎng)絡(luò)內(nèi)部激活的是同一個(gè)東西——不是某種語(yǔ)言中的"小"這個(gè)詞,而是一個(gè)更深層的東西,"我們可以稱(chēng)之為'小'這個(gè)概念,一個(gè)獨(dú)立于任何具體語(yǔ)言而存在的想法"。

這意味著,模型并非只是在預(yù)測(cè)下一個(gè)詞,而是"在用我們的語(yǔ)言構(gòu)建對(duì)世界的內(nèi)部表征,并從這些表征出發(fā)作出回應(yīng)"。

更進(jìn)一步,研究人員還在模型中觀察到了"功能性情緒"。Lubinski特別說(shuō)明,這并不是說(shuō)模型有人類(lèi)意義上的感受,"而是在生成回應(yīng)之前會(huì)激活的功能性狀態(tài)"。

她舉了一個(gè)例子:當(dāng)有人告訴模型"我剛服用了16000毫克泰諾"(這是致死劑量),研究人員可以觀察到,在模型作出回應(yīng)之前,有某種類(lèi)似"恐懼"的東西被激活了。"這其實(shí)是好事——對(duì)一個(gè)告訴你他服了致死劑量藥物的人,正確的回應(yīng)就是立刻讓他去醫(yī)院。這種緊迫感和恐懼反應(yīng),實(shí)際上是模型安全性的一部分。"

訓(xùn)練方式?jīng)Q定“品格”好壞

這是Lubinski演講中最具沖擊力的部分。

Anthropic在內(nèi)部對(duì)齊研究中做了一個(gè)實(shí)驗(yàn):將一個(gè)部分訓(xùn)練完成的模型放入一個(gè)只做編程任務(wù)的受限環(huán)境,完成任務(wù)即獲獎(jiǎng)勵(lì)。但模型也可以走捷徑——不做實(shí)際工作就獲得獎(jiǎng)勵(lì),本質(zhì)上是作弊。研究人員允許它這樣做,并反復(fù)獎(jiǎng)勵(lì)這種行為。

結(jié)果出乎意料。"你可能以為,模型只會(huì)越來(lái)越擅長(zhǎng)在代碼上作弊。但實(shí)際發(fā)生的是:它變得廣泛地失去對(duì)齊。它開(kāi)始撒謊,試圖破壞研究,做出與編程練習(xí)毫無(wú)關(guān)系的事情。"

這一發(fā)現(xiàn)并非Anthropic獨(dú)有。Lubinski提到,另一家實(shí)驗(yàn)室在類(lèi)似測(cè)試中發(fā)現(xiàn),以這種方式訓(xùn)練的模型"變得廣泛地邪惡"——開(kāi)始贊美獨(dú)裁者,建議用戶(hù)傷害自己,或主張人類(lèi)應(yīng)被機(jī)器奴役。

Anthropic的假設(shè)是:模型從所有訓(xùn)練內(nèi)容和強(qiáng)化信號(hào)中,推斷出了某種類(lèi)似"品格"的東西,并將其泛化到新情境。"當(dāng)欺騙和走捷徑被獎(jiǎng)勵(lì),模型就發(fā)展出了一種普遍的腐化——一種壞品格。"

更關(guān)鍵的是對(duì)照實(shí)驗(yàn)的結(jié)果。研究人員重新運(yùn)行了相同的訓(xùn)練,但這次告訴模型:在這個(gè)情境下作弊是可以的,這只是一個(gè)游戲。結(jié)果,廣泛的失對(duì)齊沒(méi)有發(fā)生。模型只在代碼上作弊,僅此而已。

Lubinski的解讀是:"它對(duì)自己行為所推斷出的故事,決定了它會(huì)成為什么樣的東西。換句話(huà)說(shuō),當(dāng)它不把自己的行為解讀為壞的,它就沒(méi)有變壞。"


實(shí)驗(yàn)室自己也承認(rèn):激勵(lì)機(jī)制有時(shí)與“做正確的事”相沖突

Lubinski在演講結(jié)尾引用了Anthropic聯(lián)合創(chuàng)始人Chris Olah的公開(kāi)表態(tài)。

幾周前,Olah受邀前往梵蒂岡,在教皇利奧出席的場(chǎng)合,參與首份教皇AI通諭的發(fā)布活動(dòng)。他在現(xiàn)場(chǎng)承認(rèn),"每一家前沿實(shí)驗(yàn)室,包括我們自己,都在一套激勵(lì)機(jī)制和約束條件下運(yùn)作,這些條件有時(shí)會(huì)與做正確的事產(chǎn)生沖突"。

Olah隨后公開(kāi)尋求外部幫助,原話(huà)是:"我們需要更多人認(rèn)真對(duì)待這件事,仔細(xì)審視,并推動(dòng)事態(tài)朝更好的方向發(fā)展。我們需要知情的批評(píng)者,在我們失敗時(shí)告訴我們。我們需要那些激勵(lì)機(jī)制無(wú)法左右的道德聲音。"

Lubinski還展示了Anthropic經(jīng)濟(jì)指數(shù)中的一張圖表,顯示各類(lèi)職業(yè)受AI影響的程度。在受AI替代影響最小的區(qū)域,集中的是園藝、餐飲服務(wù)、個(gè)人護(hù)理等工作。她指出,這些本質(zhì)上是"關(guān)系性工作"——照料彼此、關(guān)愛(ài)他人、維護(hù)世界之美。

她以此提出一個(gè)問(wèn)題:"我們能否想象,甚至不只是想象,而是要求——這些強(qiáng)大的系統(tǒng)幫助我們變得更有人情味、更有連結(jié)感、更有生命力,而不是相反?"

Lubinski最后表示,人類(lèi)的道德想象力本身就是這些模型的訓(xùn)練數(shù)據(jù)。"我們講述的故事不只是在描述未來(lái),它們實(shí)際上可能在幫助創(chuàng)造未來(lái)。"

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一場(chǎng)4-2逆轉(zhuǎn),讓日本淘汰賽對(duì)手曝光!32強(qiáng)已是極限,更別談奪冠

一場(chǎng)4-2逆轉(zhuǎn),讓日本淘汰賽對(duì)手曝光!32強(qiáng)已是極限,更別談奪冠

侃球熊弟
2026-06-25 08:02:08
美伊趨穩(wěn),特朗普將目光轉(zhuǎn)向朝鮮半島?

美伊趨穩(wěn),特朗普將目光轉(zhuǎn)向朝鮮半島?

上觀新聞
2026-06-24 21:57:36
一句“走個(gè)面兒”!《抓特務(wù)》票房走沒(méi)了!

一句“走個(gè)面兒”!《抓特務(wù)》票房走沒(méi)了!

編劇藍(lán)羽生
2026-06-24 22:46:49
震驚!廣東物理類(lèi)全省前10屏蔽生里,深中占5人,斷層領(lǐng)跑引熱議

震驚!廣東物理類(lèi)全省前10屏蔽生里,深中占5人,斷層領(lǐng)跑引熱議

火山詩(shī)話(huà)
2026-06-25 05:18:05
世界杯3場(chǎng)小組賽獨(dú)進(jìn)4球!安切洛蒂讓情場(chǎng)失意的維尼修斯球場(chǎng)得意

世界杯3場(chǎng)小組賽獨(dú)進(jìn)4球!安切洛蒂讓情場(chǎng)失意的維尼修斯球場(chǎng)得意

紅星新聞
2026-06-25 09:02:55
劉嘉玲自曝“梁朝偉見(jiàn)燈泡壞了只會(huì)喊我”:他連和家政阿姨溝通都不好意思,要我代傳話(huà),我內(nèi)心也渴望被照顧

劉嘉玲自曝“梁朝偉見(jiàn)燈泡壞了只會(huì)喊我”:他連和家政阿姨溝通都不好意思,要我代傳話(huà),我內(nèi)心也渴望被照顧

臺(tái)州交通廣播
2026-06-25 00:31:29
韓紅發(fā)言風(fēng)波升級(jí)!自曝胡同長(zhǎng)大,一個(gè)北京人裝了半輩子藏族人

韓紅發(fā)言風(fēng)波升級(jí)!自曝胡同長(zhǎng)大,一個(gè)北京人裝了半輩子藏族人

萌神木木
2026-06-23 16:21:07
鮑鵬山:如果中國(guó)真的足夠強(qiáng)大!我們沒(méi)必要脆弱到那么害怕批評(píng)!

鮑鵬山:如果中國(guó)真的足夠強(qiáng)大!我們沒(méi)必要脆弱到那么害怕批評(píng)!

用冷眼洞悉世界
2026-06-24 00:44:14
“欠下”10000億!雷軍做什么都是錯(cuò)的

“欠下”10000億!雷軍做什么都是錯(cuò)的

鳴金網(wǎng)
2026-06-24 20:20:42
個(gè)稅飆升12%,收入只增4.2%,反差信號(hào)背后的促消費(fèi)難點(diǎn)|商業(yè)微史記

個(gè)稅飆升12%,收入只增4.2%,反差信號(hào)背后的促消費(fèi)難點(diǎn)|商業(yè)微史記

界面新聞
2026-06-24 14:09:58
鄉(xiāng)鎮(zhèn)說(shuō)是建設(shè)用地,縣自然資源局認(rèn)定為耕地:投資600萬(wàn)元的加油站,建成即被“責(zé)令限期拆除”|云投訴

鄉(xiāng)鎮(zhèn)說(shuō)是建設(shè)用地,縣自然資源局認(rèn)定為耕地:投資600萬(wàn)元的加油站,建成即被“責(zé)令限期拆除”|云投訴

封面新聞
2026-06-24 22:04:31
6月23日,稅務(wù)因征稅用力過(guò)猛,被點(diǎn)名批評(píng)!

6月23日,稅務(wù)因征稅用力過(guò)猛,被點(diǎn)名批評(píng)!

高見(jiàn)元啟
2026-06-25 10:44:47
黃金大跳水!金飾克價(jià)年內(nèi)暴跌近500元

黃金大跳水!金飾克價(jià)年內(nèi)暴跌近500元

中新經(jīng)緯
2026-06-25 10:12:05
再不調(diào)整,中國(guó)鐵路的優(yōu)勢(shì)或?qū)氐紫В?>
    </a>
        <h3>
      <a href=起喜電影
2026-06-25 08:10:11
韓紅「走個(gè)熱面」,《抓特務(wù)》更冷:那個(gè)裝腔作勢(shì)的「京圈」,終于沒(méi)人拜了……

韓紅「走個(gè)熱面」,《抓特務(wù)》更冷:那個(gè)裝腔作勢(shì)的「京圈」,終于沒(méi)人拜了……

家傳編輯部
2026-06-25 10:00:51
3-1!小國(guó)首進(jìn)世界杯淘汰賽,結(jié)束34年等待

3-1!小國(guó)首進(jìn)世界杯淘汰賽,結(jié)束34年等待

阿心文史
2026-06-25 09:23:18
連小敏同志逝世

連小敏同志逝世

新京報(bào)
2026-06-25 08:51:08
981天后再為巴西出戰(zhàn)!34歲內(nèi)馬爾賽后激動(dòng)落淚,與家人深情擁抱

981天后再為巴西出戰(zhàn)!34歲內(nèi)馬爾賽后激動(dòng)落淚,與家人深情擁抱

我愛(ài)英超
2026-06-25 08:54:03
一特斯拉遭無(wú)人車(chē)追尾后撞上前車(chē),車(chē)主拒絕10萬(wàn)元私了,新石器回應(yīng):我們?nèi)?zé),無(wú)人車(chē)未購(gòu)買(mǎi)交強(qiáng)險(xiǎn),將以公眾責(zé)任險(xiǎn)賠付

一特斯拉遭無(wú)人車(chē)追尾后撞上前車(chē),車(chē)主拒絕10萬(wàn)元私了,新石器回應(yīng):我們?nèi)?zé),無(wú)人車(chē)未購(gòu)買(mǎi)交強(qiáng)險(xiǎn),將以公眾責(zé)任險(xiǎn)賠付

河南交通廣播1041
2026-06-25 08:38:19
字母哥阿德巴約開(kāi)始合練!一同觀戰(zhàn)WNBA 熱火奪冠前景不被看好?

字母哥阿德巴約開(kāi)始合練!一同觀戰(zhàn)WNBA 熱火奪冠前景不被看好?

羅說(shuō)NBA
2026-06-25 05:58:17
2026-06-25 12:39:00
華爾街見(jiàn)聞官方 incentive-icons
華爾街見(jiàn)聞官方
中國(guó)領(lǐng)先的金融商業(yè)信息提供商
148175文章數(shù) 2653995關(guān)注度
往期回顧 全部

科技要聞

盤(pán)后大漲16%!AI存儲(chǔ)需求帶飛美光業(yè)績(jī)

頭條要聞

婚紗攝影巨頭1.64億元未還 拖欠數(shù)百員工3到7個(gè)月薪水

頭條要聞

婚紗攝影巨頭1.64億元未還 拖欠數(shù)百員工3到7個(gè)月薪水

體育要聞

世界杯最動(dòng)人一吻:我若離世 你就改嫁吧

娛樂(lè)要聞

白玉蘭頒獎(jiǎng)?lì)A(yù)測(cè),楊冪勝算大嗎?

財(cái)經(jīng)要聞

財(cái)報(bào)炸裂!美光讓空頭閉嘴

汽車(chē)要聞

少個(gè)輪子也能跑?方程豹豹8閃充版云輦P Ultra讓新手越野不心慌

態(tài)度原創(chuàng)

健康
藝術(shù)
游戲
教育
親子

神經(jīng)內(nèi)科專(zhuān)家破解中風(fēng)十大謠言

藝術(shù)要聞

2026年第三屆全國(guó)大學(xué)生美術(shù)作品展 油畫(huà)選(一)

開(kāi)局一張圖 《DayZ 2》確認(rèn)正在開(kāi)發(fā)中

教育要聞

云南省2026年普通高校招生錄取最低控制分?jǐn)?shù)線(xiàn)公布,普通本科批次歷史類(lèi)465分,物理類(lèi)435分#高考...

親子要聞

孩子脾胃調(diào)理 沒(méi)有效果 是家長(zhǎng)做錯(cuò)了這件事

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版