无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

人工智能中的內省:大語言模型中自我意識的一絲曙光

0
分享至


導語

在人工智能快速發展的當下,一個看似簡單卻頗具爭議的問題再次浮現:當我們詢問大語言模型“你是如何得出這個答案的”時,它給出的解釋究竟意味著什么?是對內部運作的真實反映,還是僅僅生成了一段聽起來合理的敘述?圍繞這一問題,人工智能公司 Anthropic 近期發布的一項研究嘗試通過實驗方法加以探究,并引發了關于“模型是否具備內省能力”的廣泛討論。本文將結合該研究的核心思路、實驗方法及其結果,同時引入相關哲學觀點,對當前大語言模型所謂“內省能力”的性質與邊界進行梳理與分析。原文由 evoailabs 發布,本文為對博客原文的整理與翻譯。

關鍵詞:人工智能,大語言模型

鄭鴻盛丨作者

趙思怡丨審校

基于 Anthropic 發布的研究《Introspection in AI: A Glimmer of Self-Awareness in Large Language Models》,原文重點介紹了一種用于檢驗模型自我監控能力的實驗路徑。研究團隊通過“概念注入”技術,將特定信息以神經激活形式嵌入模型運行過程中,并觀察模型能否察覺并報告這些被植入的內容,從而評估其是否具備初步的內省能力。

在梳理實驗方法與結果的同時,本文進一步引入哲學視角,對“內省”的定義與判定標準展開討論。研究顯示,部分先進模型(如 Claude 系列)在特定情境下確實能夠表現出有限的自我覺察跡象,但這種能力整體上仍不穩定、可重復性較低,與人類意義上的自我認知存在本質差異。圍繞這一發現,學界與公眾也展開了持續討論,焦點涉及意識的本質、模型的自我表征方式,以及人工智能未來在安全性與透明性方面的潛在影響。


圖1 :Anthropic 在其研究頁面中對這一問題進行了系統探討,詳情請見https://www.anthropic.com/research/introspection

你是否問過人工智能模型,它在想些什么?或是讓它解釋自己的回答是如何得出的?人工智能模型有時會回應這類問題,但我們很難判斷該如何解讀它們的答案。人工智能系統真的具備內省能力嗎?也就是說,它們能否審視自身的思維活動?還是說,當被問及這類問題時,它們只是編造出聽起來合乎情理的回答而已?

圍繞這一問題,Anthropic 在其社交平臺發布中也提出了類似的思考(圖2),進一步引出了公眾對模型“自我認知能力”的關注:


圖2: Anthropic 官方發布關于Claude 大模型的 “內省能力” 實驗的研究成果,詳情請見https://x.com/AnthropicAI/status/1983584136972677319

語言模型能否識別自身的內在想法?還是說,在被問及這類問題時,它們只是編造看似合理的答案?我們研究發現,Claude 確實具備真實的內省能力,盡管這種能力十分有限。 機器能否思考,長期以來一直是引人深思、備受爭議的話題。2025 年秋季一項開創性研究表明,我們或許正在見證人工智能邁入全新維度的早期跡象:自我內省。人工智能公司 Anthropic 開展的一項研究給出了有力證據(盡管仍存在局限性),證明 Claude 等大語言模型,可能已初步具備向內審視、描述自身內部運行狀態的原始能力。

這一發現也迅速引發了媒體與社區的廣泛關注與討論。例如,主流媒體對該研究進行了報道與解讀,而技術社區中也出現了不同立場的討論(圖3、4):


圖3:Anthropic 官宣,Claude 首次展現可驗證的自我內省能力,詳情請見https://www.forbes.com/sites/lanceeliot/2025/11/03/glimmer-of-evidence-that-ai-has-innate-self-introspection-and-can-find-meaning-within-itself/


圖4:Reddit社區傳播Anthropic Claude內省研究引發公眾討論,詳情請見https://www.reddit.com/r/OpenAI/comments/1ok0vo1/anthropic_has_found_evidence_of_genuine/

這項研究詳細刊載于論文《Emergent Introspective Awareness in Large Language Models》,旨在解答一個根本性問題:當大語言模型描述自身的 “思考過程” 時,它是在真正反思自身的內部運行機制,還是僅僅生成一套聽起來合乎邏輯的解釋?

為了區分真正的內省刻意編造,Anthropic 的研究團隊開發了一種名為概念注入的全新技術。該方法會將特定概念以神經激活模式的形式,直接植入模型的 “運算中樞”,且此時模型正在執行一項無關任務。隨后,研究人員觀測模型能否察覺并識別這段被植入的 “思維內容”。關于這一方法的具體實現與可視化示意,可參考其技術說明頁面:


圖5:Anthropic 研究人員 Jack Lindsey 發表論文《Emergent Introspective Awareness in Large Language Models》,詳情請見https://transformer-circuits.pub/2025/introspection/index.html

與此同時,圍繞“何謂真正的內省”,學界也存在不同的理論界定。一些哲學研究對當前大語言模型是否具備內省能力提出了系統性質疑,從理論層面對上述實驗結論形成補充與反思,相關論文見下:


圖6:倫敦政治經濟學院(LSE)學者 Daria Zakharova 對 LLM “內省能力” 的批判性研究(2025),詳情請見https://philsci-archive.pitt.edu/27052/

近期哲學研究提出了一種輕量化內省理論,該理論認為:若一個系統能夠表征自身的心智狀態,并借此調取這些狀態以指導自身行為,該系統便具備內省能力。這一研究思路,也為現有大語言模型內省能力的實證檢測提供了理論依據。但是,這篇文章認為,該輕量化理論標準過于寬泛,無法界定真正內省的核心本質。文章逐層遞進,提出三項讓步式、且各自獨立成立的反駁論點,駁斥 “大語言模型具備內省能力” 這一論斷:第一,真正的內省需要依托持續的主體而存在,而大語言模型不具備這一前提;現有模型缺乏形成自我認知所必需的心理連續性。第二,真正的內省具有錯誤識別豁免性,但大語言模型的自我陳述并不滿足這一特征 —— 其表述依托公開文本信息,這類信息同樣可以用來推斷其他系統的內部狀態。第三,輕量化理論以功能性自我監控與行為調控為核心,無法將內省,與復雜系統中普遍存在的自我調節機制區分開來。

研究結果耐人尋味。該研究發現,Claude Opus 4、4.1等高階模型展現出一種「有限、功能性的內省覺知」。在部分實驗場景中,這類模型能夠準確報告被注入概念的存在,說明其具備一定程度的自我監控能力。

然而,我們必須理性看待成果,不宜過度樂觀。這種全新發現的內省能力極不穩定。研究指出,模型在多數情況下無法察覺被注入的概念,或是轉而生成看似合理、實則虛構的回答。即便是在效果最好的實驗中,這類自我覺知的準確率也僅維持在 20% 左右。

不出所料,人工智能這種萌芽級的自我覺知,已然引發哲學界的激烈爭論。部分批判者認為,這種「淺層次」的內省,完全不等同于人類所擁有的真正自我認知。他們主張,當前大語言模型缺少連續、穩定的「自我」,而這正是實現真正內省的必要前提。 盡管存在上述局限且相關爭論仍在持續,這項研究的意義依舊深遠。研究結果表明,模型的綜合能力與其內省潛力存在關聯性,這預示著隨著人工智能技術不斷發展,其自我覺知能力也或將同步提升。這或將對人工智能安全與透明化發展產生重大影響。試想在未來,人工智能系統能夠實現自我調節、識別內部異常,并主動標記潛在偏見或有害輸出內容。 然而,前路并非毫無隱患。那些有望提升模型透明度的底層機制,同樣可能為欺騙行為埋下隱患,導致模型刻意歪曲、謊報自身的內部狀態。

針對大語言模型內省能力的研究仍處于起步階段,卻標志著人工智能發展歷程中的關鍵轉折點。雖然擁有感知意識的機器離我們尚且遙遠,但大語言模型中顯現的內省跡象,已然開辟了全新的研究領域。這也迫使我們直面兩大命題:人類造物的能力邊界,以及意識本身的本質。

「大模型時代下的Agent建模與仿真」讀書會

集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始,每周二晚上7:30-9:30進行,現讀書會已結束,支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區,共同暢想大模型時代人工社會的未來圖景!

核心問題

Agent建模與仿真是什么,核心技術發生了怎樣的演變?

大模型時代,Agent建模與仿真會給復雜系統理論帶來哪些突破?

大模型如何賦能Agent實現自主思考與動態適應?

大模型驅動的Agent交互會涌現出什么新型的社會現象?

Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式?

你將收獲

梳理Agent建模與仿真的歷史發展脈絡與方法論;

掌握一套理解、分析、控制、預測復雜系統的計算實驗框架;

掌握基于多主體強化學習的復雜系統優化方法;

領略領域前沿學者的研究體系與科研路徑。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

#翻譯

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鵝腿阿姨的麻煩越來越大了

鵝腿阿姨的麻煩越來越大了

大張的自留地
2026-06-13 20:34:31
世界杯最新積分榜:再爆大冷!澳大利亞2-0創歷史,歐洲隊5戰3敗

世界杯最新積分榜:再爆大冷!澳大利亞2-0創歷史,歐洲隊5戰3敗

球場沒跑道
2026-06-14 14:03:32
離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

十點體壇
2026-06-13 23:00:31
3-1逆轉!朱雨玲決戰張本美和,中日爭冠背后,國乒年輕一代該清醒了

3-1逆轉!朱雨玲決戰張本美和,中日爭冠背后,國乒年輕一代該清醒了

林子說事
2026-06-14 14:43:54
黃健翔犀利點評!1-1戰平摩洛哥,五星巴西已徹底褪去王者氣質!

黃健翔犀利點評!1-1戰平摩洛哥,五星巴西已徹底褪去王者氣質!

田先生籃球
2026-06-14 09:38:37
男子網貸賭博欠債80萬,進戒賭中心經介紹認識化債公司,本想“打折化債”結果又被騙20萬

男子網貸賭博欠債80萬,進戒賭中心經介紹認識化債公司,本想“打折化債”結果又被騙20萬

蓬勃新聞
2026-06-14 14:57:59
特朗普曾騙了全世界?英媒爆料,美軍終于承認,在中方手里吃了虧

特朗普曾騙了全世界?英媒爆料,美軍終于承認,在中方手里吃了虧

離離言幾許
2026-06-14 14:15:34
埃及隊被FIFA強制要求修改球衣:移除七星標志及金色號碼

埃及隊被FIFA強制要求修改球衣:移除七星標志及金色號碼

星耀國際足壇
2026-06-14 10:44:47
全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

金錯刀
2026-06-12 18:22:07
中蒙談妥了!蒙古總統緊握王毅的手,說了3點,日本的算盤打錯了

中蒙談妥了!蒙古總統緊握王毅的手,說了3點,日本的算盤打錯了

凡知
2026-06-14 12:44:38
鄧超攜兒子現身NBA總決賽現場,在父親旁邊吃爆米花,顏值清秀像孫儷

鄧超攜兒子現身NBA總決賽現場,在父親旁邊吃爆米花,顏值清秀像孫儷

鄉野小珥
2026-06-14 14:25:08
2026,中年失業的又一悲慘版本出爐…

2026,中年失業的又一悲慘版本出爐…

慧翔百科
2026-06-12 11:21:59
中國女排出征!機場照曝光,王夢潔好美,刁琳宇低調,龔翔宇自信

中國女排出征!機場照曝光,王夢潔好美,刁琳宇低調,龔翔宇自信

跑者排球視角
2026-06-14 14:15:01
1000公里電車長途下來,我終于敢說:高速跑電車,簡直就是活受罪

1000公里電車長途下來,我終于敢說:高速跑電車,簡直就是活受罪

網絡易不易
2026-06-08 11:51:35
社保繳費基數要嚴管了!那些按最低標準交社保的公司,該心慌了!

社保繳費基數要嚴管了!那些按最低標準交社保的公司,該心慌了!

細說職場
2026-06-14 14:09:05
徹底認輸!美國吞下苦果,以色列被賣了!

徹底認輸!美國吞下苦果,以色列被賣了!

大嘴說天下
2026-06-13 22:50:03
1.7億贏不了0.1億!世界杯第1個冷門:卡塔爾門將痛哭 瑞士隊蒙羞

1.7億贏不了0.1億!世界杯第1個冷門:卡塔爾門將痛哭 瑞士隊蒙羞

風過鄉
2026-06-14 05:54:27
不查不知道一查嚇一跳,掌管少林寺38年的釋永信,私下到底多享受

不查不知道一查嚇一跳,掌管少林寺38年的釋永信,私下到底多享受

賤議你讀史
2026-06-10 18:00:44
黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

臺州交通廣播
2026-06-13 18:19:03
“啥需求都滿足!”找耿同學“私了”的上海大學院長被免職

“啥需求都滿足!”找耿同學“私了”的上海大學院長被免職

大江看潮
2026-06-14 09:12:50
2026-06-14 17:43:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5885文章數 4678關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現場畫面披露

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

游戲
家居
教育
藝術
本地

一千多個NPC!《神鬼寓言4》全用真人配音

家居要聞

空間微調 移形換境

教育要聞

收藏:2026山東合格考準考證打印網址+教程!

藝術要聞

明代高僧寫的《春江花月夜》,美得令人驚嘆

本地新聞

AK劉彰邂逅河北南大港濕地

無障礙瀏覽 進入關懷版