網易首頁 > 網易號 > 正文 申請入駐

這不是構建數字心智的方式:推理失敗如何阻礙AI模型實現人類智能

0
分享至

一項新研究的作者認為,現有的大語言模型架構可能無法支撐實現人類級人工智能所需的問題解決能力。



最新研究表明,當今最流行的人工智能工具在架構上的限制,可能會制約它們能夠達到的智能上限。

2月5日發表在預印本平臺arXiv上的一項研究指出,現代大語言模型在其問題解決邏輯中天生容易出現斷裂,即所謂的「推理失敗」。

當大語言模型丟失了可靠完成任務所需的關鍵信息,導致對看似簡單的問題給出錯誤答案時,就發生了推理失敗。該論文是對現有研究的綜述,專門考察了Transformer模型——這是一種神經網絡架構,支撐著包括ChatGPT、Claude和Google Gemini在內的流行AI聊天機器人。

根據大語言模型在「人類最后考試」等評估中的表現,一些科學家認為,底層的神經網絡架構有朝一日可能催生出能夠達到人類級認知的模型。然而,研究人員指出,雖然Transformer架構使大語言模型在語言生成等任務上極為強大,但它也抑制了實現真正人類級推理所需的那種可靠的邏輯過程。

「大語言模型已展現出卓越的推理能力,在廣泛的任務上取得了令人矚目的成果,」研究人員在論文中表示。「盡管取得了這些進步,嚴重的推理失敗依然存在,甚至在看似簡單的場景中也會發生……這種失敗被歸因于模型缺乏整體規劃和深度思考的能力。」

大語言模型的局限性

大語言模型在海量文本數據上進行訓練,通過逐詞預測一個合理的答案來響應用戶的提示。它們通過將稱為「標記」的文本單元串接在一起來實現這一點,這些串接方式基于從訓練數據中學到的統計模式。

Transformer還使用一種稱為「自注意力」的機制來跟蹤長文本序列中單詞和概念之間的關系。自注意力機制加上龐大的訓練數據庫,使得現代聊天機器人非常擅長對用戶提示生成令人信服的答案。

然而,大語言模型并不進行傳統意義上的任何實際「思考」。相反,它們的響應由算法決定。對于需要多步驟真正解決問題的長任務,Transformer可能會丟失關鍵信息,并退回到從訓練數據中學到的模式。這導致了推理失敗。

「這一根本弱點不僅限于基本任務,還擴展到數學問題的組合、多事實聲明驗證以及其他本質上具有組合性的任務,」研究人員在論文中表示。

推理失敗也是為什么大語言模型在被用戶告知回答錯誤后,常常仍然重復同樣的回復;或者對同一問題的不同表述方式給出不同答案——即使被要求逐步解釋其推理過程也是如此。

英國阿蘭·圖靈研究所的高級研究數據科學家費德里科·南尼認為,大語言模型通常呈現為推理的東西,多半只是表面功夫。

「人們發現,如果你告訴大語言模型不要直接回答,而是『一步步思考』并先寫出推理過程,它往往能得到正確答案,」南尼告訴媒體。「但這是一種技巧。這不是人類意義上的真正推理——它仍然只是裝扮成思維鏈的下一詞元預測,」他說。「當我們說這些模型『推理』時,我們實際的意思是,它們寫出一個推理過程——聽起來像是一串合理的推理鏈條。」

現有AI基準測試的不足

研究人員發現,當前評估大語言模型表現的方法在三個關鍵方面存在不足。第一,重新表述提示詞可能會影響結果。第二,基準測試隨著使用次數的增加而退化并受到污染。第三,它們只評估最終結果,而不是模型得出結論所用的推理過程。

這意味著當前的基準測試可能嚴重高估了大語言模型的能力,并低估了它們在現實使用中失敗的頻率。



「我們的立場不是說基準測試有缺陷,而是它們需要進化,」該研究的合著者、加州理工學院的計算機科學與機器人學學生宋培陽通過電子郵件表示。同樣地,南尼表示,基準測試往往會滲入到大語言模型的訓練數據中,這意味著后續的大語言模型會學會如何欺騙這些基準測試。

「除此之外,既然模型已投入生產環境,使用本身也成了一種基準測試,」南尼說。「你把系統擺在用戶面前,看看哪里出問題——這就是新的測試。所以是的,我們需要更好的基準測試,也需要減少依賴AI來檢查AI。但這在實踐中非常困難,因為這些工具已經融入我們的工作方式,直接使用它們極其方便。」

通往通用人工智能的新架構?

與近期其他研究不同,這項新研究并不認為神經網絡方法在追求通用人工智能的道路上是死胡同。相反,研究人員將其比作計算機的早期時代,指出理解大語言模型為何失敗是改進它們的關鍵。

然而,他們確實認為,僅僅在更多數據上訓練模型或擴大模型規模,不太可能獨自解決這個問題。這意味著,開發通用人工智能可能需要一種根本不同的模型構建方法。

「神經網絡,尤其是大語言模型,顯然是通用人工智能圖景的一部分。它們的進展是非凡的,」宋說。「然而,我們的綜述表明,僅靠擴展規模不太可能解決所有推理失敗……[這意味著]達到人類級推理可能需要架構上的創新、更強的世界模型、改進的魯棒性訓練,以及與結構化推理和具身交互的更深度融合。」

南尼對此表示贊同。「從心智哲學的角度來看,我認為我們基本上已經找到了Transformer的極限。它們不是你構建數字心智的方式,」他說。「它們對文本的建模極其出色,以至于幾乎無法分辨一段文字是出自人類還是機器之手。『但這就是它們的本質:語言模型……這種架構的潛力是有限的。』」

如果朋友們喜歡,敬請關注“知新了了”!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗宣布對所有商船開放霍爾木茲海峽

伊朗宣布對所有商船開放霍爾木茲海峽

環球網資訊
2026-04-17 21:29:34
臉沒恢復就別出來拍劇了,頂著腫脹臉、笨重假發套,太讓人出戲了

臉沒恢復就別出來拍劇了,頂著腫脹臉、笨重假發套,太讓人出戲了

白面書誏
2026-04-14 18:34:11
金銀突發跳水

金銀突發跳水

觀威海
2026-04-20 10:24:03
泰國可疑行李箱滲液惡臭產生大量蛆蟲 引發周圍群眾恐慌 警方打開后發現幼犬尸體

泰國可疑行李箱滲液惡臭產生大量蛆蟲 引發周圍群眾恐慌 警方打開后發現幼犬尸體

曼谷陳大叔
2026-04-20 15:05:57
北京男籃官宣:收官戰為隊史三分王朱彥西舉辦退役儀式

北京男籃官宣:收官戰為隊史三分王朱彥西舉辦退役儀式

醉臥浮生
2026-04-20 18:05:22
72歲王健林,被逼到崩潰邊緣 || 關注

72歲王健林,被逼到崩潰邊緣 || 關注

新浪財經
2026-04-20 16:54:51
A股:剛剛,國家發改委發聲,釋放兩信號,明日將迎來新的突破

A股:剛剛,國家發改委發聲,釋放兩信號,明日將迎來新的突破

另子維愛讀史
2026-04-20 20:49:45
20歲女孩兩年內花上千萬元打賞主播,致父親企業瀕臨破產

20歲女孩兩年內花上千萬元打賞主播,致父親企業瀕臨破產

上游新聞
2026-04-20 18:40:11
魚友終極選擇!當貝魚缸2S Ultra正式開售

魚友終極選擇!當貝魚缸2S Ultra正式開售

快科技
2026-04-20 11:23:09
杜蘭特不打,火箭戰術轉型!中投被放棄,打造魔球大隊?收效甚微

杜蘭特不打,火箭戰術轉型!中投被放棄,打造魔球大隊?收效甚微

熊哥愛籃球
2026-04-20 21:22:03
因長相驚艷慘遭封殺,半生窮困痛失婚姻,55歲逆襲爆紅出圈

因長相驚艷慘遭封殺,半生窮困痛失婚姻,55歲逆襲爆紅出圈

不似少年游
2026-04-20 22:17:49
畢業生破1270萬!2026下半年開始,大部分家庭將直面“4大難題”

畢業生破1270萬!2026下半年開始,大部分家庭將直面“4大難題”

復轉這些年
2026-04-05 18:00:42
美國8名兒童遭槍擊死亡:槍手為其中7名兒童的父親,逃跑被擊斃現場曝光

美國8名兒童遭槍擊死亡:槍手為其中7名兒童的父親,逃跑被擊斃現場曝光

新京報
2026-04-20 10:02:29
井岡山根據地一天要消耗一萬五千斤糧食,毛委員如何解決此難題?

井岡山根據地一天要消耗一萬五千斤糧食,毛委員如何解決此難題?

史之銘
2026-04-20 18:12:33
女子花253萬買幅畫,畫家本人認定是贗品,專家:本人鑒定不管用

女子花253萬買幅畫,畫家本人認定是贗品,專家:本人鑒定不管用

收藏大視界
2026-04-19 22:53:49
CBA名記卻痛批北京隊1人:太散漫,太任性了!

CBA名記卻痛批北京隊1人:太散漫,太任性了!

體育哲人
2026-04-20 16:27:41
賽季報銷!瘋狂苦練!比爾即將重返快船

賽季報銷!瘋狂苦練!比爾即將重返快船

籃球教學論壇
2026-04-20 13:01:08
梅根訪澳暴露婚姻狀態:她用勁掐哈里,掐到指節發白,青筋暴出

梅根訪澳暴露婚姻狀態:她用勁掐哈里,掐到指節發白,青筋暴出

小寒嫣語
2026-04-20 20:47:06
轉告家里所有人:門外一喊這幾句,馬上提高警惕,很多人已上當

轉告家里所有人:門外一喊這幾句,馬上提高警惕,很多人已上當

荷蘭豆愛健康
2026-04-20 06:17:00
本想暗度陳倉,不料衛星直播!美軍調動反導系統,全程被直播暴光

本想暗度陳倉,不料衛星直播!美軍調動反導系統,全程被直播暴光

軍迷戰情室
2026-04-20 20:20:07
2026-04-20 23:20:49
知新了了
知新了了
專注于新知、科普的傳播
5952文章數 2272關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發布 售價10999元起

頭條要聞

歐洲或再迎一位親俄領導人 曾與澤連斯基發生公開沖突

頭條要聞

歐洲或再迎一位親俄領導人 曾與澤連斯基發生公開沖突

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

手機
教育
藝術
數碼
公開課

手機要聞

REDMI新品發布會前瞻,手機、平板、筆記本都有

教育要聞

關注!海淀這所學校不再具備辦學資格

藝術要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

數碼要聞

亞馬遜明確:Fire OS不會被拋棄

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版