網易首頁 > 網易號 > 正文 申請入駐

斯坦福HAI報告揭示AI在科學領域表現

0
分享至

根據斯坦福大學以人為本人工智能中心HAI發布的最新人工智能指數(AI Index)報告,人工智能在一系列專業領域的進展持續加速。在科學、數學和推理方面,多個前沿AI模型現已達到或超越博士級問題的基準線。然而,AI模型仍存在缺限,其在現實世界中的應用方式也仍有不足。


斯坦福HAI中心的AI Index報告具有較高價值,因為它們收集的是運行于現實世界的AI模型的硬數據,而非僅詢問人們的意見(HAI也開展這方面的調查)。在2026年的報告中,HAI研究了多種AI模型的已發表基準測試結果,發現它們持續以驚人速度改進。

例如,研究人員發現,前沿模型在"人類終極考試"(Humanity's Last Exam)上一年內提升了30個百分點——這是一個由近1000名學科專家(主要是教授、研究人員和研究生學位持有者)出題組成的基準測試。HAI在報告中指出,"人類終極考試"旨在真正考驗AI模型的能力,但模型已變得如此強大,原本預期需要數年才能完成的評估,如今數月內即可完成。


HAI報告稱根據Arena排行榜,2026年初排名前六的AI模型——來自Anthropic、xAI、谷歌、OpenAI、阿里巴巴和DeepSeek——在能力上已趨于收斂。Meta目前位居頂尖模型陣營之外,且在該基準測試上過去22個月未有提升?傮w而言,HAI指出,像Meta的Llama這樣的開源模型表現不如OpenAI等閉源模型。頂尖閉源模型與頂尖開源模型之間的差距,從2024年8月的0.3%擴大到2026年3月的3.3%。

"AI能力并未進入平臺期,而是在加速發展,并觸達比以往更多的人。"AI Index報告作者寫道,"2025年,業界生產了超過90%的知名前沿模型,其中多個模型現已在博士級科學問題、多模態推理和競賽數學方面達到或超越人類基準。在關鍵編程基準SWE-bench Verified上,性能在一年內從60%提升至接近100%的人類基準線。組織采用率達88%,五分之四的大學生現使用生成式人工智能(GenAI)。"

在科學領域,AI模型持續取得大幅進展。然而,其整體實用性表現參差不齊。例如,HAI指出,前沿模型現已普遍超越人類化學家,這一點由ChemBench證明——這是一個旨在評估大語言模型化學知識和推理能力的基準測試。據HAI介紹,最佳AI模型現已在ChemBench超過2700道化學問題上超越人類專家平均水平。

HAI還提及Polymathic的AION-1的發布——這是首個天文學基礎模型,并指出天氣預報領域的重大進展,包括FourCastNet 3全球天氣模型和劍橋大學開發的Aardvark Weather AI預報器。

HAI還指出,2025年首篇完全由AI生成的論文被同行評議研討會接收。Sakana的AI Scientist-v2模型生成了一篇被ICLR研討會接收的論文,且未使用任何人工模板;該論文此后已被《自然》期刊接受發表。HAI表示,谷歌的AI Co-Scientist在三個生物醫學領域得到驗證。

盡管取得這些進展,AI的科學能力庫仍存在空白,包括復現科學研究的能力。HAI指出,前沿模型在ReplicationBench的天體物理學論文級復現任務上得分低于20%——這是2025年由斯坦福和多倫多大學研究人員引入的框架,用于評估AI輔助天體物理學研究的有效性。HAI還指出,LLM智能體在UnivEarth上回答地球觀測問題的準確率僅為33%——這是為衡量AI輔助地球觀測和地理空間分析研究可靠性而創建的基準測試。此外,LLM智能體的代碼在UnivEarth上的失敗率達58%。

科學LLM智能體處理端到端任務的能力也尚未達標。HAI指出,最佳智能體在康奈爾大學研究人員去年推出的PaperArena評估工具上達到38.8%的準確率,而博士專家基準為83.5%。前沿模型在BixBench衡量的現實世界生物信息學分析中準確率約為17%——這是去年推出的計算生物學基準測試。

AI在醫學領域也在取得進展,這在AI Index中占據完整一章。得益于AI轉錄準確性的廣泛提升,醫生在就診后撰寫病歷的時間減少了高達83%。報告指出,這對減少職業倦怠產生了實質性影響。AI在疾病診斷方面也展現出一定技能,微軟的AI診斷編排器(利用OpenAI的o3)證明了這一點——在一項復雜已發表病例研究測試中準確率達85.5%。相比之下,"無輔助醫生"(意味著無法使用其"常規工具")僅得分20%。

AI模型在衡量端到端科學工作流的PaperArena等基準上尚未達到人類基準。

AI Index指出,分子生物學領域正出現向更小模型的轉變。HAI提到MSA Pairformer的報道——這是一個1.11億參數的蛋白質語言模型,盡管參數量少兩個數量級,卻在ProteinGym基準上超越了此前的領先者。報告還指出,2億參數的基因組學模型GPN-Star超越了400億參數的模型。

盡管AI已取得長足進步,但仍存在一些差距,這導致了AI的"鋸齒狀前沿"問題。例如,還存在一個奇怪的問題:AI模型無法可靠地讀取時間。據斯坦福HAI介紹,頂尖模型讀取模擬時鐘的正確率僅為50.1%。

幻覺問題仍然存在。GPT-4o的準確率從98.2%下降至64.4%,而DeepSeek R1從約90%下降至14.4%。

模型還會區分"虛假陳述"的歸屬主體。"當虛假陳述被呈現為其他人相信的內容時,模型能夠妥善處理。"AI Index作者寫道,"當同樣的虛假陳述被呈現為用戶自己相信的內容時,性能便急劇下降。"

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國家太窮了沒辦法,不得不把裝甲車開上飛行甲板降低成本

國家太窮了沒辦法,不得不把裝甲車開上飛行甲板降低成本

遠方青木
2026-05-02 23:14:41
五一的莫氏雞煲現場爆滿:上午客人沒吃完,下午客人又開始排隊,還有人花80元買號

五一的莫氏雞煲現場爆滿:上午客人沒吃完,下午客人又開始排隊,還有人花80元買號

極目新聞
2026-05-01 18:33:42
過了六十歲,如果你還有八九十歲的父母健在,千萬別熱心包辦他們的這兩件事,不然最后吃力不討好的準是你

過了六十歲,如果你還有八九十歲的父母健在,千萬別熱心包辦他們的這兩件事,不然最后吃力不討好的準是你

心理觀察局
2026-05-03 08:29:04
俞浩:追覓手機先和蘋果三星分天下,再成為世界第一

俞浩:追覓手機先和蘋果三星分天下,再成為世界第一

互聯網放大鏡
2026-05-02 15:34:16
1957年,李敏錯拿了同學日記本,毛澤東碰巧翻開,批注:原文發表

1957年,李敏錯拿了同學日記本,毛澤東碰巧翻開,批注:原文發表

輿圖看世界
2026-05-01 10:55:06
逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”現今咋樣了

逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”現今咋樣了

拳擊時空
2026-05-03 06:12:49
離譜!一班主任通知,因舉報不再布置課后作業,引發其他家長不滿

離譜!一班主任通知,因舉報不再布置課后作業,引發其他家長不滿

火山詩話
2026-04-30 10:53:58
上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

上映多時票房只有零元,一個觀眾都沒有,五一檔最慘電影誕生了

影視高原說
2026-05-01 08:47:30
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
世乒賽戰報:松島輝空3-0終結兩連。18-20,國乒男單兩連敗了

世乒賽戰報:松島輝空3-0終結兩連敗!18-20,國乒男單兩連敗了

求球不落諦
2026-05-03 04:57:59
于謙新西蘭遭海關重罰,珍愛核桃被認定為違禁樹籽

于謙新西蘭遭海關重罰,珍愛核桃被認定為違禁樹籽

老吳教育課堂
2026-05-02 12:16:53
臉都不要了!德國乒協炮轟國際乒聯!世乒賽這么干就是為了錢!

臉都不要了!德國乒協炮轟國際乒聯!世乒賽這么干就是為了錢!

最愛乒乓球
2026-05-02 13:55:34
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
打服了對手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會是斯諾克新冠軍

打服了對手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會是斯諾克新冠軍

里芃芃體育
2026-05-03 11:15:13
再見,掘金!提前離隊第一人:是時候告別NBA了……

再見,掘金!提前離隊第一人:是時候告別NBA了……

體育新角度
2026-05-03 11:44:02
媒體人談世界杯版權:時間越晚價格只會越低,因為已來不及招商

媒體人談世界杯版權:時間越晚價格只會越低,因為已來不及招商

懂球帝
2026-05-02 16:56:09
貝克漢姆迎51歲生日,貝嫂大方曬老公腹肌泳裝,長子沉默令人心寒

貝克漢姆迎51歲生日,貝嫂大方曬老公腹肌泳裝,長子沉默令人心寒

譯言
2026-05-03 08:10:06
蜜月回家發現婚房被丈母娘一家十口霸占,我笑著離開并決定離婚

蜜月回家發現婚房被丈母娘一家十口霸占,我笑著離開并決定離婚

曉艾故事匯
2026-04-05 16:11:46
39歲上?萍即髮W教授王晨輝因營救至親溺水遇險,不幸去世

39歲上?萍即髮W教授王晨輝因營救至親溺水遇險,不幸去世

澎湃新聞
2026-05-03 12:14:26
搶7騎士大戰猛龍!賽前4大壞消息,騎士大概率出局,被淘汰沒懸念

搶7騎士大戰猛龍!賽前4大壞消息,騎士大概率出局,被淘汰沒懸念

越嶺尋蹤
2026-05-03 11:40:27
2026-05-03 12:59:00
Ai時代前沿
Ai時代前沿
人工智能新聞動態及應用案例。
1726文章數 512關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

上?萍即髮W王晨輝教授因營救至親不幸去世 年僅39歲

頭條要聞

上?萍即髮W王晨輝教授因營救至親不幸去世 年僅39歲

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

房產
家居
教育
藝術
時尚

房產要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

家居要聞

靈動實用 生活藝術場

教育要聞

能者不想干,中學行政“空心化”何時休?

藝術要聞

Dale terbush:當代美國風景畫家

春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優雅

無障礙瀏覽 進入關懷版