網易首頁 > 網易號 > 正文 申請入駐

能解奧數,不會看鐘:斯坦福2026年AI報告的15個判斷

0
分享至


4月13日,斯坦福大學人本AI研究所(HAI)發布了2026年度AI Index報告。400多頁,覆蓋技術能力、投資格局、就業影響、公眾認知,是這個行業迄今最完整的第三方年度審計。

這份報告從2017年開始連續發布,今年的結論可以用一句話概括:AI的能力正在以從未有過的速度跑贏一切——跑贏監管框架,跑贏公眾信任,跑贏教育體系,甚至跑贏AI公司自己對信息透明度的意愿。

以下是從報告中提煉的核心內容。

原文鏈接:https://hai.stanford.edu/ai-index/2026-ai-index-report

一、科學能解奧數,不會看鐘

先從一個細節說起。

今年的報告里有一張圖,橫軸是時間,縱軸是AI在各類任務上相對于人類的表現。圖上有一條線幾乎是垂直上升的:代碼能力。SWE-bench Verified——衡量AI自主完成真實軟件工程任務的標準測試——在一年之內從60%跳到了近100%。同期,AI代理處理現實任務的成功率從20%躍升至77.3%,網絡安全問題的解題率從15%飆到93%。


過去一年,Terminal-Bench 2.0 的準確率顯著提升,從 2025 年 2 月的 20%提升到 2026 年初的 77.3%(見圖 2.5.2)。

Humanity's Last Exam是一套由全球近千名領域專家共同設計的考題,專門為了難倒AI而生,覆蓋物理、數學、歷史、法律等幾乎所有高難度學科。2025年時,排名第一的模型只能答對8.8%的題目。到今天,前沿模型的得分已經超過50%。


2024 年至 2025 年間,HLE 模型準確率提高了 30 個百分點(見圖 2.4.4)。一年內,準確率從不到 10%躍升到38.3%

這不是線性增長,是躍遷。

但同一份報告里,還有另一條線——機器人完成真實家務任務的成功率,折疊衣服、洗碗這類事,至今只有12%。AI仍然不能穩定地看懂模擬時鐘。生成連貫視頻仍然困難,多步驟規劃仍然出錯,某些專家級學術考試仍然答不對。


Gemini Deep Think 在 2025 年 IMO 中以自然語言進行首發工作,在 4.5 小時的時間限制內獲得 35 分(金),高于 2024 年獲得的 28 分銀獎。在 ClockBench 上,頂級型號能正確讀取模擬時鐘的 50.1%,而人類則為 90.1%

能力的分布是不均勻的——某些維度已經超越了人類可以驗證的范圍,另一些地方仍在爬行。這是2026年AI的真實狀態,也是接下來所有問題的底色。

二、美國是中國投資額的23倍,但AI人才流入已跌了89%

2025年,全球AI私人投資達到3447億美元,同比增長127.5%。企業層面的AI投資總額達到5817億美元,一年翻了一倍多。

美國在這場軍備競賽里出手最猛。2025年,美國AI投資額2859億美元,是排名第二的中國(124億美元)的23倍。這個差距是壓倒性的。


但同一份報告里,另一組數字指向了完全相反的方向。

2017年到2026年,AI領域頂尖學者移居美國的數量下降了89%。僅在過去一年,這一數字又跌了80%。

兩組數字放在一起的含義很清楚:美國在AI上砸的錢越來越多,但能用這些錢招到的最頂尖的人越來越少。錢還在涌入,但它的邊際價值正在被人才流失侵蝕。

中國的投資邏輯與此不同。報告指出,單純以私人投資額比較,會系統性地低估中國投入AI的資本體量。中國政府通過"政府引導基金"這一機制,自2000年以來在包括AI在內的各領域累計部署了超過9120億美元。這筆錢不走市場化渠道,不出現在私人投資數據里,但它實實在在地存在。

在模型數量上,美國2025年發布了50個"值得關注"的模型,中國大約30個,差距在縮小。在工業機器人安裝量上,中國2024年安裝了29.5萬臺,美國3.42萬臺,差距是8.6倍。中美在AI上走的是兩條平行賽道,正面交鋒的地方只是其中一部分。



三、22歲的程序員已經感受到了,CEO還在說AI只是工具

就業影響的數據今年第一次清晰到無法繞開。

22到25歲的軟件開發者,從2024年以來就業人數下降了近20%。同一時期,26歲以上的同行就業人數基本持平甚至小幅增長。這不是整個軟件行業在萎縮——是AI沖擊從底部開始,精準地切掉了入門崗位。


自 2022 年以來,最年輕工人(22 至 25 歲)的就業人數有所下降,盡管年長年齡段的員工人數持續增長(見圖 4.4.29)。到 2025 年 9 月,22 至 25 歲軟件開發者的就業人數較 2022 年峰值下降了近 20%。

客服領域同樣出現了類似的模式:初級崗位在收縮,資深崗位暫時安全。

三分之一的企業高管在麥肯錫的調查中表示,預計未來一年將進一步縮減員工規模,尤其集中在服務業、供應鏈和軟件工程。這是關于未來的計劃,不是已經發生的事。已經發生的是:年輕人先感受到了。

報告的研究者同時提出了一個重要的限定:就業數據受到宏觀經濟的干擾,無法把AI的影響完全分離出來。但他們也指出了一個反常的現象——AI暴露程度低的職業,失業率的上升反而高于AI暴露程度高的職業。這與"AI直接替代"的簡單敘事不符,背后可能有更復雜的勞動力市場重構正在發生。

AI帶來的生產力提升數字,報告同樣給出了:客服領域提升14%,軟件開發領域提升26%。這些增益是真實的,但享受這些增益的,是已經在崗的、有經驗的工人。新進入市場的年輕人,面對的是崗位數量本身正在減少的入口。

增益集中在上面,代價落在了底部。

四、模型越來越強,告訴你它是怎么訓練出來的公司越來越少

有一組數字在這份報告里是最少被引用的,但可能是最重要的。

Foundation Model Transparency Index,衡量主要AI公司對其模型訓練數據、計算資源、能力邊界、風險及使用政策的披露程度。這個指標去年的平均分是58分,今年跌到了40分。

報告的結論更直接:在透明度最低的模型里,往往是能力最強的那批。


人工分析開放性指數根據權重的自由訪問和許可程度,以及訓練方法和訓練前后數據的透明度,對 AI 模型進行 0 到 100 的評分。領先模型的得分較低,大多數在 100 分中的 2 到 16 分之間(見圖 3.8.1)

這是一個有意思的反轉。AI能力在加速進化,但公眾能用來理解、審查、監督這些能力的信息,在系統性減少。大型模型的訓練數據是什么、用了多少算力、有哪些已知局限——這些本來應該隨著能力增強而更受關注的問題,正在隨著能力增強而變得更加不透明。

公眾信任的數字也在印證這件事。全球調查中,只有31%的美國人表示信任本國政府能有效監管AI,是所有被調查國家中倒數第二(中國是27%,墊底)。歐盟的數字是53%,差距明顯。

與此同時,Gen Z對AI的情緒正在發生轉變。他們曾是生成式AI最早的熱情擁躉,現在的調查數據顯示這一人群的焦慮和憤怒在上升。TechCrunch引用的一位研究者說得更直白:AI領袖們自己都在說"如果什么都不做,很多人會很慘",然后奇怪為什么公眾會焦慮。

4/5的美國高中和大學生在用AI完成學業任務,但只有6%的教師表示學校有清晰的AI使用政策。能力跑在前面,框架跑在后面,中間的空白地帶是每天在使用AI的幾億個普通人。



五、訓練一個模型,等于1.7萬輛車跑一年

AI的能力在加速,代價也在加速。只是這個代價大部分是看不見的。

報告給出的數字:xAI的Grok 4,訓練產生的碳排放估計約為7.28萬噸CO?當量,相當于1.7萬輛汽車行駛一整年產生的溫室氣體。而Epoch AI的獨立估算認為這個數字更高,約為14萬噸。

作為對比,OpenAI的GPT-4訓練排放約5184噸,Meta的Llama 3.1 405B約8930噸。從GPT-4到Grok 4,不到兩年,單次訓練的碳排放增加了超過10倍。

推理側的消耗同樣在積累。全年GPT-4o的推理水耗(用于冷卻數據中心服務器或水力發電),據估算可能超過1200萬人全年的飲用水需求。全球AI數據中心的總電力容量達到29.6GW,相當于整個紐約州的峰值用電量,也與瑞士或奧地利的全國用電量相當。

與能源消耗同步增長的,是算力的集中度。Nvidia的GPU目前占全球AI算力總量的60%以上,而全球AI算力自2022年以來每年增長3.3倍,累計已是2021年的30倍。整個AI系統的物理基礎,正在加速向少數幾家硬件供應商和超大規模云服務商集中。

這些成本不會出現在AI產品的價格標簽上,也不會出現在生產力提升的統計數字里。但它們是真實的,只是被分攤到了大氣、地下水和電網里。

報告里有一個細節,可以作為整篇的注腳。

AI已經能解開數學奧林匹克競賽的題目,但仍然不能穩定地看懂模擬時鐘。

這個不均勻性,不是AI的bug,是這個階段的特征。某些維度的能力已經超出了人類可以直覺驗證的范圍,另一些維度還在爬行。而我們正處在這兩條曲線都在快速移動的時刻——高速能力擴張,與治理、信任、透明度的同步滑落。

斯坦福的研究者在報告序言里寫道:今年的報告揭示了"AI能做什么"與"我們準備好管理它沒有"之間的裂縫正在變寬。這份報告本身能做的,是用數據讓裂縫可見。

裂縫之后怎么辦,是另一個問題。

關注硅星GenAI,獲取最新AI資訊~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:信號很強烈,請做好準備,明天周一,很可能將迎來更大的轉變

A股:信號很強烈,請做好準備,明天周一,很可能將迎來更大的轉變

虎哥閑聊
2026-04-26 09:25:03
善惡終有報,57歲央視女主持王小丫,原來早已經走上另一條大路

善惡終有報,57歲央視女主持王小丫,原來早已經走上另一條大路

聽風喃
2026-03-24 05:39:34
正式簽約!加盟雄鹿!字母哥被孤立

正式簽約!加盟雄鹿!字母哥被孤立

籃球教學論壇
2026-04-25 16:29:48
中國需做最壞打算:俄羅斯解體后617萬土地絕不能失守

中國需做最壞打算:俄羅斯解體后617萬土地絕不能失守

王藁侃世界
2026-04-23 07:05:34
迪文華子傷退多孫穆狂砍43分 森林狼3勝掘金拿到賽點

迪文華子傷退多孫穆狂砍43分 森林狼3勝掘金拿到賽點

仰臥撐FTUer
2026-04-26 12:31:11
李啟言父親病逝,日夜照顧癱瘓兒子病倒,曾拒絕李澤楷千萬救濟金

李啟言父親病逝,日夜照顧癱瘓兒子病倒,曾拒絕李澤楷千萬救濟金

開開森森
2026-04-25 18:07:45
談不攏就打!商務部下達第20號令, 對歐封鎖開始, 馮德萊恩故作鎮

談不攏就打!商務部下達第20號令, 對歐封鎖開始, 馮德萊恩故作鎮

小正說娛樂
2026-04-26 11:18:22
2026年,如果你的家庭存款突破100萬,會發現一個驚人的真相!

2026年,如果你的家庭存款突破100萬,會發現一個驚人的真相!

藍色海邊
2026-04-24 17:11:02
外媒:中東美軍基地遭襲損失遠超五角大樓承認

外媒:中東美軍基地遭襲損失遠超五角大樓承認

參考消息
2026-04-26 13:18:23
56歲健康母親赴瑞士安樂死:兒子已走4年,我只想體面離開

56歲健康母親赴瑞士安樂死:兒子已走4年,我只想體面離開

胡一舸南游y
2026-04-25 16:22:22
正式測定:蒙古發生6.0級地震 震源深度15千米

正式測定:蒙古發生6.0級地震 震源深度15千米

每日經濟新聞
2026-04-26 13:00:05
外媒:中資工廠正將996加班文化傳入歐洲,擠壓當地正常就業崗位

外媒:中資工廠正將996加班文化傳入歐洲,擠壓當地正常就業崗位

凡人學電腦
2026-04-25 23:23:58
無視禁令,首艘中資油船出港,伊軍100萬人到位,特朗普踩下剎車

無視禁令,首艘中資油船出港,伊軍100萬人到位,特朗普踩下剎車

大熊歡樂坊
2026-04-26 13:07:47
TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

翰飛觀事
2026-04-22 19:35:28
連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

一窺究竟
2026-04-26 00:52:15
獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

復轉這些年
2026-04-25 18:51:48
果然不出中國所料!特朗普慫了,伊朗宣布贏家,美要付出更高代價

果然不出中國所料!特朗普慫了,伊朗宣布贏家,美要付出更高代價

軒逸阿II
2026-04-26 00:31:22
1995年,在香港高檔餐廳里,34歲的洪晃與63歲的父親洪君彥的合影

1995年,在香港高檔餐廳里,34歲的洪晃與63歲的父親洪君彥的合影

娛樂洞察點點
2026-04-25 21:55:38
瘋爽的債主破產了!456和隊友搶富二代!

瘋爽的債主破產了!456和隊友搶富二代!

八卦瘋叔
2026-04-26 11:12:01
杜蘭特G4出戰成疑!烏度卡透露踝傷好轉:我原以為他可以打G3

杜蘭特G4出戰成疑!烏度卡透露踝傷好轉:我原以為他可以打G3

羅說NBA
2026-04-26 04:19:21
2026-04-26 13:52:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

藝術
親子
旅游
數碼
公開課

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

親子要聞

媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

旅游要聞

春光正好迎假期 文旅消費暖意濃 多元“微度假”體驗解鎖小城引流密碼

數碼要聞

同檔最強小平板!OPPO Pad Mini下周首銷:3199元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版