網易首頁 > 網易號 > 正文 申請入駐

能解奧數,不會看鐘:斯坦福2026年AI報告的15個判斷

0
分享至


4月13日,斯坦福大學人本AI研究所(HAI)發布了2026年度AI Index報告。400多頁,覆蓋技術能力、投資格局、就業影響、公眾認知,是這個行業迄今最完整的第三方年度審計。

這份報告從2017年開始連續發布,今年的結論可以用一句話概括:AI的能力正在以從未有過的速度跑贏一切——跑贏監管框架,跑贏公眾信任,跑贏教育體系,甚至跑贏AI公司自己對信息透明度的意愿。

以下是從報告中提煉的核心內容。

原文鏈接:https://hai.stanford.edu/ai-index/2026-ai-index-report

1

一、能解奧數,不會看鐘

先從一個細節說起。

今年的報告里有一張圖,橫軸是時間,縱軸是AI在各類任務上相對于人類的表現。圖上有一條線幾乎是垂直上升的:代碼能力。SWE-bench Verified——衡量AI自主完成真實軟件工程任務的標準測試——在一年之內從60%跳到了近100%。同期,AI代理處理現實任務的成功率從20%躍升至77.3%,網絡安全問題的解題率從15%飆到93%。


過去一年,Terminal-Bench 2.0 的準確率顯著提升,從 2025 年 2 月的 20%提升到 2026 年初的 77.3%(見圖 2.5.2)。

Humanity's Last Exam是一套由全球近千名領域專家共同設計的考題,專門為了難倒AI而生,覆蓋物理、數學、歷史、法律等幾乎所有高難度學科。2025年時,排名第一的模型只能答對8.8%的題目。到今天,前沿模型的得分已經超過50%。


2024 年至 2025 年間,HLE 模型準確率提高了 30 個百分點(見圖 2.4.4)。一年內,準確率從不到 10%躍升到38.3%

這不是線性增長,是躍遷。

但同一份報告里,還有另一條線——機器人完成真實家務任務的成功率,折疊衣服、洗碗這類事,至今只有12%。AI仍然不能穩定地看懂模擬時鐘。生成連貫視頻仍然困難,多步驟規劃仍然出錯,某些專家級學術考試仍然答不對。


Gemini Deep Think 在 2025 年 IMO 中以自然語言進行首發工作,在 4.5 小時的時間限制內獲得 35 分(金),高于 2024 年獲得的 28 分銀獎。在 ClockBench 上,頂級型號能正確讀取模擬時鐘的 50.1%,而人類則為 90.1%

能力的分布是不均勻的——某些維度已經超越了人類可以驗證的范圍,另一些地方仍在爬行。這是2026年AI的真實狀態,也是接下來所有問題的底色。

1

二、美國是中國投資額的23倍,但AI人才流入已跌了89%

2025年,全球AI私人投資達到3447億美元,同比增長127.5%。企業層面的AI投資總額達到5817億美元,一年翻了一倍多。

美國在這場軍備競賽里出手最猛。2025年,美國AI投資額2859億美元,是排名第二的中國(124億美元)的23倍。這個差距是壓倒性的。


但同一份報告里,另一組數字指向了完全相反的方向。

2017年到2026年,AI領域頂尖學者移居美國的數量下降了89%。僅在過去一年,這一數字又跌了80%。

兩組數字放在一起的含義很清楚:美國在AI上砸的錢越來越多,但能用這些錢招到的最頂尖的人越來越少。錢還在涌入,但它的邊際價值正在被人才流失侵蝕。

中國的投資邏輯與此不同。報告指出,單純以私人投資額比較,會系統性地低估中國投入AI的資本體量。中國政府通過"政府引導基金"這一機制,自2000年以來在包括AI在內的各領域累計部署了超過9120億美元。這筆錢不走市場化渠道,不出現在私人投資數據里,但它實實在在地存在。

在模型數量上,美國2025年發布了50個"值得關注"的模型,中國大約30個,差距在縮小。在工業機器人安裝量上,中國2024年安裝了29.5萬臺,美國3.42萬臺,差距是8.6倍。中美在AI上走的是兩條平行賽道,正面交鋒的地方只是其中一部分。



1

三、22歲的程序員已經感受到了,CEO還在說AI只是工具

就業影響的數據今年第一次清晰到無法繞開。

22到25歲的軟件開發者,從2024年以來就業人數下降了近20%。同一時期,26歲以上的同行就業人數基本持平甚至小幅增長。這不是整個軟件行業在萎縮——是AI沖擊從底部開始,精準地切掉了入門崗位。


自 2022 年以來,最年輕工人(22 至 25 歲)的就業人數有所下降,盡管年長年齡段的員工人數持續增長(見圖 4.4.29)。到 2025 年 9 月,22 至 25 歲軟件開發者的就業人數較 2022 年峰值下降了近 20%。

客服領域同樣出現了類似的模式:初級崗位在收縮,資深崗位暫時安全。

三分之一的企業高管在麥肯錫的調查中表示,預計未來一年將進一步縮減員工規模,尤其集中在服務業、供應鏈和軟件工程。這是關于未來的計劃,不是已經發生的事。已經發生的是:年輕人先感受到了。

報告的研究者同時提出了一個重要的限定:就業數據受到宏觀經濟的干擾,無法把AI的影響完全分離出來。但他們也指出了一個反常的現象——AI暴露程度低的職業,失業率的上升反而高于AI暴露程度高的職業。這與"AI直接替代"的簡單敘事不符,背后可能有更復雜的勞動力市場重構正在發生。

AI帶來的生產力提升數字,報告同樣給出了:客服領域提升14%,軟件開發領域提升26%。這些增益是真實的,但享受這些增益的,是已經在崗的、有經驗的工人。新進入市場的年輕人,面對的是崗位數量本身正在減少的入口。

增益集中在上面,代價落在了底部。

1

四、模型越來越強,告訴你它是怎么訓練出來的公司越來越少

有一組數字在這份報告里是最少被引用的,但可能是最重要的。

Foundation Model Transparency Index,衡量主要AI公司對其模型訓練數據、計算資源、能力邊界、風險及使用政策的披露程度。這個指標去年的平均分是58分,今年跌到了40分。

報告的結論更直接:在透明度最低的模型里,往往是能力最強的那批。


人工分析開放性指數根據權重的自由訪問和許可程度,以及訓練方法和訓練前后數據的透明度,對 AI 模型進行 0 到 100 的評分。領先模型的得分較低,大多數在 100 分中的 2 到 16 分之間(見圖 3.8.1)

這是一個有意思的反轉。AI能力在加速進化,但公眾能用來理解、審查、監督這些能力的信息,在系統性減少。大型模型的訓練數據是什么、用了多少算力、有哪些已知局限——這些本來應該隨著能力增強而更受關注的問題,正在隨著能力增強而變得更加不透明。

公眾信任的數字也在印證這件事。全球調查中,只有31%的美國人表示信任本國政府能有效監管AI,是所有被調查國家中倒數第二(中國是27%,墊底)。歐盟的數字是53%,差距明顯。

與此同時,Gen Z對AI的情緒正在發生轉變。他們曾是生成式AI最早的熱情擁躉,現在的調查數據顯示這一人群的焦慮和憤怒在上升。TechCrunch引用的一位研究者說得更直白:AI領袖們自己都在說"如果什么都不做,很多人會很慘",然后奇怪為什么公眾會焦慮。

4/5的美國高中和大學生在用AI完成學業任務,但只有6%的教師表示學校有清晰的AI使用政策。能力跑在前面,框架跑在后面,中間的空白地帶是每天在使用AI的幾億個普通人。



1

五、訓練一個模型,等于1.7萬輛車跑一年

AI的能力在加速,代價也在加速。只是這個代價大部分是看不見的。

報告給出的數字:xAI的Grok 4,訓練產生的碳排放估計約為7.28萬噸CO?當量,相當于1.7萬輛汽車行駛一整年產生的溫室氣體。而Epoch AI的獨立估算認為這個數字更高,約為14萬噸。

作為對比,OpenAI的GPT-4訓練排放約5184噸,Meta的Llama 3.1 405B約8930噸。從GPT-4到Grok 4,不到兩年,單次訓練的碳排放增加了超過10倍。

推理側的消耗同樣在積累。全年GPT-4o的推理水耗(用于冷卻數據中心服務器或水力發電),據估算可能超過1200萬人全年的飲用水需求。全球AI數據中心的總電力容量達到29.6GW,相當于整個紐約州的峰值用電量,也與瑞士或奧地利的全國用電量相當。

與能源消耗同步增長的,是算力的集中度。Nvidia的GPU目前占全球AI算力總量的60%以上,而全球AI算力自2022年以來每年增長3.3倍,累計已是2021年的30倍。整個AI系統的物理基礎,正在加速向少數幾家硬件供應商和超大規模云服務商集中。

這些成本不會出現在AI產品的價格標簽上,也不會出現在生產力提升的統計數字里。但它們是真實的,只是被分攤到了大氣、地下水和電網里。

1

報告里有一個細節,可以作為整篇的注腳。

AI已經能解開數學奧林匹克競賽的題目,但仍然不能穩定地看懂模擬時鐘。

這個不均勻性,不是AI的bug,是這個階段的特征。某些維度的能力已經超出了人類可以直覺驗證的范圍,另一些維度還在爬行。而我們正處在這兩條曲線都在快速移動的時刻——高速能力擴張,與治理、信任、透明度的同步滑落。

斯坦福的研究者在報告序言里寫道:今年的報告揭示了"AI能做什么"與"我們準備好管理它沒有"之間的裂縫正在變寬。這份報告本身能做的,是用數據讓裂縫可見。

裂縫之后怎么辦,是另一個問題。

點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
靶向藥殺光癌細胞,也溶掉了全身肌肉,父親只剩骨架沒能等到天亮

靶向藥殺光癌細胞,也溶掉了全身肌肉,父親只剩骨架沒能等到天亮

健身狂人
2026-04-21 17:08:17
炸了!克洛普給皇馬下死命令:花 3 億簽 5 人,點名替換庫爾圖瓦

炸了!克洛普給皇馬下死命令:花 3 億簽 5 人,點名替換庫爾圖瓦

奶蓋熊本熊
2026-04-21 04:52:43
自食其果!高市剛得罪四個鄰國,7.7級強震突襲,核電站誰來救?

自食其果!高市剛得罪四個鄰國,7.7級強震突襲,核電站誰來救?

朗威談星座
2026-04-21 12:22:51
美國勞工部長被解職

美國勞工部長被解職

第一財經資訊
2026-04-21 08:17:07
不比不知道,一比嚇一跳!蘇林回國后很焦慮:原來我們落后這么多

不比不知道,一比嚇一跳!蘇林回國后很焦慮:原來我們落后這么多

說歷史的老牢
2026-04-21 13:22:14
不到24小時,美國迎來3個噩耗,特朗普或將下臺,伊最高領袖下場

不到24小時,美國迎來3個噩耗,特朗普或將下臺,伊最高領袖下場

知法而形
2026-04-20 12:08:23
你喝的白酒只有七百年歷史,三千年酒文化跟它半毛錢關系都沒有

你喝的白酒只有七百年歷史,三千年酒文化跟它半毛錢關系都沒有

富貴說
2026-03-31 23:21:39
1次退圈+1個萌娃!宋承炫當爸,粉絲哭成一片

1次退圈+1個萌娃!宋承炫當爸,粉絲哭成一片

陳意小可愛
2026-04-21 17:32:40
浙江一男子稱花1.02元參加“魔鬼辣”挑戰,吃完半小時痙攣倒地送醫,商家朋友:他是個慣犯,涉嫌敲詐;市監所:商家食材索證索票完整

浙江一男子稱花1.02元參加“魔鬼辣”挑戰,吃完半小時痙攣倒地送醫,商家朋友:他是個慣犯,涉嫌敲詐;市監所:商家食材索證索票完整

中國能源網
2026-04-21 18:19:07
周亮,被免職

周亮,被免職

新京報政事兒
2026-04-21 10:28:07
錢留下,人別來!西班牙主席對中國甩出一句話,全網炸鍋了

錢留下,人別來!西班牙主席對中國甩出一句話,全網炸鍋了

菁菁子衿
2026-04-21 10:11:50
馬克龍:霍爾木茲海峽再被封,美伊雙方都有責任

馬克龍:霍爾木茲海峽再被封,美伊雙方都有責任

看看新聞Knews
2026-04-21 10:52:33
西班牙提案、意大利變臉、百萬民眾聯署:歐洲對以色列態度加速轉向

西班牙提案、意大利變臉、百萬民眾聯署:歐洲對以色列態度加速轉向

澎湃新聞
2026-04-21 07:22:26
上海航空員的工資曝光,多少人羨慕嫉妒恨…

上海航空員的工資曝光,多少人羨慕嫉妒恨…

慧翔百科
2026-04-21 16:59:35
尹子維的母親曾是邵氏的頂級花旦,驚為天人的美貌,美得讓人窒息

尹子維的母親曾是邵氏的頂級花旦,驚為天人的美貌,美得讓人窒息

上官晚安
2026-04-21 08:56:51
林志玲《男人裝》殺瘋了 又野又勾人 這雙腿真的過分的好看了

林志玲《男人裝》殺瘋了 又野又勾人 這雙腿真的過分的好看了

老吳教育課堂
2026-04-21 20:05:47
恒大超級蛀蟲劉永灼:甚至比許家印還能攬財,狂燒千億終落法網

恒大超級蛀蟲劉永灼:甚至比許家印還能攬財,狂燒千億終落法網

小曙說娛
2026-04-19 00:27:45
若丟掉冠軍,將締造英超史上最大崩盤,阿爾特塔或將永遠無法翻身

若丟掉冠軍,將締造英超史上最大崩盤,阿爾特塔或將永遠無法翻身

夜白侃球
2026-04-21 14:14:18
關注丨美伊談判,新變數!

關注丨美伊談判,新變數!

錢眼
2026-04-21 20:46:26
1979年華國鋒訪歐歸來,葉劍英評其性格不適合復雜改革

1979年華國鋒訪歐歸來,葉劍英評其性格不適合復雜改革

王鶔吃吃喝喝
2026-04-21 12:00:08
2026-04-21 21:12:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
3024文章數 10491關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

六層樓高大樹"偷"走家里光線 女子起訴隔壁小區業委會

頭條要聞

六層樓高大樹"偷"走家里光線 女子起訴隔壁小區業委會

體育要聞

62歲,成為中國足壇最火的人

娛樂要聞

周潤發時隔16年再賣樓,變現數億資產

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

數碼
房產
教育
健康
公開課

數碼要聞

60瓶椰子水隨便裝!26款樂道L90同級獨有30L后備箱冰柜

房產要聞

年薪40-50萬!海南地產圈還在猛招人

教育要聞

央視發布:春招企業需求排名TOP5專業

干細胞抗衰4大誤區,90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版