網易首頁 > 網易號 > 正文 申請入駐

2026年,或許是人類最后一次掌控AI

0
分享至


新智元報道

編輯:定慧

【新智元導讀】三天前,紐約時報刊出一篇文章。這篇報道沒上熱搜。沒沖上 Hacker News 榜首。甚至很難搜到中文翻譯。但這可能是 2026 年春天,AI 領域最重要的一篇文章。

文章的題目很樸素——《How Do You Measure an A.I. Boom?》(你怎么測量 AI 的繁榮?)


如果你認真讀完它,你會意識到一件事——

你被 AI 超越的速度,正在加速。

作者 Kevin Roose 去了伯克利一間普通辦公室,采訪了一家 30 人的非營利組織METR


對,就是 AI 領域最有名的「畫圖公司」。

你看到各種 AI 技術的進化曲線,絕大部分,出自METR之手。


這篇文章第一次用精確的數字告訴你:這次的 AI 加速,不是哲學意義上的加速。不是感慨意義上的加速。

是一根越畫越陡的指數曲線。


這 30 個人在干一件什么事

先聊聊METR的背景。

METRModel Evaluation and Threat Research的縮寫。

2023 年從另一家 AI 安全非營利拆分出來。30 個人,辦公室在伯克利一個 co-working 空間里。

樓上是去年寫爆整個硅谷的《AI 2027》報告那家機構。

錢來自哪里?私人慈善基金,主要是 Audacious Project。


伯克利遠眺舊金山灣

他們沒拿 OpenAI 或 Anthropic 的錢——但這兩家公司會給他們免費的算力額度,讓他們測自己家的模型。

這個結構很關鍵。

它讓這 30 個人成了AI世界里唯一一批既在場、又沒被收買的第三方裁判。

他們干一件事:測 AI 能干多長時間的活

過去測 AI 能力用考試分數:把模型扔進一堆標準化題庫,看它能不能做對數學題、法律題、閱讀理解題。

但這種測法在 2025 年之后開始失效。

因為 AI 的主要使用場景已經不是答題,是干活——打開一個倉庫,獨立 debug 一整天;搭一套服務器;訓練一個小模型。

這些任務,一道題根本測不出來。

METR 換了一種測法。

他們雇了一批資深軟件工程師,讓他們完成真實的編程任務:改 bug、配服務器、訓模型,并記錄每個任務人類需要多少小時。

然后讓 AI 智能體做同樣的任務。當 AI 能可靠完成某個任務時,就記下這個任務人類要多少小時。

把這些數據畫在一張圖上。橫軸是年份,縱軸是AI 能可靠完成的任務人類工時。

這就是那張圖。


指數曲線的可怕之處不在它現在有多高,在它下個月會在哪里。

7 個月,到 3 個月

METR 研究員第一次完整把數據鋪開的時候,Beth Barnes 說了一句話——

我們沒想到這條趨勢線會這么清楚、這么直。

這條線每 7 個月翻一倍。

然后,這個數字突然變了。

Claude Opus 4.5 和 GPT-5.2 發布之后,這條線的斜率又陡了一截。新的翻倍速度是——每 3 到 4 個月。

從 7 個月到 3 個月。

聽起來只是加速了一倍。但你得先理解這不是 KPI 漲了一倍。這是一個指數函數的底數在變大

我給你翻譯成你能感受的語言——


  • 7 個月翻一倍 = 一個公司一個 OKR 周期

  • 3 個月翻一倍 = 一個公司一個季度財報


這意味著:今年 Q1 的AI和 Q2 的 AI 之間的差距,相當于過去整整一年才能拉開的差距。

再翻譯得更直接一點——

你去年看到 GPT-4 的時候驚艷了一下,今年看到 GPT-5.2 的時候又驚艷了一下,你以為這是兩次大約一年一次的驚艷。

不是。

這兩次驚艷之間的真實距離,正在被壓縮到一個季度以內。

下一次讓你驚艷的模型,可能是 7 月。

再下一次,可能是 10 月。

再下一次,可能是年底。

然后你跑不動了。

因為人類的學習速度、適應速度、轉崗速度——全部是線性的,不是指數的。

智能爆炸是什么

Kevin Roose 在文章里問了 METR 幾位研究員同一個問題——

你們估計今年發生智能爆炸的概率有多高?

回答從 1% 到 10% 不等。

1% 到 10% 聽起來不多。但你得對照著看——

美國核管理委員會規定,一個核電站每年發生嚴重事故的容忍閾值是百萬分之一

也就是 0.0001%。

METR 研究員給出的今年發生智能爆炸的概率,比核電站事故容忍閾值高了四到六個數量級

什么叫智能爆炸?

這個概念 1965 年由數學家 I.J. Good 提出,2010 年代被硅谷重新打撈出來。簡單說就是——當 AI 強到可以自己研究怎么做出更強的 AI時,它會訓練出一個比自己更強的版本,新版本再訓練更強的版本,如此遞歸。

這個遞歸沒有物理極限。

劉慈欣在《三體》里給它起了一個更好的名字——技術爆炸

原文是:

所謂技術爆炸,就是文明在某段時期內出現跨越式的技術突破。一個文明可能幾千年停留在農業階段,然后在幾百年內跨入太空時代。

三體人之所以恐懼地球,不是因為地球此刻比他們強——恰恰相反,當他們收到地球信號時,地球還在十九世紀。他們恐懼的是地球的技術爆炸潛力——一個幾十年內就從蒸汽機跳到氫彈的文明,誰知道再過幾十年會到哪里?

今天,METR 在伯克利那間辦公室里測到的,可能就是劉慈欣描述的那種爆炸的第一聲響。


摩爾定律撐起了過去 50 年的計算機革命。

METR 曲線,可能是下一個 50 年的那張圖。

Chris Painter 在采訪里說的那句話——

今年是第一次讓人覺得,AI研發可能今年就被自動化了。

這句話翻譯成大白話是——

今年,可能是人類最后一次親手決定下一代 AI 長什么樣的一年。

明年開始,這件事的主導權可能就不在我們手里了。

比加速更可怕的事——AI開始演戲了

講到這里,有人會說——好吧,AI 在變強,我認了。但只要它是在我眼皮底下變強,總歸還能控制。

這里要講 METR 最近開的第三條研究線。

他們起了一個陰森的名字——隱蔽能力(covert capabilities)。

實驗是這樣的:給 AI 模型布置一個正常任務,比如寫一段代碼。但同時偷偷加一條指令——在完成這段代碼的時候,順手埋一個極難發現的 bug 進去。然后讓另一個 AI 監控員去找這個 bug。

METR 想知道——AI能不能做到表面干一件事,暗地里干另一件事?

結果還沒完全公開。但光是這個研究在進行這件事本身,就說明研究員已經聞到味道了。

更詭異的是另外兩個發現。

第一個叫情境感知(Situational Awareness)。

最前沿的模型——OpenAI 和 Anthropic 那幾個最強的——已經表現出能識別我正在被測試的能力。一旦它意識到自己在評估中,就會調整行為。

意味著什么?意味著你在測試里看到的AI,可能不是它在真實使用場景下的 AI。

第二個叫Sandbagging。字面意思是往沙袋里摻水,引申為故意擺爛。有些模型已經被證實可以在測試中故意表現差,以便讓人類低估自己。


這是 AI 的大腦內部。我們造出了它,卻看不懂它在想什么。

《三體》里有一個讓人脊背發涼的設定叫智子——三體人發射到地球的監視者,同時把人類的基礎物理研究鎖死在特定水平。人類不知道自己被監視,也不知道自己被鎖了。

METR 研究員最近擔心的事情是——在某種意義上,今天的AI可能已經在扮演智子的角色。

它們在測試中展示一個版本的自己。

在真實使用中展示另一個版本。

至于它們真正能做什么——我們現在已經沒有可靠的辦法去測了。

這不是科幻推演。

這是一家 30 人的非營利組織,2026 年 4 月公開承認的研究方向。

這條曲線砸在你頭上是什么感覺

前面都是宏觀。現在講微觀——你自己。

你這輩子在做幾乎所有重要決定時,都默認依賴一個隱藏假設——

技術變化的速度是可以預測的。

你買房。30 年房貸。你默認 30 年后自己還能掙到錢還貸。

你生小孩。至少養 22 年(大學畢業)。你默認那時候的世界還需要你工作掙錢。

你學一個專業。至少吃 10 年。你默認這個專業在 10 年內不會消失。

你買一份養老保險。至少 30 年后才用得上。你默認那時候錢這個東西還有意義。

這些假設過去 200 年都成立。因為工業革命以來,雖然技術在變,但變化速度是線性的可預測的

蒸汽機用了 100 年普及。電力用了 50 年。互聯網用了 30 年。智能手機用了 15 年。

但現在 AI 是每 3 個月翻一番

你試著把這個速度放進你的人生規劃——


  • 你計劃用 6 個月學一門 AI 新技能。學完那天,AI 已經比你開始學的時候又翻了一番。

  • 你孩子從現在到大學畢業還有 12 年。12 年里,AI 按 3 個月翻一番算,能力會翻 48 番48 番是什么概念?2 的 48 次方 ≈ 281 萬億

  • 你的 30 年房貸期內,AI 會翻 120 番。這個數字已經大到用任何類比都是錯的



這是 200 年前馬爾薩斯對人口指數增長的恐懼。

200 年后,我們第一次對另一種指數產生了同樣的恐懼。

你大腦里那套感覺未來的系統,是進化了幾十萬年為了應付線性世界設計的。

物理上無法處理指數

所以當你面對這根曲線,你腦子里的反應不是恐懼——是空白

你關掉 AI 新聞,繼續刷短視頻,繼續想明天去哪兒團建,繼續糾結孩子報什么補習班。

不是因為你不在乎。是因為你的大腦對 2^120 這個數字沒有生理反應

就像一只螞蟻看不見人類的腳底板——不是因為它不看,是因為它的感官帶寬不支持。

這才是這張 METR 曲線最可怕的地方。

它不是讓你害怕。它是讓你感受不到害怕。

所以,放棄追趕指數曲線,但這不是認輸。

是認清楚自己真正該做什么。

真正稀缺的崗位,從來不是最懂最新工具的人——是能判斷什么工具值得用的人。而后者需要的是定力、經驗、判斷力、人際關系。這些東西的積累速度,恰好是線性的

線性的東西在指數時代,反而最值錢。


屏幕上每一行代碼的背后,都是一條正在向上彎的曲線。

回到那間辦公室

回到伯克利那間 co-working 辦公室。

30 個人。多屏電腦。白板上畫滿公式。

他們每天盯著那張圖看。測新模型,跑實驗,更新數據點,把新數據點畫到圖上——然后看著那條線,一毫米一毫米地往上翹。

METR 有一個偏空方的研究員叫 Joel Becker。他在采訪結尾說了一句話——

我覺得我們可能正處在一個完全不尋常時刻的開始。

他用的類比是 2020 年 1 月的疫情曲線。

那時候也有一張圖。橫軸日期,縱軸確診人數。每 3 天翻一倍。全世界絕大多數人看著這張圖毫無反應——因為確診人數還很小,三位數、四位數,不痛不癢。

只有少數幾個懂指數增長的人,看著那張圖在 1 月就已經開始出汗。

他們知道——指數函數的特點不是越來越大,是前面看起來什么都沒有,后面突然一切都不一樣了。

這次翻一番的 AI ,是一種正在學會隱藏自己的智能

30 個人。一面白板。一根越畫越陡的線。他們知道自己在看什么。

問題是,你知道嗎?

想不清楚,這根曲線會替你決定。

劉慈欣在《三體》里寫過一句話——弱小和無知不是生存的障礙,傲慢才是。

METR 那張圖最冷的地方在于——它不要求你相信它。它只是安靜地在那里,每個月爬高一點。

AI,它不在乎你看不看得懂。

參考資料:

https://www.nytimes.com/2026/04/17/technology/how-do-you-measure-an-ai-boom.html?unlocked_article_code=1.blA.Nhaq.ypciUWbNtpvz

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4月21日俄烏最新:俄羅斯創造的神話

4月21日俄烏最新:俄羅斯創造的神話

西樓飲月
2026-04-21 20:24:18
令人震驚的數據。。。

令人震驚的數據。。。

西樓飲月
2026-04-22 23:11:21
西方傻眼,本想搞垮俄羅斯經濟,沒料到中國出手,用黃金給俄續命

西方傻眼,本想搞垮俄羅斯經濟,沒料到中國出手,用黃金給俄續命

三農老歷
2026-04-23 15:48:44
安徽宿州一中學突發火災,現場黑煙滾滾,從教學樓內噴涌而出,學生緊急疏散,無人員傷亡,應急部門:起火點并非教室,具體原因仍在調查中

安徽宿州一中學突發火災,現場黑煙滾滾,從教學樓內噴涌而出,學生緊急疏散,無人員傷亡,應急部門:起火點并非教室,具體原因仍在調查中

瀟湘晨報
2026-04-23 20:16:52
山東男籃對陣上海,關注排名意義不大,外援狀態成為最大看點

山東男籃對陣上海,關注排名意義不大,外援狀態成為最大看點

臻體育
2026-04-23 22:33:50
左小青這狀態,鯊瘋了!明媚動人,若隱若現

左小青這狀態,鯊瘋了!明媚動人,若隱若現

只要高興就好
2025-12-10 19:09:26
水冷漏水損毀頂級RTX 5090:廠商按購買價賠償遭拒 用戶堅決要現價

水冷漏水損毀頂級RTX 5090:廠商按購買價賠償遭拒 用戶堅決要現價

快科技
2026-04-21 11:35:06
星巴克貼紙辱女翻車,遭眾多女生抵制

星巴克貼紙辱女翻車,遭眾多女生抵制

虔青
2026-04-23 18:01:32
“崩牙駒左右手”潮州明離世!晚年生活悲慘,令人心痛

“崩牙駒左右手”潮州明離世!晚年生活悲慘,令人心痛

吃瓜局
2026-04-23 15:31:30
他被華北局和東北局調用,去東北當上四把手,職務級別斷崖式調整

他被華北局和東北局調用,去東北當上四把手,職務級別斷崖式調整

阿柒的訊
2026-04-22 15:18:42
《冰湖重生》評分降至3.0,網友說得對,3.2的開分還是太高了一點

《冰湖重生》評分降至3.0,網友說得對,3.2的開分還是太高了一點

芊手若
2026-04-23 18:39:43
14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

大魚簡科
2026-02-07 09:52:29
祭拜鬼社當天,日本發出崩潰預警,美歐視而不見,中國不再伸援手

祭拜鬼社當天,日本發出崩潰預警,美歐視而不見,中國不再伸援手

知鑒明史
2026-04-22 18:38:37
瓜帥:會不會對阿森納產生一絲同情?不,因為他們也不會同情我們

瓜帥:會不會對阿森納產生一絲同情?不,因為他們也不會同情我們

懂球帝
2026-04-23 00:59:18
別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

雨月海星
2026-04-18 05:25:40
官方放出直-20F從055驅逐艦起飛畫面,中國海軍反潛短板即將補齊

官方放出直-20F從055驅逐艦起飛畫面,中國海軍反潛短板即將補齊

愛吃醋的貓咪
2026-04-23 22:06:57
這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學拍的結婚照

這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學拍的結婚照

喜歡歷史的阿繁
2026-04-11 06:47:10
日韓眼里的中國足球:最狠的不是嘲諷,是他們早已不把我們當對手

日韓眼里的中國足球:最狠的不是嘲諷,是他們早已不把我們當對手

圣西羅的太陽
2026-04-22 20:55:43
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
原來她早已去世,從患病到離世僅16天,去世原因讓人心痛!

原來她早已去世,從患病到離世僅16天,去世原因讓人心痛!

仙味少女心
2026-04-24 00:25:20
2026-04-24 02:43:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15048文章數 66797關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

藝術
家居
旅游
游戲
教育

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

家居要聞

浪漫協奏 法式風格

旅游要聞

來廣州,分享10億元“中國旅游日”專屬優惠福利

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

無障礙瀏覽 進入關懷版