網易首頁 > 網易號 > 正文 申請入駐

剛剛,Claude Mythos打爆AI評測天花板!超指數狂飆,2027奇點加速

0
分享至


新智元報道

編輯:Aeneas KingHZ

【新智元導讀】就在剛剛,Claude Mythos把評測干「失效」了:METR第一次測不準,AI攻防拐點到了!AI 進化已成「外星文明」降臨,超越指數增長,2027 AGI 奇點正加速撞向人類。

剛剛,Claude Mythos干爆METR評測上限!超指數級進化已經逼近AGI奇點。

就在今天,一張趨勢圖刷屏全網。


國際最權威的AI評測機構METR驚恐地發現,他們的「溫度計」要被Mythos撐爆了。

Claude Mythos Preview的能力,已經捅破了人類評測框架的天花板,進入了失真區!

OpenAI超級對齊團隊前成員Leopold Aschenbrenner曾預測2027年是AGI的奇點,但現在的最新數據顯示:Mythos的表現已經略高于2027情景的趨勢線。


「外星文明」,已經強行著陸,陰影已覆蓋整片天空。

評測界的大地震

當「滿分」不再有意義

在METR最新的測試中,他們試圖衡量AI完成長周期復雜任務的能力(Time Horizons)。

METR設置了一個名為「50%成功率時間線」的指標——即模型有50%的概率,成功獨立完成一項人類需要耗費X小時才能完成的任務。


此前,此前的模型,成績是幾十分鐘或幾個小時。

但當Claude Mythos站上考場時,數據直接爆表了:它在人類需要16個小時才能完成的極其復雜的長線任務上,輕松達到了50%的成功率!

你可能會問:那測試32小時、64小時的任務呢?

METR給出的答案讓人驚恐:「我們測不了了!


在METR精心構建的228個魔鬼級測試任務中,只有區區5個任務是被歸類為「16小時及以上」的。這意味著什么?

這意味著人類現有的、引以為傲的難題庫,已經被AI徹底掏空了。

就像用刻度只有1米的卷尺去量一棟摩天大樓,除了知道它「爆表」了,我們對其真實的深度一無所知。

「外星文明」已降臨?

在16小時以上的區間,METR根本沒有足夠的樣本來對Mythos進行準確的定量比較。

METR坦言,在這個閾值之上,數據的測算變得「不穩定且失去意義」。

這是人類歷史上極為罕見的一幕:創造者失去了丈量被創造物能力的工具。

當「考官」已經出不出題的時候,「考生」的真實實力到底有多恐怖?

這不僅僅是一次常規的AI模型迭代,而是一次「超指數級」的物種變異。舊的法則正在崩塌,AI已成外星文明降臨!


AI從業者、硅谷著名觀察家Chase Brower直言,AI發展遠超行業預期:根據SemiAnalysis的數據,AI行業的年化營收已經遠超此前對2026年第二季度約260億美元的預測。


當前的AI技術已如「清晰可見的外星飛船」一樣懸浮在人類文明的天空中。

人類已經無法理解AI的超指數增長!


這不再是實驗室里的數據,標志著AGI的征兆已經完全顯現!

超指數,比指數增長還快

把METR那張趨勢圖拉出來細看。

縱軸是AI能自主完成的編碼任務時長,從8秒到5年,對數刻度。橫軸是模型發布時間,2021到2028。每一個點是一個模型版本。

把點連起來,畫出來的不是一條直線,不是一條指數曲線,而是一條比指數還陡的弧


AI在超指數增長,AI增速本身在加速。

  • 2021年,最好的模型能自主完成8秒級別的任務——寫一行代碼,修一個拼寫錯誤。

  • 2023年初,推到了1分鐘量級——一個小函數、一段簡單調試。

  • 2024年中,沖到了大約1小時——一個完整feature的實現、一次多文件重構。

  • 2025年4月,Mythos Preview落點:16小時——一個完整的工程子項目,讀代碼、理解架構、制定方案、編寫實現、調試測試,一氣呵成,不需要人類盯著。

每一代的躍升幅度都比上一代更大。間隔時間都比上一代更短。


本圖由AI生成

人類的演化是為了讓我們在草原上計算果實和獵物的距離,大腦天生是線性的。

我們好不容易理解了「指數增長」,現在卻被迫面對指數之上的指數。

猿類的大腦面對超指數,直接集體宕機。


本圖由AI生成

METR在圖上畫了幾條參考線。

其中一條是「AI 2027情景」的中央軌跡——基于多家機構聯合預測,假設AI能力按目前最主流的預期持續增長,大約在2027年前后觸達通用人工智能門檻。

Mythos的數據點落在這條線的上方。


不是偏了一點。是在時間軸還沒走到2027的位置上,能力值已經超過了2027的預測值。

AI基礎設施從業者Chase Brower看完METR報告后在推特上判斷:那個預計在2026年初出現的"Agent-1"描述,其實有點低估了當前最好模型的能力。整個行業對AI發展速度的預估都偏保守了。


這里有個細節容易被忽略。

METR的縱軸不是跑分,不是準確率,不是某個benchmark上的百分比。那條曲線目前沒有任何減速的跡象。

安全圈原子彈時刻

從「助手」到「自主攻擊者」

如果說METR的煩惱還是學術性的,那么Palo Alto Networks的預警則是帶血的實戰報告。


近期,Palo Alto獲得了Mythos、GPT-5.5-Cyber等前沿模型的早期無限制訪問權限。

測試結論讓所有防御者脊背發涼:AI已經跨過了那道名為自主的門檻。

當模型能自主工作16小時的時候,它在安全領域能干什么?

時間坍縮:3周=1年

Palo Alto的報告中有一個令人震撼的數據:使用Mythos輔助進行漏洞分析,僅僅3周時間,其完成的工作深度和覆蓋廣度,等同于一整個頂級滲透測試團隊整整1年的工作量。


鏈接:https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/

這直接是降維打擊。


本圖由AI生成

以往的AI只能幫你寫個腳本、搜個代碼片段。但Mythos展現出了一種近乎恐怖的「軟件漏洞直覺」。


它能識別出上萬行代碼中那些零散、低危的小漏洞。

更要命的是,它能像頂級黑客一樣,將這些原本不起眼的漏洞串聯成一條致命的攻擊鏈。

從初步入侵到數據拖庫,在AI輔助下,整個過程被壓縮到了25分鐘。

而在過去,這種級別的攻擊可能需要一個團隊潛伏數周才能完成。


本圖由AI生成

在奇點撞向我們之前,

如何自救?

Anthropic曾因為覺得Claude Mythos「太危險」而拒絕全面發布,一度被嘲諷為PR手段。但現在看來,這更像是一種對未知的敬畏。

Mozilla已經開始行動,他們利用Mythos掃描Firefox瀏覽器,僅在2026年4月一個月內就修復了破紀錄的423個安全問題。


這說明,AI也是最強的盾,但前提是你要比攻擊者跑得更快。

我們必須接受一個殘酷的現實:舊時代的防御節奏已經徹底失效。

檢測響應時間不能再以「小時」計,必須縮短到「分鐘」甚至「秒」;安全不再是人的審計,而是「用AI對抗AI」的自動化博弈。

與此同時,資本側也已經allin。

在過去5個月里,英偉達向自己的客戶注資約400億美金:

300億給OpenAI,20億給算力商CoreWeave,32億給光纖商康寧……


本圖由AI生成、數據來源于網絡由AI收集

這些錢轉了一圈,最后全部變成了英偉達芯片的訂單。

顯然,黃仁勛正在用錢投票,強行拉拽全產業鏈加速撞向奇點。

但這套永動機最可怕的地方在于,它在奇點墜落前根本無法停下。

Chase Brower指出,Anthropic的年化收入已經遠高于此前260億美元的預測線。資本市場已經在用腳投票——錢在押注那條曲線不會拐彎。

2027年,按照METR趨勢圖上那條中央軌跡線,是多家機構聯合預測的AGI門檻年份。Mythos已經跑在這條線的上方。

如果接下來18個月不出現根本性的技術斷崖——不是減速,不是瓶頸,而是物理定律級別的硬墻——那么2027不再是一個需要辯論的預測。


本圖由AI生成

它是一個需要準備的倒計時。

AGI的奇點不再是預測,而是正在發生的沖擊。外星文明已經來臨,我們能做什么?

參考資料:

https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/

https://metr.org/time-horizons/

https://x.com/ChaseBrowe32432/status/2053159533862908019

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
退休并非“安全著陸”深耕黃島數十載,一級巡視員佟海燕落馬始末

退休并非“安全著陸”深耕黃島數十載,一級巡視員佟海燕落馬始末

飛鶴傳媒
2026-05-11 11:54:01
Shams:勇士目標是引入一名高水平明星球員與庫里搭檔

Shams:勇士目標是引入一名高水平明星球員與庫里搭檔

懂球帝
2026-05-11 14:17:20
俄羅斯在敘利亞重建海軍基地,烏克蘭取消打擊紅場閱兵背后玄機

俄羅斯在敘利亞重建海軍基地,烏克蘭取消打擊紅場閱兵背后玄機

史政先鋒
2026-05-09 10:50:10
老人不死,子孫遭罪?如果家有八九十歲雙親還在,要牢記這兩條準則

老人不死,子孫遭罪?如果家有八九十歲雙親還在,要牢記這兩條準則

心理觀察局
2026-05-05 09:24:14
A股停牌提示:24股今日停牌

A股停牌提示:24股今日停牌

每日經濟新聞
2026-05-11 09:08:10
廣東男籃啟程前往北京!杜鋒帶上21歲小將,宏遠老板開出巨額獎金

廣東男籃啟程前往北京!杜鋒帶上21歲小將,宏遠老板開出巨額獎金

國籃會自強
2026-05-11 09:29:47
笑麻了,原來真實的鄉鎮公務員是這樣的!網友:疑是被編制做局了

笑麻了,原來真實的鄉鎮公務員是這樣的!網友:疑是被編制做局了

另子維愛讀史
2026-05-10 10:55:25
歌手黃霄云演出后兩次暈倒確診耳石癥!連夜趕路連唱9首,工作室強制停工

歌手黃霄云演出后兩次暈倒確診耳石癥!連夜趕路連唱9首,工作室強制停工

TVB的四小花
2026-05-11 13:59:18
國家免費電視已開通!不用繳費,動手調好就能看

國家免費電視已開通!不用繳費,動手調好就能看

小柱解說游戲
2026-05-08 16:59:21
廳級干部已經成為了高危職業

廳級干部已經成為了高危職業

風向觀察
2026-05-04 14:17:07
王勵勤總結世乒賽,暗示樊振東歸隊可能性,確立莎頭為絕對核心!

王勵勤總結世乒賽,暗示樊振東歸隊可能性,確立莎頭為絕對核心!

金風說
2026-05-11 14:58:04
“白菜價”大甩賣!當年賣到20萬,如今新車僅售6.88萬,可惜無人識貨

“白菜價”大甩賣!當年賣到20萬,如今新車僅售6.88萬,可惜無人識貨

隔壁說車老王
2026-05-11 09:46:33
朝鮮姑娘懷孕,查明是志愿軍營長所為,彭總得知后批示8個字

朝鮮姑娘懷孕,查明是志愿軍營長所為,彭總得知后批示8個字

元哥說歷史
2026-04-26 11:40:03
反超龍蝦!HermesAgent登頂全球,小米MiMo成第一貢獻模型

反超龍蝦!HermesAgent登頂全球,小米MiMo成第一貢獻模型

魏家東
2026-05-10 14:41:40
終于確認,特朗普將登上訪華專機,英媒斷言:美國的時代已經結束

終于確認,特朗普將登上訪華專機,英媒斷言:美國的時代已經結束

南宗歷史
2026-05-11 15:28:16
一個被窩睡不出兩種人,離婚又復婚的梁靖崑,如今過的怎樣?

一個被窩睡不出兩種人,離婚又復婚的梁靖崑,如今過的怎樣?

錯過美好
2026-03-01 03:01:04
游戲中的中國背景永遠都是臟亂差,“不隨地吐痰”顯得格外刺眼

游戲中的中國背景永遠都是臟亂差,“不隨地吐痰”顯得格外刺眼

街機時代
2026-05-06 15:00:03
狀元榜眼簽都不是非賣品!奇才爵士愿向下交易 迪班薩自信前2順位

狀元榜眼簽都不是非賣品!奇才爵士愿向下交易 迪班薩自信前2順位

羅說NBA
2026-05-11 11:18:42
蘇提達王后成為下一個詩麗吉,被王室海報盛贊美,泰王也實力寵妻

蘇提達王后成為下一個詩麗吉,被王室海報盛贊美,泰王也實力寵妻

八八尚語
2026-05-10 14:10:05
史詩級崩盤!財務造假+雙重戴帽5天暴跌57%,十幾萬股東淚奔!

史詩級崩盤!財務造假+雙重戴帽5天暴跌57%,十幾萬股東淚奔!

股市皆大事
2026-05-11 10:18:10
2026-05-11 16:28:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15183文章數 66862關注度
往期回顧 全部

科技要聞

黃仁勛:你們趕上了一代人一次的大機會

頭條要聞

媒體:中美元首即將北京會晤 美方一細節耐人尋味

頭條要聞

媒體:中美元首即將北京會晤 美方一細節耐人尋味

體育要聞

那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

娛樂要聞

“孕婦墜崖案”王暖暖稱被霸凌協商解約

財經要聞

"手搓汽車"曝光:偽造證件、電池以舊代新

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

手機
時尚
教育
健康
家居

手機要聞

華為Mate 80系列賣爆:銷量逼近600萬大關 史上最火Mate實至名歸

襯衫四季都能穿!簡約大方適合日常穿搭,配褲子、裙子都好看

教育要聞

雞娃放養,都不如養個“晨型人格”的孩子,他會自信又自律

干細胞能讓人“返老還童”嗎

家居要聞

多元生活 此處無聲

無障礙瀏覽 進入關懷版