无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

13人初創(chuàng)公司,要顛覆Transformer了!

0
分享至


來源:新智元

【導(dǎo)讀】Transformer統(tǒng)治地位懸了!一款SubQ模型帶著SAA架構(gòu)橫空出世,1200萬上下文成本僅Opus的5%,計(jì)算量暴減千倍。

Transformer,王座不保?!

今天,一款A(yù)I模型SubQ橫空出世,震撼了全世界。

這是全球首個(gè)基于完全亞二次方稀疏注意力架構(gòu)(SSA)的模型,上下文高達(dá)1200萬Token。


SubQ的核心優(yōu)勢在于,其SSA架構(gòu)會(huì)根據(jù)內(nèi)容「動(dòng)態(tài)選擇」關(guān)注點(diǎn),不會(huì)盲目計(jì)算所有Token間的關(guān)聯(lián)。

相較于Transformer,它的計(jì)算量直接暴減1000倍。

實(shí)驗(yàn)結(jié)果顯示,100萬token上下文,SubQ要比FlashAttention快52倍,成本不到Claude Opus的5%。


而打造出這款架構(gòu)的背后這家公司,叫Subquadratic,坐標(biāo)邁阿密,全公司僅13人。

AI大佬Bindu Reddy辣評道,「若這一切都是真的,Anthropic和OpenAI的估值直接歸0」!


還有人表示,這才是LLM接下來真正Scaling的方式。


Transformer「原罪」,九年未解

2017年,谷歌那篇「Attention is All You Need」奠定了Transformer架構(gòu)的統(tǒng)治地位。

此后九年,從GPT到Claude到Gemini,所有前沿大模型都建立在同一個(gè)基礎(chǔ)上:密集注意力機(jī)制。


長期以來,Transformer的工作方式非常暴力,即每個(gè)token都要和序列中所有其他token做一次比較。

這種機(jī)制讓它深陷「二次方復(fù)雜度」的泥潭,上下文每增加一倍,計(jì)算成本飆升四倍。

這意味著,輸入越長,模型越貴、越慢、越容易崩。

這就解釋了幾乎所有LLM的上下文卡在100萬token左右,不是技術(shù)做不到更長,是做到了也用不起。

這一次,SubQ的誕生,從根本上改變了這個(gè)等式。


SSA架構(gòu)出世

不要「更快」只要「更少」

SubQ的核心突破叫做SSA——亞二次方稀疏注意力(Subquadratic Sparse Attention)。

它的思路出奇地簡單,不再讓每個(gè)token和所有token做比較。

既然訓(xùn)練好的模型中,絕大多數(shù)注意力權(quán)重都接近零0,那為什么還要算它們?

SSA的做法是,對每一個(gè)query,基于「內(nèi)容」選擇序列中真正值得關(guān)注的位置,然后只在這些位置上精確計(jì)算注意力。

它只計(jì)算那些真正有意義的交互,跳過其余99%以上的無用計(jì)算。


以下是SSA的三大關(guān)鍵特性——

  • 線性擴(kuò)展

計(jì)算量隨選中的位置數(shù)量增長,而不是隨整個(gè)序列長度增長。上下文翻倍,成本只翻倍,不再是翻四倍。

  • 內(nèi)容依賴路由

模型根據(jù)語義決定看哪里,而不是根據(jù)位置。關(guān)鍵信息在序列第3個(gè)token還是第1100萬個(gè)token,都能被找到。

  • 精確檢索

不像循環(huán)模型那樣把信息壓縮成固定狀態(tài),SSA保留了從任意位置精確取回信息的能力。

說白了,SSA不是「把密集注意力算得更快」,而是「讓模型做更少的注意力計(jì)算」。


減少的計(jì)算量,直接轉(zhuǎn)化為速度。

速度狂飆52.5倍,成本不到Opus 5%

SubQ放出的數(shù)據(jù),每一條都在暴擊:

在100萬token長度上,SSA比標(biāo)準(zhǔn)密集注意力+FlashAttention-2快52.2倍。


在12.8萬token上快7.2倍,25.6萬token快13.2倍,51.2萬token快23倍。

顯而易見,上下文越長,優(yōu)勢越碾壓。

這正是SSA線性擴(kuò)展的直接體現(xiàn)——密集注意力越長越慢,SSA越長越劃算。


再來看算力消耗,在100萬token下,注意力FLOP減少了62.5倍。在1200萬token下,這個(gè)數(shù)字飆升到接近1000倍。


至于成本,Subquadratic給了一個(gè)非常直觀的對比——

在RULER 128K基準(zhǔn)測試上,SubQ花費(fèi)8美元,Opus為2600美元,直接拉出了300倍的成本差距。

最關(guān)鍵的是,這些速度和成本優(yōu)勢,并沒有以犧牲準(zhǔn)確率為代價(jià)。

RULER 128K基準(zhǔn)測試: SubQ拿下95%,Opus 4.6是94.8%;


SWE-Bench Verified(代碼工程): SubQ得分81.8,超過Opus 4.6的80.8。

MRCR v2(長上下文檢索): SubQ拿到65.9%,雖然低于Opus 4.6的78%,但遠(yuǎn)超GPT 5.4(39%)和Gemini 3.1 Pro(23%)。


這組數(shù)字放在一起看,細(xì)思極恐——

一家種子輪公司,用不到Opus 5%的成本,在多項(xiàng)核心基準(zhǔn)測試上打平甚至超過了Anthropic和OpenAI的旗艦?zāi)P汀?/p>


一個(gè)提示詞,SubQ即可處理1200萬Token的超長信息:

無論是整個(gè)代碼庫、數(shù)月的 PR 記錄,還是長期運(yùn)行的 AI 智能體狀態(tài),全都游刃有余,而且成本僅需原來的五分之一。


不得不說,若這一切成真,這將是Transformer問世以來最重要的架構(gòu)級突破。

13人初創(chuàng)公司,要顛覆Transformer

Subquadratic成立于2024年,拿下2900萬美元種子輪,估值5億美元。

它有兩位聯(lián)合創(chuàng)始人:CEO Justin Dangel,CTO Alexander Whedon。


研究團(tuán)隊(duì)11人,全部是博士,來自Meta、谷歌、牛津大學(xué)、劍橋大學(xué)、Adobe。

值得一提的是,這家公司之前叫Aldea,做的是語音模型,后來轉(zhuǎn)型到了注意力架構(gòu)研究。

這一次,產(chǎn)品線三條同時(shí)上線:

  • SubQ API:12M token全量上下文接口

  • SubQ Code:命令行編碼Agent,整個(gè)代碼庫一次性塞進(jìn)去

  • SubQ Search:深度研究工具,初期免費(fèi)

全網(wǎng)炸鍋:是終結(jié)者,還是AI版Theranos?

SubQ發(fā)布后數(shù)小時(shí)內(nèi),AI社區(qū)就分裂成了兩個(gè)陣營。

AI大佬Dan McAteer一句話,概括了所有人的心態(tài):

SubQ要么是Transformer以來最大的突破……

要么就是AI界的Theranos。


支持者一方陣容不小。

有人表示,這是2026年最瘋狂的AI發(fā)布之一。

Subquadratic可能找到了奧特曼所言的另一個(gè)架構(gòu)的重大突破。




但懷疑派也毫不留情,有人直言這就是一個(gè)「騙子公司」,尤其是看完創(chuàng)始人領(lǐng)英介紹后。



OpenAI前研究員Will Depue更是連發(fā)多條,第一時(shí)間指出,「SubQ幾乎可以確定是基于Kimi或DeepSeek的稀疏注意力微調(diào)」。




AI圈見過太多「發(fā)布即巔峰」的故事,發(fā)布會(huì)上的PPT和真實(shí)世界的部署之間,隔著一整條死亡谷。

但話說回來,也正因?yàn)檫@個(gè)賭注太大,整個(gè)行業(yè)才不敢不認(rèn)真對待。

答案,也許只有等技術(shù)報(bào)告公開、獨(dú)立benchmark復(fù)現(xiàn)之后,才會(huì)真正揭曉。

參考資料:

https://x.com/alex_whedon/status/2051663268704636937?s=20

https://subq.ai/how-ssa-makes-long-context-practical

https://x.com/daniel_mac8/status/2051710659822305661?s=20

為偉大思想而生!

AI+時(shí)代,互聯(lián)網(wǎng)思想(wanging0123),

第一必讀自媒體

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
C羅常年體脂率7%,梅西8%!他們的身材,都是怎么保持的?

C羅常年體脂率7%,梅西8%!他們的身材,都是怎么保持的?

馬拉松跑步健身
2026-06-17 21:17:32
美伊談判,大消息!特朗普最新表態(tài)!國際油價(jià)拉升!美股突變,芯片股下挫!

美伊談判,大消息!特朗普最新表態(tài)!國際油價(jià)拉升!美股突變,芯片股下挫!

證券時(shí)報(bào)e公司
2026-06-17 07:47:00
2026 河北清北保送完整名單曝光!競賽路大幅收緊這條路還值得走嗎

2026 河北清北保送完整名單曝光!競賽路大幅收緊這條路還值得走嗎

一口娛樂
2026-06-18 02:27:13
吳清最新發(fā)聲:將嚴(yán)查借科技之名炒概念行為,A股多項(xiàng)新政即將發(fā)布

吳清最新發(fā)聲:將嚴(yán)查借科技之名炒概念行為,A股多項(xiàng)新政即將發(fā)布

東方豪俠
2026-06-17 18:29:26
東山精密:目前光芯片業(yè)務(wù)相關(guān)利潤水平符合預(yù)期 盈利空間會(huì)進(jìn)一步提升

東山精密:目前光芯片業(yè)務(wù)相關(guān)利潤水平符合預(yù)期 盈利空間會(huì)進(jìn)一步提升

每日經(jīng)濟(jì)新聞
2026-06-17 21:37:18
我給省長當(dāng)秘書對外只說會(huì)開車,和老婆去同學(xué)聚會(huì),被嫌棄寒酸

我給省長當(dāng)秘書對外只說會(huì)開車,和老婆去同學(xué)聚會(huì),被嫌棄寒酸

曉悅流年
2026-06-16 17:47:41
“蘇超”出圈 江蘇分管文體副省長陳忠偉“入常”

“蘇超”出圈 江蘇分管文體副省長陳忠偉“入常”

新浪財(cái)經(jīng)
2026-06-17 22:31:11
籃網(wǎng)獲2026NBA選秀6號簽

籃網(wǎng)獲2026NBA選秀6號簽

體壇周報(bào)
2026-06-17 22:45:24
死亡率降13%,超時(shí)無效!哈佛大學(xué):力量訓(xùn)練每周90-119分鐘最佳

死亡率降13%,超時(shí)無效!哈佛大學(xué):力量訓(xùn)練每周90-119分鐘最佳

時(shí)光派長壽觀察
2026-06-17 18:15:07
無解的陽謀!菲律賓傻眼,美國做夢也不敢想,黃巖島中國會(huì)這樣干

無解的陽謀!菲律賓傻眼,美國做夢也不敢想,黃巖島中國會(huì)這樣干

阿訊說天下
2026-06-18 03:07:50
突發(fā)心梗,浙江一公交車司機(jī)在昏迷43秒后掙扎醒來,踩下生命中最后一腳……

突發(fā)心梗,浙江一公交車司機(jī)在昏迷43秒后掙扎醒來,踩下生命中最后一腳……

都市快報(bào)橙柿互動(dòng)
2026-06-18 00:30:51
董路回應(yīng)與孫臣曦一家已經(jīng)斷絕來往,才懂"幫得越多,恨得越深"

董路回應(yīng)與孫臣曦一家已經(jīng)斷絕來往,才懂"幫得越多,恨得越深"

觀星娛記
2026-06-17 11:45:12
日本天皇發(fā)出警告,接班人已浮現(xiàn),對華態(tài)度不簡單

日本天皇發(fā)出警告,接班人已浮現(xiàn),對華態(tài)度不簡單

怪味歷史連連看
2026-06-16 21:43:17
月跑300公里查出癌癥!南京跑友大璐璐,熬夜加5點(diǎn)晨跑警示所有人

月跑300公里查出癌癥!南京跑友大璐璐,熬夜加5點(diǎn)晨跑警示所有人

星娛叨叨社
2026-06-17 14:21:21
C羅獲最低分!葡萄牙首秀被逼平大跌眼鏡:3個(gè)現(xiàn)象太反常

C羅獲最低分!葡萄牙首秀被逼平大跌眼鏡:3個(gè)現(xiàn)象太反常

邱澤云
2026-06-18 03:56:59
英格蘭王牌太冤了!踢爆英超卻無緣世界杯!圖赫爾的理由太雙標(biāo)

英格蘭王牌太冤了!踢爆英超卻無緣世界杯!圖赫爾的理由太雙標(biāo)

瀾歸序
2026-06-17 07:52:20
白嫖女化妝師底褲被扒光!家住高端小區(qū)愛健身,4年薅羊毛近百萬

白嫖女化妝師底褲被扒光!家住高端小區(qū)愛健身,4年薅羊毛近百萬

普陀動(dòng)物世界
2026-06-17 16:53:07
雷軍又被網(wǎng)暴!攝像頭前吃早餐,被罵模仿黃仁勛,網(wǎng)友不給面子

雷軍又被網(wǎng)暴!攝像頭前吃早餐,被罵模仿黃仁勛,網(wǎng)友不給面子

譚談社會(huì)
2026-06-16 18:10:12
1-2大冷門,世界第7遭世界第142掀翻,高芙止步柏林站16強(qiáng)

1-2大冷門,世界第7遭世界第142掀翻,高芙止步柏林站16強(qiáng)

凌空倒鉤
2026-06-18 03:45:13
美聯(lián)儲(chǔ)“鷹”聲四起 美股三大股指跳水收跌

美聯(lián)儲(chǔ)“鷹”聲四起 美股三大股指跳水收跌

中新經(jīng)緯
2026-06-18 05:01:46
2026-06-18 06:31:00
互聯(lián)網(wǎng)思想 incentive-icons
互聯(lián)網(wǎng)思想
AI時(shí)代,互聯(lián)網(wǎng)思想觀察
2508文章數(shù) 16918關(guān)注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊(duì)史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊(duì)史世界杯首分

體育要聞

梅西帽子戲法:紀(jì)錄厚重,球王輕盈

娛樂要聞

陳紅一反常態(tài)保持沉默

財(cái)經(jīng)要聞

拉加德警告:AI可能引爆下一場金融危機(jī)

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態(tài)度原創(chuàng)

健康
數(shù)碼
藝術(shù)
教育
公開課

營養(yǎng)師:粽子怎么吃美味又健康?

數(shù)碼要聞

GuliKit推出Switch 2便攜底座 可連電視亦可桌面充電 售價(jià)29.99美元

藝術(shù)要聞

235米!曼谷地標(biāo)“金字塔”動(dòng)工,BIG操刀

教育要聞

認(rèn)知天性|一本改變你人生的書

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版