網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

號稱1200萬token上下文的模型來了，數據亮眼但疑點重重

2026-05-06 21:04:23　來源: DeepTech深科技

北京舉報

0

分享至

當地時間 5 月 5 日，邁阿密一家名為 Subquadratic 的公司走出隱身模式。CTO Alexander Whedon 在 X 上把首款模型 SubQ 稱作“a major breakthrough in LLM intelligence”（LLM 智能領域的重大突破），聲稱這是首個完全基于次平方稀疏注意力（Subquadratic Sparse Attention，SSA）架構的前沿模型，1,200 萬 token 上下文，1M token 場景下比 FlashAttention 快 52 倍，成本不到 Claude Opus 的 5％。同日宣布完成 2,900 萬美元種子輪，估值 5 億美元。

融資由 Tinder 聯合創始人 Justin Mateen 旗下 JAM Fund 與前軟銀愿景基金合伙人 Javier Villamizar 領投，參投方包括 Anthropic、OpenAI、Stripe、Brex 的早期投資人。CEO Justin Dangel 是連續創業者，履歷集中在健康科技、保險科技和消費品。

CTO Alex Whedon 此前在 Meta 擔任軟件工程師，之后在咨詢公司 TribeAI 出任 Head of Generative AI。官網稱團隊還有 11 名來自 Meta、Google、牛津、劍橋、字節跳動、Adobe的 PhD，姓名未公開。

圖丨相關推文（來源：X）

按官方文檔，SubQ 要解決的是 Transformer 最根深蒂固的那道天花板：注意力機制的算力消耗隨上下文長度呈平方級增長，序列翻一倍，算力翻四倍。

Subquadratic 把這種 dense attention 視作根本性的成本瓶頸，自家方案命名為 SSA。其核心機制按報告原文是 content－dependent selection，對每個 query，模型選出“值得 attend 的位置”，只對那些位置做精確的 attention 計算。博文同時把 SSA 總結為三項獨有優勢：在計算和內存上都是線性擴展、內容相關的路由、可以從任意位置稀疏檢索。

圖丨注意力計算量（來源：Subquadratic）

據官方披露，在 B200 GPU 上對比 FlashAttention－2，128K token 時 SubQ 快 7.2 倍，256K 時 13.2 倍，512K 時 23 倍，到 1M token 時拉到 52.2 倍。按官方推算，序列長到 12M token 時，注意力計算量比標準 dense attention 減少近 1,000 倍。

Benchmark 也直接對位主流前沿模型。RULER 128K 長上下文測試上 SubQ 拿到 95.0％，與 Claude Opus 4.6 的 94.8％幾乎打平。SWE－Bench Verified 上 81.8％，超過 Opus 4.6 的 80.8％和 Gemini 3.1 Pro 的 80.6％。

在考察長上下文多源證據檢索整合能力、也是最關鍵的 MRCR v2 上，SubQ 同時報了兩個分數，研究版 83，第三方驗證的生產版 65.9。同項目下 Claude Opus 4.7 是 32.2，Gemini 3.1 Pro 26.3，GPT 5.5 74.0。

如此逆天的數據自然引發了大量關注，質疑也隨之而來。

前 OpenAI Sora 團隊成員、AI 工程師 Will Depue 第一時間發出質疑：SubQ 幾乎可以肯定是對 Kimi 或 DeepSeek 稀疏注意力（sparse attention）的微調。Whedon 幾個小時后的帖子部分證實了這一推測，公司確實將開源模型的權重作為起點，“這是基于我們目前的資金規模和公司發展階段做出的選擇”。

圖丨相關推文（來源：X）

但回看此前的相關研究，Kimi Linear 實際是混合結構，3/4 的層用線性注意力，剩下 1/4 仍然用平方復雜度的 MLA，Kimi 自己在論文里就承認純線性版本 “在精確記憶檢索和精確復制上仍然吃力”，所以沒有用在所有層。

DeepSeek Sparse Attention 內部負責篩選 token 的 lightning indexer 自身仍是 O（n2），只是常數因子比 MLA 小一個數量級，復雜度被搬了位置而已。Mamba 和 RWKV 在 FLOP 層面確實做到了線性，但在前沿規模下游任務上跑不過標準注意力，至今沒有任何前沿 LLM 單獨使用它們。

如果 SubQ 把權重起點放在這些已經被業界明確畫出復雜度邊界的方案上，又是怎么在它們的基礎上做出“減少 1,000 倍計算量”這種數量級躍升的？

清華大學交叉信息研究院博士游嘉誠也在 X 上提到，Subquadratic 所宣稱的計算和內存上都是線性擴展這個特性實際上并不是 SSA 獨有。dense attention 配合 FlashAttention 早已做到線性內存，這是業界幾年前就普及的標配，SubQ 卻依然把它單列為 SSA 三大獨有優勢之一來宣傳。

按照官方博文的說法，SSA 的核心不是對 attention 做近似，而是不再假設每一對 token 都可能重要，把計算只限制在真正承載信號的位置上，跳過其余。

那么問題來了，模型如何在跑 attention 之前知道哪些位置承載信號？這本身是個循環：要判斷某個 token 沒有信號，就必須先把它和當前 query 比較一次，而比較本身的代價正是 quadratic 的全部來源。

Will Depue 用 phonebook eval 解釋了這件事。phonebook 是衡量長上下文檢索能力的一種基準，給模型一份 10 萬人的電話簿，再問其中某個特定姓名的電話。模型不知道未來會被問到哪個姓名，理論上必須保留所有姓名在 context 里。任何 “提前丟棄信息” 的策略，在這個 eval 上都會失分。

博文里沒有解釋 SSA 的 selection 機制如何解決這個循環。一種可能是 SSA 內部有一個輕量 indexer 做評分（類似 DSA），但 selector 自身仍是 O（n2），復雜度只是被搬了位置。另一種可能是 selector 使用某種 learned gating，從訓練數據中學到哪些位置值得保留，但這種方案在 phonebook 這類 “信息位置完全不可預測” 的任務上幾乎注定失敗。

報告稱，訓練數據特意選用“信息密度高、交叉引用結構豐富的長文本”，因為這類數據“會迫使 selection 機制學會跨越大跨度位置做路由”。這相當于承認 selection 機制是被訓練出來的，而不是從 attention 矩陣動態推導出來的。一旦 selection 是 learned gating，長上下文檢索的可靠性就被鎖死在訓練數據的分布里：訓練數據里見過的位置和模式，模型能找到；分布之外的，比如 phonebook 這種全然隨機的查詢，模型只能賭。

官方公布的 benchmark 同樣疑點重重。最大賣點 12M token 并沒有完整 benchmark，所有 RULER、MRCR v2、SWE－Bench 的成績都來自 1M－Preview 版本，“12M token 上的研究結果” 對應的只是一個 92.1％的 needle－in－a－haystack 分數，而這是長上下文測試里最簡單的一種，只考察模型能否在大堆 token 里找到一根特定的針，不評估多跳檢索或證據整合。

但它是不是騙局終究還無法實錘。Subquadratic 尚未公布詳細模型卡，目前只能通過申請小范圍內測來試用，獨立基準測試結果也還沒有出來。

不過說起來，類似的劇本兩年前剛上演過一次。

2024 年 8 月，舊金山公司 Magic.dev 發布 LTM－2－mini，宣稱 1 億 token 上下文窗口、相對標準注意力 1,000 倍效率優勢，憑這一發布累計融資超過 5 億美元。到 2026 年初，沒有任何 Magic 之外的開發者或企業公開使用 LTM－2－mini 的記錄，技術報告沒出，模型沒開源，benchmark 也沒有第三方復現。

SubQ 的發布材料和 Magic 當年高度同構，同樣的 1,000 倍效率，同樣 “打破 Transformer 平方律” 的敘事，同樣不開源，同樣把完整技術細節推遲到 “完整模型卡片即將公布”。差別是 SubQ 這次一上來就奔著商業化產品去（API、CLI agent、搜索），而 Magic 當年還停留在研究 demo 階段。

因此，它的成色究竟如何，或許能比 Magic.dev 更快見分曉。

參考資料：

1.https://subq.ai/introducing-subq

2.https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof

3.https://x.com/willdepue/status/2051734355509235734

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI甩出GPT-5.5 Instant！幻覺暴降52%，話少三成，全員免費

智東西 2026-05-06 10:56:22
0 跟貼 0
5年1.3萬億！Anthropic要買爆谷歌云算力

智東西 2026-05-06 18:41:35
1 跟貼 1

Claude徹底起飛！狂攬亞馬遜5GW算力+250億刀，貝索斯賺麻了

新智元 2026-05-06 12:35:45
0 跟貼 0

TRAE SOLO移動端上線！手機、電腦、網頁三端互聯，Agent“口袋時代”已來

智東西 2026-05-06 20:16:40
0 跟貼 0
13人干翻Transformer！新架構SSA算力暴減千倍，成本僅Opus 5%

新智元 2026-05-06 19:25:25
2 跟貼 2

領先于Transformer！首個1200萬上下文模型SubQ，成本僅Opus的5%

機器之心Pro 2026-05-06 17:06:11
0 跟貼 0

媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

國是直通車 2026-05-05 23:12:13
18227 跟貼 18227
RouteMoA：無需預推理的動態路由，實現高效多智能體混合

機器之心Pro 2026-05-05 15:04:19
0 跟貼 0

大模型API的大眾點評來了：7×24小時實測，毫秒級延遲智能路由

量子位 2026-02-02 11:48:44
2 跟貼 2
三角洲部隊內部組織架構！

浩然簡史 2026-05-04 19:53:21
0 跟貼 0
徐澤偉被捕疑點重重，產后妻子遠行太過反常

愛學習的小陸 2026-05-06 03:09:56
0 跟貼 0
豆包的“付費墻”：AI行業斬殺線逼近

鈦媒體APP 2026-05-06 14:50:17
4 跟貼 4
公里級場景也能穩住了，國產團隊把長視頻3D重建又往前推了一步

機器之心Pro 2026-05-06 17:18:14
0 跟貼 0
刷榜AI全掛了！Meta斯坦福地獄級測試，GPT/Claude/Gemini交出0分

新智元 2026-05-06 19:24:45
0 跟貼 0
Anthropic讓AI先讀員工手冊再上崗：失控率從54%降到7%

新智元 2026-05-06 17:14:13
0 跟貼 0
清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
1 跟貼 1
AI記住失敗經驗：微軟提出Re-TRAC框架，4B性能SOTA，30B超越358B

機器之心Pro 2026-02-25 17:33:51
0 跟貼 0
景區裝電梯無痛爬山被質疑過度開發

極目新聞 2026-05-02 17:18:12
4162 跟貼 4162
影子調查｜不“標準”的高標準農田，正在整治

澎湃新聞 2026-05-06 12:34:33
404 跟貼 404
CMU開源首份Agentic Search日志數據，把Agent拆開給你看

機器之心Pro 2026-02-09 12:05:13
0 跟貼 0
30B參數超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

機器之心Pro 2026-03-09 13:28:51
0 跟貼 0
Anthropic新研究！模型失控率降至7%，對齊數據訓練量僅需1/60

智東西 2026-05-06 19:33:24
0 跟貼 0
算不平的AI賬：字節收網，阿里騰訊百度還在站崗

鈦媒體APP 2026-05-06 15:00:13
10 跟貼 10
36年卷積猜想被解決，華人唯一作者，AI或受益

機器之心Pro 2025-11-26 14:30:39
1 跟貼 1
DeepSeek V4 發布后遇冷，開發者只聊Codex：便宜不是萬能藥

雷科技 2026-05-06 21:25:43
0 跟貼 0
阿里開源：用凍結多模態大模型為文生圖訓練提供高質量Reward

機器之心Pro 2026-05-06 16:50:57
0 跟貼 0
周星馳發文祝賀吳宜澤奪冠

南方都市報 2026-05-06 07:27:10
1235 跟貼 1235
20年等一回！這支不華麗的阿森納，卻最接近歐冠大耳杯

澎湃新聞 2026-05-06 10:56:28
272 跟貼 272
一個韓國中學生如何教會我壓縮提示詞

碳基打工人 2026-05-06 11:10:29
0 跟貼 0
凌晨2點半開門，廣東一排骨飯大排長龍！局長帶人現場刮姜洗碗

南方都市報 2026-05-06 08:58:57
367 跟貼 367
海光信息市值突破8000億元，國產CPU長線投資人再迎高光時刻

每日經濟新聞 2026-05-06 21:20:17
0 跟貼 0
空腹抽血，喝水算不算破壞？很多人意外！檢驗科醫生權威解答

環球網資訊 2026-05-06 13:46:09
3 跟貼 3
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
男子購百萬保險被邀免費游老撾花數十萬買"熊膽"心虛

上觀新聞 2026-05-06 13:24:13
256 跟貼 256
手機丟失7年后，安徽男子突然接到廠家的短信，通過照片和定位，手機失而復得！當事人：里面有珍貴的回憶，會收藏它

極目新聞 2026-05-06 09:31:29
1040 跟貼 1040
罵歸罵，當5毛錢能搞定萬元特效時，好萊塢還是選了中國AI

星海情報局 2026-05-06 17:58:13
1 跟貼 1
為什么BF16的FlashAttention會把訓練「炸掉」？清華給出機制解釋

機器之心Pro 2026-03-04 11:24:55
0 跟貼 0
“排隊3小時，打卡1分鐘”，多景區迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3834 跟貼 3834
胖東來創始人于東來發文：感謝您感恩您！

大象新聞 2026-05-06 10:44:01
120 跟貼 120
三響北京車展金標大眾純電矩陣

李楠說道 2026-05-03 22:52:13
0 跟貼 0

離譜他媽給離譜開門，英博半場多打一人反倒三球慘敗國安

離譜他媽給離譜開門，英博半場多打一人反倒三球慘敗國安

懂球帝

2026-05-06 21:51:36

“李大嘴終于娶了佟湘玉！”戲里戲外都是暖男，和妻子蝸居45平小屋也幸福

“李大嘴終于娶了佟湘玉！”戲里戲外都是暖男，和妻子蝸居45平小屋也幸福

二胡的歲月如歌

2026-05-06 08:33:17

軍機護航，賴清德松了口氣，鄭麗文語出驚人，解放軍或將有大動作

軍機護航，賴清德松了口氣，鄭麗文語出驚人，解放軍或將有大動作

共工之錨

2026-05-06 00:16:40

美制“戰斧”巡航導彈首次在菲律賓發射，導彈飛行逾600公里，這一距離不到該型導彈公開宣稱射程的一半

美制“戰斧”巡航導彈首次在菲律賓發射，導彈飛行逾600公里，這一距離不到該型導彈公開宣稱射程的一半

魯中晨報

2026-05-06 14:46:03

吳宜澤：我住沒窗的房間里滿臉都是痘痘！或是螨蟲感染痛苦焦慮

吳宜澤：我住沒窗的房間里滿臉都是痘痘！或是螨蟲感染痛苦焦慮

念洲

2026-05-06 12:18:07

回顧：緬北女魔頭魏榕嗜好！經�！盎顒凅H耳”，3個閨蜜喜歡觀刑

回顧：緬北女魔頭魏榕嗜好！經�！盎顒凅H耳”，3個閨蜜喜歡觀刑

飛云如水

2024-11-13 06:54:13

毛主席初定林彪當國防部長，詢問羅榮桓意見，羅帥：應由賀龍擔任

毛主席初定林彪當國防部長，詢問羅榮桓意見，羅帥：應由賀龍擔任

春秋硯

2026-05-03 06:45:10

上千噸香蕉爛在手里，菲律賓香蕉協會：中國斷了30萬蕉農的生計！

上千噸香蕉爛在手里，菲律賓香蕉協會：中國斷了30萬蕉農的生計！

素衣讀史

2026-05-06 21:12:20

FIFA被全體放鴿子，世界杯轉播權遭冷遇，因凡蒂諾這次坐不住

FIFA被全體放鴿子，世界杯轉播權遭冷遇，因凡蒂諾這次坐不住

老牧說說

2026-05-06 14:48:27

謝娜演唱會林志穎助陣，可惜他又矮又胖，皮膚黑肚子大，有點滑稽

謝娜演唱會林志穎助陣，可惜他又矮又胖，皮膚黑肚子大，有點滑稽

小娛樂悠悠

2026-05-06 07:20:02

5月6日人民幣對美元中間價調升66個基點

5月6日人民幣對美元中間價調升66個基點

證券時報

2026-05-06 09:32:05

四年戰爭帶給普京的副作用最終爆發。。。

四年戰爭帶給普京的副作用最終爆發。。。

西樓飲月

2026-05-05 22:50:03

日本便利店店員從鍋里撈關東煮狂吃，還吐回鍋里！視頻全網瘋傳，超2000萬網友憤怒圍觀！

日本便利店店員從鍋里撈關東煮狂吃，還吐回鍋里！視頻全網瘋傳，超2000萬網友憤怒圍觀！

東京新青年

2026-05-06 18:24:02

和售后斗智斗勇后，我發現80%燃氣灶故障，都可以通過兩根針解決

和售后斗智斗勇后，我發現80%燃氣灶故障，都可以通過兩根針解決

裝修秀

2026-05-05 12:00:08

“天地天”！000609，斬獲“14天11板”

“天地天”！000609，斬獲“14天11板”

大眾證券報

2026-05-06 16:24:11

WTI原油期貨價格從低點（89美元）回升至95美元/桶，跌幅收窄至7%

WTI原油期貨價格從低點（89美元）回升至95美元/桶，跌幅收窄至7%

每日經濟新聞

2026-05-06 20:26:04

48年賀子珍回國后提出一苛刻條件，毛主席大怒道：堅決不答應！

48年賀子珍回國后提出一苛刻條件，毛主席大怒道：堅決不答應！

楚風說歷史

2026-04-22 08:10:03

U17國足慘遭印尼絕殺！董路四字爆粗馬德興：堅決反對找日本教練

U17國足慘遭印尼絕殺！董路四字爆粗馬德興：堅決反對找日本教練

念洲

2026-05-06 06:38:27

000858，最新公告！五糧液集團斥資不低于30億元增持

000858，最新公告！五糧液集團斥資不低于30億元增持

證券時報e公司

2026-05-06 21:23:11

深圳地鐵公告：董事長變更

新浪財經

2026-05-06 17:32:52

DeepTech深科技

麻省理工科技評論獨家合作

16668文章數 514923關注度

往期回顧全部

科技要聞

“馬斯克不懂AI”：OpenAI當庭戳老底

頭條要聞

知情人士：伊朗將同意將鈾濃縮材料運出伊朗

頭條要聞

知情人士：伊朗將同意將鈾濃縮材料運出伊朗

體育要聞

活塞1比0騎士：坎寧安不再是一個人了

娛樂要聞

神仙友誼！楊紫連續10年為張一山慶生

財經要聞

最新GDP！全國30強城市，又變了

汽車要聞

領克10/領克10+ 無論能源形式領克都要快樂

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

親子

旅游

手機

房產要聞

遙遙領先！這個澄邁頂流紅盤，憑什么持續霸榜

藝術要聞

震撼！康斯坦丁攝影作品里的性感曲線讓人驚艷！

親子要聞

筱梅分享帶娃日常，抱小寶寶手法熟練！小寶寶嬰兒房舒適又寬敞！

旅游要聞

體驗式消費、IP聯名活動 “五一”假期消費市場持續上新

手機要聞

REDMI K90 Max首銷周表現曝光，后續新機待發布

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版