无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

中國AI性價比奇高的秘密，被一篇博客捅破了

2026-05-07 17:09:28　來源: 字母榜

北京舉報

0

分享至

五一假期后的第一個交易日，智譜和MiniMax都漲瘋了。

5月4日，智譜漲超10%，股價再次逼近千元關口，MiniMax大漲12.62%，報收803港元。

根據摩根士丹利的報告，股價暴漲的原因來自于中國AI獨有的“性價比敘事”。

摩根士丹利在報告《China‘s AI Path: More Bang For The Buck》中表示，在算力受到約束的前提下，中美頂尖模型的智能水平正在快速接近，差距已經收窄到3到6個月。

同時報告指出，中國模型真正突出的地方，是能以美國同行15%到20%的推理成本，實現接近同等水平的智能。

這句話其實很好理解。大家不一定需要用最強的模型，但絕大多數人都想用便宜的模型。

市場買的不是一個簡單的“國產替代”故事，而是中國AI正在把性價比轉化成真實調用量、真實收入和真實估值彈性。

但問題也隨之而來，這種性價比到底從哪里來？

如果只是低價獲客，那它很快會變成價格戰。

如果只是模型蒸餾，可現在Anthropic、OpenAI等企業，均已關閉蒸餾的入口，那么評級不應該下降嗎，怎么還調高了？

事實上，真正讓這個敘事變得更有說服力的，是智譜在五一前發布的技術博客《Scaling Pain：超大規模Coding Agent推理實踐》。

這篇博客沒有講宏大的AGI愿景，而是把KV Cache、吞吐、調度、異常輸出這些底層工程攤開給市場看。

最主要的是，它把中國AI性價比背后的秘密，給“捅破了”。

A

在這篇博客里，智譜大概講了怎么通過優化緩存、調度和異常監控，讓同樣的GPU能干更多活，出錯更少。

智譜發現，AI不好用不一定是模型不聰明，也可能是后臺運行系統太亂。它修掉了緩存串數據的問題，優化了GPU調度和緩存復用，還加了一個能提前發現異常輸出的報警器。

結果就是，同樣的模型、同樣的GPU，可以服務更多用戶，出錯概率也更低。所以它的“性價比敘事”不是單純降價，而是靠工程優化，把每張GPU榨出了更多穩定可用的算力。

經過底層工程優化，GLM-5系列在Coding Agent場景下的系統吞吐量最高提升132%，系統異常輸出率從大約萬分之10，下降到了萬分之3。

比如原來一張GPU，它原先一小時能服務100個任務，現在經過優化后，最高可能服務232個任務。

每一項單獨看，都不足以決定勝負。但疊在一起，就是同等算力下多出來的一倍吞吐，和一個數量級以上的穩定性提升。

模型沒有變。變的是模型被“用起來”的方式。

具體來講，自3月起，智譜在GLM-5的線上監控和用戶反饋中觀察到三類異常現象：亂碼、復讀、生僻字。這些現象在表面上與長上下文場景下常見的“降智”相似。

但智譜團隊沒有上線任何降低模型精度的優化。那異常究竟源于模型本身，還是源于推理鏈路？

在反復分析推理日志后，他們找到了一個意想不到的切入點：投機采樣指標可以作為異常檢測的參考信號。

投機采樣原本只是一個性能優化技術。先由草稿模型生成候選token，再由目標模型校驗并決定是否接受，從而在不改變最終輸出分布的前提下提升解碼效率。

就是讓小模型先快速生成一批答案，大模型再挑選正確的，這樣既快又準。

智譜團隊發現，當異常發生時，投機采樣的兩個指標會呈現穩定模式。于是他們把投機采樣從單純的性能優化，擴展為輸出質量的實時監控信號。

當spec_accept_length持續低于1.4且生成長度已超過128 token，或spec_accept_rate超過0.96時，系統主動中止當前生成，把請求交給負載均衡器重試。

這兩個數字就像體檢指標，一旦異常就說明模型“生病了”，需要重啟治療。

用戶雖然感知不到這個過程，但是后臺的確是完成了一次這樣的重啟。

異常的根因，是KV Cache復用沖突。

這就好比廚房，到了飯點的高峰期，很多人同時過來點單。

系統要臨時保存每個用戶的上下文，也就是KV Cache。這桌客人剛才點了什么、是要少放辣椒還是不吃香菜。一個兩個客人還好，一旦客人多了，服務員就容易記錯。

高并發時，某些緩存被回收、復用、讀取的順序亂了。結果模型拿錯了上下文，就可能輸出亂碼、復讀、生僻字。

在推理引擎中，PD分離架構下，請求生命周期與KV Cache回收與復用的時序之間存在不一致。并發壓力一大，沖突就被放大，表現在用戶端就是亂碼和復讀。

于是多個請求同時搶一塊內存，結果數據亂了套，用戶看到的就是亂碼。

智譜團隊定位了這個bug，也修復了它。

此外，他們還在主流開源推理框架SGLang的源代碼層面發現并修復了HiCache模塊的加載時序缺失問題，也就是read-before-ready。

修復方案通過Pull Request #22811提交給了SGLang社區，并被采納。

SGLang是一個開源項目，全稱可以理解為一種面向大語言模型的推理/服務框架。它不是一個大模型，也不是一家AI公司，而是一套讓大模型高效運行的基礎軟件。

智譜在使用SGLang這套開源推理框架時，發現了一個高并發緩存bug。

它沒有只在自己內部修，智譜還把修復代碼提交給SGLang這個開源項目。

項目維護者審核后接受并合并。于是，這個修復進入了公共版本，其他使用SGLang的開發者和公司之后也可以用到。

這什么意思呢？

如果千問的某個部署鏈路用了SGLang+HiCache，那么阿里也會因為智譜發現并修復了這個問題而受益。

還是剛才說的那句話，模型是沒有變的，但通過工程優化，讓它在用起來的時候更聰明了。

B

智譜這篇博客真正戳破的，是一個更深的層次。

Chatbot時代的便宜，很大程度上來自訓練成本低，一部分訓練集來自對頭部模型的蒸餾。

Agent時代，這招行不通了。

今年以來，Anthropic和OpenAI陸續關閉了蒸餾入口，明確禁止用其模型輸出訓練競爭模型。靠蒸餾取巧的路，越來越窄。

但中國AI公司的性價比敘事并沒有弱下去，市場反而在為這個故事加碼。

原因在于，性價比的定義已經變了。

Chatbot時代，平均上下文55K tokens，單次對話，低并發。

Agent時代，平均上下文70K+ tokens，長時間任務（8小時級），高并發、高前綴復用。

Chatbot時代，AI性價比的計量單位很簡單。同樣問一個問題，誰的模型更便宜，誰的回答更接近一線水平。

行業討論的是每百萬token多少錢、模型參數多大、榜單成績高不高。

Agent時代，沒人問這個，這套算法失效了。

用戶買的不再是一句回答。他買的是一個完整任務的完成結果。

一個Coding Agent要讀代碼、理解上下文、規劃步驟、調用工具、修改文件、跑測試、失敗重試。它消耗的token不是一次問答的增量，而是一個工作流的總賬。

OpenRouter作為全球最大的調用平臺，它每周處理的token總量，從2026年1月第一周的6.4萬億，漲到2月9日當周的13萬億，一個月翻了一倍。

OpenRouter官方的說法是，100K到1M長文本區間的增量調用需求，正是agent工作流的典型消耗場景。

大家使用AI的模式，已經從“對話型”切換到了“流程型”。因此，AI性價比的單位，也從“token單價”變成了“任務單價”。

這就導致，有些模型它的token便宜，但是由于模型性能不行，進行任務的過程中總是失敗，或者任務結果不達標，導致它的agent價格并不便宜。

比如說，一個8小時級別的Coding任務，中途只要亂碼一次，整個工作流可能都要重來。節省下來的token單價，補不回浪費的時間。

中國AI的性價比敘事正在升級。

以前講的是“輸出相同水準的答案，我更便宜”。現在講的是“同樣復雜的任務，我能用更低成本跑完”。

開源基礎設施也在成為中國AI的新護城河。

前文提到的SGLang就是如此。中國AI的工程能力，開始向上游社區輻射。

這件事的價值不只在于智譜修了一個bug，而在于中國AI公司正在把真實業務里的高并發、長上下文、agent調用問題，反向沉淀成公共基礎設施的能力。

就像前文提到的，當一個修復進入SGLang這樣的開源框架，它就不再只服務于智譜自己的模型。所有使用這套框架部署大模型的團隊，都有機會獲得更穩定的緩存、更低的推理成本和更好的agent體驗。

模型能力可以被追趕，價格可以被壓低，但基礎設施一旦進入開源生態，就會變成標準、接口和開發習慣。

誰更早把自己的工程經驗寫進這些底層系統，誰就更容易在下一輪AI應用爆發里占住位置。

C

回到資本市場。

AI大模型概念股全線走高，資本愿意給AI公司重新定價？市場買的到底是什么？

答案是，資本市場正在為“中國AI公司能用更低推理成本做出接近一線智能”的敘事買單。

還是以OpenRouter的數據來說。

中國頭部AI公司的token消耗份額，從2025年4月的5%快速攀升至2026年3月的32%。美國頭部模型份額，從58%大幅下滑至19%。

MiniMax、智譜、阿里的token使用量，在2026年2-3月較去年12月增長4-6倍。

除了token調用以外，中國AI還在形成一套，完全不同于海外巨頭的增長邏輯。

海外頭部模型在賣“能力溢價”。

模型能力越強，單次調用越貴，用戶為最強智能付費。Claude、GPT-5、Gemini都在往這個方向走。

中國AI在賣“工程”。

模型能力逼近一線模型，但是價格、延遲、調用門檻更低，更符合絕大多數高頻場景的需求。

摩根士丹利的報告里提到，中國模型的輸入價格約為0.3美元/百萬token，部分海外同類產品的價格在5美元左右。這中間是十幾倍的差距。

當AI從嘗鮮工具變成生產力工具，性價比會直接決定調用頻次。

模型便宜一點，企業就敢把更多客服、代碼、營銷、數據分析任務交給它。任務跑得越多，token消耗越大，平臺越能攤薄基礎設施成本。

我認為在這個環節，它是有可能會形成一個飛輪的。

第一圈，是用更低的API價格和更接近一線的能力，去吸引開發者和企業。

第二圈，更高的調用量會帶來更多真實場景，倒逼模型和推理系統繼續優化。

第三圈，也就是智譜這篇技術博客里講到的，用工程優化降低單位token和單位任務成本，讓廠商有能力繼續降價、漲量，或者在高價值場景里漲價。

第四圈，當token消耗成為AI時代的新流量，誰能以更低成本承載更多token，誰就更接近下一階段的平臺型公司。

如果只是模型降價，市場會擔心這是補貼和價格戰，越來越燒錢，總有人的錢包撐不住。

而且，價格戰撐不起高估值。

但如果降價背后是吞吐提升、緩存復用、異常率下降和調度效率提升，那么低價就不是犧牲利潤換增長，而是工程能力釋放出來的成本空間。

價格戰和這種工程優化的結果，雖然都是讓模型更便宜，而且在財報上看起來可能差不多。在估值模型里，差得很遠。

前者是補貼，市場會折價。后者是工程壁壘，市場會溢價。

最后可以落到一個判斷。

過去AI公司的估值看模型能力上限，看誰更接近AGI。當時市場在為“最強智能”付費，最強智能的定義越來越模糊，單次調用越來越貴。

現在agent時代，估值還要看成本下限。看誰能把智能穩定、便宜、大規模地交付出去。

對于追求最尖端的“智能”，這可能不是中國AI擅長的事情。

然而中國AI是最有可能把“智能”這兩個字，做成所有人和企業都用得起的基礎設施。

而市場只愿意為能說清楚自己邏輯的公司付錢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

3D創作迎來ChatGPT時刻：Meshy發布全球首個3D AI Agent

量子位 2026-06-11 12:18:09
0 跟貼 0
AI智能體走出實驗室！中科院等機構聯合發布首個OpenClaw系統性綜述

新智元 2026-06-11 16:06:35
0 跟貼 0

VLMgineer讓大模型自己「發明工具」，從設計到使用全自動

機器之心Pro 2026-03-20 14:15:17
0 跟貼 0

補貼→Token計費→降價！OpenAI打響價格戰，Token經濟學拐點將至？

華爾街見聞官方 2026-06-11 15:06:29
27 跟貼 27
8億用戶的釘釘，只有1000人在扛

澎湃新聞 2026-06-11 08:00:27
491 跟貼 491

把提示詞刻在墓碑上！這屆開發者用AI封裝自己，死了能接單干活？

雷科技 2026-06-10 16:58:28
0 跟貼 0

“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
實測小米最快1T模型：吞吐量每秒1k+Token，Vibe Coding七秒交付

量子位 2026-06-11 09:07:12
0 跟貼 0
全世界最不好惹的四個硬茬國

臧老師 2026-06-10 23:59:50
1 跟貼 1
谷歌開源26B文本擴散MoE，劈柴：生成速度像賽馬一樣快

機器之心Pro 2026-06-11 14:31:23
0 跟貼 0
不用向量數據庫，Agent也能會搜索：給它一個grep就夠了？

機器之心Pro 2026-06-11 17:06:46
0 跟貼 0
微信AI不打算接管一切

華爾街見聞官方 2026-06-11 16:33:03
1 跟貼 1
中國夏天最熱的八大城市

臧老師 2026-06-11 00:01:50
10 跟貼 10
盧麒元：終于拉爆了，有時候解決家務事需要外鬼

愛學習的小陸 2026-06-09 03:13:30
9 跟貼 9
中國戰歌在國外火了

胡萊克修斯 2026-06-11 03:21:27
0 跟貼 0
中國武術震撼對決，鬼子挑釁嘗苦果

仵木蘭 2026-06-11 05:23:50
3 跟貼 3
NEWTON:等物理涌現到請牛頓進工具箱，Agent 驅動視頻生成新范式

機器之心Pro 2026-06-11 20:50:32
0 跟貼 0
谷歌干掉了「等你說完才翻譯」！70+語言邊聽邊譯

新智元 2026-06-11 12:38:37
50 跟貼 50
世界上最崇拜中國的國家，不是巴基斯坦，航母就是最友好的體現！

搞怪趣星球 2026-06-08 11:37:34
1 跟貼 1
斬獲15個頂級零日漏洞:0G Lab聯合新國立,北大等構建智能體框架

機器之心Pro 2026-06-11 14:26:37
0 跟貼 0
全網爆火的 Claude Fable 5 神級案例，可能是純手搓

AppSo 2026-06-11 14:28:34
0 跟貼 0
美國人真慌了！四川艦剛出海試航，才發現中國手里的大船不止三艘

一個幻想者 2026-06-11 02:08:27
0 跟貼 0
“初級班”近萬“督導班”28萬白領高管沉醉的心理課：痛哭、尖叫、下跪……療愈還是“洗腦”？丨紅星深潛

紅星新聞 2026-06-11 11:28:53
2401 跟貼 2401
老外瘋搶中國避暑名額？歐洲人哭了：這配套我們真比不了！

我很乖 2026-06-12 02:48:51
0 跟貼 0
他反問“我為什么要騙你”時，這個信號很危險

晚風也遺憾 2026-06-11 00:15:49
0 跟貼 0
80勝紀錄為何消失？一個籃球迷的深夜困惑

時光慢旅人 2026-06-12 01:17:45
0 跟貼 0
比較偷走快樂那刻，你就不完整了？

半勺甜心事 2026-06-12 00:55:35
0 跟貼 0
當算法代替孩子排練夢想：我們正在養育只感受情感的一代嗎？

時光慢郵啊 2026-06-12 01:19:08
0 跟貼 0
媒體：29分大逆轉+補籃絕殺尼克斯隊的"劇本"太神奇

北青網-北京青年報 2026-06-11 13:19:02
1243 跟貼 1243
中國公民盡快撤離！中使館提醒；女大學生要去柬埔寨找男友，被緊急攔下；12歲女生總喊累，一查全身器官嚴重缺氧｜早安，你好

全國婦聯女性之聲 2026-06-12 06:23:21
0 跟貼 0
2026年中國（廣西）—越南少年兒童手拉手活動舉辦

人民網 2026-06-12 06:37:29
0 跟貼 0
第十屆中國—南亞博覽會在昆明開幕

人民網 2026-06-12 06:37:29
0 跟貼 0
危險！Anthropic自曝：Mythos已把「N天漏洞」壓縮成N小時

新智元 2026-06-10 06:02:18
0 跟貼 0
美國五角大樓被封鎖

新華社 2026-06-11 23:08:02
914 跟貼 914
杜越華兼任上海外國語大學附屬徐匯實驗中學校長

澎湃新聞 2026-06-11 12:16:30
106 跟貼 106

10人打9人！世界杯瘋狂一戰：揭幕戰3紅=史無前例 23次犯規太慘烈

10人打9人！世界杯瘋狂一戰：揭幕戰3紅=史無前例 23次犯規太慘烈

侃球熊弟

2026-06-12 03:21:02

戰略金屬，爆出重大利好！

君臨財富

2026-06-11 16:02:45

市委常委會舉行會議：堅決擁護黨中央決定，堅定不移推動全面從嚴治黨向縱深發展

市委常委會舉行會議：堅決擁護黨中央決定，堅定不移推動全面從嚴治黨向縱深發展

縱相新聞

2026-06-11 17:30:13

“礙于總統身份，我一直在克制，但他們太過分了”

“礙于總統身份，我一直在克制，但他們太過分了”

環球時報國際

2026-06-11 14:32:34

深度? 特朗普“用炸彈談判”，伊朗再“關”霍爾木茲：美伊爭的究竟是什么？

深度? 特朗普“用炸彈談判”，伊朗再“關”霍爾木茲：美伊爭的究竟是什么？

上觀新聞

2026-06-11 21:08:54

四個號，一家親：國際足聯把飯喂到嘴邊，國足用四個“零蛋”證明

四個號，一家親：國際足聯把飯喂到嘴邊，國足用四個“零蛋”證明

民間胡扯老哥

2026-06-11 10:34:23

北京的男男女女為什么一直不結婚？原來有這樣一個完美的閉環

北京的男男女女為什么一直不結婚？原來有這樣一個完美的閉環

回旋鏢

2026-06-11 19:45:32

“好吃到不對勁！”消費者因餅干太好吃而引發懷疑，配料表完全對不上！當地市監局介入

“好吃到不對勁！”消費者因餅干太好吃而引發懷疑，配料表完全對不上！當地市監局介入

新浪財經

2026-06-11 16:07:36

35歲墨西哥中鋒激動落淚 4戰世界杯終獲首球 6年前頭部重傷險喪命

35歲墨西哥中鋒激動落淚 4戰世界杯終獲首球 6年前頭部重傷險喪命

我愛英超

2026-06-12 05:37:01

于東來稱薪資上太溺愛員工，其實不值這么多錢

于東來稱薪資上太溺愛員工，其實不值這么多錢

界面新聞

2026-06-11 17:55:06

紐約球迷朝文班扔雞蛋！G4逆轉后瘋狂鬧事：56人被捕10名警員受傷

紐約球迷朝文班扔雞蛋！G4逆轉后瘋狂鬧事：56人被捕10名警員受傷

羅說NBA

2026-06-12 05:57:40

特朗普稱取消打擊伊朗行動納指拉升漲超2%、美油跳水跌3.5%

特朗普稱取消打擊伊朗行動納指拉升漲超2%、美油跳水跌3.5%

財聯社

2026-06-12 01:49:10

世界杯揭幕戰：3張紅牌！墨西哥2-0南非打破76年魔咒 8萬人嗨翻

世界杯揭幕戰：3張紅牌！墨西哥2-0南非打破76年魔咒 8萬人嗨翻

侃球熊弟

2026-06-12 03:56:11

兩年前專家都說他會毀掉阿根廷，如今數據打臉

兩年前專家都說他會毀掉阿根廷，如今數據打臉

斌聞天下

2026-06-11 07:00:07

大博阿滕：我曾經與女友每周纏綿至少七八次，上場后雙腿無力

大博阿滕：我曾經與女友每周纏綿至少七八次，上場后雙腿無力

懂球帝

2026-06-11 10:02:52

歷史罕見信號全部重合！這次不是回調，是全球性大危機要來了

歷史罕見信號全部重合！這次不是回調，是全球性大危機要來了

流蘇晚晴

2026-06-11 14:24:06

天津港進口豪華車崩盤，曾有礦老板提著百萬現金買車

天津港進口豪華車崩盤，曾有礦老板提著百萬現金買車

第一財經資訊

2026-06-11 14:21:47

國際足聯主席都看不下去了，美加墨世界杯會成為最糟糕的世界杯嗎

國際足聯主席都看不下去了，美加墨世界杯會成為最糟糕的世界杯嗎

二大爺觀世界

2026-06-11 17:54:34

養路費改革：油價降0.8元/升，新能源車0.12元/公里，誰受益？

養路費改革：油價降0.8元/升，新能源車0.12元/公里，誰受益？

周哥一影視

2026-06-11 14:15:11

私生活混亂，從央視主持到勞改犯，如今靠直播打賞討生活

私生活混亂，從央視主持到勞改犯，如今靠直播打賞討生活

素衣讀史

2026-06-11 21:56:30

讓未來不止于大。

2534文章數 8065關注度

往期回顧全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍，更大的懸念成了FMVP？

娛樂要聞

《花少8》陣容大揭秘！秒殺前一季

財經要聞

干細胞生意：17萬一針的希望

汽車要聞

將搭云輦-M智能磁流變懸架方程豹方程S系列信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

教育

旅游

時尚

本地

房產要聞

科城·美林學筑5月領跑崖州灣：成交價、銷售套數、轉化率三項第一

教育要聞

陳都靈祝高考生像楚朝一樣清醒果決不留遺憾

旅游要聞

訪賽珍珠故居（旅人心語）

薄荷綠色的單品打造夏日清透感，視覺上清爽又治愈，溫柔減齡

本地新聞

世界杯還沒開始，蘇超已經火到爆梗

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版