无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

中國AI性價比奇高的秘密,被一篇博客捅破了

0
分享至



五一假期后的第一個交易日,智譜和MiniMax都漲瘋了。

5月4日,智譜漲超10%,股價再次逼近千元關口,MiniMax大漲12.62%,報收803港元。

根據摩根士丹利的報告,股價暴漲的原因來自于中國AI獨有的“性價比敘事”。

摩根士丹利在報告《China‘s AI Path: More Bang For The Buck》中表示,在算力受到約束的前提下,中美頂尖模型的智能水平正在快速接近,差距已經收窄到3到6個月。

同時報告指出,中國模型真正突出的地方,是能以美國同行15%到20%的推理成本,實現接近同等水平的智能。

這句話其實很好理解。大家不一定需要用最強的模型,但絕大多數人都想用便宜的模型。

市場買的不是一個簡單的“國產替代”故事,而是中國AI正在把性價比轉化成真實調用量、真實收入和真實估值彈性。

但問題也隨之而來,這種性價比到底從哪里來?

如果只是低價獲客,那它很快會變成價格戰。

如果只是模型蒸餾,可現在Anthropic、OpenAI等企業,均已關閉蒸餾的入口,那么評級不應該下降嗎,怎么還調高了?

事實上,真正讓這個敘事變得更有說服力的,是智譜在五一前發布的技術博客《Scaling Pain:超大規模Coding Agent推理實踐》。

這篇博客沒有講宏大的AGI愿景,而是把KV Cache、吞吐、調度、異常輸出這些底層工程攤開給市場看。

最主要的是,它把中國AI性價比背后的秘密,給“捅破了”。

A

在這篇博客里,智譜大概講了怎么通過優化緩存、調度和異常監控,讓同樣的GPU能干更多活,出錯更少。

智譜發現,AI不好用不一定是模型不聰明,也可能是后臺運行系統太亂。它修掉了緩存串數據的問題,優化了GPU調度和緩存復用,還加了一個能提前發現異常輸出的報警器。

結果就是,同樣的模型、同樣的GPU,可以服務更多用戶,出錯概率也更低。所以它的“性價比敘事”不是單純降價,而是靠工程優化,把每張GPU榨出了更多穩定可用的算力。

經過底層工程優化,GLM-5系列在Coding Agent場景下的系統吞吐量最高提升132%,系統異常輸出率從大約萬分之10,下降到了萬分之3。

比如原來一張GPU,它原先一小時能服務100個任務,現在經過優化后,最高可能服務232個任務。

每一項單獨看,都不足以決定勝負。但疊在一起,就是同等算力下多出來的一倍吞吐,和一個數量級以上的穩定性提升。

模型沒有變。變的是模型被“用起來”的方式。

具體來講,自3月起,智譜在GLM-5的線上監控和用戶反饋中觀察到三類異常現象:亂碼、復讀、生僻字。這些現象在表面上與長上下文場景下常見的“降智”相似。

但智譜團隊沒有上線任何降低模型精度的優化。那異常究竟源于模型本身,還是源于推理鏈路?

在反復分析推理日志后,他們找到了一個意想不到的切入點:投機采樣指標可以作為異常檢測的參考信號。

投機采樣原本只是一個性能優化技術。先由草稿模型生成候選token,再由目標模型校驗并決定是否接受,從而在不改變最終輸出分布的前提下提升解碼效率。

就是讓小模型先快速生成一批答案,大模型再挑選正確的,這樣既快又準。

智譜團隊發現,當異常發生時,投機采樣的兩個指標會呈現穩定模式。于是他們把投機采樣從單純的性能優化,擴展為輸出質量的實時監控信號。

當spec_accept_length持續低于1.4且生成長度已超過128 token,或spec_accept_rate超過0.96時,系統主動中止當前生成,把請求交給負載均衡器重試。

這兩個數字就像體檢指標,一旦異常就說明模型“生病了”,需要重啟治療。

用戶雖然感知不到這個過程,但是后臺的確是完成了一次這樣的重啟。

異常的根因,是KV Cache復用沖突。

這就好比廚房,到了飯點的高峰期,很多人同時過來點單。

系統要臨時保存每個用戶的上下文,也就是KV Cache。這桌客人剛才點了什么、是要少放辣椒還是不吃香菜。一個兩個客人還好,一旦客人多了,服務員就容易記錯。



高并發時,某些緩存被回收、復用、讀取的順序亂了。結果模型拿錯了上下文,就可能輸出亂碼、復讀、生僻字。

在推理引擎中,PD分離架構下,請求生命周期與KV Cache回收與復用的時序之間存在不一致。并發壓力一大,沖突就被放大,表現在用戶端就是亂碼和復讀。

于是多個請求同時搶一塊內存,結果數據亂了套,用戶看到的就是亂碼。

智譜團隊定位了這個bug,也修復了它。

此外,他們還在主流開源推理框架SGLang的源代碼層面發現并修復了HiCache模塊的加載時序缺失問題,也就是read-before-ready。

修復方案通過Pull Request #22811提交給了SGLang社區,并被采納。

SGLang是一個開源項目,全稱可以理解為一種面向大語言模型的推理/服務框架。它不是一個大模型,也不是一家AI公司,而是一套讓大模型高效運行的基礎軟件。

智譜在使用SGLang這套開源推理框架時,發現了一個高并發緩存bug。

它沒有只在自己內部修,智譜還把修復代碼提交給SGLang這個開源項目。

項目維護者審核后接受并合并。于是,這個修復進入了公共版本,其他使用SGLang的開發者和公司之后也可以用到。

這什么意思呢?

如果千問的某個部署鏈路用了SGLang+HiCache,那么阿里也會因為智譜發現并修復了這個問題而受益。

還是剛才說的那句話,模型是沒有變的,但通過工程優化,讓它在用起來的時候更聰明了。

B

智譜這篇博客真正戳破的,是一個更深的層次。

Chatbot時代的便宜,很大程度上來自訓練成本低,一部分訓練集來自對頭部模型的蒸餾。

Agent時代,這招行不通了。

今年以來,Anthropic和OpenAI陸續關閉了蒸餾入口,明確禁止用其模型輸出訓練競爭模型。靠蒸餾取巧的路,越來越窄。

但中國AI公司的性價比敘事并沒有弱下去,市場反而在為這個故事加碼。

原因在于,性價比的定義已經變了。

Chatbot時代,平均上下文55K tokens,單次對話,低并發。

Agent時代,平均上下文70K+ tokens,長時間任務(8小時級),高并發、高前綴復用。

Chatbot時代,AI性價比的計量單位很簡單。同樣問一個問題,誰的模型更便宜,誰的回答更接近一線水平。

行業討論的是每百萬token多少錢、模型參數多大、榜單成績高不高。

Agent時代,沒人問這個,這套算法失效了。

用戶買的不再是一句回答。他買的是一個完整任務的完成結果。

一個Coding Agent要讀代碼、理解上下文、規劃步驟、調用工具、修改文件、跑測試、失敗重試。它消耗的token不是一次問答的增量,而是一個工作流的總賬。

OpenRouter作為全球最大的調用平臺,它每周處理的token總量,從2026年1月第一周的6.4萬億,漲到2月9日當周的13萬億,一個月翻了一倍。

OpenRouter官方的說法是,100K到1M長文本區間的增量調用需求,正是agent工作流的典型消耗場景。

大家使用AI的模式,已經從“對話型”切換到了“流程型”。因此,AI性價比的單位,也從“token單價”變成了“任務單價”。

這就導致,有些模型它的token便宜,但是由于模型性能不行,進行任務的過程中總是失敗,或者任務結果不達標,導致它的agent價格并不便宜。

比如說,一個8小時級別的Coding任務,中途只要亂碼一次,整個工作流可能都要重來。節省下來的token單價,補不回浪費的時間。

中國AI的性價比敘事正在升級。

以前講的是“輸出相同水準的答案,我更便宜”。現在講的是“同樣復雜的任務,我能用更低成本跑完”。

開源基礎設施也在成為中國AI的新護城河。

前文提到的SGLang就是如此。中國AI的工程能力,開始向上游社區輻射。

這件事的價值不只在于智譜修了一個bug,而在于中國AI公司正在把真實業務里的高并發、長上下文、agent調用問題,反向沉淀成公共基礎設施的能力。

就像前文提到的,當一個修復進入SGLang這樣的開源框架,它就不再只服務于智譜自己的模型。所有使用這套框架部署大模型的團隊,都有機會獲得更穩定的緩存、更低的推理成本和更好的agent體驗。

模型能力可以被追趕,價格可以被壓低,但基礎設施一旦進入開源生態,就會變成標準、接口和開發習慣。

誰更早把自己的工程經驗寫進這些底層系統,誰就更容易在下一輪AI應用爆發里占住位置。

C

回到資本市場。

AI大模型概念股全線走高,資本愿意給AI公司重新定價?市場買的到底是什么?

答案是,資本市場正在為“中國AI公司能用更低推理成本做出接近一線智能”的敘事買單。

還是以OpenRouter的數據來說。

中國頭部AI公司的token消耗份額,從2025年4月的5%快速攀升至2026年3月的32%。美國頭部模型份額,從58%大幅下滑至19%。

MiniMax、智譜、阿里的token使用量,在2026年2-3月較去年12月增長4-6倍。

除了token調用以外,中國AI還在形成一套,完全不同于海外巨頭的增長邏輯。

海外頭部模型在賣“能力溢價”。

模型能力越強,單次調用越貴,用戶為最強智能付費。Claude、GPT-5、Gemini都在往這個方向走。

中國AI在賣“工程”。

模型能力逼近一線模型,但是價格、延遲、調用門檻更低,更符合絕大多數高頻場景的需求。

摩根士丹利的報告里提到,中國模型的輸入價格約為0.3美元/百萬token,部分海外同類產品的價格在5美元左右。這中間是十幾倍的差距。

當AI從嘗鮮工具變成生產力工具,性價比會直接決定調用頻次。

模型便宜一點,企業就敢把更多客服、代碼、營銷、數據分析任務交給它。任務跑得越多,token消耗越大,平臺越能攤薄基礎設施成本。



我認為在這個環節,它是有可能會形成一個飛輪的。

第一圈,是用更低的API價格和更接近一線的能力,去吸引開發者和企業。

第二圈,更高的調用量會帶來更多真實場景,倒逼模型和推理系統繼續優化。

第三圈,也就是智譜這篇技術博客里講到的,用工程優化降低單位token和單位任務成本,讓廠商有能力繼續降價、漲量,或者在高價值場景里漲價。

第四圈,當token消耗成為AI時代的新流量,誰能以更低成本承載更多token,誰就更接近下一階段的平臺型公司。

如果只是模型降價,市場會擔心這是補貼和價格戰,越來越燒錢,總有人的錢包撐不住。

而且,價格戰撐不起高估值。

但如果降價背后是吞吐提升、緩存復用、異常率下降和調度效率提升,那么低價就不是犧牲利潤換增長,而是工程能力釋放出來的成本空間。

價格戰和這種工程優化的結果,雖然都是讓模型更便宜,而且在財報上看起來可能差不多。在估值模型里,差得很遠。

前者是補貼,市場會折價。后者是工程壁壘,市場會溢價。

最后可以落到一個判斷。

過去AI公司的估值看模型能力上限,看誰更接近AGI。當時市場在為“最強智能”付費,最強智能的定義越來越模糊,單次調用越來越貴。

現在agent時代,估值還要看成本下限。看誰能把智能穩定、便宜、大規模地交付出去。

對于追求最尖端的“智能”,這可能不是中國AI擅長的事情。

然而中國AI是最有可能把“智能”這兩個字,做成所有人和企業都用得起的基礎設施。

而市場只愿意為能說清楚自己邏輯的公司付錢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
10人打9人!世界杯瘋狂一戰:揭幕戰3紅=史無前例 23次犯規太慘烈

10人打9人!世界杯瘋狂一戰:揭幕戰3紅=史無前例 23次犯規太慘烈

侃球熊弟
2026-06-12 03:21:02
戰略金屬,爆出重大利好!

戰略金屬,爆出重大利好!

君臨財富
2026-06-11 16:02:45
市委常委會舉行會議:堅決擁護黨中央決定,堅定不移推動全面從嚴治黨向縱深發展

市委常委會舉行會議:堅決擁護黨中央決定,堅定不移推動全面從嚴治黨向縱深發展

縱相新聞
2026-06-11 17:30:13
“礙于總統身份,我一直在克制,但他們太過分了”

“礙于總統身份,我一直在克制,但他們太過分了”

環球時報國際
2026-06-11 14:32:34
深度? 特朗普“用炸彈談判”,伊朗再“關”霍爾木茲:美伊爭的究竟是什么?

深度? 特朗普“用炸彈談判”,伊朗再“關”霍爾木茲:美伊爭的究竟是什么?

上觀新聞
2026-06-11 21:08:54
四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

民間胡扯老哥
2026-06-11 10:34:23
北京的男男女女為什么一直不結婚?原來有這樣一個完美的閉環

北京的男男女女為什么一直不結婚?原來有這樣一個完美的閉環

回旋鏢
2026-06-11 19:45:32
“好吃到不對勁!”消費者因餅干太好吃而引發懷疑,配料表完全對不上!當地市監局介入

“好吃到不對勁!”消費者因餅干太好吃而引發懷疑,配料表完全對不上!當地市監局介入

新浪財經
2026-06-11 16:07:36
35歲墨西哥中鋒激動落淚 4戰世界杯終獲首球 6年前頭部重傷險喪命

35歲墨西哥中鋒激動落淚 4戰世界杯終獲首球 6年前頭部重傷險喪命

我愛英超
2026-06-12 05:37:01
于東來稱薪資上太溺愛員工,其實不值這么多錢

于東來稱薪資上太溺愛員工,其實不值這么多錢

界面新聞
2026-06-11 17:55:06
紐約球迷朝文班扔雞蛋!G4逆轉后瘋狂鬧事:56人被捕10名警員受傷

紐約球迷朝文班扔雞蛋!G4逆轉后瘋狂鬧事:56人被捕10名警員受傷

羅說NBA
2026-06-12 05:57:40
特朗普稱取消打擊伊朗行動 納指拉升漲超2%、美油跳水跌3.5%

特朗普稱取消打擊伊朗行動 納指拉升漲超2%、美油跳水跌3.5%

財聯社
2026-06-12 01:49:10
世界杯揭幕戰:3張紅牌!墨西哥2-0南非 打破76年魔咒 8萬人嗨翻

世界杯揭幕戰:3張紅牌!墨西哥2-0南非 打破76年魔咒 8萬人嗨翻

侃球熊弟
2026-06-12 03:56:11
兩年前專家都說他會毀掉阿根廷,如今數據打臉

兩年前專家都說他會毀掉阿根廷,如今數據打臉

斌聞天下
2026-06-11 07:00:07
大博阿滕:我曾經與女友每周纏綿至少七八次,上場后雙腿無力

大博阿滕:我曾經與女友每周纏綿至少七八次,上場后雙腿無力

懂球帝
2026-06-11 10:02:52
歷史罕見信號全部重合!這次不是回調,是全球性大危機要來了

歷史罕見信號全部重合!這次不是回調,是全球性大危機要來了

流蘇晚晴
2026-06-11 14:24:06
天津港進口豪華車崩盤,曾有礦老板提著百萬現金買車

天津港進口豪華車崩盤,曾有礦老板提著百萬現金買車

第一財經資訊
2026-06-11 14:21:47
國際足聯主席都看不下去了,美加墨世界杯會成為最糟糕的世界杯嗎

國際足聯主席都看不下去了,美加墨世界杯會成為最糟糕的世界杯嗎

二大爺觀世界
2026-06-11 17:54:34
養路費改革:油價降0.8元/升,新能源車0.12元/公里,誰受益?

養路費改革:油價降0.8元/升,新能源車0.12元/公里,誰受益?

周哥一影視
2026-06-11 14:15:11
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
2026-06-12 06:47:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2534文章數 8065關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態度原創

房產
教育
旅游
時尚
本地

房產要聞

科城·美林學筑5月領跑崖州灣:成交價、銷售套數、轉化率三項第一

教育要聞

陳都靈祝高考生像楚朝一樣清醒果決不留遺憾

旅游要聞

訪賽珍珠故居(旅人心語)

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

無障礙瀏覽 進入關懷版