網易首頁 > 網易號 > 正文 申請入駐

大模型“降智”真相,找到了

0
分享至


智東西
作者 陳駿達
編輯 云鵬

智東西4月30日報道,今天,智譜發布了一篇名為《Scaling Pain:超大規模Coding Agent推理實踐》的技術報告,披露了GLM-5系列模型在Coding Agent場景下遇到的推理基礎設施挑戰與對應解法。

報告透露,在每日數億次Coding Agent調用壓力下,部分用戶遭遇了GLM-5系列模型亂碼、復讀和生僻字等異常,這些現象在表面上與長上下文場景下常見的“降智”相似,但智譜并未進行降低模型精度的優化,相關問題主要由高并發、長上下文的極端條件觸發。

通過數周排查,智譜鎖定了兩個底層競態問題:PD分離架構下的KV Cache異步Abort引發顯存寫入沖突,以及HiCache加載流水線缺少同步約束導致“數據未就緒即被讀取”。針對性修復后,相關異常發生率從約萬分之十幾降至萬分之三以下。

報告還公開了智譜自研的KV Cache分層存儲方案LayerSplit,在Context Parallel場景下將單卡KV Cache顯存壓力大幅降低,實測系統吞吐提升10%至132%,且上下文越長收益越大。

一、本地無法復現,高壓才露頭:投機采樣指標成“照妖鏡”

從今年3月起,智譜GLM-5出現了三類異常:亂碼、復讀、生僻字。排查初期,智譜對線上異常案例做了本地回放,但未能復現,說明大概率不是模型問題。進一步模擬線上高壓環境后,在每萬次請求中穩定復現3-5次異常。這種“與內容無關、與壓力相關的特征”,將問題指向高負載下的推理狀態管理。

三類異常中,復讀較易檢測,亂碼和生僻字則難以用正則或模型判別高效覆蓋。分析推理日志后,智譜發現投機采樣指標可作為重要參考:

投機采樣本為性能優化而設計:草稿模型生成draft token,目標模型校驗后決定是否接受,并記錄spec_accept_length與spec_accept_rate,從而在不改變最終輸出分布的前提下提升解碼效率。

針對亂碼/生僻字問題,智譜發現spec_accept_length極低,draft token幾乎全被拒絕,表明KV Cache狀態存在顯著偏差。

針對復讀問題,智譜發現spec_accept_rate偏高,損壞的KV Cache使注意力退化,陷入重復循環。

據此,智譜團隊建立了在線監控策略。將投機采樣從一項單純的性能優化技術,拓展為質量監控信號。

二、鎖定時序漏洞,兩個競態Bug如何導致輸出異常

定位問題后,智譜進一步分析其原因。通過對請求生命周期以及推理引擎中PD分離執行時序的分析,智譜發現該問題源于請求生命周期與KV Cache回收與復用時序之間的不一致,從而引發的KV Cache復用沖突。


為消除上述問題,智譜在推理引擎中引入了更嚴格的時序約束,在請求終止與KV Cache寫入完成之間建立顯式同步關系。

這一問題的具體修復方案是在Decode觸發Abort后通知Prefill側,僅在RDMA未開始或已完成時才允許回收復用,確保KV寫入不跨越顯存復用邊界。修復后,異常發生率從萬分之十幾降至萬分之三以下。

智譜面臨的第二個bug與Coding Agent場景的特性有關。Coding Agent場景輸入長、前綴復用率高,HiCache成為關鍵優化。但KV Cache換入與計算重疊執行時,未保證數據加載完成后再使用。

為修復這一問題,智譜在Indexer算子啟動前引入同步點,確保數據就緒后才啟動計算。修復后,相關問題完全消失,相關修復已提交至SGLang社區。


三、Prefill吞吐成瓶頸,LayerSplit讓吞吐最高漲132%

上述兩個問題揭示了一個共同的系統瓶頸:在長上下文的Coding Agent服務場景中,Prefill階段主導了系統性能。修復狀態一致性問題后,核心挑戰回歸瓶頸本身,也就是如何提升Prefill吞吐、降低KV Cache顯存占用。為此,智譜團隊設計并實現了KV Cache分層存儲方案LayerSplit。

Coding Agent負載具有上下文長、Prefix Cache命中率高的特征,使得Context Parallel(CP,上下文并行)成為Prefill節點的主要并行策略。然而,SGLang開源實現中每張GPU保存全部層的KV Cache,冗余存儲導致顯存容量成為計算資源利用率的瓶頸。

LayerSplit方案的核心思路是:每張GPU僅持有部分層的KV Cache,從而顯著降低單卡顯存占用。計算時,持有某一層Cache的CP rank會在Attention計算前將其廣播給其他rank。


為進一步減少開銷,智譜設計了KV Cache廣播與Indexer計算的重疊機制,使二者在時間上相互掩蓋。整個流程僅額外引入約為KV Cache體量1/8的Indexer Cache廣播,通信成本對性能影響可忽略。

實驗結果表明,在Cache命中率90%的條件下,請求長度從40k到120k區間內,系統吞吐量提升幅度在10%至132%之間,且上下文越長收益越顯著。


該優化從架構層面緩解了Prefill側的顯存瓶頸,與此前兩項BugFix共同構成了一套完整的推理基礎設施優化方案,提升了智譜GLM-5在Coding Agent場景下的服務能力。

結語:輸出質量成高并發長上下文場景新痛點

高并發長上下文場景下,推理基礎設施的挑戰已不止于吞吐和延遲,輸出質量同樣不可忽視。智譜此次公開的技術細節,從異常識別方法、兩個競態Bug的定位與修復,到LayerSplit顯存優化,構成了一套相對完整的排查與優化鏈路。

對于同樣在大規模部署推理服務的團隊而言,這份報告在故障復現、指標選型、架構層面的時序一致性等方面提供了可參考的實踐經驗。智譜將這些經驗公開分享,客觀上為社區填補了部分長上下文推理場景下的工程資料空白。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北美當個寶,國內沒人鳥,投資13.7億的好萊塢大片被國人上了一課

北美當個寶,國內沒人鳥,投資13.7億的好萊塢大片被國人上了一課

八卦南風
2026-04-28 14:39:59
心理學有個殘忍發現:面對刻意激怒你的人,你的憤怒、隱忍、冷處理,都是在“喂養”對方,唯有這兩種做法才能反制對方

心理學有個殘忍發現:面對刻意激怒你的人,你的憤怒、隱忍、冷處理,都是在“喂養”對方,唯有這兩種做法才能反制對方

心理觀察局
2026-04-30 11:04:14
80億歐元歸零!ASML與中國的十年大單,徹底終結

80億歐元歸零!ASML與中國的十年大單,徹底終結

創造精彩劇情
2026-04-29 23:00:13
老年癡呆原因被揪出:十個老人九個都愛做,現在改還來得及!

老年癡呆原因被揪出:十個老人九個都愛做,現在改還來得及!

深度報
2026-04-29 22:54:53
美國與拉美五國指責中國對巴拿馬實施所謂“有針對性的經濟施壓”

美國與拉美五國指責中國對巴拿馬實施所謂“有針對性的經濟施壓”

俄羅斯衛星通訊社
2026-04-30 16:19:22
中國花2000萬買個航母空殼?烏專家曾言:光4個發動機就超2000萬

中國花2000萬買個航母空殼?烏專家曾言:光4個發動機就超2000萬

素衣讀史
2026-04-29 21:55:54
遼寧省交投集團原董事長被帶走調查

遼寧省交投集團原董事長被帶走調查

地產微資訊
2026-04-30 14:26:19
殲15霸氣喊話日本軍機:你在我導彈射程內

殲15霸氣喊話日本軍機:你在我導彈射程內

閃電新聞
2026-04-30 15:08:43
巡察組剛進駐,格力集團原董事長主動投案

巡察組剛進駐,格力集團原董事長主動投案

大風新聞
2026-04-30 08:38:02
日本鐵路設計專家稱,乘坐中國高鐵“感覺吃虧了”,“因為沒窗”

日本鐵路設計專家稱,乘坐中國高鐵“感覺吃虧了”,“因為沒窗”

巢客HOME
2026-04-30 08:20:08
威廉凱特光腳躺草地,卻給了大洋彼岸的梅根,最響亮的一記耳光!

威廉凱特光腳躺草地,卻給了大洋彼岸的梅根,最響亮的一記耳光!

白露文娛志
2026-04-30 11:01:36
教育部正式批準!上海交通大學設立國內首個“海洋智能與無人技術”本科專業!

教育部正式批準!上海交通大學設立國內首個“海洋智能與無人技術”本科專業!

海洋知圈
2026-04-29 22:01:12
你發現沒,現在還在開燃油車的,基本上就是這六種人!

你發現沒,現在還在開燃油車的,基本上就是這六種人!

藍色海邊
2026-04-30 13:03:31
阿聯酋“單飛”,特朗普又“贏麻了”?丨大象財富

阿聯酋“單飛”,特朗普又“贏麻了”?丨大象財富

大象新聞
2026-04-29 13:12:05
青樓出身,無法生育被休,改嫁上將連生11子,人人敬重的廣東之母

青樓出身,無法生育被休,改嫁上將連生11子,人人敬重的廣東之母

浩渺青史
2026-04-28 15:40:40
山西晉城澤州警方:重大刑案犯罪嫌疑人李某已被抓獲

山西晉城澤州警方:重大刑案犯罪嫌疑人李某已被抓獲

新京報
2026-04-30 13:30:21
看來是真的,港媒:055驅逐艦在菲律賓附近發射鷹擊-20導彈

看來是真的,港媒:055驅逐艦在菲律賓附近發射鷹擊-20導彈

愛吃醋的貓咪
2026-04-29 21:16:58
炸鍋了!詹姆斯都攔不?。?!一句話就是上萬美金?。?>
    </a>
        <h3>
      <a href=炸鍋了!詹姆斯都攔不住??!一句話就是上萬美金??! 柚子說球
2026-04-29 21:34:07
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
季后賽發揮拉胯的7位球星:5年3億場均21+4,杜倫親手打沒2億頂薪

季后賽發揮拉胯的7位球星:5年3億場均21+4,杜倫親手打沒2億頂薪

你的籃球頻道
2026-04-30 11:51:52
2026-04-30 16:56:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11733文章數 117058關注度
往期回顧 全部

科技要聞

四巨頭財報齊發:AI已經不只是風口

頭條要聞

中國船員滯留霍爾木茲60天:獎發到位 大部分愿繼續干

頭條要聞

中國船員滯留霍爾木茲60天:獎發到位 大部分愿繼續干

體育要聞

騎士天王山:哈登、莫布里和……施羅德?

娛樂要聞

孫楊博士學歷有問題?官方含糊其辭

財經要聞

醫美偷稅手法曝光 借免稅優惠來避稅被封堵

汽車要聞

專訪捷途汪如生:捷途雙線作戰 全球化全面落地

態度原創

親子
本地
健康
數碼
游戲

親子要聞

寶寶草坪瘋狂練一字馬?娃:爸,這草是真扎啊

本地新聞

用青花瓷的方式,打開西溪濕地

干細胞治燒燙傷能用了么?

數碼要聞

英雄聯盟/DOTA2 2026HyperX?暗影精靈?PRO?16 Intel MOBA 解析

《AC黑旗RE》重磅情報公開!全UI自定義 沉浸拉滿

無障礙瀏覽 進入關懷版