![]()
智東西
作者 陳駿達
編輯 漠影
隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和復雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率并降低人力成本。
然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分布式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反復驗證,自行界定問題并尋求解決路徑。
要提升智能體在此類復雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。
正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。
![]()
這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。
一、百億條運維數據,煉出103道“考題”
任何評測體系的價值,最終都建立在數據質量之上。對于運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和復雜性,許多問題并不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。
無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,并取得明顯成效。工單平均處理時長縮短50%,關鍵故障處理效率提升約6倍,運維人效提升超過5倍,綜合運維成本下降約30%。然而在實踐過程中,他們也發現行業缺少一套能夠客觀衡量運維智能體能力的標準體系,這成為推動AISHPerf-智算運維智能體評測基準誕生的重要原因。
這一需求背后有著非常現實的行業背景。隨著AI基礎設施規模不斷擴大,許多故障已經超出了傳統監控系統和規則引擎的處理能力。運維工程師不僅需要理解硬件設備狀態,還需要掌握網絡通信、分布式系統、容器平臺以及訓練框架等多層知識體系。智能體如果要進入這樣的場景,需要擁有相同的能力集合,并且要能真正將知識運用到實際問題解決中去。
為了構建高質量評測集,研究團隊從無問芯穹成立以來積累的百億條真實運維數據中進行篩選。他們收集了2024年至2026年初全部用戶工單、即時通信記錄、運維文檔以及線上集群監控告警數據,并通過多輪數據清洗剔除低質量內容。整個過程不僅包含去重和嚴格脫敏,還排除了與特定業務強綁定、無法泛化的問題案例,確保最終保留下來的樣本既真實可信,又具備普適評測價值。
經過嚴格篩選后,團隊從10萬條有效數據中進一步抽象整理,最終形成103個高保真評測用例。每一個案例都對應真實發生過的生產故障,包含完整的問題現象、排查路徑以及最終根因,確保評測結果能夠真實反映智能體在生產環境中的實際表現。
![]()
值得注意的是,AISHPerf-智算運維智能體評測基準覆蓋的問題范圍極其廣泛,按照技術棧層級將問題劃分為宿主機、高性能設備、容器平臺、訓推腳本、安全與運營商五大類,涵蓋44種問題現象和22個細分故障領域,基本覆蓋了真實運維場景中可能遇到的所有情況。
此外,所有問題共分為3種難度級別,平均人工處理耗時為1.5小時,充分保障了問題的復雜性與挑戰性。
對于智能體而言,這意味著它不僅需要理解單點故障,還要具備跨系統關聯分析能力,而這恰恰是現實運維工作中最具挑戰性的部分。
更有意義的是,該基準首次將國產算力平臺納入評測體系。天數智芯、壁仞科技、沐曦、摩爾線程以及昇騰等國產芯片相關問題均被覆蓋其中。
隨著國產GPU集群規模快速增長,越來越多企業開始部署異構算力環境,不同芯片架構帶來的兼容性和運維挑戰也隨之增加。將國產算力場景納入統一評測體系,不僅能夠提升基準的現實價值,也為未來國產智算生態建設提供了重要參考。
二、不考筆試考實操:故障模擬注入,智能體自主排障
如果說高質量數據決定了評測內容,那么評測方式則決定了測試結果是否具有參考意義。
當前大多數模型Benchmark本質上仍屬于“筆試”模式。模型面對一道題目,通過知識記憶和推理給出答案即可獲得分數。然而運維工作并非如此。現實中的故障往往沒有明確線索,工程師需要不斷收集信息、驗證假設并逐步縮小排查范圍,最終找到真正原因。因此,對一個真正優秀的運維智能體而言,考察重點不應該是知道多少知識,而是能否把問題解決掉。
AISHPerf-智算運維智能體評測基準最大的創新之一,正是在于將評測從知識問答轉變為真實實操。測試開始后,系統不會直接告訴智能體故障原因,而只會提供有限的問題描述以及真實運行環境。智能體需要自行調用工具、查看日志、執行命令、分析狀態,并在不斷探索過程中完成問題定位和修復。這種開放式測試模式更加接近真實生產環境,也對智能體提出了更高要求。
![]()
例如在“訓練任務卡死”場景中,評測系統會提前向環境中注入故障,同時提供一個包含訓練腳本的開發容器。智能體只能獲得來自用戶的一段問題反饋,之后需要獨立完成問題復現、原因分析和故障修復的全過程。整個過程對知識儲備、決策能力、工具使用能力以及長鏈路推理能力進行了全面的考察。
為了支撐這種實操評測,無問芯穹同時建設了配套工具AIops-Chaos。這是一套面向GPU集群的故障模擬工程,專門用于構造真實而可控的異常環境。在傳統運維測試中,直接制造硬件故障往往成本極高,而且存在設備損壞風險;而純軟件模擬又難以還原真實場景。AIops-Chaos則嘗試在兩者之間找到平衡。
通過軟件層面對GPU和RDMA等智算集群環境進行精準模擬,該系統能夠構造掉卡、顯存異常、NVLink故障以及網絡分區等多種典型問題,同時結合真實業務負載形成高保真測試環境。相比物理故障注入方式,這種方案既避免了設備損壞風險,又能夠實現快速重復測試,大幅降低驗證成本。
與此同時,團隊還推出了端到端評測工具鏈AIops-Eval。與現有評測框架相比,其最大的特點是能夠追蹤智能體整個決策過程。系統通過User、Agent、Env、Evaluator以及Tracing五大模塊,對智能體行為進行全流程記錄和分析,從而實現細粒度評測。
![]()
這種評測方式的重要性在于,運維智能體的價值既體現在最終能否解決問題,也體現在解決問題的路徑是否合理。如果智能體單純靠猜測來找到問題根因,其工程價值顯然遠低于真正與環境交互得到根因的智能體。因此,對過程進行評估成為衡量智能體實際能力的重要組成部分。
三、實測成績單出爐,三大失敗模式揭示智能體的“強項”與“死穴”
為了盡可能客觀衡量智能體能力,AISHPerf-智算運維智能體評測基準設計了一套結果導向的多維評估體系。
其中最核心指標是綜合得分。系統根據簡單、中等和困難三種難度的問題分別統計成功率,并按照不同權重計算總成績。這樣的設計避免了模型通過大量完成簡單任務獲得虛高分數,而是鼓勵其真正解決復雜問題。此外,評測還同時記錄平均耗時、Token消耗以及工具調用次數,從準確率、效率和成本多個維度進行綜合評價。
值得注意的是,評測明確規定智能體必須與環境發生真實交互。如果模型沒有調用工具而直接猜測答案,即使結果正確也不會得分。這一規則有效避免了投機行為,使評測結果更加真實可信。
在測試中,研究團隊選取了包括Claude Sonnet在內的多個國內外主流模型進行驗證,為了突出模型自身能力,測試環境僅開放Shell工具,同時禁止聯網搜索,所有問題都必須依靠自主分析完成。
測試結果顯示,雖然所有模型都展現出明顯高于人類運維工程師的處理速度,但總體得分仍然不高,全部低于50分。這意味著即使當前最先進的大模型,在復雜運維場景中依然遠未達到成熟可用階段。
![]()
進一步分析發現,隨著任務難度增加,各模型正確率迅速下降。在中等和困難問題上,大多數模型成功率不足50%。與此同時,工具調用時間占比持續增加,但最終正確率卻沒有同步提升。這表明模型雖然愿意收集更多信息,卻缺乏有效篩選和利用信息的能力,導致排查效率下降。
從技術棧維度來看,不同模型也呈現出明顯能力差異。整體而言,模型更擅長處理代碼邏輯和軟件層問題,而在GPU硬件、網絡設備等基礎設施故障上表現相對較弱。
![]()
面對硬件問題時,模型往往消耗更多Token進行分析,卻依然難以準確定位根因,反映出其技能與人類運維工程師存在差異。
![]()
這些差異恰恰證明了評測體系本身具備良好區分度。AISHPerf-智算運維智能體評測基準能夠清晰拉開不同模型之間的能力差距,說明其確實捕捉到了運維場景中的關鍵能力指標。
通過大量測試軌跡分析,研究團隊總結出當前運維智能體最典型的三類失敗模式。
第一類是穩定性不足,包括工具調用格式錯誤、執行流程異常終止以及違反規則等問題。
第二類是推理鏈質量不足,表現為只解決表面現象而未找到真正根因,或者在缺乏證據情況下直接下結論。
第三類則是安全性問題,一些模型可能執行危險命令,甚至導致環境崩潰,需要人工介入恢復。
這些失敗模式對于行業具有重要參考意義,為大模型在基礎設施場景后續的能力優化提供了明確依據。
結語:給運維Agent建立一把統一標尺
當AI進入大規模落地階段后,提升GPU利用率、縮短故障恢復時間以及降低運維成本,正在成為更加迫切的課題。運維智能體被寄予厚望,但其能力邊界究竟在哪里,同樣需要被客觀衡量。
AISHPerf-智算運維智能體評測基準的價值,正在于為行業提供了這樣一把統一標尺。它不僅首次將真實生產環境引入智能體評測體系,也讓“智能體是否真正解決問題”成為核心評價標準。
隨著未來更多模型、Agent框架和國產算力生態加入這一體系,這套Benchmark有望逐步演變為AI基礎設施領域的重要公共基線,為整個行業探索“AI for Infra”的未來提供持續參考。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.