![]()
當多個數據庫集群同時發生故障時,思科IT團隊其實已經掌握了診斷問題所需的全部數據。預警信號就在那里,工程師們也看到了。然而問題在于,這些信號分散在彼此不互通的獨立系統中,團隊無法在事發時進行實時關聯分析。
隨之而來的,是一場持續三個小時、橫跨三條獨立會議線路的"戰時會議"。工程師們在一條線路上爭論問題歸屬,應用負責人在另一條線路上等待數據庫恢復,高管們則在第三條線路上向業務合作伙伴解釋為何用戶無法下訂單。故障根因最終被找到,但宕機已經造成了實際損失。
正是這次事件,促成了一個整合項目的啟動。思科IT可觀測性團隊產品經理Anusha Nataraj在思科Live大會上詳細介紹了這一項目的始末。
該項目迄今已將重大事故數量減少25%,并在過去六個季度內實現零重大網絡故障。這套系統覆蓋超過1500個應用程序,其中逾71個面向外部用戶,跨越10萬余個端點,每月處理超過1.5萬次變更。支撐這次整合的核心平臺是Splunk——思科于2024年完成了對其收購。如今,思科IT正在自身的全球基礎設施上運行這套由自家研發的產品。
"我們有數據,我們有所有的數據,只是它們沒有被串聯起來,我們無法從整體上看清全貌。"Nataraj說道。
整合前的碎片化困境
整合前,思科IT的可觀測性環境并非存在單一缺口,而是缺口遍布。日志數據被分散存儲在部分部署的Splunk實例和Elastic實例中,指標數據則橫跨Prometheus、Grafana以及自研解決方案。事件管理運行在另一套獨立的自研平臺上,這些系統之間互不關聯、數據無法互通。
團隊曾考慮繼續沿用原有的混合方案,包括Datadog和Elastic,也評估過拼接而成的開源替代方案。最終放棄這些方案,主要基于三點原因:無法擴展至思科IT的運營規模、缺乏團隊所需的AI能力,以及沒有一條思科IT作為客戶能夠參與影響的產品路線圖。
"它們在部門層面可以運轉,但無法擴展到我們整個IT體系的需求,而且在AI成熟度上也達不到我們的預期。"Nataraj表示。
她特別強調,這一決策并非受2024年收購事件驅動,團隊是基于自身需求對Splunk進行獨立評估,最終因其契合度、可擴展性及AI路線圖而作出選擇。
三步走的整合路徑
此次整合遵循明確的三步推進順序。
第一步,日志整合:將所有日志遷移至Splunk Cloud,同步退役Elastic及其他日志實例。
第二步,指標整合:目前正在推進中,隨著工作逐步完成,Prometheus、Grafana及自研技術棧將陸續退役。
第三步,通過ITSI引入業務上下文:團隊正在部署IT服務智能平臺(ITSI),在統一的日志與指標數據之上疊加業務維度的洞察。
可觀測性總體擁有成本削減86%的成果,正是來自第一階段。超過400臺本地服務器及其關聯存儲設備被下線退役,多平臺許可證得以整合,負責監控這些服務器的承包商人員數量也隨之縮減。
"我們下線了大量本地服務器,超過400臺,與之相關的存儲設備也全部關停,這為我們節省了大量成本。"Nataraj說。
從"戰時會議"到單屏處置
運營模式的變革在事故響應方式上體現得最為直觀。大會期間播放的一段演示視頻完整呈現了現有的工作流程。
當ITSI觸發告警時,只需單擊一下,即可啟動一個定制化AI智能體,該智能體能夠實時查詢日志、指標、鏈路追蹤數據、拓撲結構及近期變更記錄,隨即以自然語言形式輸出故障摘要,說明"故障是什么、為何發生、如何修復",并為DevOps、應用及SRE團隊分別提供針對性的處置建議。如需升級處理,智能體還會自動為值班工程師起草交接說明。整個排查過程在單一界面內完成,甚至無需創建事故工單。
成效顯而易見。一旦出現問題,三線并行的"戰時會議"已成歷史,團隊可以直接定位問題所在,響應行動只涉及真正需要處理的人員。"我們的事故數量實際上已下降25%,在過去六個季度中沒有發生任何重大網絡故障。"Nataraj說。
對同規模IT運營團隊的實踐啟示
Nataraj為同等規模的IT運營團隊梳理了這一項目的幾點實用經驗。
先統一數據,再引入AI。沒有統一的數據平臺,AI就沒有可靠的基礎可言。必須先將所有數據納入統一架構,一切才有意義。
實現跨團隊數據共享。數據關聯分析只有在相關團隊能夠訪問數據的前提下才有價值,因此該團隊從一開始就構建了跨域數據共享機制。
將變更與發布數據納入可觀測性體系。將變更管理記錄與可觀測性數據打通,使團隊能夠將故障追溯至引發問題的具體變更,并維護相應的回滾方案。
將成本節約轉化為創新預算。總體擁有成本的大幅削減,為團隊從日常監控工作中解放出來提供了資源保障。原本負責容量管理和服務器監控的工程師,如今正在基于Splunk的MCP工具構建AI智能體,參與新工具的Alpha和Beta測試,并將產品反饋直接輸送給思科Splunk團隊。
"以前他們純粹是在關閉工單,"Nataraj說,"現在他們是創新者,戴上了產品經理的帽子,對自己的工作真的感到滿意。"
工作滿意度提升、人才留存率改善、承包商數量減少,Nataraj將這些都列為項目可量化的投資回報。"讓團隊保持積極性、讓他們感到滿意,對每一個組織來說都是實實在在的投資回報。"她說。
Q&A
Q1:思科IT的可觀測性整合項目具體取得了哪些成果?
A:該項目在可觀測性總體擁有成本上實現了86%的削減,主要來自退役超過400臺本地服務器及其存儲設備、整合多平臺許可證以及減少承包商人員。與此同時,重大事故數量下降25%,過去六個季度內實現零重大網絡故障。覆蓋范圍涵蓋超過1500個應用程序、逾10萬個端點,每月處理超過1.5萬次變更。
Q2:思科IT為什么選擇Splunk作為可觀測性整合的核心平臺?
A:團隊對包括Datadog、Elastic及開源替代方案在內的多個選項進行了評估,最終放棄它們的原因有三:無法擴展至思科IT的運營規模、AI能力成熟度不足,以及缺乏思科IT作為客戶能夠參與影響的產品路線圖。Splunk憑借契合度、可擴展性及AI發展路線圖脫穎而出,這一決策獨立于2024年的收購事件之外。
Q3:思科IT在事故響應中使用的AI智能體是如何工作的?
A:當ITSI觸發告警時,工程師只需單擊一下即可啟動定制化AI智能體,該智能體實時查詢日志、指標、鏈路追蹤、拓撲及變更記錄,以自然語言輸出故障原因與修復建議,并為DevOps、應用和SRE團隊提供針對性操作指引。如需升級,智能體還會自動起草值班交接說明,整個過程在單一界面內完成。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.