來源:2025年度農村金融機構科技創新優秀案例評選
獲獎單位:甘肅農信
榮獲獎項:運維管理創新優秀案例
一、項目背景及目標
近年來,互聯網金融技術加速成熟,推動銀行業信息化架構、業務系統建設模式及基礎設施體系發生深刻變革。移動互聯網、人工智能、大數據、分布式、云計算等新技術的廣泛應用,不僅顯著提升了銀行生產效率與客戶服務能力,更對傳統運維管理體系提出了全新要求。為適配技術變革、支撐長遠業務發展,甘肅農信啟動新一代信息工程建設,實現了多項關鍵突破,建成兩地三中心基礎架構,數據中心承載數千個IT資源(涵蓋網絡、安全、服務器、存儲、云平臺、數據庫、中間件、大數據組件及應用系統等),3200余臺服務器支撐上百套業務系統運行,信息化建設整體水平大幅提升。
然而,隨著IT規模與業務復雜度同步增長,日常運維管理壓力持續加大,現有體系的短板逐漸凸顯:雖已部署硬件監控系統、日志監控管理系統,可實現基礎監控功能,但仍存在三大核心問題,一是監控維度單一,且工具獨立建設、缺乏統一運維管理平臺,導致運維工作呈“局部化、分散化”特征,各環節聯動不足,未形成整體運維體系;二是缺乏科學的主動規劃機制與標準化服務流程,服務質量無量化指標支撐,運維效率難以提升;三是缺失流程驅動的運維體系與自動化運維能力,監控指標覆蓋不全、基礎資源臺賬管理不統一、數據準確性不足,且日常運維流程不規范、應急事件無法自動處理等問題,無法從根本上得到解決,已難以適配新一代信息工程的運維需求。
基于上述信息化建設現狀與運維痛點,結合國家信息技術應用創新政策要求及甘肅農信新一代信息工程建設規劃,智能運維平臺的建設目標聚焦“補短板、提效能、促轉型”。一是破解分散運維困境,構建統一管理體系。依托分布式架構與大數據服務組件搭建的一站式運維工作平臺,整合現有獨立監控工具,打通硬件、日志等監控維度,實現運維數據、流程、資源的全面聯動,取代“局部化、分散化”運維模式,形成覆蓋IT全棧資源的統一運維管理體系,解決監控覆蓋不全、資源臺賬不統一等核心問題;二是推動運維升級,實現自動化智能化。以平臺為載體,建立科學的主動規劃機制與標準化服務流程,通過量化服務質量指標(如故障響應時長、修復效率)提升運維管控精度,同時落地流程驅動的自動化運維能力,實現日常運維任務(如資源配置、巡檢)自動化執行與應急事件快速自動處置,從“被動響應”轉向“主動預防”,緩解3200余臺服務器及上百套業務系統的運維壓力;三是支撐戰略轉型,夯實數字化根基。通過統一IT資產管理、統一數據管理及可視化呈現,為甘肅農信兩地三中心架構下的IT資源管控提供精準數據支撐,讓運維能力與新一代信息工程建設水平相適配,最終以高效、智能的運維服務,助力甘肅農信完成數字化轉型,更好地服務業務發展與實體經濟需求。
二、創新點
(一)建立統一的運維門戶。將智能運維平臺建成為甘肅農信基礎運維的統一入口,集硬件監控、應用監控、災備切換等平臺于一體;統一進行用戶權限、資源等的分配。通過IP白名單對自動化運維模塊進行網絡限制,用戶登錄智能運維平臺所展示的模塊及資源由用戶所屬權限以及所登錄的網絡域決定,極大的解決用戶的操作風險以及數據安全泄露等問題。
(二)建立流程驅動的作業場景。以ITSM流程為基礎觸發自動化作業完成流程的內容。新業務系統投產經過流程審批,流轉到相應的負責人通過自動化分配IP地址以及主機名、創建虛擬資源、安裝基礎監控、安裝日志采集、更新資源配置CMDB,關聯業務系統分組添加標簽。高效的解決了流程繁瑣,資源創建遲緩以及人工運維極大的工作量。具有豐富的自動化場景,場景涉及到日常業務系統的應用運維操作有單節點、單模塊、單中心、雙中心維護,數據庫運維場景;多種多樣基礎運維操作。隨著業務系統引入分布式微服務等多種架構,支撐業務運行的服務器激增,主要業務系統都有上百臺虛擬機,智能運維平臺開發了自動化巡檢功能了,將巡檢結果通過報表通知到業務負責人,極大的提高了運維的效率。
(三)聯動ITSM流程與告警管理。智能運維平臺作為甘肅農信的統一運維門戶,接入和監控了所有系統的告警。新產生的告警智能運維平臺自動進行告警的識別和判斷對部分告警將自動轉化為工單到服務臺,通過服務臺發起流程選擇不同的流程走向,及時處理了告警并留痕。流程設計靈活,滿足多種審批要求。爭對不同的要求對工單敏感內容進行加密,并對每個階段設計流程記時,動態對工單進行提醒。
(四)實現與多平臺數據互通校準資產臺賬。實時動態進行CMDB配置管理的資源更新,資源的上線下通過流程進行資源的更新。CMDB配置管理可進行個性化的資源配置,通過多種維度進行資源分組,直觀的查看資源的歸屬情況以及資源的使用情況。聯動多個配置項可查看每個資源之間的關系,通過資源關系可以查看業務系統的架構部署等情況。
(五)建立多維度分析報表。從多種維度(負責系統的告警數量、工單的及時處理率、處理工單的數量等)對平臺用戶進行分析,統計出用戶平臺的使用情況通過報表直觀展示。報表平臺還開發有涉及容量、告警、工單等實時查看報表、周報、月報等。
(六)提供豐富的內部辦公模塊。項目管理模塊對項目的生命周期進行管理,具體到申報材料、合同、后期付款;運營管理模塊對部門的會議等進行記錄附件的上傳;另建設有知識庫、文件存儲系統等,方便平臺用戶進行日常辦公使用。
三、項目技術方案
甘肅農信智能運維平臺采用“平臺+數據+應用”的中臺化建設模式,以工具平臺化、平臺組件化、組件服務化、服務場景化,下沉公共服務能力,為IT服務綜合平臺持續提供延延不斷的發展能力、創新能力。平臺在總體架構設計應上采用目前先進和成熟的微服務和大數據等互聯網架構,系統中各個模塊支持水平擴展以及集群化的部署方式,確保整個系統的高性能和高可靠性。當整個系統中被管節點增加時,可以通過水平擴展相應模塊的方式提升整個系統的性能表現。此外,為了使得整個系統在數據存儲和處理方面獲取較高的性能和可靠性,系統在數據庫選擇方面除了傳統的關系型國產化關系型數據庫以外,還采用了諸如MongoDB和ElasticSearch等非關系型數據庫提高運維數據存儲、處理和查找等方面的性能表現。并對系統中經常被訪問的數據,通過Redis數據緩存的方式,提升數據訪問響應的及時性。
被管資源層主要包含采控代理,包括部署在最終被管主機上的本地代理和部署在特定服務器上的監管代理。代理上可通過部署不同的模塊和插件實現相應的功能,本地代理主要負責所在宿主機的配置信息、運行指標采集,以及自動化操作的執行;監管代理主要提供遠程監控和遠程腳本執行能力,在多局域網環境上,監管代理也提供跨網匯聚能力,以便實現多個網絡的統一管理。
數據接入層包括數據服務網關和數據緩存隊列兩個主要的組件。數據服務網關由LVS+Keepalive+Nginx組成,LVS提供4層網絡的高效負載均衡,Keepalive保障LVS的高可用,保證不會出現單點故障;Nginx實現7層應用數據傳輸負載均衡,其負責將數據均衡傳輸給數據緩存隊列。數據緩存隊列采用Kafka實現,Kafka是一個分布式、多分區、多訂閱者模式的日志和消息系統,支持比較好的冗余備份,其具有處理速度快、高吞吐、可分布式部署等特點。Kafka將接入的數據緩存起來,并能及時通知數據處理層、應用層進行數據處理。
數據服務層提供數據處理、分析及存儲能力,數據的處理、分析主要通過SparkSteaming和SparkMlib,數據存儲由Redis、國產化關系型數據庫、MongoDB和ElasticSearch實現。Redis是一個分布式高速緩存庫,其通過內存進行數據存儲,并通過網絡允許多個應用共享緩存;MongoDB主要存儲配置數據、告警數據和工單數據,這些數據通常有靈活的數據結構,適合使用MongoDB這種文檔型數據庫來存儲;ElasticSearch是一個基于Lucene的搜索服務,它提供分布式多用戶能力的全文搜索引擎,是一種流行的企業級搜索引擎,平臺使用ElasticSearch存儲監控指標、日志和知識等體量大、需高效檢索的數據。
組件服務層主要為平臺提供公共的基礎服務能力,包括規則引擎、流程引擎和可視化引擎組件。規則引擎主要基于JBoosDrools實現,其提供聲明式的規則設定和計算能力,告警規則、工單處理規則等通過它來實現。流程引擎基于Activiti實現,它是一個BPMN2.0完整實現,提供強大高效的工作流引擎,工單和自動化處理基于它實現。可視化引擎組件提供統一的數據可視化展現能力,提供可視化視圖設計器、組件數據關聯和視圖大屏展現能力。
應用層包含各平臺和上層運維應用,運維管理平臺的應用都基于SpringBoot框架開發,它是一個微服務架構應用的最佳實現框架。在應用層還提供了三種接入網關:Web訪問接入網關、OpenApi接入網關和移動端接入網關,這些網關都是基于Nginx實現。Web訪問接入網關主要用于瀏覽器訪問接入;OpenApi接入網關用于與第三方系統的集成,為第三方系統提供OpenApi對接服務;移動端接入主要為移動端提供接入服務。
展現層為系統用戶提供最直觀的人機交互界面,包括PC瀏覽器和移動端,主要通過React技術開發,PC端和移動端盡可能保持交互統一,為用戶提供良好的用戶體驗。
![]()
智能運維平臺應用架構
![]()
智能運維平臺技術架構
![]()
智能運維平臺業務架構
四、項目過程管理
需求分析階段:2023年6月,需求分析完成。
設計階段:2023年10月,系統詳細設計完成。
開發階段:2024年1月,系統編碼、測試及上線準備完成。
測試階段:2024年3月,試點上線。
系統上線:2024年6月,全部推廣應用完成。
五、運營情況
甘肅農信智能運維平臺于2024年3月完成大部分功能的投產,現系統已穩定高效運行一年時間,現已實現130+套應用系統、3200+臺操作系統、150+套數據庫、10個虛擬化平臺的納管和監控;2024年度總計監控異常并告警2W+以上、準確通知到相關人員1.8W次以上。配置管理庫目前軟硬件資源已達到14000+以上。ITSM流程管理變更發布工單量已達到1000+,服務請求工單量已達到6000+。自動化管理實現54套應用系統一鍵啟停編配,63套自動化巡檢,另已實現日志易的自動化安裝、NAS的自動化掛載等。并有效支撐各類監控報表和數字大屏的設計開發。為業務系統的安全穩定運行做好支撐保障工作。
六、項目成效
1.經濟效益
甘肅農信智能運維平臺作為支撐科技運行的基礎平臺,不同于業務系統,沒有實際的業務運行。但平臺為甘肅農信業務安全穩定運行提供了重要保障和支撐。及時發現并解決業務系統運行中的問題,很好的避免了業務中斷損失。為甘肅農信的口碑和監管要求做出了巨大的貢獻。產生了巨大的經濟效益。
2.社會效益
通過本項目的建設,一是逐步完成我行基礎運維平臺的國產信創的替代,實現自主可控和安全可控,不再受制于國外廠商;二是保障了甘肅農信的業務穩定運行,提升了客戶資金的安全以及金融服務能力,為區域發展貢獻了科技力量;三是本項目的建設為行業基礎運維提供良好實踐和轉型路徑。
七、經驗總結
一是通過統一運維門戶與分級管控相結合,有效提升了整體運維的便捷度和安全性。整合硬件監控、應用監控、災備切換等分散平臺為統一運維入口,集中管理用戶權限與資源,避免多平臺切換繁瑣,提升運維便捷性。同時,通過IP白名單限制自動化運維模塊網絡訪問,結合“用戶權限+登錄網絡域”動態匹配展示模塊與資源,從源頭規避操作風險與數據泄露。該創新解決傳統運維“多入口、難管控”問題,平衡便捷性與安全性,為基礎運維提供穩定載體。
二是通過流程驅動自動化作業,可有效適配復雜運維場景需求。平臺以ITSM流程為核心觸發自動化作業,新業務系統投產經審批后,自動完成IP分配、虛擬資源創建、監控部署等操作,解決人工運維工作量大、資源創建遲緩問題。同時覆蓋單節點至雙中心維護、數據庫運維等場景,適配分布式架構下服務器激增需求,自動化巡檢功能還能將結果定向推送業務負責人,大幅提升運維效率,有效緩解上百套業務系統的運維壓力。
三是通過多模塊協同聯動,實現運維精細化與辦公一體化。平臺聯動ITSM流程與告警管理,告警自動轉化工單并靈活流轉,搭配敏感內容加密、流程計時提醒,實現告警處理“閉環留痕”。同時,CMDB動態更新校準資產臺賬,多維度報表直觀呈現運維數據,還建設項目管理、知識庫等辦公模塊,既實現運維全流程精細化管控,又為日常辦公提供支撐,形成“運維+辦公”一體化服務能力。
更多金融科技案例和金融數據智能優秀解決方案,請在數字金融創新知識服務平臺-金科創新社案例庫、選型庫查看。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.