![]()
凌晨三點,告警群響起來。CPU 100%、業務大面積超時,值班 DBA 爬起來登控制臺、抓 Top SQL、查鎖等待、拉業務方對齊——半小時過去,根因剛剛定位到。
這是過去十年大多數數據庫團隊的日常。但到 2026 年這套打法已經撐不下去:數據庫形態從關系型走到 NoSQL、云原生、分布式、多模,復雜度指數級飆漲;資深 DBA 培養至少三年,人力線性增長,怎么追都追不上。剪刀差越拉越大,堆人、堆工具、堆 SOP 都走到了頭。問題不再是"要不要讓 AI 接管",而是"怎么讓 AI 真的能接管"。
圍繞這個命題,騰訊云數據庫團隊的解法可以拆成三層來看:診斷引擎怎么進化、安全底座怎么搭、Agent 怎么跑通生產閉環。
1 撬開監控黑盒:DBbrain 把診斷手藝打包成 AI 算子
數據庫運維最折磨人的從來不是看不到指標,而是看到 CPU、IO、QPS 飆紅,卻沒法解釋"到底是誰在搞事"。傳統監控站在數據庫外側往里看,能拿到的都是粗粒度數據,根因只能靠老 DBA 的直覺。
DBbrain 的思路是鉆進內核里去——基于 MySQL Performance Schema 做內核級觀測,疊一層全鏈路 SQL 審計,數據庫每一刻在發生什么都被記錄下來。
核心是一條 Average Active Sessions(AAS,平均活躍會話數)曲線疊加 Max vCPU 水位線:AAS 低于水位線時資源穩得住,一旦超過業務就開始變慢,不用對照一堆指標心算。異常發生后框選時間段,通過 Top Waits、Top SQL、Top Host/User/Database 五維交叉切片互相印證——比如等待是鎖等待 + Top SQL 里有條慢 UPDATE + Host 集中在某業務網段,根因即刻鎖死。死鎖場景也不用再靠 SHOW ENGINE INNODB STATUS 一行行刨,DBbrain 抓鎖快照、自動梳理阻塞關系、組織成阻塞樹,找到根節點一鍵 kill,從異常到止損分鐘級搞定。
真正燒腦的是另一種場景——CPU 突然打滿,慢 SQL 干干凈凈。元兇是微秒級 SQL 并發風暴:單條 SQL 執行只要幾十微秒,業務接口沒限頻瞬間洪水般灌進來,Performance Schema 一秒采一次根本捕捉不到。DBbrain 上全量數據庫審計配合 SQL 指紋聚合分析和秒級時間窗口聚合,框選異常那一秒問題模板立刻浮出來。止損疊上 SQL 級限流——按指紋設并發上限,超出的請求在應用端直接失敗,先把數據庫保住。
基于 10w+ 工單積攢的診斷手藝,這次集體打包成 API、封裝為標準 AI 算子,作為"診斷大腦"接進 DatabaseClaw。
2 Agent 進生產的門檻:先想清楚它不能做什么
讓 Agent 直連生產數據庫,聽上去很美做起來要命。騰訊云團隊動手時,第一份清單不是"Agent 能做什么",而是"Agent 不能做什么":不能持有數據庫密碼、不能自由執行 DROP/TRUNCATE、不能越權、所有動作必須可審計、高危變更必須有人兜底審批。寫完發現,這不就是 DBA 二十年來一直在盯的事嗎?只不過操作者從人換成了 AI。
巧的是 DMC(騰訊云數據庫管理產品)沉淀的能力恰好把這張清單一條條對上:賬號統一托管、庫表粒度最小權限、規則模板攔截無 WHERE 的 UPDATE/DELETE、高危 SQL 強制走多級審批、全程留痕。這套機制抬一層就成了 Agent 操作生產環境的安全底座。
但融合沒那么順,團隊踩了三個坑:概念沖突——用戶不關心"快捷登錄實例"和"管控實例"的分類,只想知道"我有哪些庫能用",戳破了工具型產品和 AI 原生產品根本是兩套語言;信任沖突——同一個高權限賬號 DBA 用沒問題給 AI 用立刻不放心,賬號沒變但用戶那桿心理秤變了;審批沖突最關鍵——發起 / 查詢 / 催辦都可以 Skill 化,但審批不能,審批的本質是決策不是操作,一旦交出去整條鏈路就沒人卡得住。
捋清后團隊把 DMC 能力做了四象限:直接 Skill 化(庫表查詢、SQL 執行)、改造后 Skill 化(統一數據源概念)、堅決不做 Skill 化(規則模板和審批是護欄)、Agent 自己長出來(意圖識別、對話級數據源選取),拼出"開放—管控—追溯"的企業級 Agent 操作閉環。
3 DatabaseClaw:讓 Agent 真的能托付
主角登場。DatabaseClaw 是騰訊云數據庫專屬的 AI Agent,安全防護鋪了四層:權限上對齊 CAM、憑證動態生成限時生效;訪問上不索要明文密碼、所有 SQL 通過 DMC 走;行為上把 SQL 操作分 L1~L4 四級,寬條件 UPDATE/DELETE、TRUNCATE、DROP 這些 L4 高危操作 Agent 永遠不能碰;架構上部署在客戶自有 VPC、數據物理上不出域,大模型只接收脫敏后的元數據。
光有安全還不夠,DatabaseClaw 的殺手锏是 Skill 生態——把頂尖 DBA 的實戰經驗固化成可調用、可復用、可組合的能力單元,來自三個地方:騰訊云內部真實工單打磨的官方 SOP、SkillHub 上的社區 Skill、客戶自己沉淀的私有 Skill。
舉個例子:某條線上 MySQL 的 SQL 突然變慢,通用大模型上去會"就事論事"地查索引、查表結構、查掃描行數,告訴你"看著沒啥問題"。真正的根因藏在外面——一個 DTS 同步任務在拖累主庫。這種受 DTS、備份、參數模板下發等外部任務干擾的場景,模型再強也想不到。DatabaseClaw 調預置診斷 Skill 自動把關聯服務狀態拉過來比對,根因瞬間現形。Skill 等于把 DBA 的經驗工程化——這是模型再大也替代不了的事。
效率提升肉眼可見:CPU 異常排障老路子半小時起步,DatabaseClaw 2~3 分鐘給出修復建議;例行巡檢從"實例視角"升級到"業務視角",跨實例、跨 Region、跨產品統一巡檢,自動 highlight 問題、對比歷史趨勢,效率拉高 6 倍(騰訊數據庫內部團隊的真實基線)。
它也不會停在發布那一刻。團隊從內部抽 6800+ 張真實工單做評測、精選 198 道題覆蓋 CPU 打滿、慢 SQL、主從延遲等場景,Agent 輸出與專家校驗比對反推能力進化;通過 Memory 積累經驗、Skill 注入專家知識、業務領域學習理解客戶特征,越用越懂業務。
AI 原生產品最大的紅利從來不是大模型本身多強,而是它把那些已經存在、被認為"定型"的存量能力重新激活。DBbrain 讓 AI 看清楚、DMC 讓 AI 守規矩、DatabaseClaw 把兩件事串起來跑通業務閉環——數據庫運維這件事上,AI Agent 第一次從"能用"走到了"可托付"。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.