![]()
編者按:
AI智能體正重塑產業格局,2028年33%企業軟件將內嵌代理型AI。亞馬遜云科技通過Bedrock AgentCore的Policy與Evaluations構建“制度籠子”:自然語言定義行為邊界,13項評估器全流程監控,讓智能體在安全邊界內釋放價值——技術狂奔時,合規才是終極加速器。
用自然語言設定行為邊界,以持續評估機制構建安全防線,AI智能體的“制度籠子”正從技術理念變為企業級標準。
當AI智能體(Agent)從實驗室的概念驗證,一躍成為滲透金融審批、醫療輔助、跨境客服、代碼生成等核心場景的“數字同事”,一場效率革命正以前所未有的速度重塑產業格局。
Gartner預測,到2028年,33%的企業軟件應用將內嵌代理型AI,15%的日常工作決策將由智能體自主完成,而2024年這一比例幾乎為零。但狂奔的背后,風險隱患也在暗流涌動。
2025年被業界公認為“Agentic AI原點之年”,智能體已完成從“被動應答”到“主動執行”的范式躍遷。與傳統AI助手不同,現代智能體能夠拆解模糊任務、自主調度數據、協同外部系統,甚至在執行中自我修正,成為“人的延伸”。未來會有數十億個Agent活躍在各類場景,它們不再是簡單工具,而是能獨立完成復雜任務的協作伙伴,但缺乏規則約束的技術創新如同無舵之舟,遲早會偏離價值軌道,只有把安全合規作為底層邏輯,智能體才能真正賦能產業。
智能體的規模化發展絕不能“裸奔”。如何在釋放技術紅利的同時筑牢安全防線?亞馬遜云科技在re:Invent 2025中國行活動中給出了明確答案:通過Amazon Bedrock AgentCore平臺的Policy策略管制與Evaluations評估體系兩大核心工具,將抽象的制度規范轉化為可落地的技術約束,為智能體打造安全可控的“制度籠子”。
![]()
AgentCore Policy為智能體立“規矩”
筑牢事前合規防線
智能體“失控”的核心癥結,在于缺乏明確的行為邊界和權限規范。傳統智能體的權限管理依賴復雜代碼編程,技術門檻高且難以適配動態變化的業務與監管要求,而AgentCore Policy功能的推出,徹底改變了這一現狀,如同為智能體制定了一套可執行的“行為準則”,讓合規要求前置嵌入運行邏輯。
作為Amazon Bedrock AgentCore的核心能力之一,Policy隸屬于Gateway模塊,支持通過Cedar策略語言,以自然語言形式直接定義智能體的操作邊界和權限范圍,即使是非技術背景的合規人員也能輕松配置。這些規則會集成到運行環境中,對智能體的每一次數據訪問、系統調用和決策執行進行毫秒級實時校驗,確保其始終在預設框架內運行。
![]()
亞馬遜云科技大中華區產品部總經理陳曉建
通過Cedar,可以把策略在毫秒級之內就可以部署到Amazon Bedrock AgentCore Gateway。由于這些操作、這些策略不是在智能體內,它是在智能體和訪問的這些工具之間,所以它可以嚴格地保證智能體在執行操作的時候能夠嚴格地按照要求來。執行是通過Policy在智能體以外得到實施的,智能體的執行的時候,它不會去做跟這些策略相違背的這些行為。
比如,某跨境電商平臺通過自然語言設定規則:“當退款金額高于1000美元時,阻止智能體自主處理,觸發人工審核”,無需復雜代碼即可落地執行;醫療行業開發者設定“禁止智能體提供具體用藥建議”“涉及手術方案必須引導用戶咨詢主治醫生”等規則,有效防范醫療風險;金融機構則通過Policy限制智能體訪問核心資金賬戶,僅開放必要查詢權限,確保資金安全。更重要的是,Policy支持動態調整,企業可根據業務變化和監管更新實時優化規則,讓“制度籠子”始終適配實際需求,真正實現“信任,但要驗證”的治理原則。
![]()
AgentCore Evaluations做智能體的“督察員”
構建全流程質量管控
如果說Policy是“事前預防”的行為邊界,那么AgentCore Evaluations就是“事中監控”與“事后優化”的質量標尺,精準解決了智能體行為質量難以量化評估的行業痛點。傳統評估方式需要投入大量數據科學資源,搭建復雜評估體系,且難以應對智能體快速迭代帶來的動態變化,而Evaluations提供了開箱即用的全流程評估解決方案。
Evaluations內置13個預構建評估器,覆蓋正確性、安全性、實用性、工具選擇準確性、目標達成率等核心維度,無需企業額外搭建基礎設施。它如同智能體的“專職督察員”,通過持續采樣實時交互數據,對運行狀態進行全方位監測和量化評估。
![]()
在客服場景中,它能自動分析智能體回復的合規性和問題解決效率,比如當用戶滿意度在8小時內下降10%時,系統會立即觸發預警;在代碼生成場景,評估器會檢測輸出代碼的安全性和可擴展性,避免漏洞代碼引發系統風險;對于金融、醫療等特殊行業,Evaluations還支持基于自定義LLM和提示詞構建專屬評估器,滿足行業特定標準。
比如,通過自定義評估器,將“分析報告必須引用最新行業數據”“禁止提供確定性投資建議”等專業要求轉化為量化指標,確保輸出內容合規可靠。Evaluations讓智能體的行為可量化、可追溯、可優化,為企業提供了科學的質量管控工具。”
![]()
結 語
Policy與Evaluations的協同配合,構建起“事前設限—事中監控—事后優化”的全流程治理體系,讓智能體規模化應用有了安全保障。在這套體系支撐下,不同行業、不同規模的企業都實現了智能體安全落地。
值得注意的是,這套治理方案并非束縛智能體的創新活力,而是通過明確規則和科學評估,讓智能體在安全可控范圍內發揮最大價值。AgentCore的全棧架構支持Policy、Evaluations與Memory等功能深度協同,智能體在Policy劃定的邊界內自主運作,通過Evaluations發現的問題,可結合Memory功能優化后續行為,形成“治理—運行—優化”的閉環。這種模式既解決了企業對智能體安全的顧慮,又通過低代碼特性降低開發門檻,讓中小企業也能享受到技術創新紅利。
隨著智能體從辦公協同等基礎場景,加速滲透到支付處理、貸款審批、安全審計等嚴肅業務領域,治理體系的重要性日益凸顯。亞馬遜云科技的實踐表明,技術創新與風險治理并非相互對立,而是相輔相成的共生關系。AgentCore Policy和Evaluations的雙輪驅動,將抽象的制度規范轉化為可執行、可監測、可優化的技術方案,讓“把智能體關進制度籠子”從理念變為現實。
Policy劃定的行為邊界和Evaluations構建的評估體系,共同構成了智能體安全發展的“護欄”。這種治理模式不僅適用于當前的智能體應用,更為未來數十億智能體共存的數字生態奠定了信任基礎。
在AI技術飛速發展的今天,智能體的“瘋狂生長”是必然趨勢,但“裸奔式”發展絕不可取。畢竟再快的“裸奔”也無法抵擋風中的沙子。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.