網易首頁 > 網易號 > 正文 申請入駐

AI能自己打紅警了!經濟拉滿零交戰慘遭打臉,玩家笑瘋

0
分享至


新智元報道

編輯:犀牛 所羅門

【新智元導讀】紅警不再只是童年游戲,而成了AI Agent的硬核訓練場:OpenRA-RL把25Hz實時戰場、50個工具調用和64局并發打包開源,讓大模型第一次真正站上RTS戰爭迷霧里的公開考場。

AI能自己打紅警了。


Hugging Face 剛扔出一個炸彈——OpenRA-RL,直接把經典 RTS《紅色警戒》改造成了大模型的 Agent 訓練場。


不是套個殼錄段視頻那種玩具級 Demo,是真·基礎設施級別的東西——

50 個 MCP 游戲工具全量暴露,25Hz 實時狀態流不間斷推送,單進程 64 局并發訓練,LLM、腳本 Bot、強化學習 Agent 三條路線全部打通。

更狠的是,它直接原生接入 OpenEnv 生態——TRL、torchforge、Unsloth 訓練框架即插即用。

當年 DeepMind 的 AlphaStar 打星際、OpenAI Five 打 Dota,靠的是幾千塊 TPU 和完全不可復現的定制架構。

普通研究者連門在哪都找不到。

而現在,開源社區第一次把 RTS Agent 訓練的門檻一腳踹到了地上——一臺消費級顯卡,一行pip install openra-rl,你就能站在同一條起跑線上。


實戰:經濟滿分,戰斗零蛋

讓我們看看實戰。

團隊用 Ollama 本地部署了一個 Qwen3 32B 模型,在 128×128 的盟軍地圖上對陣游戲內置的 Beginner AI,跑了 5 局。

Agent 通過 MCP 工具集接收結構化觀測、發出動作指令,每局前有策略規劃階段,結束后有反思復盤,從中提煉的經驗會注入下一局的系統提示。

結果:全部以平局告終,零次戰斗交鋒。


Agent 在每一局都成功建起了經濟體系,但從未生產出一支進攻部隊。

有趣的是,如果只看勝負,5 局全平,故事就講完了。

但 OpenRA-RL 提供了 8 維獎勵向量,畫面一下就豐富了:經濟維度得分 0.58-0.80,基建表現穩定,但戰斗和騷擾兩個維度是干脆的零。

這就是一個精確的失敗模式診斷——你能據此設計獎勵塑形和課程學習策略。

下面這段 Game 5 前 10 回合的決策日志,能直觀看到模型的「思考節奏」:

Turn  1 | get_faction_briefing()Turn  2 | end_planning_phase(strategy=「」Deploy MCV, build Power       Plant (300 ticks), then Barracks/War Factory (500/750),       train E1 + 1tnk, attack AI base at (64,64).「」)Turn  3 | deploy_unit(unit_id=120)Turn  4 | build_and_place(building_type=「」apwr「」)Turn  5 | advance(ticks=100)       -> tick=55,  cash=$5000, units=0, buildings=1Turn  6 | build_and_place(building_type=「」apwr「」)Turn  7 | build_and_place(building_type=「」powr「」)Turn  8 | advance(ticks=60)       -> tick=108, cash=$4923, units=0, buildings=1Turn  9 | advance(ticks=130)       -> tick=159, cash=$4838, units=0, buildings=1Turn 10 | advance(ticks=80)       -> tick=210, cash=$4753, units=0, buildings=1

三段式節奏清晰可見:情報+規劃 → 建造經濟 → 用advance快進來彌合 LLM 推理延遲和游戲速度之間的鴻溝。

工具調用分布也印證了這一點——advance占了全部調用的約 57%,這正是異步架構設計的核心價值所在。

另一個耐人尋味的細節:第 2 局的賽后反思發現了「戰爭工廠應該排在發電廠后面」這個建造順序錯誤,到第 4 局開局計劃確實改成了先建發電廠。

提示注入式學習能修復建造順序,卻填不上戰斗維度的零分——這恰恰就是從上下文適應到權重更新式強化學習應該產生可量化提升的地方。

為什么是紅警?為什么是現在?

為什么偏偏選紅警當訓練場?

先看一個問題:一個前沿大模型,不做任何RTS專項訓練,能在即時戰略游戲里撐多久?

誠實的回答是:沒人知道。

因為現有的 RTS 平臺壓根就不支持 LLM Agent。

SC2LE、PySC2 這些經典框架默認你的 Agent 在毫秒級別行動,動作空間是低層操作。

LLM 的需求恰恰相反——它需要高層接口、異步交互,以及對推理延遲從 40 毫秒到好幾秒劇烈波動的容忍。

硬把 LLM 往老框架上嫁接,能跑是能跑,但結果不可比較,別的團隊也沒法復現。

OpenRA-RL 選了經典 Westwood RTS《紅色警戒》作為底座,基于開源項目 OpenRA 魔改游戲引擎。

理由很樸素:策略深度夠,代碼干凈能改,自帶從 Beginner 到 Hard 的 AI 對手梯隊。

最終的效果是,你拿 Qwen3、Claude 還是一個 Python 腳本 Bot 來對打,都是同一個環境、零改動。

三明治架構

OpenRA-RL 的架構可以用「三層三明治」來理解:

最底層是魔改過的 OpenRA 游戲引擎,用 C# 寫的,以約 25Hz 的頻率不停跳動游戲心跳。

中間是 gRPC 橋接層,實時往外推送觀測數據、接收操作指令。

最上層是 Python 封裝,對外暴露 Gymnasium 風格的reset / step / close接口。

在此之上,MCP 服務器把 50 個游戲動作暴露為工具,任何兼容 MCP 的 LLM 客戶端都能驅動一局游戲。


這套分層的核心目的只有一個:Agent 的計算和游戲的執行完全解耦。

一個 40 毫秒一步的腳本 Bot 和一個 2 秒一步的 LLM,跑在同一個 25Hz 引擎上,互不干擾。

64 局并發:一個進程搞定

訓練和大規模評估需要大量并發對局。

早期 v1 版本一局游戲開一個 .NET 進程,跑 64 局需要約 40GB 內存,每次重置要 5-15 秒——完全不能用。

v2 版本的核心優化是:一個 .NET 進程承載 64 個會話。

關鍵發現是 ModData(單位屬性、建筑參數、科技樹、地圖規則)在初始化后不可變,加載一次就能跨會話無鎖共享。

僅此一項就回收了約 35GB 內存。

每個會話保留獨立的 World、OrderManager 和 BotBridge,彼此隔離。

結果相當暴力:重置延遲從 5-15 秒降到 256 毫秒(快了約 40 倍),64 會話總內存從約 40GB 降到約 6GB(省了約 7 倍),JIT 編譯從 64 次降到 1 次。

真正重要的事

OpenRA-RL 真正重要的不是讓一個大模型在紅警里造了幾座發電廠。

更重要的是:這個訓練場夠硬、夠準、夠開放。

環境本身有真實的策略深度——320 億參數的前沿模型對陣最弱 AI,5 局打下來零交戰,連一次進攻都沒發起過。新手難度的紅警就足以暴露大模型在建造順序、兵種搭配、進攻時機上的短板。

而且暴露得很精確:如果只看勝負,5 局全是平局,一個字就講完了;但 8 維獎勵向量會告訴你,經濟得分 0.58-0.80,基建表現不錯,戰斗和騷擾是干脆的零——弱點在哪、課程設計往哪開刀,一目了然。

團隊在博客里列出了幾個明確的下一步方向:

  • 基于 Qwen3 基線跑 GRPO(同一個 Agent,權重更新替代提示注入,看戰斗零分能不能動起來);

  • 利用 8 維獎勵做課程設計(從只需要戰斗維度的場景開始,逐級往上爬);

  • 跨模型橫評(Claude Sonnet、GPT 級模型、更小的本地模型,同一張地圖、同一個對手、同一個時間限制);

  • 以及 Agent 對 Agent 的排行榜競技。


對于 AI Agent 領域來說,這套工具的意義遠不止紅警本身。

AlphaStar 和 OpenAI Five 證明了 AI 能在 RTS 里達到超人水平,但那些成果被鎖在高墻之后——幾千塊 TPU、定制架構、不可復現。

OpenRA-RL 第一次把這堵墻推倒了一部分:一臺消費級顯卡,一行pip install,你就站在了 RTS Agent 研究的起跑線上。

紅警是一個信號——這是強化學習該登場的地方。

而現在,登場的門票終于不再只屬于 DeepMind 和 OpenAI 了。

參考資料:

https://huggingface.co/blog/jadetan/openra-rl%20GitHub%20-%20yxc20089/OpenRA-RL:%20Open%20Framework%20for%20AI%20Agents%20to%20play%20Red%20Alert%20through%20Reinforcement%20Le%20

https://huggingface.co/spaces/openra-rl/openra-rl%20

https://openra-rl.dev/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
媽媽穿秀禾出席兒子婚禮,前后換了3套禮服,網友:新娘要吃苦了

媽媽穿秀禾出席兒子婚禮,前后換了3套禮服,網友:新娘要吃苦了

離離言幾許
2026-04-28 07:13:26
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
網信部門依法查處“剪映”App等生成合成內容標識違法問題網站平臺

網信部門依法查處“剪映”App等生成合成內容標識違法問題網站平臺

每日經濟新聞
2026-04-28 17:02:59
今天,深交所史上最大IPO過會

今天,深交所史上最大IPO過會

PE星球
2026-04-28 08:35:14
CBA12進8:廣州男籃6人上雙客勝廣東,遼寧力克山東搶占先機

CBA12進8:廣州男籃6人上雙客勝廣東,遼寧力克山東搶占先機

燒體壇
2026-04-28 21:39:49
馬克龍宣布退圈后,小麗姐竟被喊“滾”?這次她終于崩潰坦白:愛麗舍宮9年,太黑暗!

馬克龍宣布退圈后,小麗姐竟被喊“滾”?這次她終于崩潰坦白:愛麗舍宮9年,太黑暗!

新歐洲
2026-04-27 19:48:33
俄烏戰爭的盡頭與普京的十字路口:黯然退下還是輝煌依然

俄烏戰爭的盡頭與普京的十字路口:黯然退下還是輝煌依然

民間胡扯老哥
2026-04-27 08:26:13
新規落地!5月1日起,飯局、轉賬或被全程監管,別大意!

新規落地!5月1日起,飯局、轉賬或被全程監管,別大意!

小談食刻美食
2026-04-28 07:30:36
老師批注學生“你的字和你一樣丑”?河南桐柏教體局通報

老師批注學生“你的字和你一樣丑”?河南桐柏教體局通報

界面新聞
2026-04-28 20:55:03
撒貝寧獲全國五一勞動獎章

撒貝寧獲全國五一勞動獎章

閃電新聞
2026-04-28 16:25:55
打臉了!大學生回村寫禮簿,字體“幼態”遭嘲諷:不如80歲老人!

打臉了!大學生回村寫禮簿,字體“幼態”遭嘲諷:不如80歲老人!

川渝視覺
2026-04-27 21:52:30
遼寧男籃先下一城,趙繼偉14+7穩定軍心 雙大外奇招 山東手感冰涼

遼寧男籃先下一城,趙繼偉14+7穩定軍心 雙大外奇招 山東手感冰涼

替補席看球
2026-04-28 21:25:00
普京想不到!就連馬克龍也想不到!特朗普居然承認:放棄全球霸權

普京想不到!就連馬克龍也想不到!特朗普居然承認:放棄全球霸權

安安說
2026-04-28 10:57:18
閆賢良突發疾病逝世

閆賢良突發疾病逝世

極目新聞
2026-04-27 22:13:06
收評:創業板指跌超1%收出4連陰 工業氣體、煤炭方向逆勢走強

收評:創業板指跌超1%收出4連陰 工業氣體、煤炭方向逆勢走強

財聯社
2026-04-28 15:02:16
87歲香港綠葉患癌拒絕治療,瘦骨嶙峋行動不便,已搬進深圳養老院

87歲香港綠葉患癌拒絕治療,瘦骨嶙峋行動不便,已搬進深圳養老院

八斗小先生
2026-04-28 10:54:08
收復藏南,必須同時遣返上百萬移民,中國絕不允許出現“印度族”

收復藏南,必須同時遣返上百萬移民,中國絕不允許出現“印度族”

朝子亥
2026-04-27 05:40:03
深圳這天,吳彥祖發福、周潤發干癟,郭富城穿10cm厚底鞋還矮半頭

深圳這天,吳彥祖發福、周潤發干癟,郭富城穿10cm厚底鞋還矮半頭

秋姐居
2026-04-27 19:35:02
《浪漫滿屋》女星宣布懷孕「一次就中」:演藝圈最高齡產婦

《浪漫滿屋》女星宣布懷孕「一次就中」:演藝圈最高齡產婦

ETtoday星光云
2026-04-28 13:24:15
迪士尼男子勸煙反被扇臉!賠償金五位數,警方定性,和解也得坐牢

迪士尼男子勸煙反被扇臉!賠償金五位數,警方定性,和解也得坐牢

青梅侃史啊
2026-04-28 11:47:47
2026-04-28 21:51:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15086文章數 66818關注度
往期回顧 全部

游戲要聞

《生化9》最初是里昂單主角 PC玩家更愛第一人稱

頭條要聞

女子花4080元買演唱會門票 想退退不了票還被他人用了

頭條要聞

女子花4080元買演唱會門票 想退退不了票還被他人用了

體育要聞

季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

中央政治局會議定調,八大看點速覽!

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

汽車要聞

拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

態度原創

健康
房產
手機
親子
時尚

干細胞治療燒燙傷三大優勢!

房產要聞

紅利爆發!海南,沖到全國人口增量第4!

手機要聞

3499元起,一加Ace 6至尊版手機正式發布

親子要聞

拍了幾年的急救視頻,模特小朋友長大了!拍到異物卡喉氣道梗阻的急救方法更新了,氣道完全梗阻五次拍背+五...

她們的人生牛仔褲,鏈接都在這了

無障礙瀏覽 進入關懷版