![]()
編輯|Panda
2024 年底,硅谷和北京的茶水間里都在討論同一個令人不安的話題:Scaling Law 似乎正在撞墻。
那時候,盡管英偉達(dá)的股價還在狂飆,但多方信源顯示,包括彼時備受期待的 Orion(原計劃的 GPT-5)在內(nèi),新一代旗艦?zāi)P驮趩渭冊黾訁?shù)規(guī)模和訓(xùn)練數(shù)據(jù)后,并未展現(xiàn)出預(yù)期的邊際效益提升。另外,也有研究認(rèn)為預(yù)訓(xùn)練所需的數(shù)據(jù)將會很快耗盡,其甚至還預(yù)測了明確的時間節(jié)點:2028 年。
![]()
來自論文 arXiv:2211.04325v2
OpenAI 和 Safe Superintelligence Inc 的聯(lián)合創(chuàng)始人 Ilya Sutskever 當(dāng)時還留下了一句意味深長的判詞:「2010 年代是規(guī)模擴(kuò)大的時代,現(xiàn)在人們又回到了奇跡和發(fā)現(xiàn)的時代。」這句話在當(dāng)時被許多人解讀為悲觀的預(yù)警,也就是單純依靠堆砌算力和數(shù)據(jù)的預(yù)訓(xùn)練路線,恐怕已經(jīng)觸到了天花板。
直到 2025 年初,接連的驚喜打破了僵局。
那時候,OpenAI 的 o1 模型已在幾個月前率先引入了強(qiáng)化推理,展示了模型在思考時間換取智能深度上的驚人潛力,證明了 test-time scaling(測試時間擴(kuò)展)是一條通往更高智能的可行路徑。然而,o1 的閉源特性讓這項技術(shù)一度被視為只有巨頭才能掌握的「黑科技」。
2025 年 1 月 橫空出世的 DeepSeek R1 將 o1 的技術(shù)路線成功復(fù)現(xiàn)并徹底開源。它的意義不在于從零發(fā)明,而是用極低的成本和開放的姿態(tài)向全行業(yè)證明:Scaling Law 并沒有撞墻,它只是換了引擎
DeepSeek R1 等推理模型的成功揭示了一個事實:深度的推理能力比單純的參數(shù)規(guī)模更關(guān)鍵。通過強(qiáng)化學(xué)習(xí)(RL)驅(qū)動的思維鏈(CoT),模型在后訓(xùn)練階段展現(xiàn)出了類似于人類「慢思考」的推理能力。
![]()
DeepSeek-R1 的多階段訓(xùn)練流程,來自 arXiv:2501.12948v2
正如九章云極 DataCanvas AI 首席科學(xué)家繆旭在 2025 算力生態(tài)大會上回顧的那樣:「DeepSeek 的橫空出世,讓我們第一次感覺到,原來強(qiáng)化學(xué)習(xí)可以讓大模型的進(jìn)化速度再次提升。」對于更廣泛的開發(fā)者而言,這種「感覺」正是源于 DeepSeek 拉低了技術(shù)門檻。
![]()
看起來,算力的重心正從pre-training scaling(預(yù)訓(xùn)練擴(kuò)展)走向post-train scaling(后訓(xùn)練擴(kuò)展)test-time scaling(測試時間擴(kuò)展)
![]()
來自英偉達(dá)博客
在 2026 年的今天,我們已經(jīng)可以確信:大模型訓(xùn)練的下半場屬于強(qiáng)化學(xué)習(xí)
在這個階段,模型不再僅僅是基于海量預(yù)訓(xùn)練數(shù)據(jù)的概率涌現(xiàn),而是能像人類專家一樣,通過與環(huán)境的交互、試錯和自我博弈,進(jìn)行深度的邏輯推演。
如果說預(yù)訓(xùn)練是培養(yǎng)一個通識教育的畢業(yè)生,那么基于 RL 的后訓(xùn)練就是將其投入真實世界,進(jìn)化成一名真正的專家。然而,新的機(jī)遇也帶來了新的基建危機(jī):當(dāng)算力的消耗重心從靜態(tài)的訓(xùn)練轉(zhuǎn)向動態(tài)的探索與推理,現(xiàn)有的云計算架構(gòu)開始顯得力不從心。
行業(yè)呼喚一種全新的算力形態(tài),去承載這種以「進(jìn)化」為核心的新智能。而在這一輪基礎(chǔ)設(shè)施的代際更迭中,誰能率先定義這種形態(tài),誰就能握住下一個時代的入場券。
基于這一觀察,繆旭在演講中拋出了一個定義未來的公式:「當(dāng)智能可以并行進(jìn)化,強(qiáng)化學(xué)習(xí)云將成為群體智能的放大器。」
這里的關(guān)鍵詞「強(qiáng)化學(xué)習(xí)云」,正是九章云極為應(yīng)對這場范式轉(zhuǎn)移給出的基礎(chǔ)設(shè)施答案。作為獨(dú)立智算云賽道的領(lǐng)軍企業(yè),九章云極不僅首先提出了這一概念,更通過前瞻性的布局,率先定義了后訓(xùn)練時代的算力標(biāo)準(zhǔn)。
首發(fā)優(yōu)勢
為什么九章云極能定義「強(qiáng)化學(xué)習(xí)云」?
如果說 OpenAI o1 驗證了路徑,DeepSeek R1 引爆了熱潮,那么九章云極則是在最短時間內(nèi)率先給出了基礎(chǔ)設(shè)施答案。
僅僅數(shù)月后的 2025 年 6 月,九章云極便正式發(fā)布了業(yè)界首個工業(yè)級強(qiáng)化學(xué)習(xí)云平臺 Agentic RL
而當(dāng)時,放眼全球,盡管以 Anyscale (Ray) 為代表的硅谷先驅(qū)已經(jīng)在分布式計算框架層面為強(qiáng)化學(xué)習(xí)提供了底層支持,AWS、谷歌等云巨頭也已將 RL 視為通用機(jī)器學(xué)習(xí)平臺(如 SageMaker、Vertex AI)下的一個功能組件或工具包,但整體上主流市場的目光仍主要聚焦于如何構(gòu)建更大的預(yù)訓(xùn)練集群或降低傳統(tǒng)推理(inference 而非 reasoning)成本,尚未有任何一家企業(yè)像九章云極這樣,敏銳地洞察到智能體(Agent)時代的算力特征變革,并將「強(qiáng)化學(xué)習(xí)」獨(dú)立定義為一種全新的工業(yè)級云服務(wù)形態(tài)
這種能夠迅速捕捉前沿算法趨勢,并率先將其轉(zhuǎn)化為標(biāo)準(zhǔn)化、工業(yè)級云產(chǎn)品的能力,正是九章云極在獨(dú)立智算云賽道中確立首發(fā)優(yōu)勢與領(lǐng)軍地位的基礎(chǔ)。
為什么我們需要專門的強(qiáng)化學(xué)習(xí)云?
傳統(tǒng)的云計算架構(gòu),本質(zhì)上是為靜態(tài)負(fù)載設(shè)計的。無論是 Web 服務(wù)還是傳統(tǒng)的深度學(xué)習(xí)推理(inference),其計算特征相對線性且可預(yù)測。但強(qiáng)化學(xué)習(xí)截然不同,它是一個高頻交互、動態(tài)探索的過程。智能體需要在模擬環(huán)境中進(jìn)行海量的試錯,而這會導(dǎo)致算力需求呈現(xiàn)出劇烈的波峰波谷特征,且對異構(gòu)資源的調(diào)度有著極高的要求。
如果用傳統(tǒng)的靜態(tài)算力去跑 RL 訓(xùn)練,結(jié)果要么資源利用率極低,要么在探索高峰期直接卡死。
針對這一痛點,九章云極并沒有選擇在舊架構(gòu)上打補(bǔ)丁,而是進(jìn)行了系統(tǒng)級的重構(gòu)。其強(qiáng)化學(xué)習(xí)云 Agentic RL 基于混合專家(MoE)架構(gòu)與 Serverless 理念,實現(xiàn)了算力的「按需即取、即用即還」。
數(shù)據(jù)顯示,相比于傳統(tǒng)方案,Agentic RL可將端到端訓(xùn)練效率提升 500%,綜合成本下降 60%。更關(guān)鍵的是,它是全球首個支持萬卡級異構(gòu)算力調(diào)度的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施平臺。這種對大規(guī)模異構(gòu)算力的駕馭能力,標(biāo)志著九章云極已經(jīng)率先完成了從「賣資源」到「賣能力」的進(jìn)化。
Agentic RL:讓通用模型變成專家
顧名思義,Agentic RL 的核心是Agentic(智能體)RL(強(qiáng)化學(xué)習(xí))。但 Agentic RL 并不只是智能體與強(qiáng)化學(xué)習(xí)的簡單疊加,其內(nèi)涵蘊(yùn)涵了 AI 能力維度的一次關(guān)鍵躍遷:從單純的「內(nèi)容生成」轉(zhuǎn)向復(fù)雜的「決策控制」。
控制」尤為關(guān)鍵。在九章云極看來,無論是供應(yīng)鏈的動態(tài)調(diào)度,還是工業(yè)設(shè)計的精密規(guī)劃,本質(zhì)上都是一個高難度的控制問題。Agentic RL 的核心目標(biāo),正是通過 RL 賦予大模型這種在動態(tài)環(huán)境中精準(zhǔn)感知、規(guī)劃并執(zhí)行的能力,使其從單純的語言專家進(jìn)化為能解決實際物理世界難題的執(zhí)行者。
正是為了支撐這種「從生成到控制」的能力跨越,在 2025 算力生態(tài)大會上,九章云極 AI 首席科學(xué)家繆旭進(jìn)一步展示了其強(qiáng)化學(xué)習(xí)云背后的 Agentic RL 技術(shù)架構(gòu)。
![]()
簡單來說,Agentic RL 的使命是將通用模型進(jìn)化為專家模型,其應(yīng)具備長時程規(guī)劃、長/短期記憶、復(fù)雜工具調(diào)用、檢索增強(qiáng)生成優(yōu)化、角色一致性等多種能力。
![]()
基于此,繆旭提出了一個更宏大的終局構(gòu)想:未來的通用人工智能(AGI)可能不會是一個單一的巨型模型,而是由成千上萬個垂類專家智能體組成的「群體智能」。
不同于傳統(tǒng)的強(qiáng)化學(xué)習(xí),面向群體智能的 Agentic RL 面對的是極度復(fù)雜的目標(biāo),比如城市規(guī)劃的長時序約束,或工業(yè)設(shè)計的精密系統(tǒng)組合。為了支撐這種高難度的進(jìn)化,九章云極構(gòu)建了一些核心技術(shù),包括:
- 極致效能的異步系統(tǒng):針對 RL 訓(xùn)練中極不穩(wěn)定的負(fù)載特征,九章云極研發(fā)了全異步訓(xùn)練架構(gòu),通過 rollout 和 n+1 模型更新機(jī)制,成功將 GPU 利用率長期保持在 95% 以上。在算力昂貴的今天,這種工程優(yōu)化直接等同于巨大的成本優(yōu)勢。
- 5 倍速的離線進(jìn)化:針對強(qiáng)化學(xué)習(xí)樣本利用率低的頑疾,九章云極采用了「基于回放的離線強(qiáng)化學(xué)習(xí)算法」。通過對時間跨度的壓縮與樣本的高效回放,實現(xiàn)了 5 倍于傳統(tǒng)方法的訓(xùn)練速度提升。
![]()
- 安全探索的「世界模型」:在自動駕駛或醫(yī)療等「不能失敗」的領(lǐng)域,九章云極與高校合作構(gòu)建了可控的世界模型。它就像一個高保真的虛擬沙盒,讓智能體在其中放手試錯,解決現(xiàn)實世界「不敢探索」的難題。
![]()
Alaya NeW Cloud 的全棧重構(gòu)
九章云極強(qiáng)化學(xué)習(xí)云很強(qiáng),這離不開其精心構(gòu)建的 Alaya NeW Cloud 智能基礎(chǔ)設(shè)施。
不同于傳統(tǒng)云廠商在通用云上「打補(bǔ)丁」的做法,九章云極從一開始就圍繞智能體的運(yùn)行邏輯,完成了從底層基礎(chǔ)設(shè)施到上層應(yīng)用的四層全棧重構(gòu)。
![]()
除了底層技術(shù)的突破,九章云極在工程化落地層面也展現(xiàn)出了驚人的敏捷性。為了讓最前沿的模型能力即刻觸達(dá)用戶,平臺實現(xiàn)了云容器實例 (CCI)的一鍵式部署,全流程覆蓋,即開即用。以 2025 年終壓軸上線的滿血版 DeepSeek-3.2為例,在高端算力卡的加持下,其部署速度更快,運(yùn)行更高效,完美詮釋了平臺對最新 SOTA 模型的快速支持能力。
整體看來,在這個智能體時代,九章云極扮演的角色不再僅僅是互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)提供商,更是進(jìn)化環(huán)境提供商。
- 對于開發(fā)者:只要極少代碼即可啟動完整的「訓(xùn)練-推理-回傳」閉環(huán)。
- 對于產(chǎn)業(yè):無論是城市規(guī)劃、工業(yè)制造還是自動駕駛,每一個垂直領(lǐng)域的智能體都能在九章智算云上找到專屬的進(jìn)化路徑。
在黃山
打造城市級智算樣板
技術(shù)領(lǐng)先只是起點,能否在復(fù)雜的真實物理世界中落地,才是檢驗「領(lǐng)軍者」成色的試金石。
當(dāng)大多數(shù)智算中心還停留在「建機(jī)房、堆顯卡」的 1.0 階段,九章云極已經(jīng)率先在安徽黃山跑通了「智算+產(chǎn)業(yè)」的 2.0 閉環(huán)。這里不僅有一座算力中心,更有一個正在運(yùn)行的、基于強(qiáng)化學(xué)習(xí)云的城市級實驗樣本。
48 天奇跡,這就是九章速度
在黃山,九章云極創(chuàng)造了一個行業(yè)紀(jì)錄:48 天
是的,僅僅 48 天,一座規(guī)模達(dá) 500 PFLOPS 的「大位」智算中心便拔地而起并投入運(yùn)營。
這種令人咋舌的交付速度,不僅源于九章云極成熟的工程化能力,更驗證了其智算操作系統(tǒng)在異構(gòu)算力調(diào)度上的極致效率。
當(dāng)強(qiáng)化學(xué)習(xí)走進(jìn)「全程 AI 伴游」
「大位」智算中心絕非一座冰冷的機(jī)房,它是國內(nèi)首個「文旅+AI」城市級產(chǎn)業(yè)應(yīng)用基礎(chǔ)設(shè)施。
![]()
在這里,九章云極的強(qiáng)化學(xué)習(xí)技術(shù)找到了最復(fù)雜的演練場:人類社會互動。依托算力底座,黃山實現(xiàn)了國內(nèi)首個「全程 AI 伴游」景區(qū)。成千上萬個智能體正在這里學(xué)習(xí)如何理解游客的意圖、規(guī)劃最優(yōu)路線、處理突發(fā)狀況。
這實際上是一場大規(guī)模的 Agentic RL 社會實驗。每一個游客的反饋,都是一次 Reward(獎勵);每一次路線規(guī)劃,都是一次 Policy(策略)更新。這種在真實高頻場景中打磨出的智能進(jìn)化能力,遠(yuǎn)比實驗室里的數(shù)據(jù)更具商業(yè)價值。
智算經(jīng)濟(jì):不僅是投入,更是增長引擎
對于城市管理者而言,智算中心往往面臨「建得起、用不起」或「不僅燒電、還燒錢」的質(zhì)疑。九章云極則用數(shù)據(jù)打破了這一魔咒。
在本次大會發(fā)布的《2026 智算賦能城市產(chǎn)業(yè)發(fā)展白皮書》中,黃山被定義為「中小城市智算賦能標(biāo)桿」。易觀分析預(yù)測,隨著「大位」智算中心的全面達(dá)產(chǎn),每年將直接帶動黃山市營利性服務(wù)業(yè)增加值增長不少于 2 億元。
這一實戰(zhàn)成果,正如九章云極董事長方磊在大會現(xiàn)場所下的判斷:「全球 AI 基建正重構(gòu)生產(chǎn)力底座,算力核心價值在于普惠與落地效能。」 黃山模式的成功,正是這一理念的最佳注腳。
![]()
通過「智算基建+文旅賦能+場景落地+商業(yè)閉環(huán)」,九章云極證明了強(qiáng)化學(xué)習(xí)云不僅能消耗電力,更能生產(chǎn) GDP。
這種「黃山樣板」正在產(chǎn)生強(qiáng)大的磁吸效應(yīng)。大會現(xiàn)場,中科動力、百鵬互聯(lián)、歌歌 AI 等 6 家 AI 企業(yè)集中簽約落地。它們看中的,正是九章云極所構(gòu)建的這個既有算力底座、又有豐富場景的智算生態(tài)。
從技術(shù)上的「定義者」到商業(yè)上的「破局者」,九章云極用黃山的實踐告訴市場:下一代智算云,必須是能直接驅(qū)動產(chǎn)業(yè)增長的云。
終局思維
獨(dú)立智算云賽道的「頭號玩家」
在 AI 基礎(chǔ)設(shè)施的牌桌上,玩家雖多,但位置截然不同。有的在做「全能選手」(既做模型又做云),有的在做「賣水人」(只賣裸金屬)。而九章云極選擇了一條更為艱難、卻也更為遼闊的道路:做獨(dú)立智算云賽道的領(lǐng)軍者
獨(dú)立:真正開放生態(tài)的基礎(chǔ)
在「百模大戰(zhàn)」向「千行百業(yè)」轉(zhuǎn)型的今天,企業(yè)的顧慮顯而易見:如果我把核心業(yè)務(wù)數(shù)據(jù)交給一個同時也做大模型的云廠商,它會不會既是裁判又是運(yùn)動員?
這就是「獨(dú)立智算云」存在的根本邏輯:中立性
九章云極明確了自己的邊界:不與客戶爭利,不綁定特定模型。
![]()
這種「獨(dú)立性」在算力高度集中的當(dāng)下顯得尤為珍貴。針對目前行業(yè)內(nèi)只有不到 10 家巨頭公司掌握 10 萬卡以上資源的現(xiàn)狀,九章云極明確倡導(dǎo)「開源 1000 專家模型」。
他們期望通過動態(tài)組合來放大群體智能,為那 10 萬家中小企業(yè)提供高效的智能化解決方案,讓每一個垂直領(lǐng)域的 Agent 都能在九章智算云上找到專屬的進(jìn)化路徑 。
![]()
這種「獨(dú)立智算云+開源專家模型」的組合拳,徹底區(qū)別于那些試圖綁定自家閉源大模型的巨頭云廠商 ,使其更有可能成功構(gòu)建起真正的開放生態(tài)
正如其發(fā)起的 AI-STAR 企業(yè)生態(tài)聯(lián)盟,并沒有排他性的門戶之見,而是連接了上游芯片廠商與下游應(yīng)用廠商,共同組成了一個自主可控的產(chǎn)業(yè)鏈閉環(huán) 。
領(lǐng)軍:從賣算力到定標(biāo)準(zhǔn)
何為領(lǐng)軍?不僅是規(guī)模最大,更是掌握定義規(guī)則的權(quán)力。
在算力計費(fèi)混亂的草莽時代,九章云極率先推出了 「1 度算力」 的普惠化標(biāo)準(zhǔn),試圖讓算力像水電一樣可度量、可流通。
![]()
而在后訓(xùn)練時代,九章云極再次通過強(qiáng)化學(xué)習(xí)云定義了下一代基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)架構(gòu):一套包含 Agentic RL 技術(shù)架構(gòu)、Serverless 彈性調(diào)度和異構(gòu)資源管理在內(nèi)的完整操作系統(tǒng)。
這正是九章云極區(qū)別于普通云廠商的核心標(biāo)志。
以領(lǐng)軍之姿
為企業(yè)打造進(jìn)化引擎
2026 年,當(dāng)我們談?wù)撛朴嬎銜r,語境已經(jīng)變了。
如果說過去十年的云計算是「能源時代」,廠商們比拼的是誰的電費(fèi)更便宜;那么未來的十年,我們將進(jìn)入「進(jìn)化時代」,競爭的焦點是誰能讓智能體進(jìn)化得更快、更強(qiáng)。
作為獨(dú)立智算云賽道的領(lǐng)軍企業(yè),九章云極通過首創(chuàng)的強(qiáng)化學(xué)習(xí)云 Agentic RL,已經(jīng)率先拿到了通往這個新時代的鑰匙。它不僅僅是在提供算力,更是在為在這個星球上即將涌現(xiàn)的無數(shù)硅基智能體,提供進(jìn)化的源動力。
在黃山的數(shù)據(jù)中心里,成千上萬個智能體正在 7x24 小時地自我博弈。對于九章云極而言,這個關(guān)于「進(jìn)化」的故事才剛剛開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.