網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

強化學習的進化：從PPO到MaxRL，LLM推理訓練的算法演進史

2026-05-05 14:16:31　來源: 機器之心Pro

河北舉報

0

分享至

機器之心編譯

強化學習已成為 LLM 后訓練技術棧中最重要的技術之一。它是促成 GPT-3 向 InstructGPT 轉變的關鍵要素。此后，它也成為當前這波推理能力提升浪潮的核心。

第一代針對 LLM 的強化學習以 PPO為主導。該方法最初為雅達利游戲和機器人等傳統強化學習場景開發，后來極其成功地適配到了 RLHF 中。

在提升推理能力這一目標的驅動下，第二代方法帶來了新一輪的算法演進。短時間內涌現了大量變體。多數變體與前代方法只有微小差異，但這些差異卻產生了深遠的影響。

本文簡明扼要地概述了用于推理 LLM 的強化學習（2024 至 2026 年）的主要進展。文章將從基礎知識（REINFORCE 和 PPO）講起，隨后探討 GRPO 及其后續的改進與優化方法。

原文地址：aweers.de/blog/2026/rl-for-llms/
作者：Alexander Weers

強化學習簡介

舉個具體的例子，機器人在房間內導航：狀態是其當前位置和傳感器讀數，動作是移動指令，狀態轉移的動力學由物理規律決定（如車輪可能會打滑），而獎勵則反映了其向目標推進的程度。

這個循環會持續 T 個時間步。智能體的目標是最大化期望的折扣回報

其策略通常由參數 θ 表示。許多強化學習算法中的一個核心概念是價值函數

它衡量了在策略 π 下處于狀態 s 的好壞程度。由此，我們可以推導出優勢，用于評估某個具體動作比預期更好還是更差。

人們依然可以對該環境進行建模。其中狀態為「提示詞加上之前生成的 token」，動作為下一個 token。但在實際操作中，通常無法為單個 token 分配有意義的獎勵。我們只能在給定提示詞的情況下，為完整的回復提供一個整體獎勵。如果強行分配，除最后一個 token 外，所有 token 的獎勵都將為零。這會讓問題設定變得不必要地復雜。

REINFORCE

我們從 REINFORCE 開始講起。它不僅在概念上很簡單，同時也是所有策略梯度方法的基礎。

在最簡單的形式下，REINFORCE 的目標函數是：

該目標函數的梯度具有一種簡單且易于解釋的形式：

作為對比，監督微調的梯度為

（請注意，SFT 損失是最小化的，而強化學習目標是最大化的）。

這一對比表明，REINFORCE 本質上是一種帶有權重的 SFT 形式。我們不再強化外部提供的異策略答案 y^*。相反，我們根據獎勵對采樣的同策略答案 y 進行加權，以此來強化或懲罰它們。

REINFORCE 的主要缺點是方差較大。即使獎勵結構相對明確（例如一個大型測試套件中，每個測試項貢獻部分獎勵），不同樣本之間的梯度估計值也可能存在巨大差異。

為了減小方差，REINFORCE 會減去一個與采樣動作（回復）無關的基線 b(x)。這使得期望梯度保持不變，因為

同時這通常能大幅降低方差。此時梯度變為

數量 r(x,y)-b(x) 便是優勢估計的最簡單形式。

PPO

PPO （近端策略優化）曾是占據主導地位的通用策略梯度算法。在過去幾年里，它也是 RLHF 的默認選擇。

PPO 的目標函數通常以一種看起來很復雜的形式呈現：

其中

有人可能會問：「對于同策略強化學習，這個值不應該始終為 1 嗎？」答案是肯定的，但這僅限于生成推演數據后的第一個優化器步驟。

引入這個比例是因為推演數據的生成成本很高。在實際應用中，人們通常會將生成的一批數據重復用于多個微批次更新或多個輪次的訓練。在第一個優化器步驟之后，訓練策略就不再與生成策略完全一致了。因此，PPO 變得略微帶有一些異策略的性質。該比例糾正了這種不匹配。同時，裁剪操作限制了優化過程偏離生成策略的程度。這是 PPO 對信任域的一種近似計算。

需要注意的是，裁剪不僅會影響目標函數的值，更重要的是會影響其對 θ 的依賴關系。由于我們通過優化 θ 來最大化 J，被裁剪的情況會產生零梯度，這是因為學習到的策略已不再是等式的一部分。由于此時已經超出了信任域，針對這些情況的更新將被跳過。

裁剪操作處理以下四種場景：

我們也可以將這種裁剪表達為一個掩碼：

采用這種表達方式后，目標函數可簡化為：

因此，PPO 本質上是一個帶有信任域掩碼、經過重要性加權的策略梯度方法。

對于優勢估計，PPO 使用了廣義優勢估計器（GAE）：

計算 δ 需要一個學習到的價值函數。在 LLM 的設定中，這通常需要一個額外的價值模型。其參數規模往往與策略模型相當。這會消耗大量內存，并增加訓練的復雜性。由于移除這一組件正是 GRPO 的主要實際貢獻，本文將不深入探討 GAE 細節。關于 PPO 及其所有組件的深度解析，請參閱這篇詳盡的文章。

最后，PPO 目標函數通常會結合 KL 正則化：

這里的 π_ref 通常是強化學習訓練前的模型。在 RLHF 中，這一項尤為重要。它保留了模型的通用能力，并有助于控制相對于獎勵模型的分布偏移（獎勵模型是在參考策略 π_ref 上訓練的）。在推理強化學習中，KL 懲罰項通常設置得非常小，甚至完全省略。

在其完整形式下，PPO 需要在內存中駐留四個龐大的組件：可訓練策略、推演策略、參考策略以及價值模型。

GRPO

GRPO （組相對策略優化）最初在 DeepSeekMath 中提出，隨后被 DeepSeek-R1 發揚光大。它移除了 PPO 的價值模型，取而代之的是一個相對組內的基線。

直觀上來說，一條推演數據的基線不再是一個學習到的價值函數。相反，它是同一提示詞下其他推演數據的表現。當獎勵稀疏但在每個提示詞下可以獲得多個樣本時，這種方法效果尤為顯著。

GRPO 目標函數保留了 PPO 風格的裁剪重要性采樣。在其最初的公式中，也包含了一個 KL 項：

組內歸一化帶來兩個有用的效果。減去均值使得學習信號變為相對于當前提示詞的信號。如果某個提示詞的所有樣本獎勵都在 [0.8, 1.0] 之間，那么 0.8 的獎勵含義，與所有樣本獎勵都在 [0.2, 0.8] 之間時截然不同。除以標準差則降低了對獎勵尺度的敏感度。當組合具有不同獎勵范圍的任務時，這一點非常有用。

然而，GRPO 成功的更重要原因非常簡單：它移除了 critic 模型。這大幅減少了內存占用，使得面向推理模型的大規模強化學習更容易運行。

RLOO

RLOO 從不同的方向得出了類似的結論：對于 LLM 微調場景，PPO 可能比實際需要的更復雜。

對于每個提示詞，RLOO 會采樣 K 個回復 {y_1, ..., y_K}。回復 y_i 的優勢等于其獎勵減去其他 K-1 個回復的平均獎勵：

這個基線是無偏的，并且不需要學習額外的價值模型。與 GRPO 不同，RLOO 不會除以組內的標準差。

更重要的是，RLOO 放棄了 PPO 風格的裁剪，轉而回到純粹的 REINFORCE 風格更新。

RLOO 的目標函數為：

作者提出，在他們的實驗中，這種裁剪機制僅在不到 5% 的情況下被激活。在這個場景下，它可能是不必要的。我們接下來會看到，后續的研究得出了不同的結論。

Dr. GRPO

DeepSeek 在其 DeepSeek-Math 和 R1 的論文中指出，隨著強化學習訓練的推進，回復長度大幅增加。他們將此歸因于推理和反思能力的提升（即著名的「頓悟」時刻）。

盡管這可能是一個驅動因素，Dr. GRPO （意為「做對的 GRPO/GRPO Done Right」）的作者們發現了另一個更重要的原因。標準的樣本級損失歸一化引入了一種偏置。這種偏置傾向于支持簡短的正確回復以及冗長的錯誤回復。

在常見的 GRPO 實現中，token 損失首先在每個序列內取平均值，然后再跨序列取平均值。這意味著一個固定的序列級獎勵會被均攤到序列中的所有 token 上。因此，如果回復正確，較長回復在每個 token 上受到的強化力度會更弱。如果回復錯誤，較長回復在每個 token 上受到的懲罰力度也會更弱。這可能會帶來過度冗長的傾向。

修復方法很簡單。Dr. GRPO 不再先除以序列長度再除以批次大小，而是除以一個固定常量（即最大 token 數）。這有效地消除了使得錯誤答案變得不必要冗長的激勵因素。

Dr. GRPO 還移除了另一種會引入有害偏置的歸一化操作。當每個提示詞的獎勵通過其標準差進行歸一化時，如果某個提示詞的所有答案都具有相似的獎勵（例如，除了一個答案外其他全都正確，獎勵方差很低），哪怕極其微小的獎勵差異也會放大成巨大的歸一化優勢。結果就是，模型在那些已經基本回答正確的提示詞上，可能會接收到極不相稱的巨大更新。

Dr. GRPO 的優勢估計簡化為：

這里沒有除以標準差。而且損失是在 token 級別通過固定歸一化進行聚合，而不是先根據序列長度取平均值。

這里傳達的實踐意義在于，GRPO 在根本上并沒有什么問題。只是其中一些看似無害的歸一化操作并非中立。在長文本推理任務中，它們改變了哪些提示詞和 token 會接收到梯度信號。

DAPO

DAPO （解耦優勢策略優化）對 GRPO 的多個組件進行了另一種深入分析，并提出了四項改進：

首先，DAPO 將樣本級的均值計算替換為了基于 token 級別的聚合計算（這與 Dr. GRPO 類似。不過 DAPO 除以的是實際 token 數量，而 Dr. GRPO 使用的是常量）。

第二項改進針對的是裁剪機制。PPO 的對稱比例裁剪對低概率 token 的限制尤為嚴格，甚至有些過度。例如，如果一個 token 的概率為 0.01，在 ε = 0.2 的情況下，其概率只能上升到 0.012 就會被裁剪。這幾乎無法改變其被采樣的可能性。這種機制會抑制模型學習那些罕見但有用的推理延續過程。

因此，DAPO 解耦了裁剪邊界。它采用了一個更大的上界 ε_high = 0.28，同時保留了原有的下界 ε_low = 0.2（即非對稱裁剪）。

結合 token 級別的聚合和非對稱裁剪，DAPO 的目標函數變為：

另外兩項改進并未修改目標方程，它們的作用在于提升單步訓練效率。

第三項改變是超長獎勵塑形。在許多設定中，被截斷的回復與完全錯誤的回復會獲得相同的獎勵。這種做法充滿了噪聲。一條回復可能包含了主要正確的推理過程，但仍然因為長度限制而被截斷。DAPO 在硬性截斷之前增加了一個軟性懲罰區域：

這創造了一個更明確的學習信號。因為略微超長的回復只會受到輕微的懲罰，而過度冗長的回復則會收到強烈的負面反饋。由此，模型能夠學習到問題出在回復長度上。模型避免了將截斷與徹底的任務失敗混為一談。

第四項改變是動態采樣。如果某個提示詞下采樣的所有回復全部正確，或者全部錯誤，那么組內相對優勢將全為零。該提示詞將無法提供任何梯度貢獻。在這種情況下，DAPO 會持續采樣，直到每個提示詞都出現了正負混合的結果。這確保了優化批次中的每個提示詞都能提供學習信號。這種方法提升了單步效率。由于較難的批次可能需要更多的生成操作，它也可能會增加實際運行時間。

CISPO

CISPO （裁剪重要性采樣策略優化）在 MiniMax-M1 報告中首次提出。它針對的是 PPO 風格裁剪的一個特定弱點：當一個 token 落在裁剪范圍之外時，PPO 會完全阻斷其梯度。

這種行為非常保守，有時甚至可以說是過度謹慎。那些經歷了大幅概率波動的 token 往往正是對于學習推理行為最關鍵的 token。報告中提到，像「However」（然而）、「Recheck」（復核）、「Wait」（等等）和「Aha」（啊哈）這類詞匯在基座模型中的概率很低，但它們卻可以作為推理軌跡中的分叉點。

如果每當比例變得過大時，這些 token 就會被屏蔽，那么這種丟棄富含信息的梯度的做法將大大延緩學習進程。

因此，CISPO 將裁剪與梯度流進行了解耦。它不再以一種產生硬性掩碼的方式來裁剪目標函數。相反，它僅裁剪重要性采樣的權重，并對該權重應用停止梯度（stop-gradient）操作：

其中 sg(·) 表示停止梯度。

有趣的是，他們報告稱只需使用并調節上邊界裁剪項 ε_h。下邊界 ε_l 則被設置為一個足夠大的值，使其在實際中處于未激活狀態。

這種公式化的表達既保留了重要性采樣權重裁剪帶來的降低方差的優勢，同時又允許所有 token 的梯度正常反向傳播。結果是帶來了更穩定的訓練過程，并且不會抑制對高信息量 token 的學習。在 MiniMax 的實驗中，與 DAPO 相比，其單步訓練效率實現了兩倍的提速。

CISPO 可以看作是 PPO 風格掩碼的一種軟性替代方案。它保留了信任域的直覺理念，同時僅僅裁剪權重，從而避免了刪掉整個更新的情況。

MaxRL

這一點非常重要。作者團隊證明了

因此，最大似然的梯度實際上是 pass@k 梯度的無限調和混合，而不僅僅是 pass@1 的梯度。標準的強化學習僅僅保留了該展開式的第一階項。

基于此，MaxRL 定義了一個受計算量索引截斷的目標函數家族：

期望梯度與此目標相匹配的同策略估計器非常簡單。給定某個提示詞的 N 個推演結果，設 K 為成功推演的數量。接著，MaxRL 僅對這些成功軌跡的得分函數求均值：

對于截斷至 T=N 的 MaxRL 目標函數，這個估計器是無偏的。它與 REINFORCE 的關鍵區別在于，在這種情況下，增加推演次數不僅能降低估計器的方差，同時也能使優化目標本身更好地逼近最大似然估計。

實證結果表明，MaxRL 提升了 pass@k 性能。與 GRPO 相比，它能更好地保留輸出多樣性，并在測試時算力擴展的效率上帶來了巨大的收益。

在概念層面，這種方法同樣頗具趣味。它將面向可驗證任務的強化學習，重新構建為在不可微采樣條件下的近似最大似然訓練。

DPPO

相比于 DAPO 或 CISPO，DPPO （散度 PPO）更加直接地重新審視了信任域問題。

它的核心批判點在于，PPO 僅僅基于采樣 token 的概率比例進行裁剪。這種方式可能并不能很好地代表實際策略散度，對于那些罕見 token 尤其如此。這些 token 的概率可能發生了一個數量級的改變，但對全局分布的影響仍然微乎其微。

這種問題在訓練與推理框架存在差異的情況下會被進一步放大。即使參數完全一致，在不同框架間，低概率 token 的概率比例也可能出現劇烈波動。反觀總變差等散度度量指標，則要穩定得多。

因此，DPPO 用基于預估策略散度定義的信任域（TV 或 KL 散度）取代了基于比例的掩碼。在整個詞表上計算精確的完整散度代價極其高昂。不過實證研究表明，采用二元近似（僅比較采樣的 token 在兩種策略下的概率）或者 Top-K 近似方法都能取得不錯的效果。

DPPO 的更新公式變為

其中 M_div 充當一個掩碼，用于屏蔽那些預估散度超過閾值 τ 的更新。

從他們的實驗中可以得出一個有趣的洞察：絕大部分的不穩定性僅由一小部分（不足 0.5%）的更新引起。這種情況發生在負樣本將策略推得過遠時。在他們的實驗設定下，只要屏蔽這部分更新，就足以讓訓練變得穩定。

總而言之，DPPO 引出了一個關鍵問題，即我們在 LLM 領域究竟應該如何定義信任域。同時它也為這個問題提供了一種解答方案。

ScaleRL

ScaleRL 的重點并非在于發明一種全新的目標函數。它更側重于探索在算力規模大幅擴張后，哪些設計選擇依然至關重要。

該論文報告了超過 40 萬 GPU 小時的消融實驗。更重要的是，在評估不同方法時，他們通過擬合出類似 S 型的「性能與算力」曲線來進行分析。這完全不同于僅僅對比某一個單獨的訓練檢查點。

這種分析框架非常有用，因為它把兩個經常被混為一談的變量分離開了：第一是方法在給定算力預算下性能提升的速度，第二是它最終達到瓶頸的位置。一種方法可能在低算力下表現強勁，但很快就進入了平臺期；另一種方法可能上升緩慢，但最終能達到更好的漸近性能上限。

他們的主要發現包括：

異步強化學習。與常見的「先生成后更新」循環相比，ScaleRL 更傾向于一種流水線式的異步設置。在這種設置中，推演結果會持續生成，權重更新也會立刻被推送。這主要通過減少空閑時間來提升計算效率，同時保持最終性能處于同等水平甚至更好。
損失類型。在他們比較的眾多異策略損失函數中，CISPO 和 GSPO 在漸近性能上優于 DAPO。由于 CISPO 結合了強勁的性能表現以及相對出色的魯棒性，它被選為默認配置。
FP32 logits。生成內核和訓練內核之間微小的數值不匹配，可能會嚴重扭曲重要性采樣的比例。正如 MiniMax 報告中提出的那樣，在 FP32 精度下計算語言模型頭可以大幅緩解這一問題。在他們的消融實驗中，該做法顯著提升了漸近性能。
損失聚合。在損失聚合方面，他們展示了與 Dr. GRPO 和 DAPO 相同的偏置問題，即樣本平均化是次優選擇。他們觀察到，提示詞級別的平均化能帶來最佳性能。
零方差過濾。如果某個提示詞的所有答案全對或全錯，就不會有任何學習信號。DAPO 會選擇繼續采樣更多數據（這在步數優化上可能是最優的）。但 ScaleRL 采用了不同的策略，將這些提示詞從優化過程中排除，以此來加速訓練。
無正向重采樣。如果某個提示詞產生的正確答案超過 90%，那么它將被排除在未來的訓練輪次之外。這稍微拖慢了訓練速度，但能實現更高的漸近性能。

ScaleRL 的價值體現于兩個方面。其一是它進行了大規模的實證驗證；其二是它厘清了性能提升曲線的形態，這涵蓋了早期學習速度和漸近性能表現。

總結

下表總結了各方法之間的主要區別：

其中

縱觀這些方法，我們可以發現幾個反復出現的模式：

對于 LLM 訓練而言，critic 模型似乎不再是必需項。自 PPO 之后，每一種方法都發現，諸如組均值、留一法或貪婪推演等更為簡單的基線設定，不僅能夠達到甚至超越學習到的價值函數效果，還能節省約 50% 的內存。在 LLM 的微調設定下，模型是從強大的預訓練檢查點起步，而非隨機初始化。這似乎使得 PPO 的方差削減機制顯得頗為多余。這并不意味著我們永遠不會再見到價值模型。只不過，目前將其用作方差削減工具所付出的內存代價是不劃算的。

標準差歸一化往往會產生副作用。Dr. GRPO 和 MaxRL 都表明，將優勢除以 σ 會使得模型過度關注那些幾乎已經解決的問題。ScaleRL 的消融實驗也證實了這一點。與 CISPO 和 GSPO （本文未涵蓋，可能會在擴展閱讀中介紹）相比，采用標準差歸一化的 DAPO 在漸近性能上明顯更低。

損失聚合絕非無關緊要的細節。Dr. GRPO 和 DAPO 指出，序列級獎勵結合樣本級均值的做法會扭曲每個 token 的學習信號。損失函數的規約是一個關鍵環節。不當的選擇可能會引入不易察覺的偏置。

信任域是一個極佳的優化切入點。PPO 對信任域的定義（ε = 0.2）似乎恰到好處，它在各種模型和任務上都有良好的表現。然而，最近許多新方法將目光對準了信任域，并展示了更優的性能。DAPO 放寬了非對稱限制。CISPO 選擇裁剪權重，從而避免對梯度設置硬掩碼。DPPO 則提出，采樣 token 概率比值一開始就不是應當約束的正確對象。目前學術界尚未對信任域得出一個普遍認可的優秀定義，而且可能根本不存在適用于所有任務和模型的統一標準。該領域的深入研究有望帶來持續的突破。

一份初步的最佳實踐正在成型。目前最有說服力的大規模證據指向了一些共同的特征：無 critic 模型訓練、感知 token 或感知提示詞的損失聚合、更柔性或更具原則性的信任域處理機制，以及對課程學習和算力分配日益明確的關注。盡管這是實打實的進步，但隨著新方法或新細節的引入，這一現狀隨時可能被顛覆。

開放挑戰

盡管進展神速，但仍有幾個根本性挑戰尚未解決。本節的參考文獻可能并不完整，如果您認為我有遺漏，請隨時與我聯系。

信用分配機制�，F有的基于結果的方法本質上是將相同的獎勵分配給回復中的所有 token。這種方式出人意料地有效，且易于實現，但效率顯然很低。導致推理失敗的那個關鍵 token 接收到的信號，與其周圍無關緊要的模板化詞匯完全相同。目前，過程獎勵模型、步驟級驗證器、基于搜索的方法以及對分支敏感的訓練目標都在試圖解決這個問題。由于技術尚未收斂，還沒有任何一種方案成為標準的解決之道。

樣本效率。眾所周知，強化學習中的信息增益僅僅只有一個比特（對或錯）。當前大多數訓練配方依賴于為每個提示詞生成多個推演結果（通常是 8 到 64 個）來構建有效的相對基線。即便擁有自動驗證器，這種做法的代價依然高昂。而在驗證成本很高或需要部分人工介入的情況下，情況則會進一步惡化。更好地重復利用失敗樣本、優化離線與在線數據的混合比例，或是改進提示詞選擇策略，都有望大幅降低這一成本。

極具挑戰的難題。如果模型始終無法對某個提示詞生成正確的推演結果，那么本文提到的所有方法都無法提供任何梯度。課程學習在實踐中有所幫助，但這僅僅是權宜之計。從部分正確的軌跡中提取信號的更強方法，或者將搜索與強化學習相結合的機制，依然是重要的研究方向（這與信用分配機制息息相關）。

向數學與代碼領域之外的拓展。最近幾乎所有的突破都源于那些驗證成本低廉且對錯分明的領域（即數學和代碼）。將這些方法擴展到伴隨噪聲獎勵、延遲獎勵、主觀評估或是多輪交互的場景，依然是一項艱巨的任務。

實證結果的可靠性。在這些開放性挑戰中，也許最容易被低估的一個問題在于，該領域的大部分證據仍停留在實證層面，適用范圍相對狹窄，且復現成本高昂。許多論文僅僅測試了單一模型家族、單一驗證器設定、單一數據集組合以及固定的算力預算。正如 ScaleRL 所指出的，一種人為干預措施可能會改變早期學習速度，也可能會影響漸近性能，或者對兩者都有影響。但這兩種提升指標不可互相替代。因此，我們對該領域的實際了解，或許遠少于表面上看起來的程度。部分方法可能是穩健的算法層面改進；另一部分方法或許只適用于特定的模型、獎勵設計或訓練機制。它們都有其價值所在。問題在于，我們必須清楚其各自的局限性。

這些挑戰引出了一個更宏觀的結論。缺乏可用的算法，已經不再是阻礙大語言模型強化學習發展的瓶頸所在。目前我們已經掌握了好幾種優秀的算法。更為棘手的問題在于效率、魯棒性以及泛化能力。與此同時，我們需要弄清楚，在模型規模擴展和跨任務遷移的過程中，哪些實證改進是真正能夠留存下來的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟貼 0
2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0

RouteMoA：無需預推理的動態路由，實現高效多智能體混合

機器之心Pro 2026-05-05 15:04:19
0 跟貼 0

朱旻琦：具身智能用一天進化一天、聰明一天機器人普及核心痛點是需要二次開發和適配

財聯社 2026-04-17 16:59:02
0 跟貼 0
Anthropic聯創定下deadline：2028年AI實現自我進化，沒有人類了

機器之心Pro 2026-05-05 15:18:37
0 跟貼 0

ACL 2026｜AI for聾啞群體，港理工開源思考型手語翻譯模型

機器之心Pro 2026-05-05 15:22:29
0 跟貼 0

700多個「壞模型」喂出AI測謊儀？Anthropic審計神器讓AI自曝黑料

新智元 2026-05-05 13:16:24
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
DeepSeek V4最大的遺憾

量子位 2026-05-03 11:45:33
7 跟貼 7
男子上一秒還在質疑導航的準確性，下一秒拐彎后瞬間相信了

南陽日報 2026-05-04 19:41:02
111 跟貼 111
莫氏雞煲上線湯料包5分鐘售罄4000多份，累計賣出4萬多份，總銷售額破160萬元，記者實測：1分鐘搶到兩包

極目新聞 2026-05-04 09:46:46
8264 跟貼 8264
領導執迷不悟對實驗走火入魔，結果毀了一座城

影中見影 2026-05-03 00:00:00
0 跟貼 0
橫掃室內3D場景，港科大（廣州）打造單目開放詞匯占據預測新SOTA

機器之心Pro 2026-05-05 15:33:09
0 跟貼 0
為何人類對同類尸體感到恐懼，動物卻不怕，甚至還能直接啃食

探源歷史 2026-05-04 02:02:45
0 跟貼 0
顛覆認知！全人類被騙了幾千年！根本沒有亞當夏娃

廚房里的神 2026-05-05 13:49:20
0 跟貼 0
GIM和港大這篇ACL主會，把量化因子挖掘重做了一遍

機器之心Pro 2026-05-05 14:21:56
0 跟貼 0
算法能模擬情緒，卻算不出那一眼的萬水思緒

芒果媽媽 2026-05-04 02:34:44
0 跟貼 0
CMU等團隊：PAT3D把文生3D從能看推進到能模擬、能交互

機器之心Pro 2026-05-05 15:03:22
0 跟貼 0
圍棋實戰解析：柒柒黑先困境，實用策略揭秘

巫馬仙儀 2026-05-03 10:03:57
1 跟貼 1
新傳考研名詞解釋：數據投毒

禿頭研究所新傳考研 2026-05-05 12:34:10
0 跟貼 0
不要讓算法養成我們的粉色圍欄

小貓上樹 2026-05-02 21:15:53
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
頂級神箭手僅憑祖傳絕技曲線射箭，竟一人干掉整支弓獵手大隊

不哈電影 2026-05-04 15:43:09
7 跟貼 7
困在算法繭房里，活在情緒深淵中，普通人怎么才能找回自己的清醒

華夏女子圖鑒治愈自己 2026-05-05 15:29:56
0 跟貼 0
陳唐兵團重新劃歸華野序列，擔負引誘邱清泉兵團的重任

留在X的世界 2026-05-04 20:57:01
0 跟貼 0
ClaudeCode之父：“全員編程”時代，企業真正領先在于“組織流程的代差”

華爾街見聞官方 2026-05-05 14:09:40
0 跟貼 0
景區裝電梯無痛爬山被質疑過度開發

極目新聞 2026-05-02 17:18:12
4162 跟貼 4162
頂級神箭手僅憑絕技曲線射箭，竟以一人之力團滅整個弓箭大隊

影中見影 2026-05-04 00:50:33
29 跟貼 29
千里浩瀚G-ASD4.0：全域AI大腦賦能，讓輔助駕駛越用越聰明

隨性汽車 2026-05-04 09:55:34
0 跟貼 0
媒體：霍爾木茲海峽一聲驚雷炸響戰爭的引信已經點燃

國是直通車 2026-05-04 21:08:48
29 跟貼 29
壓軸題，很多同學毫無頭緒，學霸一個公式直接搞定

智慧的小老虎 2026-05-03 19:24:38
0 跟貼 0
世界模型讓智能體預知未來？這篇新范式研究給了一個反直覺的答案

機器之心Pro 2026-05-05 15:17:00
0 跟貼 0
車主稱60萬買林肯飛行家前機蓋頻繁異常開啟 4S店回應

紅星新聞 2026-05-05 08:34:16
981 跟貼 981
“張雪機車”車隊：核心目標是沖擊年度總冠軍

央視新聞客戶端 2026-05-04 20:13:33
776 跟貼 776
明明是兩個不同的齒輪，轉起來卻能絲滑通過，這算法真絕了！

搞笑脫口秀 2026-05-03 15:51:12
2 跟貼 2
五一武漢樓市和天氣一樣火熱：看房的人太多，置業顧問都不夠用了

極目新聞 2026-05-04 22:49:39
225 跟貼 225
別把自己的成敗，寄托在別人的失誤上，那可不叫策略

平方秒和立方噸 2026-05-04 09:33:36
0 跟貼 0
高端極地探險郵輪暴發罕見疫情已致3人死亡！漢坦病毒是否人傳人？張文宏這樣說

第一財經資訊 2026-05-04 16:36:20
744 跟貼 744
深圳樓市，咨詢量爆了

南方都市報 2026-05-05 11:04:16
1778 跟貼 1778

倫敦世乒賽：5月5日賽程出爐！日本晉級，中國男乒遇“生死戰”

倫敦世乒賽：5月5日賽程出爐！日本晉級，中國男乒遇“生死戰”

阿策聊實事

2026-05-05 12:43:52

體壇：徐正源在鐵人待遇遠低于成都時期；沈陽將建設專業球場

體壇：徐正源在鐵人待遇遠低于成都時期；沈陽將建設專業球場

懂球帝

2026-05-05 14:00:08

國乒女團VS瑞典隊，比賽時間公布，馬琳遭遇難題，該如何使用蒯曼

國乒女團VS瑞典隊，比賽時間公布，馬琳遭遇難題，該如何使用蒯曼

體育大學僧

2026-05-05 10:55:38

關心打工人！深圳官方：因周四為工作日，比賽調整為20點跳球

關心打工人！深圳官方：因周四為工作日，比賽調整為20點跳球

懂球帝

2026-05-05 15:15:05

2026醫保返錢新規落地，退休人員必看，每月返多少一文說清

2026醫保返錢新規落地，退休人員必看，每月返多少一文說清

頤年齋

2026-05-05 08:20:17

花幾百萬，換17歲男孩的血？

中國新聞周刊

2026-05-04 12:36:50

全是套路��！「100%真肥�！钩扇W笑料，思源黑體背鍋？

全是套路��！「100%真肥牛」成全網笑料，思源黑體背鍋？

雷科技

2026-05-04 21:20:50

四名地下黨員吃面，一人見碗中面特少，悄悄對另兩人說：快撤……

四名地下黨員吃面，一人見碗中面特少，悄悄對另兩人說：快撤……

華人星光

2026-05-04 11:19:43

撒貝寧設宴款待妻子娘家人，冒雨游武漢，岳父母對女婿非常滿意

撒貝寧設宴款待妻子娘家人，冒雨游武漢，岳父母對女婿非常滿意

叨嘮

2026-05-04 19:27:54

繳物業費也要“政治正確”？別拿公職人員的“帽子”嚇唬普通人

繳物業費也要“政治正確”？別拿公職人員的“帽子”嚇唬普通人

迷世書童H9527

2026-05-04 19:24:17

剛吃完釋永信的瓜，陜西道協會長又被實名扒皮，20年偽裝全是騙局

剛吃完釋永信的瓜，陜西道協會長又被實名扒皮，20年偽裝全是騙局

科學發掘

2026-05-05 11:39:01

隨著吳宜澤奪得世錦賽冠軍，獎金分配出爐，吳宜澤462萬，趙心童46萬，丁俊暉27萬，常冰玉獎金令人意外

隨著吳宜澤奪得世錦賽冠軍，獎金分配出爐，吳宜澤462萬，趙心童46萬，丁俊暉27萬，常冰玉獎金令人意外

體壇最前線66

2026-05-05 05:39:45

任何一個男人到了六十歲后，只要還對異性懷有欣賞與追求，往往因為這兩件事

任何一個男人到了六十歲后，只要還對異性懷有欣賞與追求，往往因為這兩件事

心理觀察局

2026-05-04 08:51:11

武漢天河機場提示牌稱禁止攜帶“越王勾踐劍”登機？機場回應：高峰期一天攔下四五把文創“寶劍”

武漢天河機場提示牌稱禁止攜帶“越王勾踐劍”登機？機場回應：高峰期一天攔下四五把文創“寶劍”

上游新聞

2026-05-05 14:05:04

特朗普急了，美軍機落地北京，停滿24小時，中方沒說一句話

特朗普急了，美軍機落地北京，停滿24小時，中方沒說一句話

錯過美好

2026-05-05 09:40:54

林依晨自曝曾遭情感PUA，被要求退圈做家庭主婦，前男友后因性侵入獄

林依晨自曝曾遭情感PUA，被要求退圈做家庭主婦，前男友后因性侵入獄

大風新聞

2026-05-04 17:55:03

禁產十年再回看！賓陽和瀏陽，兩條路結局天差地別

禁產十年再回看！賓陽和瀏陽，兩條路結局天差地別

生性灑脫

2026-05-05 11:19:57

阿森納沒壓力了！曼城3-3先丟分，打馬競+西漢姆1勝1平可爭2冠軍

阿森納沒壓力了！曼城3-3先丟分，打馬競+西漢姆1勝1平可爭2冠軍

體育知多少

2026-05-05 06:16:42

上海浦東新區龍東大道上的一場慘劇再次扯下了輔助駕駛的虛偽面紗

上海浦東新區龍東大道上的一場慘劇再次扯下了輔助駕駛的虛偽面紗

天氣觀察站

2026-05-05 11:14:26

反制國際足聯高價勒索，央視玩了一手漂亮兵法

反制國際足聯高價勒索，央視玩了一手漂亮兵法

云石

2026-05-04 14:41:43

機器之心Pro

專業的人工智能媒體

12917文章數 142642關注度

往期回顧全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設備處理器

頭條要聞

伊朗警告阿聯酋：勿當以色列棋子否則將得到難忘教訓

頭條要聞

伊朗警告阿聯酋：勿當以色列棋子否則將得到難忘教訓

體育要聞

全世界都等著看他笑話，他帶國米拿下冠軍

娛樂要聞

英皇25周年演唱會張敬軒被救護車拉走

財經要聞

五一假期，中國年輕人的“首爾病”犯了

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

親子

游戲

健康

公開課

本地新聞

用青花瓷的方式，打開西溪濕地

親子要聞

吃糖對孩子的危害不只是牙齒！家長一定要注意

知名解說Miss輝煌戰績遭打假！負責人怒懟:別硬蹭了

干細胞治燒燙傷面臨這些“瓶頸”

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版