網易首頁 > 網易號 > 正文申請入駐

最新Science正刊報道強化學習領域新發現：獎賞大小決定強化學習效率！

2026-05-29 12:11:00　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Reward magnitude determines reinforcement learning efficiency

發表時間:2026-05-21

發表期刊:Science

影響因子:45.8

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

無論是在人工智能的算法訓練中，還是在實驗心理學的動物行為訓練里，領域內長期存在一個默認假設：學習率（決定學習效率的參數）相對獨立于獎勵的大小。基于這一假設，現代系統神經科學在訓練小鼠時，通常采用“少量多次”的策略：每次只給極小體積的水或食物（通常不到小鼠日常需求的 1%），以此來最大化動物在單次訓練中的嘗試次數。

然而，這種標準的實驗室操作真的是最優解嗎？近年來，關于多巴胺（DA）功能的理論研究提出，中腦多巴胺的活動可能直接映射了學習過程中的“學習率”。既然經典實驗早已證明多巴胺的活動強度與獎勵大小高度相關，這就引出了一個反直覺的科學問題：獎勵的絕對大小，是否直接決定了強化學習的效率？

這篇最新發表在 Science 上的研究正是為了回答這一問題。研究者不僅挑戰了傳統訓練范式，還試圖弄清楚：如果我們把獎勵放大十倍甚至幾十倍，動物的學習能力究竟會被激發到什么程度？其背后的神經生物學機制又是什么？

研究核心總結

這項研究通過多種行為學范式結合多巴胺熒光探針（dLight/GRAB-DA）和光遺傳學技術，系統拆解了獎勵大小、多巴胺釋放與學習效率之間的因果關系。

一、超大獎勵成倍提升操作性任務的學習效率

研究者首先在一個隱藏目標導航任務中測試了小鼠。對照組采用領域標準的 5 μl 獎勵（每小節約 180 次），而實驗組則采用極少的超大獎勵（100 μl，每小節僅 9 次）。結果令人震驚：盡管兩組獲得的總獎勵量相同，但大獎勵組小鼠達到熟練水平所需的試次（trials）減少了一個數量級。它們在極少的強化經歷后，就能迅速提高奔跑速度并精準鎖定目標。這表明，在標準小獎勵范式下，動物真實的學習潛力被嚴重低估了。

Fig 1. 隱藏位置導航任務表明，相較于標準的 5 μl 小獎勵，100 μl 的超大獎勵能讓小鼠在經歷極少次數的強化后，迅速達到漸進線水平的優異表現。

二、大獎勵通過消除“脫接狀態”并促進跨期鞏固來加速學習

為了弄清大獎勵為何能加速學習，研究者深入剖析了單次訓練（within-session）和跨期訓練（across-session）的行為動態。他們發現，學習效率實際上由三個關鍵要素決定：初始學習率、對前次訓練成果的跨期保留能力，以及持續參與任務的專注度。

在標準小獎勵下，小鼠的表現呈現“U型”曲線：剛開始有進步，但到了訓練中后期，小鼠會出現狀態依賴的“脫接（disengagement）”，表現急劇下降，且第二天往往無法完全保留前一天的最佳狀態。相反，大獎勵不僅提高了初始學習率，讓小鼠在第二天能完美繼承前一天的最佳表現，更關鍵的是，它幾乎徹底消除了小鼠在訓練后期的“脫接”現象。

Fig 2. 行為動態分析揭示，標準獎勵下小鼠極易在訓練中后期陷入“脫接”狀態（表現斷崖式下跌），而大獎勵有效維持了任務專注度并提升了跨天記憶保留率。

三、延長多巴胺釋放可模擬大獎勵的促學習與專注效應

大獎勵在伏隔核（NAc）引發了幅度更大、持續時間更長的多巴胺釋放。這是否就是加速學習的直接原因？研究者在小鼠獲得標準小獎勵時，同步給予腹側被蓋區（VTA）多巴胺神經元光遺傳刺激。

結果顯示，短暫的光刺激（模擬小獎勵的多巴胺反應）只能提升初始學習率；而延長的光刺激（模擬超大獎勵的多巴胺反應）不僅提升了學習率，還成功阻止了小鼠的“脫接”狀態。不過，任何形式的光刺激都未能重現大獎勵帶來的“跨期保留”增益，暗示記憶的跨天鞏固可能還需要多巴胺以外的神經調節系統（如乙酰膽堿或去甲腎上腺素）參與。

Fig 3. 光遺傳學實驗證明，只有模擬大獎勵的“延長型”多巴胺刺激，才能在提升學習率的同時有效減少動物的任務脫接。

四、大獎勵的增益效應可泛化至高難度運動與復雜決策任務

這種大獎勵帶來的奇效并非只存在于簡單的導航任務中。研究者進一步引入了需要付出高體力的“拉操縱桿任務”以及國際大腦實驗室（IBL）標準化的“復雜感知決策任務”。在這些任務中，即使只是在常規訓練中隨機穿插 5% 到 15% 的大獎勵，也能顯著提高小鼠克服困難任務的成功率，并大幅縮短達到專家級表現所需的訓練周期。

Fig 4. 在基于努力的操縱桿任務中，穿插提供大獎勵顯著提升了小鼠在面對高阻力（高難度）試次時的成功率和學習速度。

Fig 5. 在 IBL 視覺感知決策任務中，大獎勵組小鼠不僅學得更快，而且在最終的專家階段表現出更低的錯誤率和更小的行為方差。

五、邊界條件：大獎勵在經典條件反射中會損害線索辨別

好的科學研究必須明確現象的邊界。研究者發現，大獎勵的“魔法”在巴甫洛夫經典條件反射（如聽到聲音等待獎勵）中失效了。當引入超大獎勵作為預期結果時，小鼠不僅沒有學得更快，反而喪失了區分“有獎勵線索”和“無獎勵線索”的能力。超大獎勵擾亂了小鼠的預期性舔水行為，也讓多巴胺系統失去了對“獎勵遺漏”的負向預測誤差反應。這說明，大獎勵主要促進需要主動控制的操作性技能學習，而在被動聯結學習中可能是一把雙刃劍。

Fig 6. 在巴甫洛夫線索辨別任務中，超大獎勵反而損害了小鼠對不同聲音線索的辨別能力，并改變了多巴胺對預期價值的編碼保真度。

研究意義

這項工作在理論和方法學上都具有重要的啟發意義。

在理論層面，它直接挑戰了經典強化學習模型中“學習率獨立于獎勵大小”的假設。研究證明，中腦邊緣多巴胺系統的活動不僅傳遞獎勵預測誤差，其釋放的規模和持續時間還深刻調控著動物的認知投入（engagement）和學習速率。這為整合多巴胺在“學習”與“動機”兩大領域的分歧提供了新的統一視角。

在方法學與應用層面，這項研究給所有從事動物行為學和神經科學的同行敲響了警鐘：我們長期依賴的“極小獎勵、海量試次”的標準訓練范式，可能嚴重壓抑了動物真實的認知潛能。此外，大獎勵通過延長多巴胺釋放來消除“脫接狀態”的機制，與人類注意力缺陷障礙（ADHD）患者使用多巴胺再攝取抑制劑（如哌甲酯）來恢復任務專注度的臨床現象高度吻合，為未來探究注意力缺陷的神經環路機制提供了極具價值的動物模型。

分享人：飯鴿兒

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.