![]()
認知神經科學前沿文獻分享
基本信息
Title:Reward magnitude determines reinforcement learning efficiency
發表時間:2026-05-21
發表期刊:Science
影響因子:45.8
獲取原文:
1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
研究背景
無論是在人工智能的算法訓練中,還是在實驗心理學的動物行為訓練里,領域內長期存在一個默認假設:學習率(決定學習效率的參數)相對獨立于獎勵的大小。基于這一假設,現代系統神經科學在訓練小鼠時,通常采用“少量多次”的策略:每次只給極小體積的水或食物(通常不到小鼠日常需求的 1%),以此來最大化動物在單次訓練中的嘗試次數。
![]()
然而,這種標準的實驗室操作真的是最優解嗎?近年來,關于多巴胺(DA)功能的理論研究提出,中腦多巴胺的活動可能直接映射了學習過程中的“學習率”。既然經典實驗早已證明多巴胺的活動強度與獎勵大小高度相關,這就引出了一個反直覺的科學問題:獎勵的絕對大小,是否直接決定了強化學習的效率?
這篇最新發表在 Science 上的研究正是為了回答這一問題。研究者不僅挑戰了傳統訓練范式,還試圖弄清楚:如果我們把獎勵放大十倍甚至幾十倍,動物的學習能力究竟會被激發到什么程度?其背后的神經生物學機制又是什么?
研究核心總結
這項研究通過多種行為學范式結合多巴胺熒光探針(dLight/GRAB-DA)和光遺傳學技術,系統拆解了獎勵大小、多巴胺釋放與學習效率之間的因果關系。
一、超大獎勵成倍提升操作性任務的學習效率
研究者首先在一個隱藏目標導航任務中測試了小鼠。對照組采用領域標準的 5 μl 獎勵(每小節約 180 次),而實驗組則采用極少的超大獎勵(100 μl,每小節僅 9 次)。結果令人震驚:盡管兩組獲得的總獎勵量相同,但大獎勵組小鼠達到熟練水平所需的試次(trials)減少了一個數量級。它們在極少的強化經歷后,就能迅速提高奔跑速度并精準鎖定目標。這表明,在標準小獎勵范式下,動物真實的學習潛力被嚴重低估了。
![]()
Fig 1. 隱藏位置導航任務表明,相較于標準的 5 μl 小獎勵,100 μl 的超大獎勵能讓小鼠在經歷極少次數的強化后,迅速達到漸進線水平的優異表現。二、大獎勵通過消除“脫接狀態”并促進跨期鞏固來加速學習
為了弄清大獎勵為何能加速學習,研究者深入剖析了單次訓練(within-session)和跨期訓練(across-session)的行為動態。他們發現,學習效率實際上由三個關鍵要素決定:初始學習率、對前次訓練成果的跨期保留能力,以及持續參與任務的專注度。
在標準小獎勵下,小鼠的表現呈現“U型”曲線:剛開始有進步,但到了訓練中后期,小鼠會出現狀態依賴的“脫接(disengagement)”,表現急劇下降,且第二天往往無法完全保留前一天的最佳狀態。相反,大獎勵不僅提高了初始學習率,讓小鼠在第二天能完美繼承前一天的最佳表現,更關鍵的是,它幾乎徹底消除了小鼠在訓練后期的“脫接”現象。
![]()
Fig 2. 行為動態分析揭示,標準獎勵下小鼠極易在訓練中后期陷入“脫接”狀態(表現斷崖式下跌),而大獎勵有效維持了任務專注度并提升了跨天記憶保留率。三、延長多巴胺釋放可模擬大獎勵的促學習與專注效應
大獎勵在伏隔核(NAc)引發了幅度更大、持續時間更長的多巴胺釋放。這是否就是加速學習的直接原因?研究者在小鼠獲得標準小獎勵時,同步給予腹側被蓋區(VTA)多巴胺神經元光遺傳刺激。
結果顯示,短暫的光刺激(模擬小獎勵的多巴胺反應)只能提升初始學習率;而延長的光刺激(模擬超大獎勵的多巴胺反應)不僅提升了學習率,還成功阻止了小鼠的“脫接”狀態。不過,任何形式的光刺激都未能重現大獎勵帶來的“跨期保留”增益,暗示記憶的跨天鞏固可能還需要多巴胺以外的神經調節系統(如乙酰膽堿或去甲腎上腺素)參與。
![]()
Fig 3. 光遺傳學實驗證明,只有模擬大獎勵的“延長型”多巴胺刺激,才能在提升學習率的同時有效減少動物的任務脫接。四、大獎勵的增益效應可泛化至高難度運動與復雜決策任務
這種大獎勵帶來的奇效并非只存在于簡單的導航任務中。研究者進一步引入了需要付出高體力的“拉操縱桿任務”以及國際大腦實驗室(IBL)標準化的“復雜感知決策任務”。在這些任務中,即使只是在常規訓練中隨機穿插 5% 到 15% 的大獎勵,也能顯著提高小鼠克服困難任務的成功率,并大幅縮短達到專家級表現所需的訓練周期。
![]()
Fig 4. 在基于努力的操縱桿任務中,穿插提供大獎勵顯著提升了小鼠在面對高阻力(高難度)試次時的成功率和學習速度。
![]()
Fig 5. 在 IBL 視覺感知決策任務中,大獎勵組小鼠不僅學得更快,而且在最終的專家階段表現出更低的錯誤率和更小的行為方差。五、邊界條件:大獎勵在經典條件反射中會損害線索辨別
好的科學研究必須明確現象的邊界。研究者發現,大獎勵的“魔法”在巴甫洛夫經典條件反射(如聽到聲音等待獎勵)中失效了。當引入超大獎勵作為預期結果時,小鼠不僅沒有學得更快,反而喪失了區分“有獎勵線索”和“無獎勵線索”的能力。超大獎勵擾亂了小鼠的預期性舔水行為,也讓多巴胺系統失去了對“獎勵遺漏”的負向預測誤差反應。這說明,大獎勵主要促進需要主動控制的操作性技能學習,而在被動聯結學習中可能是一把雙刃劍。
![]()
Fig 6. 在巴甫洛夫線索辨別任務中,超大獎勵反而損害了小鼠對不同聲音線索的辨別能力,并改變了多巴胺對預期價值的編碼保真度。
研究意義
這項工作在理論和方法學上都具有重要的啟發意義。
在理論層面,它直接挑戰了經典強化學習模型中“學習率獨立于獎勵大小”的假設。研究證明,中腦邊緣多巴胺系統的活動不僅傳遞獎勵預測誤差,其釋放的規模和持續時間還深刻調控著動物的認知投入(engagement)和學習速率。這為整合多巴胺在“學習”與“動機”兩大領域的分歧提供了新的統一視角。
在方法學與應用層面,這項研究給所有從事動物行為學和神經科學的同行敲響了警鐘:我們長期依賴的“極小獎勵、海量試次”的標準訓練范式,可能嚴重壓抑了動物真實的認知潛能。此外,大獎勵通過延長多巴胺釋放來消除“脫接狀態”的機制,與人類注意力缺陷障礙(ADHD)患者使用多巴胺再攝取抑制劑(如哌甲酯)來恢復任務專注度的臨床現象高度吻合,為未來探究注意力缺陷的神經環路機制提供了極具價值的動物模型。
分享人:飯鴿兒
審核:PsyBrain 腦心前沿編輯部
你好,這里是「PsyBrain 腦心前沿」
專注追蹤全球認知神經科學的最尖端突破
視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊
每日速遞「深度解讀」與「前沿快訊」
科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。
點擊卡片進群,歡迎你的到來
一鍵關注,點亮星標 ? 前沿不走丟!
![]()
一鍵分享,讓更多人了解前沿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.