網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

強化學習：我們如何被獎勵塑造行為

2026-02-11 23:15:51　來源: 神經現實

北京舉報

0

分享至

很多時候，我們以為自己是在思考之后才學會某種行為。但從神經科學的角度看，學習往往發生得更早，也更隱秘。

當一個選擇帶來好結果，它更可能再次出現；當一個行為導致不利后果，它逐漸被抑制。

這種從反饋中調整行為的過程，被稱為強化學習（reinforcement learning）。它并不是某種高階推理，而是連接經驗、行動與未來選擇的基本機制。

在神經科學中，強化學習并不是從計算機科學“照搬”來的概念。相反，它最早來自對動物行為的觀察：獎勵不僅帶來愉悅感，更重要的是，它會改變行為的概率。正是這一點，讓獎勵成為塑造決策的關鍵力量。

從“被獎勵”到“做選擇”

早期心理學家很早就注意到，如果一個行為產生令人滿意的結果，它會在未來更頻繁地出現。久而久之，人們甚至提出一種激進的觀點：所有行為，都是為了獲得獎勵或避免懲罰。

這一思想在行為主義時代被推到極致。通過精心控制獎勵出現的方式——比如間隔多久、需要付出多少努力——研究者發現，行為可以被系統性地塑造。動物并不需要理解規則本身，只要反饋足夠穩定，行為模式就會逐漸成形。

真正讓“學習”與“決策”交匯的，是當環境中出現了多個可選項。當個體不再只是重復一個動作，而是在不同選項之間分配時間和精力，選擇本身就成為研究對象。

在這些多選項任務中，一個令人著迷的現象反復出現：個體往往不會把所有行為都壓到回報最高的選項上。相反，它們會在不同選項之間分配選擇次數，而且分配比例往往接近各選項獲得獎勵的比例。這種現象被稱為匹配行為。它描述了行為如何隨回報分布而變化，卻并不解釋行為為何如此。

更耐人尋味的是，在大多數實驗中，個體表現出的并不是“完美匹配”，而是一種偏離——它們對高回報選項的選擇不夠極端，對低回報選項的嘗試反而更多。這種現象被稱為欠匹配。

從結果上看，這似乎并不完全“理性”。如果目標是最大化回報，為什么不更堅決地選擇更好的選項？

大腦在做全局計算嗎？

一個重要的轉折在于，人們開始意識到：也許問題不在“結果是否最優”，而在大腦如何在時間中做決定。

在現實世界中，回報是隨機的、嘈雜的，真正的回報率需要很長時間才能估計清楚。如果要判斷“長期來看這樣做是否更好”，大腦必須保留大量歷史信息，并進行復雜計算。這在生物系統中并不容易實現。

相反，如果大腦采用的是一種局部規則——在當下偏向最近回報更高的選項——那么欠匹配反而是自然結果。每一次選擇，都是基于近期經驗的權衡，而不是對整體結構的精確把握。

從這種局部選擇規則出發，長期統計上的匹配行為會自然涌現，而無需大腦明確追求“最優解”。

當研究者把目光投向大腦時，這一假設開始獲得支持。在靈長類動物的實驗中，神經元的活動不僅與選擇本身有關，還會隨選項的回報歷史發生系統性變化。

某些神經區域中的神經元，其放電強度會反映某個選項在近期“有多值得選”。這種信號并不是一次性計算出的，而是通過對獎勵歷史的持續整合逐步形成。

重要的是，這種整合并不是無限的。較新的結果影響更大，較久遠的結果逐漸衰減。這意味著，大腦對世界的估計始終是動態的、帶有遺忘的。

學習信號來自哪里？

要讓估計發生改變，大腦需要一個關鍵信號：當結果與預期不一致時，系統必須“知道自己錯了”。

這正是預測誤差的核心思想。預測誤差并不只是“得到了多少獎勵”，而是“實際結果與預期之間的差異”。如果結果比預期好，估計上調；如果更差，估計下調。

在大腦中，某些神經系統的活動模式，與這種誤差信號高度一致。它們在結果超出預期時短暫增強，在結果落空時被抑制。這種信號并不是為了制造快感，而是為了驅動學習，讓連接發生改變。

隨著時間維度被引入，預測誤差也不再局限于結果出現的那一刻，而是逐漸提前，轉移到那些預示未來結果的線索上。這一現象，為更連續的學習模型提供了基礎。

正是在這樣的背景下，研究者開始借助計算機科學中的強化學習框架，對這些過程進行形式化描述。在這一框架中，個體被視為一個與環境互動的“代理”，通過行動獲得反饋，并試圖在時間中最大化回報。

這些模型提供了一種清晰的語言，用來描述學習、選擇和更新的關系。但它們并不等同于大腦的真實實現方式。某些算法在數學上優雅，卻可能難以在嘈雜、有限的神經系統中實現。

事實上，動物的行為往往偏離這些“理想模型”。它們會更新未被選擇的選項，會表現出選擇慣性，會在探索與利用之間搖擺。這些特征并非噪聲，而是生物系統在現實約束下的產物。

從神經科學的角度看，強化學習更像是一種視角，幫助我們理解：經驗如何塑造行為，反饋如何改變選擇，以及學習如何嵌入決策本身。

它提醒我們，所謂“理性”，并不意味著完美計算；所謂“學習”，也不意味著穩定收斂。在真實的大腦中，學習總是在有限信息、不確定環境和生物約束下展開。而正是在這種不完美中，行為才顯得如此真實。

在「神經現實 x Noetex Academy」新一期的決策神經科學課程中，你將進一步了解神經科學如何研究強化學習。在達特茅斯學院神經科學教授Alireza Soltani帶領下，你將進入生物、認知和計算三個層級，探尋決策機制的神經基礎，以及它如何啟發經濟學、認知科學和人工智能等領域的發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

ICLR 2026｜MathForge：用難題驅動強化學習，提升大模型數學推理

機器之心Pro 2026-04-27 12:16:24
0 跟貼 0
ACL 2026 | 中科大&上海AILab揭示強化學習后訓練的Scaling Law

機器之心Pro 2026-04-27 21:13:39
0 跟貼 0

連信數字/連心云黃杏：語言之外，為什么“看懂人心”才是AI的終極考題？

智東西 2026-04-29 10:32:11
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Manus收購被叫停：地緣政治正重寫AI商業邏輯丨小白商業觀

經濟觀察報 2026-04-29 16:30:12
0 跟貼 0

Momenta量產車輛規模超80萬臺，R7強化學習世界模型實現量產首發

文匯報 2026-04-26 21:24:41
0 跟貼 0

先越位在篡位回頭，再射門得分，梅西這波操作把越位規則玩明白了

鯊鯊笑場 2026-04-28 15:36:19
0 跟貼 0
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15170 跟貼 15170

注意“用腦衛生”，腦科學揭示的長腦子4件事｜夜讀

北大博雅講壇 2026-04-27 21:13:19
5 跟貼 5
【榮格心理學】為什么「最稀有」的人格，在 40 歲前往往一事無成

易欣看大世界 2026-04-26 05:35:58
0 跟貼 0
孩子拖延的真相：不是懶，是大腦還沒"聯網"

晚風也遺憾 2026-04-29 01:17:21
0 跟貼 0
中辦、國辦發文：規范算法，合理確定分配規則

究竟視頻 2026-04-27 17:53:51
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
廣州一公園被指“價格刺客”

中國新聞周刊 2026-04-29 08:20:12
221 跟貼 221
浪姐二公贏了的反倒淘汰？規則把流量寫直白

骨子里的一身傲氣 2026-04-27 03:36:59
1 跟貼 1
霹靂15嚇壞印度！電視臺專門訪談，專家直呼這破壞了空戰規則！

曉哲舞蹈課 2026-04-25 13:38:31
11 跟貼 11
經常喊累，真不是懶！是大腦被這 3 件事耗空了

果殼 2026-04-26 20:09:19
5 跟貼 5
31省份去年常住人口數據公布

第一財經資訊 2026-04-28 18:58:16
1133 跟貼 1133
追覓CEO俞浩被「momo大軍」整破防，三連炮轟：小紅書你管不管！

雷科技 2026-04-29 15:29:12
0 跟貼 0
如何讓孩子擁有發達的前額葉？復旦腦科學家說，這6個方法很關鍵

上觀新聞 2026-04-27 22:39:05
12 跟貼 12
青春期大腦正在"校準"，父母該怎么配合？

晚風也遺憾 2026-04-28 01:21:56
0 跟貼 0
我大使駁斥美官員：照照鏡子

極目新聞 2026-04-29 09:31:58
2050 跟貼 2050
重大進展！我國新發現13個億噸級油田

看看新聞Knews 2026-04-29 12:28:10
1004 跟貼 1004
千名學者聯名為已故科學家吳瑛發聲，要求美國西北大學為不公正對待致其自殺道歉

生物學霸 2026-04-29 16:39:10
0 跟貼 0
按這算法，褲兜子都讓算沒了呀

夢喋說影視 2026-04-28 15:10:09
1 跟貼 1
微信朋友圈悄悄更新了，你發現了嗎？

都市快報橙柿互動 2026-04-29 00:20:47
411 跟貼 411
文旅部集中整治景區擺渡車，點名龍虎山、長白山、稻城亞丁等

南方都市報 2026-04-27 16:21:12
2149 跟貼 2149
96歲奶奶街頭擺攤10年還清2077萬元債務，本人最新回應：這輩子沒做過什么大事，只是守住了做人的底線

極目新聞 2026-04-28 21:45:41
1083 跟貼 1083
5個讓男性瞬間提升吸引力的特質：科學驗證，無需套路

時光慢郵啊 2026-04-29 01:17:34
0 跟貼 0
1500公里外點名“航母”？055這次把規則徹底改了，美軍攔不住

漫步獨行俠 2026-04-28 13:12:15
0 跟貼 0
主角不止趙心童 22歲中國斯諾克小將吳宜澤創下個人最佳戰績

封面新聞 2026-04-29 09:20:06
44 跟貼 44
高鐵上的暖心一幕：一趟列車一次伸手治愈一路

學申論的談妹 2026-04-29 14:36:41
5 跟貼 5
我們究竟是如何“看懂”這個世界的？

新浪財經 2026-04-29 14:05:27
11 跟貼 11
特斯拉終于承認：導航才是FSD最大軟肋

Ping值焦慮 2026-04-29 16:56:41
0 跟貼 0
格力電器去年量利雙降，今年擬再分紅逾百億

第一財經資訊 2026-04-29 10:25:51
33 跟貼 33
人社部：為未就業高校畢業生提供3次崗位推薦等實名服務

中國青年報 2026-04-28 21:20:06
493 跟貼 493
金屬件中空外壁的內部結構，金屬模型加工，中空外壁內層設計

小明不講理 2026-04-26 10:27:03
1 跟貼 1
時間不多了：宇宙可能將提前數萬億年毀滅

星空天文 2026-04-29 16:07:12
0 跟貼 0
特斯拉中國再推促銷方案：5月31日前，購買Model 3、Model Y、Model Y L車型5年0息

魯中晨報 2026-04-29 10:48:05
0 跟貼 0
打臉來了!索尼PS幽默廣告被挖出曾嘲諷微軟強制聯網

游民星空 2026-04-29 16:11:32
0 跟貼 0

麻煩來了！伊朗石油爆倉，日產200萬桶沒地放，求特朗普網開一面

麻煩來了！伊朗石油爆倉，日產200萬桶沒地放，求特朗普網開一面

民間胡扯老哥

2026-04-29 14:05:38

奧運冠軍李小鵬一家近照，定居香港，身家過億，女兒已是大美女

奧運冠軍李小鵬一家近照，定居香港，身家過億，女兒已是大美女

大西體育

2026-04-28 22:28:58

電車繞不開的硬傷：不管開多愛惜，十年電池難逃衰減

電車繞不開的硬傷：不管開多愛惜，十年電池難逃衰減

華庭講美食

2026-04-29 05:09:09

陳道明：人生走到最后，子女和老伴都不是最親的，最親的只有....

陳道明：人生走到最后，子女和老伴都不是最親的，最親的只有....

喬話

2026-04-19 22:13:11

鵝肉立大功！中科院研究發現：鵝肉可促進免疫細胞再生，可多吃

鵝肉立大功！中科院研究發現：鵝肉可促進免疫細胞再生，可多吃

Thurman在昆明

2026-04-23 17:05:10

這3種低價股是A股牛市中最具爆發力的，未來有望翻10倍甚至30倍，建議收藏

這3種低價股是A股牛市中最具爆發力的，未來有望翻10倍甚至30倍，建議收藏

新浪財經

2026-04-27 21:53:27

演員片酬跌至三成，很多演員10年沒有戲拍，影視演員寒冬來了

演員片酬跌至三成，很多演員10年沒有戲拍，影視演員寒冬來了

廖四勇

2026-04-29 03:33:22

動不動就是3秒加速，你一個電車跑那么快有什么用？

動不動就是3秒加速，你一個電車跑那么快有什么用？

少數派報告Report

2026-04-29 05:14:45

庫明加拉胯！老鷹97-126尼克斯，約翰遜18+10+6，丹尼爾斯17+2+5

庫明加拉胯！老鷹97-126尼克斯，約翰遜18+10+6，丹尼爾斯17+2+5

小徐講八卦

2026-04-29 11:27:17

驚天大冷門！連救6賽點掀翻世界第一，薩巴倫卡15連勝遭終結

驚天大冷門！連救6賽點掀翻世界第一，薩巴倫卡15連勝遭終結

仰臥撐FTUer

2026-04-29 16:40:03

毀三觀！體壇 4 大丑聞曝光：貪財好色、婚內出軌，比娛樂圈還亂

毀三觀！體壇 4 大丑聞曝光：貪財好色、婚內出軌，比娛樂圈還亂

橙星文娛

2026-04-27 16:46:45

福克斯：放眼聯盟，文班和庫里的賽場牽制力最強

體壇周報
2026-04-29 15:43:35

iPhone Ultra 確定！預計 15999 元起

iPhone Ultra 確定！預計 15999 元起

花果科技

2026-04-29 14:14:20

69歲老人勇斗歹徒被咬掉鼻子，已完成第一次手術今日將出院，本人：一開始不信自己鼻子沒了，再遇到還會挺身而出

69歲老人勇斗歹徒被咬掉鼻子，已完成第一次手術今日將出院，本人：一開始不信自己鼻子沒了，再遇到還會挺身而出

極目新聞

2026-04-29 13:57:03

上海多區公開通報違反中央八項規定精神典型問題

上海多區公開通報違反中央八項規定精神典型問題

上觀新聞

2026-04-29 14:52:07

毛岸青與邵華手拉手，站在廬山瀑布前，好美的畫面

毛岸青與邵華手拉手，站在廬山瀑布前，好美的畫面

大江

2026-04-29 13:29:05

林志玲自稱每天擁抱公婆感化他們，換大房子照顧全家人煮三餐

林志玲自稱每天擁抱公婆感化他們，換大房子照顧全家人煮三餐

娛樂小丸子

2026-04-28 16:45:39

胡錫進否認自己有老干部病房vip待遇，但消炎藥卻用124元一盒的

胡錫進否認自己有老干部病房vip待遇，但消炎藥卻用124元一盒的

映射生活的身影

2026-04-26 20:57:40

24架飛機護航都不領情？伊朗高官：巴基斯坦已不適合當“調解人”

24架飛機護航都不領情？伊朗高官：巴基斯坦已不適合當“調解人”

頭條爆料007

2026-04-28 11:45:02

格力電器：擬50億至100億元回購股份

格力電器：擬50億至100億元回購股份

每日經濟新聞

2026-04-29 08:15:58

大腦，心智，認知

2487文章數 25502關注度

往期回顧全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

孫楊方回應"孫楊媽媽要求刪除馬頔發言":毫無事實依據

頭條要聞

孫楊方回應"孫楊媽媽要求刪除馬頔發言":毫無事實依據

體育要聞

一場九球狂歡，各路神仙批量下凡

娛樂要聞

馬頔一句話，孫楊媽媽怒罵節目組2小時

財經要聞

曾經的新能源首富，希望又破了！

汽車要聞

配32寸升降屏新款別克世紀CENTURY上市53.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

手機

藝術

數碼

時尚

親子要聞

官方回復！大華配建張槎幼兒園，年內開園

手機要聞

華為Mate X5、nova 14等機型鴻蒙HarmonyOS 6.1系統“轉正”

藝術要聞

這些女神，竟然都是攝影師切爾尼亞季耶夫的復古作品！

數碼要聞

華為MateBook 14鴻蒙版電腦HarmonyOS 6.1版本發布

除了“薄底鞋”，今年最流行這5雙鞋，怎么搭都好看！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版