網易首頁 > 網易號 > 正文 申請入駐

強化學習:我們如何被獎勵塑造行為

0
分享至


很多時候,我們以為自己是在思考之后才學會某種行為。但從神經科學的角度看,學習往往發生得更早,也更隱秘。

當一個選擇帶來好結果,它更可能再次出現;當一個行為導致不利后果,它逐漸被抑制。

這種從反饋中調整行為的過程,被稱為強化學習(reinforcement learning)。它并不是某種高階推理,而是連接經驗、行動與未來選擇的基本機制。

在神經科學中,強化學習并不是從計算機科學“照搬”來的概念。相反,它最早來自對動物行為的觀察:獎勵不僅帶來愉悅感,更重要的是,它會改變行為的概率。正是這一點,讓獎勵成為塑造決策的關鍵力量。

從“被獎勵”到“做選擇”

早期心理學家很早就注意到,如果一個行為產生令人滿意的結果,它會在未來更頻繁地出現。久而久之,人們甚至提出一種激進的觀點:所有行為,都是為了獲得獎勵或避免懲罰。

這一思想在行為主義時代被推到極致。通過精心控制獎勵出現的方式——比如間隔多久、需要付出多少努力——研究者發現,行為可以被系統性地塑造。動物并不需要理解規則本身,只要反饋足夠穩定,行為模式就會逐漸成形。

真正讓“學習”與“決策”交匯的,是當環境中出現了多個可選項。當個體不再只是重復一個動作,而是在不同選項之間分配時間和精力,選擇本身就成為研究對象。

在這些多選項任務中,一個令人著迷的現象反復出現:個體往往不會把所有行為都壓到回報最高的選項上。相反,它們會在不同選項之間分配選擇次數,而且分配比例往往接近各選項獲得獎勵的比例。這種現象被稱為匹配行為。它描述了行為如何隨回報分布而變化,卻并不解釋行為為何如此。

更耐人尋味的是,在大多數實驗中,個體表現出的并不是“完美匹配”,而是一種偏離——它們對高回報選項的選擇不夠極端,對低回報選項的嘗試反而更多。這種現象被稱為欠匹配。

從結果上看,這似乎并不完全“理性”。如果目標是最大化回報,為什么不更堅決地選擇更好的選項?

大腦在做全局計算嗎?

一個重要的轉折在于,人們開始意識到:也許問題不在“結果是否最優”,而在大腦如何在時間中做決定。

在現實世界中,回報是隨機的、嘈雜的,真正的回報率需要很長時間才能估計清楚。如果要判斷“長期來看這樣做是否更好”,大腦必須保留大量歷史信息,并進行復雜計算。這在生物系統中并不容易實現。

相反,如果大腦采用的是一種局部規則——在當下偏向最近回報更高的選項——那么欠匹配反而是自然結果。每一次選擇,都是基于近期經驗的權衡,而不是對整體結構的精確把握。

從這種局部選擇規則出發,長期統計上的匹配行為會自然涌現,而無需大腦明確追求“最優解”。

當研究者把目光投向大腦時,這一假設開始獲得支持。在靈長類動物的實驗中,神經元的活動不僅與選擇本身有關,還會隨選項的回報歷史發生系統性變化。

某些神經區域中的神經元,其放電強度會反映某個選項在近期“有多值得選”。這種信號并不是一次性計算出的,而是通過對獎勵歷史的持續整合逐步形成。

重要的是,這種整合并不是無限的。較新的結果影響更大,較久遠的結果逐漸衰減。這意味著,大腦對世界的估計始終是動態的、帶有遺忘的。

學習信號來自哪里?

要讓估計發生改變,大腦需要一個關鍵信號:當結果與預期不一致時,系統必須“知道自己錯了”。

這正是預測誤差的核心思想。預測誤差并不只是“得到了多少獎勵”,而是“實際結果與預期之間的差異”。如果結果比預期好,估計上調;如果更差,估計下調。

在大腦中,某些神經系統的活動模式,與這種誤差信號高度一致。它們在結果超出預期時短暫增強,在結果落空時被抑制。這種信號并不是為了制造快感,而是為了驅動學習,讓連接發生改變。

隨著時間維度被引入,預測誤差也不再局限于結果出現的那一刻,而是逐漸提前,轉移到那些預示未來結果的線索上。這一現象,為更連續的學習模型提供了基礎。

正是在這樣的背景下,研究者開始借助計算機科學中的強化學習框架,對這些過程進行形式化描述。在這一框架中,個體被視為一個與環境互動的“代理”,通過行動獲得反饋,并試圖在時間中最大化回報。

這些模型提供了一種清晰的語言,用來描述學習、選擇和更新的關系。但它們并不等同于大腦的真實實現方式。某些算法在數學上優雅,卻可能難以在嘈雜、有限的神經系統中實現。

事實上,動物的行為往往偏離這些“理想模型”。它們會更新未被選擇的選項,會表現出選擇慣性,會在探索與利用之間搖擺。這些特征并非噪聲,而是生物系統在現實約束下的產物。

從神經科學的角度看,強化學習更像是一種視角,幫助我們理解:經驗如何塑造行為,反饋如何改變選擇,以及學習如何嵌入決策本身

它提醒我們,所謂“理性”,并不意味著完美計算;所謂“學習”,也不意味著穩定收斂。在真實的大腦中,學習總是在有限信息、不確定環境和生物約束下展開。而正是在這種不完美中,行為才顯得如此真實。

在「神經現實 x Noetex Academy」新一期的決策神經科學課程中,你將進一步了解神經科學如何研究強化學習。在達特茅斯學院神經科學教授Alireza Soltani帶領下,你將進入生物、認知和計算三個層級,探尋決策機制的神經基礎,以及它如何啟發經濟學、認知科學和人工智能等領域的發展。







特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
麻煩來了!伊朗石油爆倉,日產200萬桶沒地放,求特朗普網開一面

麻煩來了!伊朗石油爆倉,日產200萬桶沒地放,求特朗普網開一面

民間胡扯老哥
2026-04-29 14:05:38
奧運冠軍李小鵬一家近照,定居香港,身家過億,女兒已是大美女

奧運冠軍李小鵬一家近照,定居香港,身家過億,女兒已是大美女

大西體育
2026-04-28 22:28:58
電車繞不開的硬傷:不管開多愛惜,十年電池難逃衰減

電車繞不開的硬傷:不管開多愛惜,十年電池難逃衰減

華庭講美食
2026-04-29 05:09:09
陳道明:人生走到最后,子女和老伴都不是最親的,最親的只有....

陳道明:人生走到最后,子女和老伴都不是最親的,最親的只有....

喬話
2026-04-19 22:13:11
鵝肉立大功!中科院研究發現:鵝肉可促進免疫細胞再生,可多吃

鵝肉立大功!中科院研究發現:鵝肉可促進免疫細胞再生,可多吃

Thurman在昆明
2026-04-23 17:05:10
這3種低價股是A股牛市中最具爆發力的,未來有望翻10倍甚至30倍,建議收藏

這3種低價股是A股牛市中最具爆發力的,未來有望翻10倍甚至30倍,建議收藏

新浪財經
2026-04-27 21:53:27
演員片酬跌至三成,很多演員10年沒有戲拍,影視演員寒冬來了

演員片酬跌至三成,很多演員10年沒有戲拍,影視演員寒冬來了

廖四勇
2026-04-29 03:33:22
動不動就是3秒加速,你一個電車跑那么快有什么用?

動不動就是3秒加速,你一個電車跑那么快有什么用?

少數派報告Report
2026-04-29 05:14:45
庫明加拉胯!老鷹97-126尼克斯,約翰遜18+10+6,丹尼爾斯17+2+5

庫明加拉胯!老鷹97-126尼克斯,約翰遜18+10+6,丹尼爾斯17+2+5

小徐講八卦
2026-04-29 11:27:17
驚天大冷門!連救6賽點掀翻世界第一,薩巴倫卡15連勝遭終結

驚天大冷門!連救6賽點掀翻世界第一,薩巴倫卡15連勝遭終結

仰臥撐FTUer
2026-04-29 16:40:03
毀三觀!體壇 4 大丑聞曝光:貪財好色、婚內出軌,比娛樂圈還亂

毀三觀!體壇 4 大丑聞曝光:貪財好色、婚內出軌,比娛樂圈還亂

橙星文娛
2026-04-27 16:46:45
福克斯:放眼聯盟,文班和庫里的賽場牽制力最強

體壇周報
2026-04-29 15:43:35

iPhone Ultra 確定!預計 15999 元起

iPhone Ultra 確定!預計 15999 元起

花果科技
2026-04-29 14:14:20
69歲老人勇斗歹徒被咬掉鼻子,已完成第一次手術今日將出院,本人:一開始不信自己鼻子沒了,再遇到還會挺身而出

69歲老人勇斗歹徒被咬掉鼻子,已完成第一次手術今日將出院,本人:一開始不信自己鼻子沒了,再遇到還會挺身而出

極目新聞
2026-04-29 13:57:03
上海多區公開通報違反中央八項規定精神典型問題

上海多區公開通報違反中央八項規定精神典型問題

上觀新聞
2026-04-29 14:52:07
毛岸青與邵華手拉手,站在廬山瀑布前,好美的畫面

毛岸青與邵華手拉手,站在廬山瀑布前,好美的畫面

大江
2026-04-29 13:29:05
林志玲自稱每天擁抱公婆感化他們,換大房子照顧全家人煮三餐

林志玲自稱每天擁抱公婆感化他們,換大房子照顧全家人煮三餐

娛樂小丸子
2026-04-28 16:45:39
胡錫進否認自己有老干部病房vip待遇,但消炎藥卻用124元一盒的

胡錫進否認自己有老干部病房vip待遇,但消炎藥卻用124元一盒的

映射生活的身影
2026-04-26 20:57:40
24架飛機護航都不領情?伊朗高官:巴基斯坦已不適合當“調解人”

24架飛機護航都不領情?伊朗高官:巴基斯坦已不適合當“調解人”

頭條爆料007
2026-04-28 11:45:02
格力電器:擬50億至100億元回購股份

格力電器:擬50億至100億元回購股份

每日經濟新聞
2026-04-29 08:15:58
2026-04-29 17:16:49
神經現實
神經現實
大腦,心智,認知
2487文章數 25502關注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

孫楊方回應"孫楊媽媽要求刪除馬頔發言":毫無事實依據

頭條要聞

孫楊方回應"孫楊媽媽要求刪除馬頔發言":毫無事實依據

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

曾經的新能源首富,希望又破了!

汽車要聞

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

親子
手機
藝術
數碼
時尚

親子要聞

官方回復!大華配建張槎幼兒園,年內開園

手機要聞

華為Mate X5、nova 14等機型鴻蒙HarmonyOS 6.1系統“轉正”

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

數碼要聞

華為MateBook 14鴻蒙版電腦HarmonyOS 6.1版本發布

除了“薄底鞋”,今年最流行這5雙鞋,怎么搭都好看!

無障礙瀏覽 進入關懷版