精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大腦也在用分布式強化學習?DeepMind新研究登上《Nature》

新聞 人工智能 分布式
分布式強化學習是智能體在圍棋、星際爭霸等游戲中用到的技術,但 DeepMind 的一項研究表明,這種學習方式也為大腦中的獎勵機制提供了一種新的解釋,即大腦也應用了這種算法。

 分布式強化學習是智能體在圍棋、星際爭霸等游戲中用到的技術,但 DeepMind 的一項研究表明,這種學習方式也為大腦中的獎勵機制提供了一種新的解釋,即大腦也應用了這種算法。這一發現驗證了分布式強化學習的潛力,同時也使得 DeepMind 的研究人員越發堅信,「現在的 AI 研究正走在正確的道路上」。

多巴胺是人們所熟悉的大腦快樂信號。如果事情的進展好于預期,大腦釋放的多巴胺也會增多。

在人腦中存在獎勵路徑,這些路徑控制我們對愉悅事件的反應,并通過釋放多巴胺的神經元進行介導。例如,在著名的巴布洛夫的狗實驗中,當狗聽到鈴聲便開始分泌口水時,這一反應并非已經獲得了獎勵,而是大腦中的多巴胺細胞對即將到來的獎勵產生的一種預測。

之前的研究認為,這些多巴胺神經元對獎勵的預測應當是相同的。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

但近日,DeepMind 的研究人員通過使用分布式強化學習算法發現,每個多巴胺神經元對獎勵的預測很不相同,它們會被調節到不同水平的「悲觀」和「樂觀」狀態。研究者希望通過這套算法研究并解釋多巴胺細胞對大腦的行為、情緒等方面的影響。這份研究成果昨日登上了《Nature》。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

Nature 論文鏈接:https://www.nature.com/articles/s41586-019-1924-6

強化學習算法和多巴胺獎懲機制研究

強化學習算是神經科學與 AI 相連接的最早也是最有影響力的研究之一。上世紀 80 年代末期,計算機科學研究者試圖開發一種算法,這種算法僅依靠獎懲反饋作為訓練信號,就可以單獨學會如何執行復雜的行為。這些獎勵會加強使其受益的任何行為。

解決獎勵預測問題的重要突破是時序差分算法(TD),TD 不會去計算未來的總體回報,它嘗試預測當前獎勵和未來時刻預期獎勵之和。當下一個時刻來臨時,將新的預測結果與預期中的相比,如果有出入,算法會計算二者之間的差異,并用此「時序差分」將舊版本的預測調整為新的預測。

不斷訓練之后,「預期」和「現實」會逐漸變得更加匹配,整個預測鏈條也會變得越來越準確。

與此同時,很多神經科學研究者們,專注于多巴胺神經元的行為研究。當面對即將到來的獎勵時,多巴胺神經元會將「預測」和「推斷」的值發送給許多大腦區域。

這些神經元的「發送」行為與獎勵的大小有一定關系,但這些反應常常依靠的是外部感性信息輸入,并且在給定任務中的表現也會隨著生物體經驗的豐富而改變。例如,對于特定的刺激產生的獎勵預測變少了,因為大腦已經習慣了。

一些研究者注意到,某些多巴胺神經元的反應揭示了獎勵預測的漏洞:相比于被訓練應該生成的那種「預期」,它們實際發送的預期總是或多或少,和訓練的預期不太一樣。

于是這些研究者建議大腦使用 TD 算法去計算獎勵預測的誤差,通過多巴胺信號發送給大腦各個部位,以此來驅動學習行為。從那時起,多巴胺的獎勵預測理論逐漸在數以萬計的實驗中得到證實,并已經成為神經科學領域最成功的定量理論之一。

自 TD 被應用于多巴胺獎懲機制研究以來,計算機科學家在不斷優化從獎懲機制中學習的算法。自從 2013 年以來,深度強化學習開始受到關注:在強化學習中使用深度神經網絡來學習更強的表示,使強化學習算法解決了精巧性和實用度等問題。

分布式強化學習是一種能讓神經網絡更好地進行強化學習的算法之一。在許多的情況下,尤其是很多現實情況中,未來獎勵的結果實際上是依據某個特定的行為而不是一個完全已知的量進行的預測,它具有一定的隨機性。

圖 1 是一個示例,一個由計算機控制的小人正在越過障礙物,無法得知它是會掉落還是跨越到另一端。所以在這里,預測獎勵就有兩種,一種代表墜落的可能性,一種代表成功抵達另一邊的可能性。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 1:當未來不確定時,可以用概率分布的方式去描述未來獎勵。未來的某一部分可能會是「好的(綠色)」,其他則代表「不好(紅色)」。借助各種 TD 算法,分布式強化學習可以學習關于這個獎勵預期的分布情況。

在這種情況下,標準 TD 算法學習預測將來的平均獎勵,而不能獲得潛在回報的雙峰分布(two-peaked distribution)。但是分布式強化學習算法則能夠學習預測將來的全部獎勵。上圖 1 描述了由分布式智能體學習到的獎勵預測。

因此,分布式強化學習算法在多巴胺研究中的應用就進入了研究者們的視野。

分布式 TD:性能更好的強化學習算法

新的研究采用了一種分布式強化學習算法,與標準 TD 非常類似,被稱為分布式 TD。標準 TD 學習單個預測(平均期望預測),而分布式 TD 學習一系列不同的預測。而分布式 TD 學習預測的方法與標準 TD 相同,即計算能夠描述連續預測之間差異的獎勵預測誤差,但是每個預測器對于每個獎勵預測誤差都采用不同的轉換。

例如,當獎勵預測誤差為正時(如下圖 2A 所示),一些預測器會有選擇性地「擴增」或「增持」獎勵預測誤差。這使得預測器學習更樂觀的獎勵預測,從而對應獎勵分布中的更高部分。但同時,另一些預測器擴增它們的負獎勵預測誤差(如下圖 2A 所示),所以學習更悲觀的獎勵預測。因此具有不同悲觀和樂觀權重的一系列預測器構成了下圖 2B 和 2C 的完整獎勵分布圖。

圖 2:分布式 TD 學習對獎勵分布不同部分的價值估計。

除了簡潔性之外,分布式強化學習還有另一項優勢,當它與深度神經網絡結合時會非常強大。過去五年,基于原始深度強化學習 DQN 智能體的算法有了很多進展,并且這些算法經常在 Atari 2600 游戲中的 Atari-57 基準測試集上進行評估,證明了分布式強化學習算法的性能優勢。

多巴胺研究中的分布式 TD

由于分布式 TD 在人工神經網絡中具有很好的性能,因此本研究考慮采用分布式 TD,嘗試研究大腦的獎懲機制。

在研究中,研究者聯合哈佛大學,對老鼠多巴胺細胞的記錄進行分析。在任務中,這些老鼠獲得數量未知的獎勵(如下圖 4 所示)。研究者的目的是評估多巴胺神經元的活動是否與標準 TD 或分布式 TD 更為一致。

以往的研究表明,多巴胺細胞改變它們的發放率(firing rate)來表明存在的預測誤差,即一個動物是否接收了比預期更多或更少的獎勵。我們知道,當獎勵被接收時,預測誤差應為零,也就是獎勵大小應與多巴胺細胞預測的一樣,因此對應的發放率也不應當改變。

對于每個多巴胺細胞,如果研究者確定了其基準發放率沒有改變,則其獎勵大小也可以被確定。這個關系被稱之為細胞的「逆轉點」。研究者想要弄清楚不同細胞之間的逆轉點是否也存在差異。

如下圖 4C 所示,細胞之間存在著明顯差異,一些細胞會預測非常大的獎勵,而另一些只預測出非常小的獎勵。相較于從記錄中固有隨機變化率所能預期的差異,細胞之間的實際差異要大得多。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 4:在這項任務中,老鼠獲得的水獎勵(water reward)通過隨機方法確定,并可以調整,范圍是 0.1-20 UL。

在分布式 TD 中,獎勵預測中的這些差異是由正或負獎勵預測誤差的選擇性擴增引起的。擴增正獎勵預測可以獲得更樂觀的獎勵預測,而擴增負獎勵可以獲得更悲觀的預測。所以,研究者接下來測量了不同多巴胺細胞對正或負期望的擴增程度,并發現了細胞之間存在著噪聲也不能解釋的可靠多樣性。并且關鍵的一點是,他們發現擴增正獎勵預測誤差的同一些細胞也表現出了更高的逆轉點(上圖 4C 右下圖),也就是說,這些細胞期望獲得更高的獎勵。

最后,分布式 TD 理論預測,有著不同的逆轉點(reversal point)的細胞應該共同編碼學到的獎勵分配。因此研究人員希望能夠探究:是否可以從多巴胺細胞的發放率解碼出獎勵分配到不同細胞的分布。

如圖 5 所示,研究人員發現,只使用多巴胺細胞的放電速率,確實有可能重建獎勵的分布(藍色線條),這與老鼠執行任務時獎勵的實際分布(灰色區域)非常接近。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 5:多巴胺細胞群編碼了學到的獎勵分布的形狀。

總結

研究人員發現,大腦中的多巴胺神經元被調節到不同水平的「悲觀」和「樂觀」。如果它們是一個合唱團,那么所有的神經元不會唱同一個音域,而是彼此配合——每個神經元都有自己的音域,如男高音或女低音。在人工強化學習系統中,這種多樣化的調整創造了更加豐富的訓練信號,極大地加快了神經網絡的學習。研究人員推測,大腦可能出于同樣的原因使用這套機制。

大腦中分布式強化學習的存在可以為 AI 和神經科學的發展提供非常有趣的啟示。首先,這一發現驗證了分布式強化學習的潛力——大腦已經用到了這套算法。

其次,它為神經科學提出了新的問題。如果大腦選擇性地「傾聽」樂觀/悲觀多巴胺神經元會怎么樣呢?會導致沖動或抑郁嗎?大腦有強大的表征能力,這些表征是如何由分布式學習訓練出的呢?例如,一旦某個動物學會了分配獎勵的機制,在它的下游任務會如何使用這種表征?多巴胺細胞之間的樂觀情緒可變性與大腦中其他已知的可變形式存在什么關聯?這些問題都需要后續研究進一步解釋。

最后,DeepMind 的研究人員希望通過這些問題的提出和解答來促進神經科學的發展,進而為人工智能研究帶來益處,形成一個良性循環。 

 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-15 19:22:09

Menger機器學習強化學習

2021-10-11 09:51:38

谷歌人工智能強化學習

2020-06-05 14:49:51

強化學習算法框架

2022-10-08 09:53:17

AI算法

2021-11-29 10:09:50

AI 強化學習人工智能

2025-04-25 09:08:00

2025-04-07 03:00:00

Dreamer世界模型

2021-10-08 15:21:52

AI 數據人工智能

2025-10-11 04:00:00

2023-09-21 10:29:01

AI模型

2022-11-02 14:02:02

強化學習訓練

2022-07-12 14:56:30

AI模型研究

2019-11-22 08:41:06

人工智能機器學習技術

2022-04-21 14:54:12

電力技術Nature

2025-03-03 09:12:00

2025-06-23 09:09:00

2020-02-21 15:33:44

人工智能機器學習技術

2021-09-10 16:31:56

人工智能機器學習技術

2024-06-17 13:34:54

2017-03-20 15:23:46

人工智能連續學習神經網絡
點贊
收藏

51CTO技術棧公眾號

av毛片在线免费| 91香蕉国产视频| 亚洲国产福利| 日本一区二区动态图| 成人黄色激情网| 日韩成人av毛片| 天天操天天爽天天射| 国产一区二区影视| 国产一区免费电影| 欧美在线精品免播放器视频| 欧美有码在线| 中文字幕日韩欧美一区二区三区| 国产精品一区在线播放| 中文天堂在线播放| 亚洲伦伦在线| 久久中文字幕一区| 精品成人av一区二区三区| www欧美在线观看| 一本到三区不卡视频| 艳母动漫在线免费观看| 深夜福利视频在线免费观看| 三上悠亚激情av一区二区三区| 中文字幕一区二区三区在线不卡| 精品久久久久久乱码天堂| 在线免费一级片| 国产一级一区二区| 欧美疯狂性受xxxxx另类| 国产毛片欧美毛片久久久| 清纯唯美亚洲经典中文字幕| 日韩欧美一二三| 欧美日韩一区二区三区69堂| 中文字幕一区久| 午夜av区久久| 精品成在人线av无码免费看| 五月香视频在线观看| 久久免费偷拍视频| 久久国产精品 国产精品| 性生活三级视频| 国产精一品亚洲二区在线视频| 国产日韩在线观看av| aaa在线视频| 亚洲深爱激情| 久久久久久久久中文字幕| 极品魔鬼身材女神啪啪精品| 精品一区91| 欧美私人免费视频| 妞干网在线免费视频| 欧亚av在线| 狠狠躁夜夜躁人人爽超碰91| 亚洲熟妇av日韩熟妇在线| 大桥未久在线视频| 亚州成人在线电影| 北条麻妃在线视频观看| xx欧美视频| 色综合激情久久| 日韩一级在线免费观看| 日韩不卡免费高清视频| 91搞黄在线观看| 日本新janpanese乱熟| 精品123区| 欧美人狂配大交3d怪物一区| 99九九99九九九99九他书对| 国产精品一站二站| 欧美大胆人体bbbb| 国产十八熟妇av成人一区| 视频小说一区二区| 亚洲一级黄色片| 99成人在线观看| 一区二区蜜桃| 国语自产精品视频在线看| 中日韩黄色大片| 又色又爽的视频| 欧美精美视频| 最近2019好看的中文字幕免费 | 日本一本高清视频| 国产视频一区免费看| 国产成人精品久久二区二区| 中文字幕黄色av| 国产精品亚洲第一| 久久久www免费人成黑人精品| 户外极限露出调教在线视频| 国产精品毛片久久久久久| 四虎免费在线观看视频| 丰满诱人av在线播放| 欧美性色xo影院| 午夜激情在线观看视频| 精品久久国产一区| 精品偷拍一区二区三区在线看| 色www亚洲国产阿娇yao| 欧美激情视频一区二区三区在线播放| 久久久久国产视频| 欧美一区二区三区久久久| 久久99国产精品免费网站| 成人免费视频视频在| 九色视频在线播放| 亚洲欧美色图小说| 亚洲中文字幕无码不卡电影| 亚州精品国产| 日韩h在线观看| 国产美女高潮视频| 久久精品官网| 91久久久一线二线三线品牌| 美国一级片在线免费观看视频| 中文字幕一区二区三区在线播放 | www.综合网.com| 欧美自拍丝袜亚洲| 久久久高清视频| 欧美激情另类| 欧美洲成人男女午夜视频| 国产免费黄色大片| 久久久青草青青国产亚洲免观| 看一级黄色录像| 国产精品videossex撒尿| 国产日本在线| 亚洲精品成人无限看| 高清欧美性猛交xxxx黑人猛交| 中文字幕一区二区三区人妻四季 | 69成人免费视频| 亚洲伦理一区| 亚洲最大av在线| 国产区在线视频| 成人欧美大片| 91免费版在线| 久青草视频在线播放| 日韩av电影资源网| 亚洲乱码一区av黑人高潮| 美女毛片在线观看| 国内精品国产三级国产a久久| 日本一区二区三区免费看| a'aaa级片在线观看| 91麻豆精品国产91久久久久久 | 一本大道熟女人妻中文字幕在线| 综合激情久久| 久久综合免费视频| 一级视频在线播放| 欧美国产国产综合| 国产又黄又猛视频| 国产精品嫩草影院在线看| 91极品女神在线| 亚洲国产福利视频| 一区二区三区四区国产精品| 91精品视频国产| 四虎成人精品永久免费av九九| 国产精品久久久久免费a∨| 久草福利在线视频| 色婷婷久久综合| 91网站免费视频| 日韩电影一区二区三区| 日本高清久久一区二区三区| 三级成人黄色影院| 亚洲午夜色婷婷在线| 波多野结衣视频在线看| 国产情人综合久久777777| www.99av.com| 我不卡手机影院| 91九色精品视频| 欧美野外wwwxxx| 亚洲成人黄色在线观看| 久久在线视频精品| 白白色 亚洲乱淫| 国产欧美日韩网站| 妖精视频一区二区三区| 国产精品狠色婷| 欧美96在线| 欧美大片日本大片免费观看| 亚洲国产综合久久| 91丨九色丨国产丨porny| 成人在线看视频| 欧美a级成人淫片免费看| 91老司机精品视频| 国产天堂在线播放视频| 日韩av在线看| 久久久成人免费视频| 国产精品免费久久| 中文字幕永久免费| 国产亚洲高清视频| 亚洲精品永久www嫩草| 六九午夜精品视频| 欧美激情亚洲国产| 可以在线观看的av网站| 欧美日韩成人综合| 精品深夜av无码一区二区老年| www国产成人免费观看视频 深夜成人网| 国产免费人做人爱午夜视频| 久久亚洲精品中文字幕蜜潮电影| 99影视tv| av在线日韩| 久久久精品影院| 日韩精品系列| 9191精品国产综合久久久久久| 日韩特黄一级片| 一区免费观看视频| 亚洲一区二区三区综合| 久久成人免费网| 日韩小视频在线播放| 久久在线视频免费观看| 国产精品亚洲综合| 国产第一亚洲| 国内精品久久久久久中文字幕 | 国产黄色片免费| 欧美性猛交xxxx黑人| 免费黄色国产视频| 91亚洲资源网| 一二三区视频在线观看| 免费看日韩精品| 亚洲欧洲日产国码无码久久99 | 国产成人无码精品久久久性色| 日韩毛片视频| 牛人盗摄一区二区三区视频| 日韩一区二区三区高清在线观看| 国产精品久久久久久久久男| 国产高清中文字幕在线| 欧美裸体xxxx极品少妇| avav免费在线观看| 日韩精品中文字幕在线观看| 成人av无码一区二区三区| 在线观看中文字幕不卡| 日本一区二区欧美| 亚洲黄色录像片| 992在线观看| 日本一区二区三级电影在线观看| 日韩无码精品一区二区| 国产精品性做久久久久久| 亚洲无吗一区二区三区| 老妇喷水一区二区三区| 18黄暴禁片在线观看| 欧美精品午夜| 一区二区三区四区免费观看| 欧美xxxxx视频| 亚洲国产一区二区三区在线播| 色婷婷精品视频| 狠狠色综合欧美激情| 亚洲视频精选| 懂色中文一区二区在线播放| 国产精品色悠悠| 国产另类xxxxhd高清| 秋霞午夜一区二区| 午夜激情电影在线播放| 午夜精品久久久久久久99黑人| h片在线播放| 久青草国产97香蕉在线视频| 黄色小网站在线观看| 日韩在线资源网| av电影在线网| 日日噜噜噜夜夜爽亚洲精品| 在线观看av黄网站永久| 深夜福利亚洲导航| 黄网站在线播放| 久久中文字幕在线| 国内老司机av在线| 午夜精品三级视频福利| 亚洲天堂av在线| 国产成一区二区| 亚洲aⅴ网站| 99九九电视剧免费观看| 成人免费直播在线| 久久人人爽爽人人爽人人片av| 亚洲色图丝袜| 亚洲欧美成人一区| 68国产成人综合久久精品| www亚洲国产| 6080成人| 免费亚洲精品视频| 波多野结衣在线观看一区二区三区| 日本视频一区二区在线观看| 999国产精品999久久久久久| 国产女教师bbwbbwbbw| 日韩视频一区二区三区在线播放免费观看| 久久久久久久久久网| 久久婷婷亚洲| 在线观看免费av网址| 国产在线日韩欧美| 国产人成视频在线观看| 国产亚洲一区二区三区在线观看 | 国产成人亚洲精品| 一区二区三区日本视频| 不卡一区二区三区四区五区| 亚洲品质自拍| youjizz.com亚洲| 亚洲无吗在线| 成年人小视频网站| 国产精品一级片| 日本黄色动态图| 国产精品你懂的| 激情五月婷婷在线| 日韩欧美国产中文字幕| 一级黄色片在线播放| 精品福利一区二区三区| 国产在线观看免费| 欧美成在线视频| 91精品影视| 国产精品一区二区三区不卡 | 欧美二区在线视频| 蜜桃视频免费观看一区| 男人网站在线观看| 国产精品久久久久久久久免费樱桃| 国产无码精品在线观看| 欧美日韩中文一区| 六月婷婷综合网| 色琪琪综合男人的天堂aⅴ视频| 黄页在线观看免费| 国产欧美精品日韩| 久久亚洲道色| 国产日产欧美一区二区| 天堂一区二区在线| 极品白嫩的小少妇| 亚洲视频小说图片| 91丨九色丨海角社区| 亚洲成人免费网站| 爆操欧美美女| 国产欧美在线观看| 亚洲另类av| 国产自产在线视频| 国内久久精品视频| 91麻豆精品国产91久久综合| 图片区日韩欧美亚洲| 国产裸体永久免费无遮挡| 一区二区三区四区精品| 日韩欧美精品一区二区三区| 91|九色|视频| 五月综合激情| 亚洲激情在线观看视频| 久久亚洲影视婷婷| 一区二区三区视频免费看| 欧美tk—视频vk| 成人免费网址| 成人精品网站在线观看| 欧美一区二区三区激情视频| 大陆极品少妇内射aaaaa| 大尺度一区二区| 日韩影院一区二区| 日韩一区二区视频| jizzjizz亚洲| 成人激情视频在线播放| 奇米影视亚洲| 在线看的黄色网址| 中文乱码免费一区二区 | 91精品国产色综合久久不卡电影 | 久久99精品久久久| 西西444www无码大胆| 欧美日韩一区二区在线| 性xxxx视频| 538国产精品视频一区二区| 里番精品3d一二三区| 成人免费性视频| 成人福利电影精品一区二区在线观看| 欧美日韩国产精品综合| 日韩一区二区高清| 大黄网站在线观看| 国产成人精品日本亚洲11| 亚洲性色视频| 亚洲男人在线天堂| 欧美午夜性色大片在线观看| 日韩欧美电影在线观看| 国产精品久久久久久av下载红粉| 精品国产一区探花在线观看 | 亚洲视频自拍偷拍| 亚洲综合在线电影| 中文字幕在线亚洲三区| 国产精品亚洲第一区在线暖暖韩国| 青青草手机在线视频| 亚洲国产欧美一区二区三区同亚洲 | 国产精品一区二区视频| 亚洲 欧美 日韩在线| 天天综合网天天综合色| 欧美女v视频| 国产一区欧美二区三区| 在线免费观看日本欧美爱情大片| 香蕉视频在线观看黄| 亚洲激情图片小说视频| 视频污在线观看| 国产精品狠色婷| 欧美在线不卡| 欧美 变态 另类 人妖| 欧美综合一区二区| 在线h片观看| 欧美国产一区二区在线| 麻豆一区二区99久久久久| 免费在线观看黄视频| 亚洲欧美制服丝袜| 国产精品2区| 黄色动漫网站入口| 国产精品久久久久久亚洲伦| 亚洲av无码一区二区乱子伦| 91国内精品久久| 日韩88av| 催眠调教后宫乱淫校园| 在线观看日韩av先锋影音电影院| 污的网站在线观看| 欧美日本韩国在线| 精品在线播放免费| 国内精品福利视频| 久久九九有精品国产23| 色老板在线视频一区二区| 久久婷婷中文字幕| 日韩欧美国产激情| 欧美6一10sex性hd| 亚洲国产精品视频一区| 成人av综合一区| 一级aaaa毛片|