大腦也在強化學習！「價值決策」被大腦高效編碼，登Neuron頂刊

作者：佚名 2021-11-29 10:09:50

人和動物的決策離不開大腦，大腦決策要靠「價值信息」。一項新研究揭示了這類關鍵信息更新和編碼的詳細機制，實驗表明，它們被編入一個資源庫，可以持久保存，長期調用。

我們每個人的一生都要做出大量的決定，小到「今天晚上吃什么」、「明天放假去哪里玩」，大到「這次戰役怎么打」、「這部法律如何制定」。

這些決定的結果，要由決策者的大腦來給出最終裁決。

所以，大腦中負責這類「裁決」的關鍵區域，成為科學家們關注的重點。

2019 年，加州大學圣地亞哥分校的研究人員就發現了做出「價值決策」的大腦區域。

他們發現，這個區域被稱為脾后皮層 (RSC)，是用來做出「有價值的選擇」的地方，比如決定今晚去哪家餐廳吃飯。然后，根據對今晚飯菜的喜好程度的新印象，用最新信息來更新RSC。

畢竟，只有及時更新信息，才能讓大腦做出最正確的決策。

現在，這個團隊在這個問題上又有新進展。該校生物科學系博士后 Ryoma Hattori 和 Takaki Komiyama 教授領導的新研究，揭示了大腦處理此類動態更新信息的詳細機制。

近日發表在Neuron期刊上的論文結果表明，RSC中的更新信息可以持久保存，就像一個可調用的資源庫。

這些「持久信息」可以最有效地表示或「編碼」有價值的信號，能夠跨越大腦的不同區域。

為了研究大腦活動如何表示基于價值的決策的細節，研究人員設置了強化學習實驗。價值決策是人類大腦的關鍵機制，在精神分裂癥、癡呆和成癮等神經系統疾病中常常受損。

在實驗中，研究人員小鼠提供了多個選項，對小鼠的選擇以一定的概率獎勵，并記錄在強化學習過程中的相應大腦活動。

由此產生的數據和網絡模擬指出了持續編碼在如何表示老鼠及其價值決定方面的重要性，以及 RSC 作為這項活動的紐帶。

研究人員在論文中解釋說：「這些結果表明，盡管信息編碼是高度分布的，但并非所有神經活動中表示的信息都可以在每個區域中使用。這些結果表明，依賴于上下文的持久性信息，促進了可靠的信號編碼，擴大了信息在大腦中的分布。」

研究人員發現，信息的持久性，可以讓價值信號在大腦的不同區域得到最高效的編碼，尤其是在脾后皮層中。圖片來源：加州大學圣地亞哥分校 Komiyama 實驗室

研究團隊成員，論文作者之一Hattori表示，眾所周知，神經元會在不同的活動模式中循環，一些神經元的活動會激增，而另一些則保持沉默。

Ryoma Hattori

這些大腦活動模式已被證明與某些與任務相關的信息相關，例如決策的價值信息。由于 RSC 在連接多個大腦網絡和功能方面發揮著核心作用，此次新發現進一步強化了2019年的成果。

“我們認為在小鼠大腦中，RSC的作用是價值信息的穩定儲存庫，當老鼠進行強化學習和決策時，RSC 會將價值信息分發到其他大腦區域，這些區域對于進一步處理價值信號至關重要。”

為了進一步測試他們的發現，Hattori 和 Komiyama 使用了他們在實驗期間記錄的超過 100000 次小鼠決策的「大數據」庫。

研究人員對人工智能 (AI) 網絡進行編程，模仿基于計算機的強化試驗中的行為策略，得到了與現實世界的實驗非常相似的結果。

Takaki Komiyama

「當我們訓練AI做同樣的行為時，它采用了相同的策略和相同的方式來表示神經活動中的信息，」Komiyama 說

「這表明，我們的發現確實是神經回路執行這種行為的選擇策略。AI和小鼠之間的這種相似性真的很有趣。」

責任編輯：張燕妮來源：新智元