DeepMind论文:连接多巴胺与元强化学习的新方法
ABSTRACT
过去20年间,神经科学中对于Reward-based Learning的研究已经收敛到了一类规范的模式上:神经递质多巴胺通过调整神经元之间的突触连接强度,以在情景、动作和奖励之间建立关联。但是,近期越来越多的发现开始挑战这一标准模型。因此,本文提出一种新的基于奖励的学习机制:多巴胺系统训练了另一个大脑区域————前额叶,来将其作为独立的学习系统。这个全新的视角既能够继承标准模型的那些依据,也能够很好地处理宽泛的经验观察,为未来的研究提供全新的基础。
关键名词缩写
全称 | 中文翻译 | 缩写 |
---|---|---|
reinforcement learning | 强化学习 | RL |
dopamine | 多巴胺 | DA |
reward prediction error | 奖励预测误差 | RPE |
prefrontal cortex | 前额皮质 | PFC |
简介
在现有的认知中,DA被认为是强化学习中的RPE,即奖励信号。在这个理论中,RPR驱动突触的可塑性,将经验中得到的action-reward关联性转换成优化后的行为策略。但是这一理论正面临挑战。其中一个质疑正来自于对于PFC的研究。
近期研究表明,PFC不仅表示了actions、objects和states的期望,还编码了近期actions和rewards的历史信息。PFC中的神经元动态地完成从rewards和choice history到object value的转换。这表明了PFC的神经元活动是一组独立的强化学习过程。
将PFC和DA分开考虑,我们得到了一个包含两个完整RL系统的图景,其中一个系统(PFC)利用activity-based representations,另一个系统(DA)利用突触学习。那么这两个系统之间是怎样的关系,它们的功能是否重叠冗余?一种假设是DA和PFC服务于不同形式的学习,DA实行model-free的强化学习,基于直接的刺激-响应关联;PFC实行model-based的强化学习,利用任务结构的内部表达。
三个关键前提
系统结构
使用循环神经网络来建模PFC。
学习过程
我们假设一个由DA传达的RPE信号控制的model-free强化学习过程,负责调节前额网络中的所有突触权重。通过这一途径,DA-based RL过程塑造了循环前额网络的activation dynamics。
任务环境
我们设定任务环境中同时有多个内在关联的任务。学习系统需要进行持续的推理和行为调整。