DeepMind论文：连接多巴胺与元强化学习的新方法

ABSTRACT

过去20年间，神经科学中对于Reward-based Learning的研究已经收敛到了一类规范的模式上：神经递质多巴胺通过调整神经元之间的突触连接强度，以在情景、动作和奖励之间建立关联。但是，近期越来越多的发现开始挑战这一标准模型。因此，本文提出一种新的基于奖励的学习机制：多巴胺系统训练了另一个大脑区域————前额叶，来将其作为独立的学习系统。这个全新的视角既能够继承标准模型的那些依据，也能够很好地处理宽泛的经验观察，为未来的研究提供全新的基础。

关键名词缩写

全称	中文翻译	缩写
reinforcement learning	强化学习	RL
dopamine	多巴胺	DA
reward prediction error	奖励预测误差	RPE
prefrontal cortex	前额皮质	PFC

简介

在现有的认知中，DA被认为是强化学习中的RPE，即奖励信号。在这个理论中，RPR驱动突触的可塑性，将经验中得到的action-reward关联性转换成优化后的行为策略。但是这一理论正面临挑战。其中一个质疑正来自于对于PFC的研究。
近期研究表明，PFC不仅表示了actions、objects和states的期望，还编码了近期actions和rewards的历史信息。PFC中的神经元动态地完成从rewards和choice history到object value的转换。这表明了PFC的神经元活动是一组独立的强化学习过程。
将PFC和DA分开考虑，我们得到了一个包含两个完整RL系统的图景，其中一个系统（PFC）利用activity-based representations，另一个系统（DA）利用突触学习。那么这两个系统之间是怎样的关系，它们的功能是否重叠冗余？一种假设是DA和PFC服务于不同形式的学习，DA实行model-free的强化学习，基于直接的刺激-响应关联；PFC实行model-based的强化学习，利用任务结构的内部表达。

三个关键前提

系统结构

使用循环神经网络来建模PFC。

学习过程

我们假设一个由DA传达的RPE信号控制的model-free强化学习过程，负责调节前额网络中的所有突触权重。通过这一途径，DA-based RL过程塑造了循环前额网络的activation dynamics。

任务环境

我们设定任务环境中同时有多个内在关联的任务。学习系统需要进行持续的推理和行为调整。