DeepMind团队冲击脑科学领域揭秘大脑的分布式奖励机制- DoNews

来源：钛媒体林志佳

自从被谷歌母公司 Alphabet 收购以来，DeepMind 发布的多项技术创新成果都令人印象深刻，这一次，DeepMind 向脑科学领域发起冲击，希望让人类与 AI 之间能够更加紧密的结合，同时也验证了分布式强化学习的潜力。

近日，DeepMind 和哈佛大学的科研人员，借鉴强化学习的经验，优化分布式强化学习算法，提出了关于我们人类大脑内奖励机制的新理论：人类大脑在使用与 AI 类似的分布奖励机制。

科研人员希望通过这套算法理论，研究并解释多巴胺细胞对大脑的行为、情绪等方面的影响。据悉，该研究成果昨日登在世界最权威学术期刊《Nature》（自然）杂志上。

该论文发布之后，DeepMind 公司创始人 Demis Hassabis 非常兴奋的在其推文中表示：

"DeepMind 每天都将努力工作，并致力于创造这种高度创新的科学研究！"

这也是 DeepMind 今年第一次发表最新的论文研究，也是 Nature 非常罕见的将一个团队研究出的两篇论文放在同一天的期刊上，意义不同寻常。

优化的强化学习算法，让多巴胺奖惩机制完美实现

事实上，强化学习（Reinforcement learning）是一种动态编程。它使用奖励和惩罚系统来训练算法。强化学习强调如何基于环境而行动，以取得最大化的预期利益，这是神经科学与 AI 相连接的最早，也是最有影响力的研究之一。

在上个世纪 50 年代，当时在哈佛大学读书的马文·明斯基（Marvin Minsky）借鉴了著名生理学家伊万·巴甫洛夫（Ivan Pavlov）在动物行为领域的观察结果，试图设计一种智能机器和神经网络模型。

到了 80 年代后期，计算机科学家则利用这个神经网络模型，希望开发了一种算法，这种算法仅依靠奖惩反馈作为训练信号，就可以单独学会如何执行复杂的行为。

事实上，最后他们真的研究出来了一种时序差分算法（Temporal Differences，简称 TD），该算法可以说是强化学习的中心点，很好的回答了当时所遇到的机器算法问题，并且预测了未来价值体系。

与此同时，在 TD 算法开发出来之时，又有另一波神经科学家在研究猴子的多巴胺神经元行为。

那么，什么是多巴胺呢？

多巴胺的化学式

简单来说，多巴胺是一种脑内分泌物。作为神经递质调控中枢神经系统的多种生理功能，多巴胺神经元聚集在中脑，它的不断释放，会反馈到大脑，得到人类更加快乐或悲伤的状态。

如果说，神经科学家研究多巴胺只是为了观察猴子大脑的话，那么与 TD 算法的结合，或许是一个新的发展。

一些科学家利用多巴胺效应，应用于奖惩机制，并且与 TD 算法结合。此外，为了让深度神经网络更加强大，也让 AI 变得更强，更多的科研人员发明了分布式强化学习。毕竟，更迭的算法机制才是决定 AI 是否强大的主要因素之一。

技术不断更迭，AI 是在不断强大了，那么人类呢？我们大脑的多巴胺奖赏机制是怎样的呢？

DeepMind 团队的研究人员，从分布式强化学习中获得了启发，并采取优化，发现一个惊人的事实：人类在使用与 AI 一样的大脑机制。

过去，大多数人认为，人类的多巴胺神经元所触及的反应都大致相同，与 AI 是不太一样的。

“有点像在一个诗唱班，每个人唱的都是一模一样的音符。”论文中这样表示。

但后来，DeepMind 的研究人员发现，之前人们的固有认知是错的。学习和动力是由内部和外部奖励驱动的，受到环境或心情影响，实际上每个多巴胺神经元释放出来的结果是存在概率性分布，有些是消极，有些则是积极的。

在理论基础上，DeepMind 和哈佛大学实验室的科研人员通过训练 11 只小鼠，让其执行可变任务的培训，并给予不同大小且不可预测的奖励。最后，他们从小鼠细胞上发现了“分布式强化学习”证据，从而得出上述结论。

总而言之，对于我们普通人来说，上面的细节有一些晦涩难懂，只需要记住一句话就可以了：我们大脑与 AI 一样采用分布式强化学习算法，多巴胺会被调节为不同形式。也就是说，我们人类的嬉笑怒骂并不是四个表情，而是由无数种表情和状态形成的。

未来的应用在哪儿？

如果你看到这里的话，会突然感觉，这种结论明明就是一个我知道的结论，只是科学家去帮忙验证罢了。但事实上，这个结论可以应用到整个人工智能技术和机器人交互领域。

最近几年，AI 技术发展迅猛，语音交互已经深入人们的生活场景，比如苹果的 Siri、小米的小爱同学，它们在慢慢替代你的动手操作能力，打电话、听音乐、设置铃声。它们看起来无所不能，甚至被命名为“助理”。

事实上，即便是 Pepper 机器人，也只是在完成“任务”，而缺乏情感。任务型人工智能只是没有感情的机器，何谈助理一说。

但如今，DeepMind 的这份研究成果，或许会开拓机器情感化的方向，让 AI 技术更好的服务于人类。

值得注意的是，就在这篇论文登上 Nature 的同时，DeepMind 还有另外一篇研究出现了同一期刊上—利用 2018 年 12 月公布的 AlphaFold 机器系统，可以预测每对氨基酸之间的距离以及连接的化学键之间的扭转角，从而预测蛋白质的 3D 结构，这个结果比之前的任何算法模型都要精准。

“蛋白质的3D结构可能是科学家可以获得的最有用的信息，以帮助了解蛋白质的作用及其在细胞中的工作方式。”

伦敦大学学院（UCL）生物信息学小组负责人 David Jones 表示，“确定蛋白质结构的实验技术既费时又昂贵，因此迫切需要更好的计算机算法来直接从编码蛋白质的基因序列中计算蛋白质的结构，而 DeepMind 致力于将 AI 技术运用到这个长期存在的问题上，这在分子生物学中是绝对的进步。这是分子医学的新发现。”

毫无疑问，DeepMind 已成为人工智能技术发展的主要推动者。

尽管 DeepMind 团队是依靠 AlphaGo 在围棋赛场上一站成名，但如今，DeepMind 团队希望将目光聚焦到更实际、更容易落地的 AI 技术研究当中。

正如 Demis Hassabis 所提到的：（DeepMind 就是要）通过创建重要情报（研究成果）本身，来解锁一些世界上最棘手问题的答案。

或许，这就是两篇论文的实际意义吧。（本文首发钛媒体，作者/林志佳，编辑/赵宇航）