DeepMind研究讲明，大脑使用与AI类似的漫衍奖励机制

时间:2020-01-17 11:18:14
浏览:180
来源:世界杯买球盘口网址app

1951 年，“人工智能之父”Marvin Minsky 借鉴了巴甫洛夫对动物行为的视察效果，开始实验设计最早的智能机械和神经网络模拟原型。基于动物学习历程中对奖励和处罚的反映，他缔造了一台可以通过不停学习来解决迷宫问题的盘算机。

虽然神经科学家其时还没有弄清楚大脑这种学习机制的原理，但 Minsky 仍然能够在一定水平上模拟和复制这种行为，推动了人工智能（AI）的生长。

如今在盘算机科学领域，这种机制就是我们熟知的强化学习技术。随着强化学习的不停完善，它反过来可以资助神经科学家们更深入地相识动物大脑的这种机制，促进了两个领域之间良性循环生长。

《自然》杂志上揭晓的一篇最新论文中，DeepMind 借鉴了研究强化学习技术得出的履历，提出了一套关于我们大脑内奖励机制的新理论。该假设开端获得了实验效果支持，不仅增进了我们对心理康健和行动念头的明白，还足以证明 AI 研究正朝着通用人工智能技术的偏向迈进。

就像开头所说，强化学习算法的内在逻辑建设在巴甫洛夫对动物的实验效果上：仅通过给予努力和消极反馈，就可以教会动物完成庞大而生疏的任务。

对于算法来说，它在学习之初会随机预测哪个行动可能会带来奖励，在接纳相应行动后视察实际回报，而且凭据误差来调整其预测方式。在最理想的情况下，经由数百万次以上的实验，该算法的预测误差会收敛至零，这时它就能准确地知道接纳哪些行动可以带来最大回报，从而顺利完成任务。

早在 20 世纪 90 年月，受到强化学习算法启发的研究就已经证明，动物大脑中奖励系统的运作方式险些与这套机制相同。当人或动物将要执行某项行动时，大脑中掌管奖励机制的多巴胺神经元就会盘算预期回报。一旦收到了实际奖励，它们便会释放出与预测误差成正比的多巴胺。

如果实际奖励高于预期，就会触发强烈的多巴胺排泄，令人倍感愉悦，而低于预期的回报则会抑制它的发生。换句话说，多巴胺可以被视为是一种校正信号，告诉神经元调整其预测模式，直到它们收敛到切合现实为止。

这种现象称为奖励预测误差（reward prediction error），其事情原理就类似于强化学习算法。

DeepMind 的新论文建设在自然学习机制和人工学习机制之间的精密联系上。2017 年，其研究人员曾推出了一种革新型强化学习算法，名为漫衍式强化学习（Distributional RL），在许多任务上的体现令人印象深刻。

他们现在认为，这种算法还可以为多巴胺神经元在大脑中的事情机制提供更准确的解释。

图 | 当未来的效果不确定时，奖励可以被视为一种概率漫衍：绿色代表好的可能，红色代表坏的可能。经由训练的算法可以掌握这种概率漫衍模式。（泉源：DeepMind）

详细来说，革新的新算法改变了预测奖励的方式。旧方法将奖励估算为一个 “即是平均预期效果” 的整数，而新方法更准确地将其以漫衍的形式表现出来。这有点类似于赌钱或者抽奖的游戏机制，虽然输赢和获胜概率有平均预期值，好比在氪金游戏中常见的抽奖概率 x%，但真实情况却是呈漫衍状态的，险些不行能抽 100 次就一定会中 x 次。

接纳漫衍形式的新算法由此引出了一个新的假设：大脑中的多巴胺神经元是否也以类似的漫衍方式预测奖励呢？

为了验证这一理论，DeepMind 与哈佛大学的一个小组互助，视察了小鼠大脑中多巴胺神经元的运动模式。

他们给一些小鼠摆设了任务，然后凭据掷骰子效果奖励它们。在整个历程中，研究人员会丈量小鼠多巴胺神经元的放电情况，即信号发送情况。他们发现每个神经元释放多巴胺的水平差别。这意味着它们对同一项任务给出了差别的预测效果。

有些神经元会过于“乐观”，预测奖励比实际获得的更高，但另一些则更为“灰心”，会低估实际奖励。研究人员随后绘制出了预测效果的漫衍图，发现它跟实际奖励的漫衍图很是相似。这些数据提供了令人信服的证据，讲明大脑确实使用了漫衍奖励预测来增强其学习算法。

图 | 神经元预测奖励（蓝色）和实际奖励（灰色）出现出相似的漫衍纪律（泉源：DeepMind）

未到场研究的多巴胺神经元行为研究先驱 Wolfram Schultz 在电子邮件中表现，“这是对基于奖励预测误差的多巴胺编码机制的很好扩展。最令人惊讶的是，这种很是简朴的多巴胺反映遵循了基本生物学的直观学习历程，而且已经成为了 AI 的组成部门。”

这项研究对 AI 和神经科学都有深刻影响。

首先，它验证了漫衍强化学习是通往更高级 AI 功效的有效方法，很有希望。DeepMind 神经科学研究主管，论文的主要作者之一 Matt Botvinick 在新闻公布会上说：“如果大脑（选择）遵循了一种模式，那它可能是个好想法。它告诉我们，这是一种可以在现实世界中扩展的盘算技术，也会适合其他盘算历程。”

其次，该研究可以对神经科学中有关大脑奖励系统的经典理论提供重要更新，从而增进我们对行为念头和心理康健等研究课题的相识。例如，多巴胺神经元会倾向于 “灰心” 和“乐观”意味着什么？如果大脑选择性地只听其中一个，会导致化学物质失衡，甚至导致抑郁吗？

从基础上讲，后续研究会为分析大脑运动提供新的视角，进一步解码大脑的运动机制或许会展现更多的大脑未解之谜，有望深入挖掘是什么缔造了人类的智力。

-End-

参考：

https://www.technologyreview.com/s/615054/deepmind-ai-reiforcement-learning-reveals-dopamine-neurons-in-brain/

https://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AI