受生长心理学启发,研究员开发出能预测物体运动的AI模型

  • 时间:
  • 浏览:225
  • 来源:世界杯买球盘口网址app

人类可以轻松地识别事物并对其行为举行推理,这是我们认知生长的焦点。纵然是儿童,他们也会凭据物体动态对其举行细分,并用持久性、稳定性、一连性的观点来解释物体发生了什么,以及推测在其他情况下物体会发生什么。

受此启发,为了简化人工智能模型的视觉识别问题,来自麻省理工学院-IBM Watson人工智能实验室、麻省理工学院盘算机科学与人工智能实验室、DeepMind和哈佛大学的一组研究人员引入了一套动态视频推理基准——CLEVRER,并开发出了一套能预测物体运动的模型。

CLEVRER包罗了由物理引擎生成的2万多个时长为5秒的碰撞物体视频,每个视频里包罗了三种形状、两种质料和八种颜色。同时还包罗30多万个问题和谜底。这些视频和问题全部都集中在逻辑推理的四个要素上:形貌,什么颜色;说明,什么原因造成;预测,接下去会发生什么;反事实,如果发什么。

模型运行示意图

通过剖析CLEVRER,研究人员确定了在形貌性、解释性、预测性和反事实性问题上,训练AI模型需要的内容,划分是:对物体、事件之间的运动、因果关系,以及背后的逻辑关系举行推理的符号形貌。随后,研究人员据此开发了神经符号动态推理模型(NS-DR)。

这个模型实际由四个部门合成。划分是:视频帧剖析器,神经动态预测器,问题剖析器和符号法式执行器。给定输入视频,视频帧剖析器会检测场景中的工具并提取其轨迹和属性(即位置,颜色,形状,材质)。形成视频的抽象形貌后,将其发送到神经动态预测器以预测工具的运动和碰撞。问题剖析器吸收输入问题以获得代表其逻辑的功效法式。然后,符号法式执行器在动态场景上运行该法式并输出谜底。

凭据该团队陈诉,在用1000个法式应用了该模型后,他们的模型对问题的识别准确率到达了88.1%,优于其他基准模型。在解释性,预测性和反事实性问题上,则有更好的体现。

研究人员指出:“ NS-DR 将动态计划纳入视觉推理任务中,可以直接预测未视察到的运动和事件,并可为预测性和反事实性任务启用。其次,符号形貌为视觉,语言,动力和因果关系提供了强大的基础。通过设计,它使模型能够明确捕捉视频的因果结构和问题背后的逻辑组成。”

不外,研究人员也认可,即便训练所需的数据量相对较少,但模型在实际应用中仍很难使用。此外,在需要恒久动态预测的任务(例如反事实问题)上,NS-DR的性能也没有那么高,这讲明未来仍需要一种能够生成更稳定和准确轨迹的动态模型。