直接识别人脸?MIT、耶鲁新研究:模型首先得做到反向“想象”脸

  • 时间:
  • 浏览:292
  • 来源:世界杯买球盘口网址app

机械之心编辑部

盘算机视觉是现在人工智能最乐成的领域之一,但这些用来检测物体、人脸的庞大系统,直至今日也无法与人类的视觉系统相提并论。克日,来自麻省理工学院和耶鲁大学等高校研究者提出了一种名为「EIG」的深度神经网络模型,与常用的带标签数据训练出的神经系统相比,新模型的机理更靠近真实的人类视觉系统。

只要我们一睁开眼,就能连忙看到周围的情况,这个辨认历程很是快,而且纵然身处一个杂乱的情况,我们的眼睛也能分辨出每一个细节。视觉系统不仅可以检测和识别物体,而且可以推断出深条理的场景结构。

为什么大脑能够迅速地形成细节如此富厚的图像?这一直是个未解之谜。

一直以来,脑科学家们都在实验使用盘算机视觉模型来复制大脑的这个历程,但现在最先进的模型只能完成更简朴的任务,好比从杂乱的配景中识别出头部或者物体。

此前,逆生成模型或者说「综合分析(analysis-by-synthesis)」提出相识决方案,可是其效果对在线感知来说还是太慢了,而且它们对神经回路的映射也暂不清楚。

克日,MIT 和耶鲁大学的研究人员开发了一种盘算机模型,可以像人类一样从图像中迅速生成详细的场景形貌,这一结果已经以论文的形式在《Science Advance》上揭晓,为我们探索大脑这一强大机制的事情原理提供了参考。

论文地址:https://advances.sciencemag.org/content/6/10/eaax5979

论文的主要作者是耶鲁大学心理学助理教授 Ilker Yildirim,其他到场者还包罗洛克菲勒大学的两位神经科学和行为学方面的教授 Tenenbaum、Winrich Freiwald 等。

从「逆向图(Inverse graphics)」说起

几十年来,针对大脑视觉系统的研究已经详细探索了视网膜上的光输入如何转酿成连贯的场景。这种明白资助人工智能研究者开发出可以复制该系统各个方面的盘算机模型,如人脸或其他目的的识别模型。

「视觉是我们明白最深刻的大脑功效,」Tenenbaum 表现,「盘算机视觉是现在最乐成的 AI 领域之一。对机械识别图像、人脸及其他目的,我们已经习以为常。」然而,纵然是这些庞大的 AI 系统也无法与人类的视觉系统相提并论。

「我们的大脑不只是检测到某处有一个目的,或者识别出这个目的并给它打上标签,」Yildirim 表现,「我们还会看到所有这些物体的形状、几何、外貌和纹理。我们能看到的世界很是富厚。」

一个多世纪之前,生理、物理学家、哲学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)提出了一个理论,认为大脑是通过逆转图像形成的 历程来缔造这些富厚的表征。他假设这个视觉系统包罗一个图像生成器,好比,该生成器可以生成我们在梦中看到的人脸。逆向运行该生成器可以让大脑从图像开始反向事情,推断生产生该图像的是哪种人脸或物体。

然而,问题在于:大脑为什么能够如此之快地执行这一名为「逆向图」的历程?

盘算机科学家曾努力实验建立能够完成这一壮举的算法,但纵然是他们缔造出的最好的系统也需要多轮迭代处置惩罚,所以缔造一个眼前所见之景的详细视觉表征要比大脑多花许多时间(大脑只需要 100 到 200 毫秒)。神经科学家认为,大脑中的感知之所以举行得如此之快,是因为它是在通过几个条理明白的神经处置惩罚层的前馈通报来实现的。

MIT 向导的研究小组建设了一种名为「EIG(efficient inverse graphics)」的特殊深度神经网络模型,以展示神经条理结构如何快速推断进场景的潜在特征(在这篇论文中指人脸)。与盘算机视觉系统中用到的尺度深度神经网络(用带标签的数据训练出的神经系统)相比,EIG 是从一个模型中训练出来的,这个模型反映了大脑针对所见人脸生成的内部表征。

EIG 模型架构

EIG 模型学习逆转人脸生成盘算机图形法式所执行的步骤。这些图形法式从单小我私家脸的 3D 表征开始,将其转换为从特定视角看到的 2D 图像。这些图像可以被放到任意配景图上。研究人员推断,在你做梦或在脑海中想象某小我私家的人脸时,大脑视觉系统可能的运行机制可能与上述历程类似。

研究人员训练该模型来反向执行上述步骤,即从 2D 图像开始,然后添加纹理、曲率、光线来建立一个「2.5D」的表征。这些 2.5D 的图像指定了特定视角人脸的形状和颜色。接下来将其转换为非指定视角的 3D 表征。

「该模型提供了大脑对人脸处置惩罚的系统级形貌,使其能够看到图像,并通过 2.5D 图像这个重要的中间步骤,最终生成包罗形状和纹理表征的 3D 目的,」Yildirim 说道。

图 1:建模框架总览。(A)关于腹流处置惩罚功效的两个替代假设示意图:识别或分类的假设(顶部)和逆向图/推理网络假设(底部)。(B)EIG 模型的示意图。圆角矩形的部门是表征;箭头或梯形的部门是表征之间的因果变换和推理映射。

EIG 的焦点是基于 DCNN 的推理网络,但研究者首先形貌了概率生成模型组件,这套组件确定了训练目的而且为推理网络生成训练数据。生成模型接纳潜在变量条理结构的形式,结构之间的因果关系表现了在采样面部图像中概率图像法式的多个阶段。

图 2:建模框架总览。(A)与传统的基于 MCMC 的综合分析方法相比,使用 EIG 网络推断的场景参数(层 f5)的随机样本视察的基于图像的对数似然评分。EIG 无需迭代(红线,粉色部门指的是最大-最小区间)即可举行盘算,而且比 MCMC 评分更高,方差更低。MCMC 需要数百次的迭代才气实现类似的推理质量(粗线条和细线条显示二者单次运行之间的区别,也可参阅「质料和方法」部门)。(B)EIG 针对杂乱配景下的真实面部扫描的推断效果示例。推断的场景参数使用生成模型举行渲染、重置和 re-lit。(C)EIG 网络应用于真实世界面部图像的推断效果示例。使用适用于潜在场景参数的生成模型以正面姿势重新渲染了面部。

模型性能

研究人员发现,该模型与其他研究猕猴大脑中所获得的数据一致。2010 年揭晓的一篇论文中,来自加州理工学院的 Freiwald 和 Doris Tsao 记载了这些脑区域中神经元的运动,并从七个差别的角度分析了它们如何感应 25 张差别面貌的。该研究展现了高级人脸处置惩罚的三个阶段,而 MIT 的小组现在假设这些阶段对应于其逆向图形模型的三个阶段:一个依赖于 2.5D 视角的阶段;一个 2.5D 过渡到 3D 的阶段;以及 3D 的、视角无关的面部表现阶段。

「我们的效果讲明,大脑三个条理的定量和定性反映特性似乎与我们所构建网络的前三个条理很是相吻合,」Tenenbaum 说道。

研究者还对比人和模型从差别视角识别人脸的能力差异。为了增加难度,研究者选择改变人脸纹理或形状(每次只改变其中一个)。效果讲明,与当前最美人脸识别模型相比,新模型与人类的体现要靠近得多。进一步的研究讲明,这个新模型的机理可能越发靠近真实的人类视觉系统。

「这项事情很是激感人心,因为它将中间表征的可解释阶段引入到了人脸识此外前馈神经网络模型中,」哥伦比亚大学心理学和神经科学教授 Nikolaus Kriegeskorte 表现。「他们的方法将『视觉系统反转图像生成模型』的经典想法与当下的深度前馈网络联合在一起。有趣的是,这个模型能更好地解释神经表征和行为反映。」

研究者计划在其他图像上继续测试该模型,包罗非人脸目的,以此来探索逆向图是否也可以解释大脑如何感知其他类型的场景。此外,他们还相信,将这种方法纳入盘算机视觉可以打造出性能更好的 AI 系统。

「如果我们找到证据证明这些模型能够反映大脑的运行机制,那么这项事情会让盘算机视觉的研究者越发重视这种逆向图感知方法,并花费更多的履历举行研究。」Tenenbaum 表现。在这个领域,「大脑仍是是金尺度。」

参考链接:http://news.mit.edu/2020/computer-model-brain-vision-0304

本文为机械之心编译,转载请联系本民众号获得授权。

------------------------------------------------