AAAI 2020学术集会提前看：知识知识与知识推理

时间:2020-02-06 15:09:37
浏览:171
来源:世界杯买球盘口网址app

编辑: Joni Zhong

人工智能顶级集会 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举行，AAAI 2020 最终收到 8800 篇提交论文，评审了 7737 篇，吸收了 1591 篇，吸收率 20.6%。

知识问题是人工智能领域最难的问题之一。在 NLP 领域，BERT 模型虽然已经体现精彩，可是在知识知识问答数据集上的性能仍旧远低于人类。在盘算机视觉领域，联合视觉场景的知识知识问答问题仍然具有较浩劫度。促进人工智能生长，使得机械具有「知识思维」，对于知识知识、知识推理的研究是值得关注的未来生长偏向。本次 AAAI 2020 学术集会论文提前看，笔者挑选了知识知识、知识推理相关的 3 篇论文为大家作以解读。

Joint Commonsense and Relation Reasoning for Image and Video Captioning（团结知识和关系推理用于图像和视频形貌）

论文链接：https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf

论文速览

这篇论文是北京理工大学和阿里互助的一篇关于使用工具之间的关系举行图像和视频形貌 (image caption/video caption) 的论文。大多数现有方法严重依赖于预训练的工具及其关系的检测器，因此在面临诸如遮挡，微小物体和长尾种别等检测挑战时可能效果不佳。

在本文中，作者提出了一种团结知识和关系推理的方法 (C-R Reasoning)，该方法使用先验知识举行图像和视频形貌，而无需依赖任何目的检测器。先验知识提供工具之间的语义关系和约束，作为指导以建设归纳综合工具关系的语义图，其中一些工具之间的关系是不能直接从图像或视频中获得。

特别是，本文的方法是通过知识推理和关系推理的迭代学习算法交替实现的，知识推理将视觉区域嵌入语义空间以构建语义图，关系推理用于编码语义图以生成句子。作者在几个基准数据集上的实验验证了该方法的有效性。

为了让大家更直观的感受，图 1.1 率先为大家展示了本文的方法在 MSVD 英文视频数据集和 Youku-vc 中文视频数据集上的定性效果。

图 1.1 本文方法在 MSVD 视频数据荟萃 Youku-vc 中文视频数据集上的效果示例

黄色和蓝色的框划分表现工具和关系的候选，『o-r-o』表现的是语义图中的『工具-关系-工具』，『o-r-a』表现的是『工具-关系-属性』。Ours 指的是作者的方法生成的形貌，GT 是真实的形貌语句。三张图片表现的是从视频中随机采样的帧。

作者的方法能够检测出一些难以「检测」的物体来生成精准的形貌，好比 (b) 中用来化妆的小物体眉笔，好比 (d) 中被严重遮挡的人，划分通过先验知识和推断了出来。而且该方法也能生成中文形貌如 (c) 和 (f)，圆括号中的英文是对中文的翻译。

论文方法

C-R Reasoning 方法包罗三个模块，如图 1.2 所示。视觉映射和知识映射模块（Visual Mapping & knowledge mapping）在生成语义实体候选后，通过视觉映射学习语义实体候选的视觉特征向量，通过知识映射来学习候选的知识向量。知识推理模块(Common sense)凭据给定的候选，在先验知识图的指导下构建语义图。关系推理模块(Relation Reasoning)中凭据给定的语义图，通过图卷积网络 (GCN) 和基于序列的语言模型来生成文本形貌。

图 1.2 以生成视频形貌为例展示 C-R Reasoning 方法

1. 视觉映射和知识映射模块

(1) 视觉映射用于生成语义实体候选（例如工具，属性，关系）的视觉特征。工具和属性的候选通过局部区域的视觉特征表现。而关系候选是通过两个局部区域团结的视觉特征表现。使用预训练的 CNN 从输入图片或视频中麋集采样局部区域，将采样的区域举行聚类，将聚类中心的候选作为代表性候选，将候选的视觉特征向量记为 V。

(2) 知识映射通过将候选的视觉特征向量 V 映射到先验知识的知识嵌入向量语义观点空间中，学习候选的知识向量 K。K=[k1,...,k_(Nv)]，其中 ki=Epi，E 表现知识嵌入向量，pi 表现知识嵌入向量的权重。知识嵌入向量使用 Visual Genome 上的知识图盘算。作者构建了三种非线性映射网络来为工具、关系和属性这三类观点标签软分配（soft-assign）视觉特征向量。观点标签的真实值通过对真实形貌使用词类标注工具获得。

图 1.3 C-R reasoning 迭代执行示意图

2. 知识推理模块

将视觉特征向量 V 和知识向量 K 作为输入，使用非线性映射函数 si=φ(vi,ki) 将候选表现为语义特征 S。语义特征满足通过知识推理尺度推断出的工具，关系和属性之间的相关性和约束，以生成图像或视频的语义图。语义映射φ() 通过 C-R Reasoning 框架的反向流传举行更新。详细来说，知识图是三元组集，每个三元组 (Sh,Sr,St) 表现头实体 Sh 和尾实体 St 之间的关系 Sr。三元组的相关性准则由下式表现：

其中 W 是将语义特征转换成复向量的权重矩阵，带上划线的 Ws^t 是 Ws^t 的复共轭，表现三元组中向量的多线性点乘，Re() 是取实部，Im() 是取虚部。

从候选中选择对上述准则有较大响应的三元组来生成语义图。

3. 关系推理模块

关系推理模块接纳 GCN+LSTM 的模式，使用 [1] 中提出的图卷积网络沿着图的边来流传信息，并凭据上下文对语义图中的特征举行编码，以生成对关系敏感的 (relation-aware) 三元组特征。接纳了 [2] 的模型，该模型用自上而下的注意力 LSTM 来加权视觉特征，用语言 LSTM 来生成形貌。凭据加权的视觉特征和注意力 LSTM 中的隐藏状态盘算出三元组特征的注意力权重，级联后输入到语言 LSTM 中可获得单词形貌的条件漫衍。

4. 模型训练

总的损失 L=L_c+βL_s，其中β是超参数，L_c 是用于生成句子的交织熵损失，L_s 用于指导学习三元组的语义特征。

理论上讲，C-R Reasoning 方法可以以端到端的方式举行训练，然而知识推理模块中语义图的构建面临优化挑战，因此作者设计了迭代算法，在知识推理模块的语义图生成和关系推理模块的形貌生成之间交替优化。算法如下所示：

实验评估

作者使用了 MSVD 视频数据集和 MSCOCO 图像数据集举行了实验，MSVD 数据集从 Youtube 视频收集而来，训练验证和测试集划分为 1200,100,670。MSCOCO 数据集包罗凌驾 100K 图像，每个图像有 5 个形貌，作者接纳的训练验证和测试图片数量划分为 113287,5000,5000。此外，作者还对中文视频形貌数据集 Youku-VC 举行了定性实验，训练验证测试数据划分为 1000,215,215，每个短视频带有 10 其中文形貌在 MSVD 和 Youku-VC 上的可视化效果已在前文的图 1.1 中展示。

Table1 展示了 MSVD 视频数据集上的实验效果，前四种方法是简朴的 sequence-to-sequence 模型，没有使用到工具间的关系，相比而言作者的方法取得了更好的性能，证明晰团结知识和关系推理的优越性。与使用了在图像数据集上预训练的检测器然后视频中检测工具的方法相比，作者的方法仍旧更好，说明使用先验知识来识别工具是更为可靠的。Table2 展示了在 MSCOCO 图像数据集上的效果，与未使用语义信息的方法相比（第一行）更高，与使用了预训练检测器的方法相比，作者提出的方法也是能够与之相提并论的。作者同样展示了他们的方法使用预训练的 Faster R-CNN 检测器用于从图像中提取初始区域的效果。此外，针对各部门的消融实验证实了各模块的有效性，如 Table3 所示。

笔者小结

这篇论文并不是聚焦于知识知识和知识推理自己，而是团结知识和关系推理使得图像和视频形貌中那些「难以捉摸」，「并非直接可见」的物体或关系现形，使得形貌越发精准。而且本文的方法并不需要使用预训练的工具或关系检测器。通过这种知识性关系，团结学习的计谋，能够更好地实现全局语义的一致性。笔者认为这篇论文对于将知识知识、知识推理用于视频图像形貌、视觉知识问答等领域一定的启发。

参考文献：

[1]Johnson J, Gupta A, Fei-Fei L. Image generation from scene graphs[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1219-1228.

[2]Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6077-6086.

Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering （使用异构外部知识基于图的推理举行知识知识问答）

论文链接：https://arxiv.org/pdf/1909.05311.pdf

论文引入

知识问答往往需要那些并没有在问题中显著表达的配景知识。这一挑战的关键在于如何从外部知识中获取证据并凭据证据做出预测。

如图 2.1 所示，问题「人们在弹吉他的时候通常做些什么？」选项 A. 哭 B. 听声音 C. 唱歌 D. 枢纽炎 E. 制作音乐，凭据从 ConceptNet 上的证据可以资助我们挑出 A 和 C 这两个选项，凭据来自维基百科的证据，我们可以挑出 C 和 E 两个选项，联合二者，我们能够获得正确谜底 C。

来自结构化的知识源（如 ConceptNet）包罗观点之间的名贵结构关系，对于推理很有资助，可是它们的笼罩率低。而纯文本知识源（如维基百科）是对结构化知识的增补，可以提供富厚且笼罩面广的证据。最近的研究还没有同时使用这两类知识源举行推理的，因此在这项事情中，作者提议自动从这两个异构知识源中提取证据，并凭据提取的证据回覆问题。

图 2.1 CommonsenseQA 数据集中的一个示例，该示例需要多个外部知识才气做出正确的预测。

论文方法

本文的方法包罗知识提取和基于图的推理两个部门，如图 2.2 所示。

图 2.2 本文方法概览

（1）知识提取部门：凭据给定的问题和选项，从结构化知识库 ConceptNet 中自动提取图路径，从维基百科纯文本中自动提取句子。为了更好地使用证据的关系结构，作者为两种知识源划分构建图。ConceptNet 是大型知识知识库，知识知识由三元组表现（实体节点，关系，实体节点），对于给定的问题和选项，首先识别出其中的实体，然后在 ConceptNet 中搜索从问题实体到选项的路径，将涉及到的三元组合并到一个图中，让三元组作为节点，边为三元组之间的关系；对于维基百科的句子，作者使用了 Elastic Search 工具为句子建设了索引，在删除问题和选项中的停用词后举行搜索，将匹配到的维基百科句子凭据匹配分数举行排名，取前 K 个匹配句子作为证据，并通过语义角色标志（Semantic Role Labeling）为维基百科证据中的每个谓语提取主语（主体）和宾语（客体），将主语谓语和宾语作为图的节点，将谓语和其它两者之间的关系作为图的边。

（2）基于图的推理部门：基于图的推理部门包罗两个模块：（a）基于图的上下文表现学习模块，该模块使用图结构信息重新界说单词之间的距离以学习更好的上下文单词表现。作者提出拓扑排序算法（Algorithm 1）凭据结构图对质据举行排序，需要说明的是，对于结构化知识源 ConceptNet，使用了 ConceptNet 提供的关系模板将三元组转换为自然语言文本句子。作者使用 XLNet 作为 backbone，将已排序的 ConceptNet 证据语句、已排序的维基百科证据语句、问题语句、选项这四者的级联作为 XLNet 的输入，获得的 XLNet 输出是上下文单词表现。通过将提取的图转换为自然语言文本，就将两个差别的异构知识源融合到了同一表现空间中。（b）基于图的推理模块。作者接纳 [1] 中的图卷积网络对图结构信息编码来获取节点表现，通过合并相邻节点的特征来更新节点表现。第 i 个节点表现 h_i^0，是通过对 XLNet 输出中相应证据的隐藏状态取平均值并通过非线性变换来减小维数而获得的：

其中 si = 是第 i 个节点对应的证据，h_wj 是 XLNet 对 wj 的上下文表现，W 将高维 d 缩减为低维 k，σ是激活函数。

为了对图举行推理，首先聚集来自每个相邻节点的信息。第 i 个节点聚集的信息 z_i^l：

其中 Ni 是第 i 个节点的邻人，h_j^l 是第 j 个节点在第 l 层的表现。将 z_i^l 与转换后的第 i 个节点表现联合起来获得更新节点表现 h_i^(l+1).

使用图注意机制来聚集图表现举行预测，图表现 h^g 的盘算：

其中 h_i^L 是第 i 个节点在最后一层的表现，h^c 是 XLNet 最后一个序列的表现，也可被视为输入表现，α_i 是第 i 个节点的权重，h^g 是图表现。

作者将输入表现 h_c 与图表现 h^g 级联在一起，输入多层感知器来盘算置信度得分 score(q,a)。对于问题 q 而言，候选谜底 a 的概率盘算如下：

其中 A 是候选谜底集，最终选择最高的置信度得分回覆作为预测回覆。

实验评估

作者使用 CommonsenseQA 数据集举行了实验，该数据集包罗 12102 个样本 (train:9741,val:1221,test:1140)，作者选择了在验证集上最好的模型，并提交了在测试数据上的预测效果。比力实验选择了排行榜上有名的模型，作者将它们分为四组：

Group1：模型没有相应的形貌，也没有揭晓论文

Group2：模型没有使用提取的知识

Group3：模型使用了提取的结构化知识

Gropu4：模型使用了提取的非结构化知识

这些方法要么使用的是来自结构化知识源的证据，要么使用了来自非结构化知识源的证据，没有同时使用到两种知识源的优势。在 CommonsenseQA 验证集和测试集上的效果如 Table1 所示，与四组方法相比，作者的方法均到达了最佳性能。Table2 展示了作者的方法在验证集上举行消融实验的效果，在 baseline 中作者将所有的证据简朴地毗连到 XLNet 中，并接纳上下文表现举行预测。通过添加拓扑排序算法，获得了比 baseline 高 1.9% 的收益，单独添加图形推理模块带来了 1.4% 的提升，二者一起添加获得了 3.5% 的提高。随后作者举行了知识源的消融实验，Table3 的效果证明晰联合使用 ConceptNet 和 Wikipedia 获得的庞大效果提升，说明异构知识源的性能要优于单个知识源和差别知识源。

笔者小结：这篇论文作者的创新在于提出了一种基于图的方法，使用差别结构的知识源举行知识知识问答，而且提出了基于图的上下文表现学习模块和基于图的推理模块，更好的使用了图信息。作者的方法在现在的 CommonseQA 排行榜上到达了最先进的性能。

参考文献：

[1]Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.

PIQA: Reasoning about Physical Commonsense in Natural Language(物理交互问答:自然语言中的物理知识推理)

论文链接：https://arxiv.org/pdf/1911.11641.pdf

论文速览：「在不使用刷子涂眼影的情况下，我应该用棉签还是牙签？」类似这种需要物理世界知识的问题对现今的自然语言明白系统提出了挑战。虽然最近的预训练模型 (如 BERT) 在更抽象的如新闻文章和百科词条这种具有富厚文本信息的领域问答方面取得了希望，但在更现实的领域，由于报导的偏差，文本本质上是有限的，类似于「用牙签涂眼影是一个坏主意」这样的事实很少获得直接报道。人工智能系统能够在不履历物理世界的情况下可靠地回覆物理知识问题吗？是否能够捕捉有关日常物品的知识知识，包罗它们的物理特性、蒙受能力以及如何利用它们。在本文中，作者先容了一个关于物理知识推理任务和相应的基准数据集 PIQA（Physical Interaction：Question Answering）举行评估。虽然人类应对这一数据集很容易 (95% 的准确率)，可是大型的预训模型很难 (77%)。作者分析了现有模型所缺乏的知识为未来的研究提供了重要的机缘。

图 3.1 PIQA 数据样本示例

PIQA 数据集

PIQA 专注于日常生活中的物理知识，偏爱非典型的解决方案。图 3.1 展示了一个 PIQA 示例，要使用矿泉水瓶将蛋黄和蛋清分散开你应该怎么做？a. 对着蛋黄挤压矿泉水瓶，然后再松开，就能发生吸力吸走蛋黄。b. 将矿泉水瓶放在蛋黄上，不停推动，就能够发生吸力吸走蛋黄。对于人类来说，选出谜底 a 是很容易的，而机械却很容易上当。

图 3.2 PIQA 数据集示意（左边的问答更偏重于物体的属性，右边的问答从技术角度而言都是对的，可是偏重于更利便可取）

PIQA 数据集的发生

PIQA 任务的本质是选择问答，给定问题 q 和两个可能的解决方案 s1,s2，其中只有一个是正确的 (如图 3.2 所示)，模型某人类必须选择最合适的解。数据集由人工注释者根据目的-解决方案对举行界说。目的可被看作一种后置条件，而解决方案则表现完成这一条件的历程。目的越详细，就越容易写出正确和不正确的解决方案。为了提醒注释者举行缔造性地思考设置出非典型性的解决方案，会启发注释者从 instructables.com 网站的链接上获取灵感以构建任务数据集。instructables.com 网站是一个众包指导网站，指导如何使用日常质料构建、制作、烘焙，涉及到从烹饪到汽车维修等等，大多数情况下每个步骤会配有图像、视频以及所需要的工具列表。注释者会使用一些语言上的技巧，对正确的解决方举行细微的修改就能获得错误的方案，好比说改变某个关键词，改变数值，替换成对实现目的没有资助的另一个行动等等。在对数据集举行验证时，会将需要专家知识的样本举行移除，并使用 AFite 算法举行进一步清理。

PIQA 数据集信息统计

PIQA 数据集由 16,000 多个训练的 QA 对组成，另外划分提供了约 2K 和 3K 举行开发和测试。目的长度平均为 7.8 个单词，正确和不正确的解决方案平均长度为 21.3 个单词，正确和不正确解决方案所使用的单词之间至少有 85% 的重叠。通过对名词，动词，形容词，副词泛起的词频统计，验证了数据集确实是和物理现象强相关的。好比，泛起词频最高的形容词中包罗状态（干燥的、洁净的、烫的），形状（小的、尖锐的、平坦的），形式（快速的、仔细的），这些属性通常决议相识决方案的正确与否。

实验评估

作者在 GPT 模型，BERT 模型，和 RoBERTa 模型（BERT 的一个版本，使用了更多数据举行预训练）上举行了实验。实验效果如 Table 1 所示，效果讲明现今最好的模型和人类之间仍有近 20% 的差距。接下来作者对数据集的哪些方面愚弄了 RoBERTa 模型举行了分析。两个解决方案的编辑距离（即差别单词的个数）越大，模型的准确率越低。作者发现 RoBERTa 模型仍旧难以明白许多常见且通用的物理观点，如图 3.4 所示，验证集样本 (q,s1,s2) 中 s1 和 s2 唯一的区别在于单词 w，当 w 是'cold','before','after'时，RoBERTa 模型的准确率靠近随机推测 50%。以准确率较高的'water'和'spoon'为例，作者进一步探究了训练集中最常替代它们的词汇，如图 3.5 所示。替代勺子的最常见词汇是叉子、刀子，但物理世界中勺子通常不能用尖锐的或者尖头的器具举行取代，RoBERTa 在'spoon'上的体现 (90%) 讲明它可能明白到了勺子的这种简朴特性。'water'在训练集中很常见，具有很高的通用性，替代它的最常见词汇是牛奶、油、苏打，物理世界中用这些工具替代水可能会发生很糟糕的结果，RoBERTa 约 75% 的准确率体现，说明它对'water'的观点还没有明白到位。而'freeze'仅 66% 说明动词的明白对于 RoBERTa 而言仍不是强项。

（左）图 3.4 通过知识观点看 RoBERTa 对物理世界的明白

（右）图 3.5 『water』,『spoon』,『freeze』的最常见替换词

笔者小结

本篇论文提出的任务很是新颖，物理知识推理任务，相较于知识知识库中所收纳的那类知识而言，物理知识更注重于物体的物理属性，且 PIQA 数据集偏向于非典型性物理知识，不能直接从已有的文本库中获得谜底。对于这类物理知识推理问题，现在最好模型的体现与人类仍有较大差距，说明模型缺乏对物理世界一些最基本物理特性的明白。如果在此类问题上能有所突破，那么人工智能领域将会更进一步。

总结

笔者选取的这 3 篇论文从差别角度展示了知识知识、知识推理的研究希望。第一篇论文打开视野，将知识与关系推理相联合，应用到图像视频形貌生成的领域，三个部门相互配合，到达了很好的效果。第二篇论文提出新的方法来解决知识知识问答问题，将异构知识知识源融合到同一表现空间，使用图推理举行知识知识问答，在标杆数据集 CommonsenQA 上效果极佳。第三篇论文推出了新的物理知识推理任务并提出了 PIQA 数据集，为未来知识问题的研究提供了机缘和挑战。由于知识知识、知识推理经常和自然语言明白、视觉问答等相联合，因此解决和知识相关的问题相比一般的自然语言处置惩罚和盘算机视觉问题更为棘手，但除了第三篇是先容数据集为目的，第一篇和第二篇文章不约而同的都接纳了图或者图神经网络来解决，说明晰这可能是解决该问题的一个偏向。现在最先进的语言模型在解决知识知识、知识推理等问题时仍和人类有较大差距（如在 CommonseQA 和 PIQA 上的体现），知识知识和知识推理仍然是人工智能中值得探索的领域！

AAAI 2020 吸收论文列表：https://aaai.org/Conferences/AAAI-20/wp-content/uploads/2020/01/AAAI-20-Accepted-Paper-List.pdf

本次 AAAI2020 其它相关论文：

Commonsense Knowledge Base Completion with Structural and Semantic Context（使用结构和语义上下文的知识知识库实现）

论文链接：https://arxiv.org/pdf/1910.02915.pdf

Understanding the semantic content of sparse word embeddings using a commonsense knowledge base（使用知识知识库明白稀疏词嵌入的语义内容）

论文链接：https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_29.pdf

Evaluating Commonsense in Pre-trained Language Models（在预训练语言模型中评估知识）

论文链接：https://arxiv.org/pdf/1911.11931.pdf

KnowIT VQA: Answering Knowledge-Based Questions about Videos（KnowIT VQA：回覆关于视频的知识问题）

论文链接：https://arxiv.org/pdf/1910.10706.pdf

分析师简介：罗赛男，西安电子科技大学盘算机科学与技术专业在读研究生，研究偏向为网络宁静，对盘算机视觉各领域都有较大的好奇心，希望和大家配合学习配合进步。

关于机械之心全球分析师网络 Synced Global Analyst Network

机械之心全球分析师网络是由机械之心提倡的全球性人工智能专业知识共享网络。在已往的四年里，已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、业务专家，使用自己的学业事情之余的闲暇时间，通过线上分享、专栏解读、知识库构建、陈诉公布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思路、工程履历及行业洞察等专业知识，并从中获得了自身的能力发展、履历积累及职业生长。