如何对图像中的实体精准“配对”？

传感器技术 2018-04-12 5094

描述

近日，李飞飞的斯坦福大学视觉实验室发布了一篇即将在 CVPR 2018上要介绍的论文 Referring Relationships（指称关系），这篇论文主要研究的问题是给出一张图像中实体的关系网络，从而让 AI 迅速定位出某一主体所对应的客体，或者某一客体所对应的主体。

神经网络

图像不仅仅是对象集合，每个图像都代表一个互相关联的关系网络。实体之间的关系具有语义意义，并能帮助观察者区分实体的实例。例如，在一张足球比赛的图像中，可能有多人在场，但每个人都参与着不同的关系：一个是踢球，另一个是守门。

在本文中，我们制定了利用这些“指称关系”来消除同一类别实体之间的歧义的任务。我们引入了一种迭代模型，它将指称关系中的两个实体进行定位，并相互制约。我们通过建模谓语来建立关系中实体之间的循环条件，这些谓语将实体连接起来，将注意力从一个实体转移到另一个实体。

我们证明了我们的模型不仅好于在三种数据集上实现的现有方法--- CLEVR，VRD 和 Visual Genome ---而且它还可以产生视觉上有意义的谓语变换，可以作为可解释神经网络的一个实例。最后，我们展示了将谓语建模为注意力转换，我们甚至可以在没有其类别的情况下进行定位实体，从而使模型找到完全看不见的类别。

▌指称关系任务

指称表达可以帮助我们在日常交流中识别和定位实体。比如，我们能够指出“踢球人”来区分“守门员”（图 1）。在这些例子中，我们都可以根据他们与其它实体的关系来区分这两人。当一个人射门时，另一个人守门。最终的目标是建立计算模型，以识别其他人所指的实体。

神经网络

图1：指称关系通过使用实体间的相对关系来消除同一类别实例之间的歧义。给出这种关系之后，这项任务需要我们的模型通过理解谓语来正确识别图像中的踢球人。

神经网络

▌指称关系模型

我们的目标是通过对指称关系的实体进行定位，从而使用输入的指称关系来消除图像中的实体歧义。形式上而言，输入是具有指称关系的图像 I，R = ，它们分别是主体，谓语和对象类别。预计这个模型可以定位主体和客体。

▌模型设计

神经网络

图 2：指称关系的推理首先要提取图像特征，这是用于生成主体和客体的基础。接下来，这些估值可以用来执行转换注意力，注意力使用了从主体到我们所期望客体位置的谓语。在对客体的新估值进行细化的同时，我们通过关注转换区域来修改图像特征。同时，我们研究了从初始客体到主体的反向移位。通过两个预测移位模块迭代地在主体和对象之间传递消息，可以最终定位这两个实体。

▌实验

我们在跨三个数据集的指称关系中评估模型性能来进行实验操作，其中每个数据集提供了一组独特的特征来补充我们的实验。接下来，我们评估在输入指称关系中缺少其中一个实体的情况下如何改进模型。最后，通过展示模型如何模块化并用于场景图注意力扫视来结束实验。

以下是我们在 CLEVR、VRD 和 Visual Genome 上的评估结果。我们分别标出了对主题和对象定位的 Mean IoU 和 KL 分歧：

神经网络

在三种测试条件下缺少实体的指称关系结果：

神经网络

图 3：（a）相对于图像中的主体，当使用关系来查找客体时，左边的谓语会把注意力转移到右边。相反，当使用物体找到主体时，左侧的逆谓语会将注意力转移到左侧。在辅助材料中，我们可视化了 70 个 VRD、6 个 CLEVR 和 70 个 Visual Genome 的谓语和逆谓语转化（b）我们还看到，在查看用于了解它们的数据集时，这些转换是直观的。

神经网络

图 4：这是 CLEVR 和 Visual Genome 数据集的注意力转移如何跨越多次迭代的示例。在第一次迭代时，模型仅接收试图找到以及尝试定位这些类别中所有实例的实体信息。在后面的迭代中，我们看到谓语转换注意力，这可以让我们的模型消除相同类别的不同实例之间的歧义。

神经网络

图 5：我们可以将我们的模型分解成其注意力和转换模块，并将它们堆叠起来作为场景图的节点。在这里，我们演示了如何使用模型从一个节点（手机）开始，并使用指称关系来通过场景图连接节点，并在短语<拿电话的人旁边有人身穿夹克>中定位实体。第二个例子是关于<在戴帽子的人的右边有个人一张桌子前>中的实体。

▌结论

神经网络

打开APP阅读更多精彩内容