对象差分注意力机制

论文基本信息

  1. 论文名:Object-Difference Attention: A Simple Relational Attention for Visual Question Answering

  2. 论文链接:http://www.acmmm.org/2018/accepted-papers/

  3. 论文源码:

    • None
  4. 关于作者:

    • 吴晨飞,北邮AI Lab博士
  5. 关于笔记作者:

    • 朱正源,北京邮电大学研究生,研究方向为多模态与认知计算。

论文推荐理由

注意机制极大地促进了视觉问答技术(VQA)的发展。注意力分配在注意力机制中起着至关重要的作用,它根据对象(如图像区域或定界框)回答问题的重要性对图像中的对象(如图像区域或包围盒)进行不同的权重。现有的工作大多集中在融合图像特征和文本特征来计算注意力分布,而不需要比较不同的图像对象。作为注意力的一个主要属性,分离度取决于不同对象之间的比较。这种比较为更好地分配注意力提供了更多的信息。为了实现对目标的可感知性,我们提出了一种对象差分注意(ODA)方法,通过在图像中实现不同图像对象之间的差值运算来计算注意概率。实验结果表明,我们基于ODA的VQA模型得到了最先进的结果。此外,还提出了一种关系注意的一般形式。除了ODA之外,本文还介绍了其他一些相关的注意事项。实验结果表明,这些关系关注在不同类型的问题上都有优势。

对象差分注意力机制:视觉问答中一个简单的关系注意力机制

引言

本文术语

  1. 序列编码的方式:

    1. RNN: $yt=f(y{t-1},x_t)$
    2. CNN: $yt=f(x{t-1},xt,x{t+1})$
    3. Attention: $y_t=f(x_t, A, B), if A = B = X: Self Attention$
  2. 注意力机制的例子
    $$Attention(Q,K,V)$$

  3. 应用于VQA的注意力机制编年史:

    1. one-step linear fusion
    2. multi-step linear fusion
    3. bilinear fusion
    4. multi-feature attention
  4. Mutan机制

论文写作动机

  1. 现有的工作大多集中在融合图像特征和文本特征来计算注意力分布,而忽略了比较不同的图像对象之间的差异。

    如上图,想要回答出问题图中最高的花是什么?,我们建立的模型就需要不仅仅关注潜在答案玫瑰,也应该关注兰花
  2. 如何合理分配现有问题的注意力?

解决问题的方法

玫瑰例子

对于回答图中最高的花是什么?,一共分几步?

  1. 找到图中所有的花。
  2. 比较不同的花对于正确答案的重要性。

正确的答案就会在比较的过程中产生。若以这个例子作为启发,一种新型的注意力机制的思路便产生了:ODA在问题的指导下,通过将每个图像对象与其他所有对象进行对比,计算出图像中物体的注意注意力分布。

模型细节

  1. 将数据Embedding

    1. $V^f=RCNN(image)$,其中$v^f$是一个$m\times{d_v}$维的embedding,代表拉出的$m$个框。
    2. $Q^f=GRU(question)$,其中$Q^f$代表$d_q$维的问题embedding。
    3. $V=relu(Conv1d(V^f))$
    4. $Q=relu(Linear(Q^f))$
  2. 对象差分注意力
    $$\hat{V}=softmax([(V_i-Vj)\odot{Q}]{m\odot{md}}W_f)^{T}V$$
    该模型的优点:

    1. 通过对比(差分)),我们可以选择更重要的对象。
    2. 计算复杂度相对与传统注意力机制模型(Mutan)低。
    3. ”即插即用“的特性使得该模型十分容易应用到其他领域。
  3. 决策阶段

    1. 通过对$\hat{V}$计算$p$次,并且将结果拼接在一起。
      $$\hat{Z}=[\hat{V}^{1};\hat{V}^{2};…;\hat{V}^{p}]$$

      可以参考Attention is all you need模型的multi-head

    2. 将图片的特征和问题的特征相结合
      $$H=\sum^s_{s=1}(\hat{Z}W_v^{(s)}\odot{QW_q^{(s)}})$$
    3. 预测
      $$\hat{a}=\sigma(W_{h}H)$$

扩展:相关性注意力

针对模型中$(V_i-V_j)\odot{Q}$部分进行扩展,可以得到不同类型的注意力机制

实验结果分析

数据集

  • VQA1.0 dataset
  • VQA2.0 dataset
  • COCO-QA dataset

评估指标

  • 针对VQA1.0和VQA2.0,使用准确率:
  • 针对COCO_QA使用:

实验结果评价

  • 在VQA1.0上与最先进的模型对比
  • 在VQA2.0上与最先进的模型对比
  • 在VQA3.0上与最先进的模型对比

总结

从感性的角度来说,对象差分注意力机制符合人类根据图片回答问题的思考过程。未来的研究方向应该是通过对世界的常识性知识建立一个世界模型,通过先验知识减少计算量和对大量带有标签的数据的依赖性。

引用与参考

  1. https://kexue.fm/archives/4765
请zzy824喝杯咖啡
0%