对象差分注意力机制

论文基本信息

论文名：Object-Difference Attention: A Simple Relational Attention for Visual Question Answering
论文链接：http://www.acmmm.org/2018/accepted-papers/
论文源码：
- None
关于作者：
- 吴晨飞，北邮AI Lab博士
关于笔记作者：
- 朱正源,北京邮电大学研究生，研究方向为多模态与认知计算。

论文推荐理由

注意机制极大地促进了视觉问答技术(VQA)的发展。注意力分配在注意力机制中起着至关重要的作用，它根据对象(如图像区域或定界框)回答问题的重要性对图像中的对象(如图像区域或包围盒)进行不同的权重。现有的工作大多集中在融合图像特征和文本特征来计算注意力分布，而不需要比较不同的图像对象。作为注意力的一个主要属性，分离度取决于不同对象之间的比较。这种比较为更好地分配注意力提供了更多的信息。为了实现对目标的可感知性，我们提出了一种对象差分注意(ODA)方法，通过在图像中实现不同图像对象之间的差值运算来计算注意概率。实验结果表明，我们基于ODA的VQA模型得到了最先进的结果。此外，还提出了一种关系注意的一般形式。除了ODA之外，本文还介绍了其他一些相关的注意事项。实验结果表明，这些关系关注在不同类型的问题上都有优势。

对象差分注意力机制：视觉问答中一个简单的关系注意力机制

引言

本文术语

序列编码的方式：
1. RNN: $yt=f(y{t-1},x_t)$
2. CNN: $yt=f(x{t-1},xt,x{t+1})$
3. Attention: $y_t=f(x_t, A, B), if A = B = X: Self Attention$
注意力机制的例子
$$Attention(Q,K,V)$$
应用于VQA的注意力机制编年史：
1. one-step linear fusion
2. multi-step linear fusion
3. bilinear fusion
4. multi-feature attention
Mutan机制

论文写作动机

现有的工作大多集中在融合图像特征和文本特征来计算注意力分布，而忽略了比较不同的图像对象之间的差异。

如上图，想要回答出问题图中最高的花是什么？，我们建立的模型就需要不仅仅关注潜在答案玫瑰，也应该关注兰花。
如何合理分配现有问题的注意力？

解决问题的方法

玫瑰例子

对于回答图中最高的花是什么？，一共分几步？

找到图中所有的花。
比较不同的花对于正确答案的重要性。

正确的答案就会在比较的过程中产生。若以这个例子作为启发，一种新型的注意力机制的思路便产生了：ODA在问题的指导下，通过将每个图像对象与其他所有对象进行对比，计算出图像中物体的注意注意力分布。

模型细节

将数据Embedding
1. $V^f=RCNN(image)$,其中$v^f$是一个$m\times{d_v}$维的embedding，代表拉出的$m$个框。
2. $Q^f=GRU(question)$，其中$Q^f$代表$d_q$维的问题embedding。
3. $V=relu(Conv1d(V^f))$
4. $Q=relu(Linear(Q^f))$
对象差分注意力
$$\hat{V}=softmax([(V_i-Vj)\odot{Q}]{m\odot{md}}W_f)^{T}V$$
该模型的优点：
1. 通过对比(差分))，我们可以选择更重要的对象。
2. 计算复杂度相对与传统注意力机制模型（Mutan）低。
3. ”即插即用“的特性使得该模型十分容易应用到其他领域。
决策阶段
1. 通过对$\hat{V}$计算$p$次，并且将结果拼接在一起。
  $$\hat{Z}=[\hat{V}^{1};\hat{V}^{2};…;\hat{V}^{p}]$$
  
  可以参考Attention is all you need模型的multi-head
2. 将图片的特征和问题的特征相结合
  $$H=\sum^s_{s=1}(\hat{Z}W_v^{(s)}\odot{QW_q^{(s)}})$$
3. 预测
  $$\hat{a}=\sigma(W_{h}H)$$