论文基本信息
论文名:Object-Difference Attention: A Simple Relational Attention for Visual Question Answering
论文源码:
- None
关于作者:
- 吴晨飞,北邮AI Lab博士
关于笔记作者:
- 朱正源,北京邮电大学研究生,研究方向为多模态与认知计算。
论文推荐理由
注意机制极大地促进了视觉问答技术(VQA)的发展。注意力分配在注意力机制中起着至关重要的作用,它根据对象(如图像区域或定界框)回答问题的重要性对图像中的对象(如图像区域或包围盒)进行不同的权重。现有的工作大多集中在融合图像特征和文本特征来计算注意力分布,而不需要比较不同的图像对象。作为注意力的一个主要属性,分离度取决于不同对象之间的比较。这种比较为更好地分配注意力提供了更多的信息。为了实现对目标的可感知性,我们提出了一种对象差分注意(ODA)方法,通过在图像中实现不同图像对象之间的差值运算来计算注意概率。实验结果表明,我们基于ODA的VQA模型得到了最先进的结果。此外,还提出了一种关系注意的一般形式。除了ODA之外,本文还介绍了其他一些相关的注意事项。实验结果表明,这些关系关注在不同类型的问题上都有优势。
对象差分注意力机制:视觉问答中一个简单的关系注意力机制
引言
本文术语
序列编码的方式:
- RNN: $yt=f(y{t-1},x_t)$
- CNN: $yt=f(x{t-1},xt,x{t+1})$
- Attention: $y_t=f(x_t, A, B), if A = B = X: Self Attention$
注意力机制的例子
$$Attention(Q,K,V)$$应用于VQA的注意力机制编年史:
- one-step linear fusion
- multi-step linear fusion
- bilinear fusion
- multi-feature attention
Mutan机制
论文写作动机
- 现有的工作大多集中在融合图像特征和文本特征来计算注意力分布,而忽略了比较不同的图像对象之间的差异。
如上图,想要回答出问题图中最高的花是什么?
,我们建立的模型就需要不仅仅关注潜在答案玫瑰
,也应该关注兰花
。 - 如何合理分配现有问题的注意力?
解决问题的方法
玫瑰例子
对于回答图中最高的花是什么?
,一共分几步?
- 找到图中所有的花。
- 比较不同的花对于正确答案的重要性。
正确的答案就会在比较的过程中产生。若以这个例子作为启发,一种新型的注意力机制的思路便产生了:ODA在问题的指导下,通过将每个图像对象与其他所有对象进行对比,计算出图像中物体的注意注意力分布。
模型细节
将数据Embedding
- $V^f=RCNN(image)$,其中$v^f$是一个$m\times{d_v}$维的embedding,代表拉出的$m$个框。
- $Q^f=GRU(question)$,其中$Q^f$代表$d_q$维的问题embedding。
- $V=relu(Conv1d(V^f))$
- $Q=relu(Linear(Q^f))$
对象差分注意力
$$\hat{V}=softmax([(V_i-Vj)\odot{Q}]{m\odot{md}}W_f)^{T}V$$
该模型的优点:- 通过对比(差分)),我们可以选择更重要的对象。
- 计算复杂度相对与传统注意力机制模型(Mutan)低。
- ”即插即用“的特性使得该模型十分容易应用到其他领域。
决策阶段
通过对$\hat{V}$计算$p$次,并且将结果拼接在一起。
$$\hat{Z}=[\hat{V}^{1};\hat{V}^{2};…;\hat{V}^{p}]$$可以参考Attention is all you need模型的multi-head
- 将图片的特征和问题的特征相结合
$$H=\sum^s_{s=1}(\hat{Z}W_v^{(s)}\odot{QW_q^{(s)}})$$ - 预测
$$\hat{a}=\sigma(W_{h}H)$$
扩展:相关性注意力
针对模型中$(V_i-V_j)\odot{Q}$部分进行扩展,可以得到不同类型的注意力机制
实验结果分析
数据集
- VQA1.0 dataset
- VQA2.0 dataset
- COCO-QA dataset
评估指标
- 针对VQA1.0和VQA2.0,使用准确率:
- 针对COCO_QA使用:
实验结果评价
- 在VQA1.0上与最先进的模型对比
- 在VQA2.0上与最先进的模型对比
- 在VQA3.0上与最先进的模型对比
总结
从感性的角度来说,对象差分注意力机制符合人类根据图片回答问题的思考过程。未来的研究方向应该是通过对世界的常识性知识建立一个世界模型,通过先验知识减少计算量和对大量带有标签的数据的依赖性。