论文基本信息
论文名:Describing Videos by Exploiting Temporal Structure
论文源码:
关于笔记作者:
- 朱正源,北京邮电大学研究生,研究方向为多模态与认知计算。
论文推荐理由
本文是蒙特利尔大学发表在ICCV2015的研究成果,其主要创新点在于提出了时序结构并且利用注意力机制达到了在2015年的SOTA。通过3D-CNN捕捉视频局部信息和注意力机制捕捉全局信息相结合,可以全面提升模型效果。
其另一个重要成果是MVAD电影片段描述数据集,此数据集已经成为了当前视频描述领域主流的数据集。
Describing Videos by Exploiting Temporal Structure
视频描述任务介绍:
根据视频生成单句的描述,一例胜千言:
A monkey pulls a dog’s tail and is chased by the dog.
2015年较早的模型:
2015年之前的模型存在的问题
- 输出的描述没有考虑到动态的时序结构。
- 之前的模型利用一个特征向量来表示视频中的所有帧,导致无法识别视频中物体出现的先后顺序。
论文思路以及创新点
- 通过局部和全局的时序结构来产生视频描述:
针对Decoder生成的每一个单词,模型都会关注视频中特定的某一帧。
- 使用3-D CNN来捕捉视频中的动态时序特征。
模型结构设计
- Encoder(3-D CNN + 2-D GoogLeNet)的设置:3 * 3 * 3 的三维卷积核,并且是3-D CNN在行为识别数据集上预训练好的。
每个卷积层后衔接ReLu激活函数和Local max-pooling, dropout参数设置为0.5。
- Decoder(LSTM)的设置:使用了additive attention作为注意力机制,下图为在两个数据集上的超参数设置:
实验细节
数据集
1970条Youtobe视频片段:每条大约10到30秒,并且只包含了一个活动,其中没有对话。1200条用作训练,100条用作验证,670条用作测试。
数据集包含从92部电影的49000个视频片段,并且每个视频片段都被标注了描述语句。
评估指标
- BLEU
- METEOR
- CIDER
- Perplexity
实验结果
- 实验可视化
柱状图表示每一帧生成对应颜色每个单词时的注意力权重。
- 模型对比