基于时序结构的视频描述

论文基本信息

  1. 论文名:Describing Videos by Exploiting Temporal Structure

  2. 论文链接:https://arxiv.org/pdf/1502.08029

  3. 论文源码:

  4. 关于笔记作者:

    • 朱正源,北京邮电大学研究生,研究方向为多模态与认知计算。

论文推荐理由

本文是蒙特利尔大学发表在ICCV2015的研究成果,其主要创新点在于提出了时序结构并且利用注意力机制达到了在2015年的SOTA。通过3D-CNN捕捉视频局部信息和注意力机制捕捉全局信息相结合,可以全面提升模型效果。
其另一个重要成果是MVAD电影片段描述数据集,此数据集已经成为了当前视频描述领域主流的数据集。


Describing Videos by Exploiting Temporal Structure

视频描述任务介绍:

根据视频生成单句的描述,一例胜千言:

  A monkey pulls a dog’s tail and is chased by the dog.

2015年较早的模型:
LSTM-YT模型

2015年之前的模型存在的问题

  1. 输出的描述没有考虑到动态的时序结构
  2. 之前的模型利用一个特征向量来表示视频中的所有帧,导致无法识别视频中物体出现的先后顺序

论文思路以及创新点

  1. 通过局部和全局的时序结构来产生视频描述:

针对Decoder生成的每一个单词,模型都会关注视频中特定的某一帧。

  1. 使用3-D CNN来捕捉视频中的动态时序特征。

模型结构设计

  • Encoder(3-D CNN + 2-D GoogLeNet)的设置:3 * 3 * 3 的三维卷积核,并且是3-D CNN在行为识别数据集上预训练好的。

每个卷积层后衔接ReLu激活函数和Local max-pooling, dropout参数设置为0.5。

  • Decoder(LSTM)的设置:使用了additive attention作为注意力机制,下图为在两个数据集上的超参数设置:

实验细节

数据集

  1. Microsoft Research Video Description dataset

1970条Youtobe视频片段:每条大约10到30秒,并且只包含了一个活动,其中没有对话。1200条用作训练,100条用作验证,670条用作测试。

  1. Montreal Video Annotation Dataset

数据集包含从92部电影的49000个视频片段,并且每个视频片段都被标注了描述语句。

评估指标

  • BLEU

  • METEOR

  • CIDER
  • Perplexity

实验结果

  1. 实验可视化
    实验结果

柱状图表示每一帧生成对应颜色每个单词时的注意力权重。

  1. 模型对比
    模型对比

引用与参考

请zzy824喝杯咖啡
0%