基于时序结构的视频描述

Post author: 824zzy
Post link: <a href="https://824zzy.github.io/2019/03/02/describing-videos-by-exploiting-tempporal-structure/" title="基于时序结构的视频描述">https://824zzy.github.io/2019/03/02/describing-videos-by-exploiting-tempporal-structure/
Copyright Notice: All articles in this blog are licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/3.0/" rel="external nofollow" target="_blank">CC BY-NC-SA 3.0 unless stating additionally.

论文基本信息

论文名：Describing Videos by Exploiting Temporal Structure
论文链接：https://arxiv.org/pdf/1502.08029
论文源码：
- https://github.com/tsenghungchen/SA-tensorflow
关于笔记作者：
- 朱正源,北京邮电大学研究生，研究方向为多模态与认知计算。

论文推荐理由

本文是蒙特利尔大学发表在ICCV2015的研究成果，其主要创新点在于提出了时序结构并且利用注意力机制达到了在2015年的SOTA。通过3D-CNN捕捉视频局部信息和注意力机制捕捉全局信息相结合，可以全面提升模型效果。
其另一个重要成果是MVAD电影片段描述数据集，此数据集已经成为了当前视频描述领域主流的数据集。