论文笔记:A-Diversity-Promoting-Objective-Function-for-Neural-Conversation-Models

论文基本信息

  1. 论文名:A Diversity-Promoting Objective Function for Neural Conversation Models

  2. 论文链接:https://arxiv.org/pdf/1510.03055.pdf

  3. 论文源码:

    • None
  1. 关于作者:

    • Jiwei Li:斯坦福大学博士毕业生,截至发稿被引次数:2156
  2. 关于笔记作者:

    • 朱正源,北京邮电大学研究生,研究方向为多模态与认知计算。

论文推荐理由

文章提出使用最大互信息(Maximum Mutual Information MMI)代替原始的最大似然(Maximum Likelihood)作为目标函数,目的是使用互信息减小“I don’t Know”这类无聊响应的生成概率。

一种促进神经对话模型多样性的目标函数

预备知识

  • Seq2Seq模型:

论文写作动机

越来越多的研究者开始探索数据驱动的对话生成方法。主要分为三派:

  • 基于短语的统计方法(Ritter 2011): 传统的基于短语的翻译系统通过将源句分成多个块,然后逐句翻译来完成任务.
  • 神经网络方法
  • Seq2Seq模型(Sordoni 2015)

Seq2Seq神经网络模型生成的回复往往十分保守。(I don’t know)

问题的解决思路

最大互信息模型

  1. 符号表示

    • $S={s_1, s2, …, S{N_s}}$: 输入句子序列
    • $T={t_1, t2, …, t{N_s}, EOS}$: 目标句子序列,其中$EOS$表示句子结束。
  2. MMI评判标准

    1. MMI-antiLM:
      对标准的目标函数:

      进行了改进:

      在原始目标函数基础上添加了目标序列本身的概率$logp(T)$,$p(T)$就是一句话存在的概率,也就是一个模型,前面的lambda是惩罚因子,越大说明对语言模型惩罚力度越大。由于这里用的是减号,所以相当于在原本的目标上减去语言模型的概率,也就降低了“I don’t know”这类高频句子的出现概率。
    2. MMI-bidi:
      在标准的目标函数基础上添加$logp(S|T)$,也就是T的基础上产生S的概率,而且可以通过改变lambda的大小衡量二者的重要性。后者可以表示在响应输入模型时产生输入的概率,自然像“I don’t know”这种答案的概率会比较低,而这里使用的是相加,所以会降低这种相应的概率。

MMI-antiLM

如上所说,MMI-antiLM模型使用第一个目标函数,引入了$logp(T)$,如果lambda取值不合适可能会导致产生的响应不符合语言模型,所以在实际使用过程中会对其进行修正。由于解码过程中往往第一个单词或者前面几个单词是根据encode向量选择的,后面的单词更倾向于根据前面decode的单词和语言模型选择,而encode的信息影响较小。也就是说我们只需要对前面几个单词进行惩罚,后面的单词直接根据语言模型选择即可,这样就不会使整个句子不符合语言模型了。使用下式中的$U(T)$代替$p(T)$,式中$g(k)$表示要惩罚的句子长度:

此外,我们还想要加入响应句子的长度这个因素,也作为模型相应的依据,所以将上面的目标函数修正为下式:

MMI-bidi

MMI-bidi模型引入了$p(S|T)$项,这就需要先计算出完整的T序列再将其传入一个提前训练好的反向seq2seq模型中计算该项的值。但是考虑到S序列会产生无数个可能的T序列,我们不可能将每一个T都进行计算,所以这里引入beam-search只计算前200个序列T来代替。然后再计算两项和,进行得分重排。论文中也提到了这么做的缺点,比如最终的效果会依赖于选择的前N个序列的效果等等,但是实际的效果还是可以的。

实验设计

数据集

  1. Twitter Conversation Triple Dataset: 包含2300万个对话片段。
  2. OpenSubtitiles Dataset

对比实验方法:

  1. SEQ2SEQ
  2. SEQ2SEQ(greedy)
  3. SMT(statistical machine translation): 2011
  4. SMT + neural reranking: 2015

评估指标

  1. BLEU
  2. distinct-1
  3. distinct-2

实验结果分析

实验结果评价

最终在Twitter和OpenSubtitle两个数据集上面进行测试,效果展示BLEU得分都比标准的seq2seq模型要好。

  • Twitter
  • OpenSubtitle

总结

一般的seq2seq模型,倾向于生成安全、普适的响应,因为这种响应更符合语法规则,在训练集中出现频率也较高,最终生成的概率也最大,而有意义的响应生成概率往往比他们小。通过MMI来计算输入输出之间的依赖性和相关性,可以减少模型对他们的生成概率。

引用与参考

  1. http://paperweek.ly/
  2. https://scholar.google.com/
请zzy824喝杯咖啡
0%