论文阅读 Question Answering

#论文阅读 Question Answering| 来源: 网络整理| 查看: 265

QA的研究相当多，只对提升回答多样性做一些调研，有新的文章或者方法欢迎私信论文讨论

论文 Generating High-Quality and Informative Conversation Responses with Sequence-to-Sequence ModelsTopic Aware Neural Response GenerationA Diversity-Promoting Objective Function for Neural Conversation Models

论文 Generating High-Quality and Informative Conversation Responses with Sequence-to-Sequence Models

原文链接 Louis Shao, Stephan Gouws, Google Brain 2017 基础模型还是seq2seq+attention机制，创新之处在于提出了glimpse model和在beam search时用随机抽样+rerank。

glimpse model 首先作者是想要加入target-side attention，简单来说就是将输入也考虑进attention计算中，即self-attention的思想。但是很尴尬得发现超内存了，于是提出一种glimpse-model，原理就是既然一次无法decode太多，那就一次只decode K个，然后将这K个输出考虑进attention，再decode接下来的K个值。简单来说，第一次输出y1，第二次输入为[x;y1]，生成y2 ….. 需要改进的地方在于后几次decode的时候，由于是直接将encoder的hidden state输入进decoder，所以在计算效率和效果上肯定不如从当前开始的位置对应的input处开始。

stochastic decode 正常beam search的原理是假定size为2，词表为{1，2，3}，第一步输出概率最高的两个词，假如为{1，3}，第二步将第一步结果与词表中的词两两结合，即{11，12，13，31，32，33}中输出概率最高的两个词，以此类推。作者采用随机抽样的方法做beam search，我的理解是对于decoder生成每K个小段，先随机从字典中抽取D个候选token，然后根据这D个词作为该小段的开头字生成D个候选结果。以此类推，直至生成完。最后再根据概率打分，选择最高的那个。

不太理解的地方在于，随机选择开始的token的确有助于提升多样性，但是在词典很大的情况下，很容易miss掉高概率的选择，很有可能出现最对应的一些回答不出现，可能需要加一些规则来进行限定？

从实验结果上看，的确多样性得到了提升，但句子流畅度却有所损失这里写图片描述

Topic Aware Neural Response Generation

原文链接

Chen Xing, Wei Wu, Nankai University & Beihang University & MSRA, 2016

这篇文章代码开源了： https://github.com/LynetteXing1991/TA-Seq2Seq

目的是希望解决seq2seq模型倾向于生成无意义的回答，像I dont know等。方法是在attention中加入了topic项，文章topic通过LDA模型获得。结构下面的图展示得比较清晰了：这里写图片描述

case study：可以看到，加入topic word之后，回答会更加贴合主题这里写图片描述

A Diversity-Promoting Objective Function for Neural Conversation Models

原文链接 Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, Bill Dolan Stanford University & Microsoft Research, 2016

这篇的想法是利用不同的目标函数MMI来减少生成无意义回答的概率。

可以看下面公式，其实相当于loss函数减掉一个p(T)，这样就抑制了i dont know这些无意义但是高频出现的回答。

【本文地址】

公司简介

联系我们