2019.12.5 更新 Deep Reinforcement Learning for Dialogue Generation

Deep Reinforcement Learning for Dialogue Generation

EMNLP 2016

总结

第一个将RL引入对话系统的工作，motivation是之前的chatbot没有长久考虑的眼光，于是引入RL来避免生成那种“把人噎死说不出话”比如“ i don’t know what are you talking about”这种回复。整个模型是分为三个阶段的，第一阶段是普通的监督学习训练seq2seq，第二阶段是把seq2seq model拿去做RL，这里做RL是为了避免生成单调(dull)的回复，第三阶段是，用easy to answering/informatiion flow/semantic coherence三个reward继续做RL。

有一个点很奇怪的是文章对Figure 1完全没有任何说明和提及…