2019.12.5 更新 Deep Reinforcement Learning for Dialogue Generation
Deep Reinforcement Learning for Dialogue Generation
EMNLP 2016
总结
第一个将RL引入对话系统的工作,motivation是之前的chatbot没有长久考虑的眼光,于是引入RL来避免生成那种“把人噎死说不出话”比如“ i don’t know what are you talking about”这种回复。整个模型是分为三个阶段的,第一阶段是普通的监督学习训练seq2seq,第二阶段是把seq2seq model拿去做RL,这里做RL是为了避免生成单调(dull)的回复,第三阶段是,用easy to answering/informatiion flow/semantic coherence三个reward继续做RL。
有一个点很奇怪的是文章对Figure 1完全没有任何说明和提及…