2020.02.18 更新 Knowledge Graph Grounded Goal Planning for Open-Domain Conversation Generation

Knowledge Graph Grounded Goal Planning for Open-Domain Conversation Generation

AAAI 2020

总结

这篇文章关心如何通过manage chatting topic进而生成更coherent的回复。文章的motivation/challenge/model都是一一对应的，这点很值得学习。

两点challenge:

如何决定下一个应该谈论的topic？（也就是文章所说的goal sequence planning)
如何深入谈论某个topic? (同时，话题转换的时机应该如何确定呢？)

本文的model分成了三个policy: upper layer policy/ middle layer policy/ lower layer policy

针对第一点challenge，作者设计了upper layer policy，这一层的策略主要用来决定下一个应该谈论的topic, 并且会考虑user-interest，user-interest在这里是指user提到的new topics。具体对应到reward function中就是user interest consistency，具体看论文。

针对第二点challenge，作者设计了middle layer policy和lower layer policy。首先，upper layer policy会向下传递一个goal，middle layer policy从goal周围（本文是基于knowledge graph）选择一个topic，这个topic可以看作是目标topic的深入谈论，而lower layer policy则是用于生成回复（用的居然是IJCAI2019的那篇multi-mapping)。

思考

其实在motivation部分，这篇文章并不能给我带来“亮点”，但人家能用RL将自己的idea实现而且效果很好就很厉害了，我就觉得自己做不到，工程能力还需要磨练。这篇文章其实将很多可以细化的问题直接丢给了RL，以前大家都丢给attention，现在则是RL，果真是炼丹。