基于分层编码的深度增强学习对话生成研究

• •

基于分层编码的深度增强学习对话生成研究

赵宇晴¹,向阳²

1. 同济大学
2. 同济大学电子与信息工程学院

收稿日期:2017-04-28 修回日期:2017-06-02 发布日期:2017-06-02
通讯作者: 向阳

Building hierarchical dialog generation model using deep reinforcement learning

Yu-Qing ZHAO,

Received:2017-04-28 Revised:2017-06-02 Online:2017-06-02

摘要/Abstract

摘要： 面向对话生成问题，提出了一种构建对话生成模型的方法，用以解决当前标准 seq2seq 结构采用最大似然函数作为目标函数所带来的易生成通用回答的问题。在该方法中，其结合了分层编码和增强学习，利用分层编码来对多轮对话进行建模，在标准 seq2seq 的基础上新增了中间层来加强对历史对话语句的记忆，而后采用了语言模型来构建奖励函数，进而用增强学习中的策略梯度方法代替原有的最大似然损失函数进行训练。实验结果表明所提出的基于分层编码的深度增强学习对话模型(Enhanced HRED)能生成语义信息更丰富的回答，在标准的人工测评指标中，其效果优于当前广泛采用的 RNN 系列模型约 17%-21%。

关键词: 对话生成, 深度增强学习, 分层编码, 循环神经网络, 序列到序列

Abstract: Aimed at dialog generation problem, a dialog generation model is proposed to solve the problem that standard seq2seq architectures are more likely to raise highly generic responses due to the Maximum Likelihood Estimate(MLE)loss function. This method combines hierarchical encoding method and deep reinforcement learning, and uses hierarchical structure to build a multi-round dialog model, adding a hierarchical layer to enhance the memory of history dialog based on the standard seq2seq architecture, and then use a language model to build reward functions, replacing traditional MLE loss function with policy gradient method in deep reinforcement learning for training. Experimental results show that the proposed model (Enhanced HRED) can generate responses with richer semantic information and improve by 17%-21% in standard manual evaluation compared with widely used traditional RNN dialog generation models.

Key words: dialog generation, deep reinforcement learning, hierarchical encoding, recurrent neural network, sequence to sequence(seq2seq)

中图分类号:

TP183 人工神经网络与计算

赵宇晴向阳. 基于分层编码的深度增强学习对话生成研究[J]. 计算机应用.

Yu-Qing ZHAO. Building hierarchical dialog generation model using deep reinforcement learning[J]. .

[1]	高芸芸, 赵腊生, 张强. 基于双向长短时记忆和卷积Transformer的声学词嵌入模型[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 123-128.
[2]	林于翔, 吴运兵, 阴爱英, 廖祥文. 基于语义相关性分析的多模态摘要模型[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 65-72.
[3]	尹聪, 胡汉平. 基于时间注意力机制的时滞混沌系统参数辨识模型[J]. 《计算机应用》唯一官方网站, 2023, 43(3): 842-847.
[4]	李南帆, 司文文, 杜思远, 王志勇, 钟重阳, 夏时洪. 基于循环神经网络的人体运动模型的隐状态初始化方法[J]. 《计算机应用》唯一官方网站, 2023, 43(3): 723-727.
[5]	贾晴, 王来花, 王伟胜. 基于独立循环神经网络与变分自编码网络的视频帧异常检测[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 507-513.
[6]	于蒙, 何文涛, 周绪川, 崔梦天, 吴克奇, 周文杰. 推荐系统综述[J]. 《计算机应用》唯一官方网站, 2022, 42(6): 1898-1913.
[7]	陈学勤, 陶涛, 张钟旺, 王一蕾. 融合成对编码方案及二维卷积神经网络的长短期会话推荐算法[J]. 《计算机应用》唯一官方网站, 2022, 42(5): 1347-1354.
[8]	陈亭秀, 尹建芹. 基于关键帧筛选网络的视听联合动作识别[J]. 《计算机应用》唯一官方网站, 2022, 42(3): 731-735.
[9]	孙邱杰, 梁景贵, 李思. 基于BART噪声器的中文语法纠错模型[J]. 《计算机应用》唯一官方网站, 2022, 42(3): 860-866.
[10]	杜曾贞, 唐东昕, 解丹. 智能问诊中基于深度神经网络的反问生成方法[J]. 《计算机应用》唯一官方网站, 2022, 42(3): 867-873.
[11]	孟佳娜, 吕品, 于玉海, 孙世昶, 林鸿飞. 基于胶囊网络的方面级跨领域情感分析[J]. 《计算机应用》唯一官方网站, 2022, 42(12): 3700-3707.
[12]	韩佳良, 韩宇栋, 刘譞哲, 赵耀帅, 冯迪. 基于云‒端融合的个性化推荐服务系统[J]. 《计算机应用》唯一官方网站, 2022, 42(11): 3506-3512.
[13]	赵宏, 孔东一. 图像特征注意力与自适应注意力融合的图像内容中文描述[J]. 计算机应用, 2021, 41(9): 2496-2503.
[14]	刘子辰, 李小娟, 韦伟. 基于循环神经网络的专利价格自动评估[J]. 计算机应用, 2021, 41(9): 2532-2538.
[15]	丁尹, 桑楠, 李晓瑜, 吴飞舟. 基于循环神经网络的电信行业容量数据预测方法[J]. 计算机应用, 2021, 41(8): 2373-2378.