-
题名改进的DDPG对话策略优化算法
被引量:2
- 1
-
-
作者
赵崟江
李艳玲
林民
-
机构
内蒙古师范大学计算机科学技术学院
-
出处
《计算机工程与设计》
北大核心
2021年第2期411-418,共8页
-
基金
国家自然科学基金项目(61562068、61806103)
内蒙古自然科学基金项目(2017MS0607)
内蒙古民委蒙古文信息化专项扶持子基金项目(MW-2014-MGYWXXH-01)。
-
文摘
针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其适用于离散动作空间任务;在环境方面,引入一个环境模型(又称世界模型)来模拟真实用户提问;在整个训练过程中,代理分别与用户模拟器和世界模型交互,结合规划交替使用真实用户经验和模拟用户经验,改进对话策略。实验结果表明,该方法能够加快模型的收敛速度,提升任务成功率。
-
关键词
对话策略优化
代理
DDPG算法
世界模型
用户模拟器
规划
-
Keywords
dialogue strategy optimization
agent
DDPG algorithm
world model
user simulator
planning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-