基于深度强化学习的文本生成研究综述被引量：2

Review of Text Generation Based on Deep Reinforcement Learning

下载PDF

导出

摘要文本生成任务需要对大量词汇或语句进行表征,且可将其建模为序列决策问题.鉴于深度强化学习(deep reinforcement learning,DRL)在表征及决策方面的优良性能,DRL在文本生成任务中发挥了重要的作用.基于深度强化学习的文本生成方法改变了以最大似然估计为目标的训练机制,有效解决了传统方法中存在的暴露偏差问题.此外,深度强化学习和生成对抗网络的结合进一步提高了文本生成质量,并已取得了显著的成果.本综述将系统阐述深度强化学习在文本生成任务中的应用,介绍经典模型及算法,分析模型特点,探讨未来深度强化学习与文本生成任务融合的前景和挑战. Text generation tasks require representation of a large number of words or statements and can be modeled as sequential decision problems.In view of the excellent performance of deep reinforcement learning in representation and decision-making,it plays an important role in text generation tasks.The text generation method based on deep reinforcement learning changes the training mechanism aiming at maximum likelihood estimation and effectively solves the problem of exposure bias in traditional methods.In addition,the combination of DRL and generative adversarial networks has improved the quality of text generation and has achieved remarkable results.This review will elaborate the application of DRL in text generation tasks,introduce the classical models and algorithms,analyze the characteristics of the models,and discuss the prospects and challenges of the future integration of DRL and text generation tasks.

作者赵婷婷宋亚静李贵喜王嫄陈亚瑞任德华 ZHAO Tingting;SONG Yajing;LI Guixi;WANG Yuan;CHEN Yarui;REN Dehua(College of Artificial Intelligence,Tianjin University of Science&Technology,Tianjin 300457,China)

机构地区天津科技大学人工智能学院

出处《天津科技大学学报》 CAS 2022年第2期71-80,共10页 Journal of Tianjin University of Science & Technology

基金国家自然科学基金资助项目(61976156) 天津市企业科技特派员项目(20YDTPJC00560)。

关键词深度强化学习自然语言生成暴露偏差生成对抗网络 deep reinforcement learning natural language generation exposure bias generative adversarial network

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：140
2赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：132
3徐聪,李擎,张德政,陈鹏,崔家瑞.文本生成领域的深度强化学习研究进展[J].工程科学学报,2020,42(4):399-411. 被引量：8
4陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：77
5刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：487

二级参考文献159

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
3高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
4MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533.
5SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489.
6AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102.
7TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219.
8SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998.
9KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232.
10KOCSIS L, SZEPESVARI C. Bandit based Monte-Carlo planning[C] //Proceedings of the European Conference on MachineLearning. Berlin: Springer, 2006: 282 – 293.

共引文献758

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：1
2傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
3刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：51
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：47
7龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
8舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
9吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
10谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：9

同被引文献10

1杨超.2021年中国车企数字化转型趋势研究报告[J].数字经济,2021(12):60-68. 被引量：1
2苏玉龙,张著洪.基于关键词的文本向量化与分类算法研究[J].贵州大学学报（自然科学版）,2018,35(3):101-105. 被引量：5
3赵一鸣,朱奕蓉,吴林容.智能语音助手的知识服务能力评价研究[J].图书与情报,2019,0(4):132-140. 被引量：7
4张笛,杨婷婷,沙通.智能终端语音助手标准化研究[J].广东通信技术,2019,39(12):10-15. 被引量：4
5王建新,王子亚,田萱.基于深度学习的自然场景文本检测与识别综述[J].软件学报,2020,31(5):1465-1496. 被引量：44
6张天佐.基于深度学习的文本情感分析研究[J].IT经理世界,2020(2):70-70. 被引量：1
7王鑫,张涛,金映谷.异常检测算法综述[J].现代计算机,2020,26(30):21-26. 被引量：11
8周孝辉.基于深度学习的短文本情感分析[J].中国新通信,2021,23(8):149-150. 被引量：1
9刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良.自然场景文本检测与识别的深度学习方法[J].中国图象图形学报,2021,26(6):1330-1367. 被引量：35
10秦颖.机器生成语言的质量评价方法综述[J].计算机工程与科学,2022,44(1):138-148. 被引量：7

引证文献2

1谢彩云,何明志,周攀峰,彭琳,李宣颖.基于深度学习的文本情感分析研究[J].信息与电脑,2022,34(3):84-86. 被引量：1
2道发发,丁敏,袁粲璨,陈晓军,黎小平,赵嵩.车载智能语音助手综合评估模型建立及应用[J].汽车文摘,2023(4):12-17. 被引量：1

二级引证文献2

1张祥.多语言语音识别技术在智能语音助手中的应用研究[J].电声技术,2024,48(4):42-44. 被引量：1
2薛嘉豪,黄海,孙宜琴.基于BiGRU-attention的中文微博评论情感分析[J].软件工程,2024,27(7):12-16.

1郭莎,张娟娟,梁兴禹,李雪梅,何振曦,杨莎.基于数据挖掘及动物实验探讨维持洛哌丁胺诱导便秘小鼠模型稳定性的研究[J].中国实验动物学报,2022,30(1):47-56. 被引量：6
2刘静宜,池文雅,胡典顺.概率与统计的知识理解之最大似然估计[J].中国数学教育（高中版）,2022(4):11-16. 被引量：2
3赖华,高玉梦,黄于欣,余正涛,张勇丙.基于多粒度特征的文本生成评价方法[J].中文信息学报,2022,36(3):45-53. 被引量：4
4徐宇,杨频.基于RoBerta-BiLstm-Attention模型的机器生成新闻检测[J].现代计算机,2022,28(3):31-35.
5陈均,蔡耀蔚.从爱好到职业,玩无人机也能拿年薪[J].传奇天下（职教新航线）,2022(3):15-17.
6何芸.基于LGBM模型的城市道路交通流量预测研究[J].电子技术与软件工程,2022(3):259-262. 被引量：5
7梁梦英,李德玉,王素格,廖健,郑建兴,陈千.Senti-PG-MMR:多文档游记情感摘要生成方法[J].中文信息学报,2022,36(3):128-135. 被引量：3
8卢鹏,陈金宇,邹国良,万莹,郑宗生,王振华.无监督图像翻译的个性化手写汉字生成方法[J].计算机工程与应用,2022,58(8):221-229. 被引量：3
9刘云,宋凯,陈路遥,朱鹏俊.最小损失算法在区块链物联网中的优化研究[J].四川大学学报（自然科学版）,2022,59(2):78-84. 被引量：5
10李颖,豆颖康.社会主义核心价值观引领高校创新创业教育的思考[J].河北农业大学学报（社会科学版）,2022,24(2):118-124. 被引量：3

天津科技大学学报

2022年第2期

浏览历史

内容加载中请稍等...

基于深度强化学习的文本生成研究综述被引量：2

参考文献5

二级参考文献159

共引文献758

同被引文献10

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的文本生成研究综述 被引量：2

参考文献5

二级参考文献159

共引文献758

同被引文献10

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的文本生成研究综述被引量：2