多agent分层强化学习在数据定位中的应用研究被引量：1

Application research of multi-agent layered reinforcement learning in data location

下载PDF

导出

摘要为了在领域文本中实现数据定位,将文本视为环境,针对文本环境中存在的动态性以及不确定性等问题,提出了基于多agent分层强化学习的数据定位方法。该方法利用分层结构的特点,将系统任务分解为多个子任务,个体agent分别对对应子任务学习,以此将策略更新限制在规模较小的局部空间;同时利用多agent系统中单agent与系统远期目标的同一性,引入策略协调机制,通过agent之间交换信息来发现趋势性信息,并利用shaping技术,将在线获取的动态知识对各个agent进行趋势性启发,加快agent的收敛速度。实验将该方法应用于司法领域的判决文书上,实验结果表明:该方法能够在大规模复杂未知的文本环境中对目标数据进行高效准确定位,平均准确率与F值能够达到96.6%和98.2%,且具有较好的收敛速度。因此可以看出,该方法能够很好地在领域文本中实现数据定位,具有较大的理论以及实际意义。 In order to achieve data location in the domain text,this paper regarded the text as the environment.Aiming at the dynamic and uncertainty of the text environment,this paper proposed a data location method based on multi-agent hierarchical reinforcement learning.The method utilized the characteristics of the hierarchical structure to decompose the system tasks into multiple subtasks,and the individual agents respectively learnt the corresponding subtasks,thereby limiting the strategy update to the smaller local space.And simultaneously utilizing the multi-agent system the identity of a single agent with the system’s long-term goals,introduced a policy coordination mechanism,exchanged information between agents to discover trend information,and used the sharing technique to dynamically acquire online dynamic knowledge.The agent conducted trending inspiration and speeded up the convergence of the agent.It applied the method to the judgment documents in the judicial field,and the practical application results show that the proposed method can efficiently and accurately locate the target data in a large-scale complex and unknown text environment,and the average accuracy and F value can reach 96.6%and 98.2%,and has a good convergence speed.Therefore,this method can well realize data location in domain text,which has great theoretical and practical significance.

作者洪壮壮万仲保张薇黄兆华 Hong Zhuangzhuang;Wan Zhongbao;Zhang Wei;Huang Zhaohua(Dept.of Software Engineering,East China Jiaotong University,Nanchang 330013,China)

机构地区华东交通大学软件学院

出处《计算机应用研究》 CSCD 北大核心 2020年第12期3635-3639,共5页 Application Research of Computers

基金国家重点研发计划项目(2018YFC0831106) 江西省自然科学基金资助项目(20122BAB201040)。

关键词数据定位文本环境分层强化学习多AGENT系统策略协调 shaping技术 data location text environment hierarchical reinforcement learning multi-agent system policy coordination shaping technology

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘智斌,曾晓勤,刘惠义,储荣.基于BP神经网络的双层启发式强化学习方法[J].计算机研究与发展,2015,52(3):579-587. 被引量：38
2傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25
3高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：262

二级参考文献28

1Sutton R S, Barto A G. Introduction to Reinforcement Learning [M]. Cambridge: MIT Press, 1998.
2Liu C, Xu X, Hu D. Multiobjeetive reinforcement learning: A comprehensive overview [J]. IEEE Trans on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2013, 99(4): 1-13.
3Sutton R S, Precup D, Singh S P. Between MDPs and semi MDPs : A framework for temporal abstraction in reinforcement learning [J]. Artificial Intelligence, 1999, 112 (1) : 181-211.
4Parr R. Hierachieal control and learning for markov decision processes [D]. Berkeley: University of Californiac at Berkeley, 1998.
5Hengst B. Discovering hierarchical reinforcement learning [D]. Sydney: University of New South Wales, 2003.
6Dietterich T G. Hierarchical reinforcement learning with the MAXQ value function decomposition [J]. Journal of Artificial Intelligence Research, 2000, 13(1): 227-303.
7Hwang K S, Lin H Y, Hsu Y P, et al. Self-organizing state aggregation for architecture design of Q-learning [J]. Information Sciences, 2011, 181(13) : 2813-2822.
8Ng A Y, Harada D, Russell S. Policy invariance under reward transformations: theory and application to reward shaping [C] //Proc of the 16th Int Conf on Machine Learning. San Francisco: Morgan Kaufmann, 1999= 278-287.
9Bianchi R A C, Ribeiro C H C, Costa A H R. Accelerating autonomous learning by using heuristic selection of actions [J]. Journal of Heuristics, 2008, 14(2): 135-168.
10Busoniu L, Babusta R, Schutter B D, et al. Reinforcement Learning and Dynamic Programming Using Function Approximators [M]. New York= Chemical Rubber Company (CRC) Press, 2010.

共引文献318

1朱新乐.基于BP神经网络的绿色供应链优化研究[J].运输经理世界,2023(11):156-158.
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
5王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
6马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93.
7赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
8杨金鸿,谭斌,皇甫立,熊璋.一种基于联合神经网络的连续空间行动者评论家学习方法[J].智能安全,2022,1(2):19-25.
9周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
10卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5

同被引文献15

1王洪东,侯雪辉,高蕴慧,邹丽.基于语言值有序对三元组的多类型数据标准化方法[J].模式识别与人工智能,2019,32(3):278-286. 被引量：7
2赵训铭,刘建华.射频识别(RFID)技术在食品溯源中的应用研究进展[J].食品与机械,2019,35(2):212-216. 被引量：19
3王桂胜,任清华,徐兵政,刘洋.基于Neyman-Pearson准则的自适应门限干扰抑制算法[J].火力与指挥控制,2019,44(4):12-16. 被引量：3
4王乐宁,喻敏,姚直象,张晓亮.Hermite分数时延滤波器在声纳信号源仿真逆波束形成中的应用[J].兵工学报,2019,40(7):1460-1467. 被引量：6
5安华,王国锋,王喆,马凯乐,钟才川.基于深度学习理论的刀具状态监测及剩余寿命预测方法[J].电子测量与仪器学报,2019,31(9):64-70. 被引量：19
6苑婷,王俊,朱浩祎,王刚,张林,孙佳琪,余维涛,王欣然,段佳鑫,孟妍.基于随机变量状态时序模拟的光伏并网系统概率潮流研究[J].沈阳农业大学学报,2019,50(6):753-759. 被引量：2
7张新生,裘瑾.基于动态PSO-HSMM的海底油气管道寿命预测[J].消防科学与技术,2019,38(11):1628-1632. 被引量：4
8彭超逸,顾慧杰,朱文,许丹莉,赵文猛,夏清,赖晓文,董成.交直流混联区域电网现货市场出清模型研究[J].电网技术,2020,44(1):323-331. 被引量：26
9江剑峰,张垠,田书欣,杨喜军.基于云理论的智能电能表故障数据分析[J].电力科学与技术学报,2020,35(2):163-169. 被引量：36
10吕超,程弓,刘云清.基于BDPCA聚类算法的航空发动机故障数据标记[J].振动与冲击,2020,39(9):35-41. 被引量：9

引证文献1

1黄小琼,沈曙明,李晨,鲁然,金阳忻.基于RFID的电力设备全寿命周期故障预测[J].电网与清洁能源,2023,39(11):80-85. 被引量：1

二级引证文献1

1张瑶,赵斌,彭翔,罗林根,盛戈皞,江秀臣.基于随机矩阵的变电站多源异常声音信号的定向方法[J].高压电器,2024,60(7):155-162.

1郭新春.初中政治教学中引入时事政治的有效策略[J].新课程教学（电子版）,2020(12):48-49. 被引量：2
2徐军.媒介融合时代新闻传播的“变”与“不变”[J].中国有线电视,2020(9):1060-1061. 被引量：2
3刘爽.浅谈现代园艺的环保发展[J].新农业,2020(18):66-66.
4蔡慧英,董海霞,王琦.教师如何有效设计图示化支架支持STEM课程教学——基于30项实验和准实验研究的元分析[J].电化教育研究,2020,41(10):73-81. 被引量：9
5封文佳,万娟,杨星,景瑞.基于科研创新能力和前沿动态的细胞生物学教学改革探讨[J].教育教学论坛,2020(36):361-362. 被引量：3
6林国英.浅谈干部人事档案在生涯规划中的重要作用[J].办公室业务,2020(20):171-171. 被引量：3
7纪伟.5G中分布式云技术方案的应用[J].信息通信技术,2020,14(5):57-62. 被引量：2
8郭宗祥.复杂零件云制造知识服务模式研究[J].内燃机与配件,2020(19):205-206. 被引量：1
9顾佐佐,陈虹,李晓玥,赵旺,杨雪洁.智慧图书馆动态知识服务体系构建与平台设计[J].情报科学,2020,38(10):119-124. 被引量：16
10路兴慧,臧润国,丁易,黄继红,许玥.极小种群野生植物坡垒的生境特征及其对幼苗多度的影响[J].生物多样性,2020,28(3):289-295. 被引量：9

计算机应用研究

2020年第12期

浏览历史

内容加载中请稍等...

多agent分层强化学习在数据定位中的应用研究被引量：1

参考文献3

二级参考文献28

共引文献318

同被引文献15

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

多agent分层强化学习在数据定位中的应用研究 被引量：1

参考文献3

二级参考文献28

共引文献318

同被引文献15

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

多agent分层强化学习在数据定位中的应用研究被引量：1