基于最近双经验SAC算法的无人分队控制研究

Research on the Control of Unmanned Detachment Based on the Recent Double Empirical SAC Algorithm

下载PDF

导出

摘要针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明,改进后的SAC算法相比传统SAC算法,提升了学习效率与稳定性,降低了策略网络误差,使无人分队能有更高的任务成功率。 For the control of unmanned detachment,how to make behavioral decision-making to better complete tasks is a research focus of the unmanned driving.Based on the SAC algorithm,the SAC algorithm model of recently double experience playback is proposed.This model mainly starts from two aspects:one is to replace random sampling with recent empirical sampling;The second is to use double experience pool instead of single experience pool.The experimental results show that compared with the traditional SAC algorithm,the improved SAC algorithm improves the learning efficiency and stability,reduces the policy network error,and enables the unmanned detachment to have a higher mission success rate.

作者李海川阳周明王洋崔新悦王娜 LI Haichuan;YANG Zhouming;WANG Yang;CUI Xinyue;WANG Na(North Automatic Control Technology Institute,Taiyuan 030006,China)

机构地区北方自动控制技术研究所

出处《火力与指挥控制》 CSCD 北大核心 2023年第6期70-75,83,共7页 Fire Control & Command Control

关键词深度强化学习 SAC算法最近双经验池回放无人分队行为决策 deep reinforcement learning soft actor-critic algorithm(SAC algorithm) dual experience replay playback unmanned squad behavior decision-making

分类号 TJ812 [兵器科学与技术—武器系统与运用工程]

引文网络
相关文献

参考文献4

1黄志清,曲志伟,张吉,张严心,田锐.基于深度强化学习的端到端无人驾驶决策[J].电子学报,2020,48(9):1711-1719. 被引量：19
2张永梅,赵家瑞,吴爱燕.好奇心驱动的深度强化学习机器人路径规划算法[J].科学技术与工程,2022,22(25):11075-11083. 被引量：9
3代珊珊,刘全.基于动作约束深度强化学习的安全自动驾驶方法[J].计算机科学,2021,48(9):235-243. 被引量：16
4刘庆强,刘鹏云.基于优先级经验回放的SAC强化学习算法[J].吉林大学学报（信息科学版）,2021,39(2):192-199. 被引量：7

二级参考文献15

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：51
2吴洪岩,刘淑华,张嵛.基于RBFNN的强化学习在机器人导航中的应用[J].吉林大学学报（信息科学版）,2009,27(2):185-190. 被引量：11
3刘国荣,张扬名.移动机器人轨迹跟踪的模糊PID-P型迭代学习控制[J].电子学报,2013,41(8):1536-1541. 被引量：36
4金玉净,朱文文,伏玉琛,刘全.基于Tile Coding编码和模型学习的Actor-Critic算法[J].计算机科学,2014,41(6):239-242. 被引量：3
5刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：487
6高乐,马天录,刘凯,张宇轩.改进Q-Learning算法在路径规划中的应用[J].吉林大学学报（信息科学版）,2018,36(4):439-443. 被引量：17
7熊璐,康宇宸,张培志,朱辰宇,余卓平.无人驾驶车辆行为决策系统研究[J].汽车技术,2018(8):1-9. 被引量：39
8周思雨,白成超.基于深度强化学习的行星车路径规划方法研究[J].无人系统技术,2019,2(4):38-45. 被引量：9
9杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191. 被引量：40
10梁星星,冯旸赫,马扬,程光权,黄金才,王琦,周玉珍,刘忠.多Agent深度强化学习综述[J].自动化学报,2020,46(12):2537-2557. 被引量：37

共引文献47

1姜明宇,张翠平,金子潇.自动驾驶环境下的网络安全预警系统设计[J].智能计算机与应用,2022,12(5):129-131. 被引量：2
2刘雷,陈晨,冯杰,肖婷婷,裴庆祺.车载边缘计算卸载技术研究综述[J].电子学报,2021,49(5):861-871. 被引量：11
3吕品,何岳滨,许嘉.基于顺序选择的自动驾驶车辆十字路口调度方案[J].电子学报,2021,49(5):912-919.
4田丹,臧守雨,涂斌斌.具有空间调整和稀疏约束的相关滤波跟踪算法[J].图学学报,2021,42(5):755-761. 被引量：1
5张明恒,吕新飞,万星,吴增文.基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型[J].大连理工大学学报,2022,62(1):77-84. 被引量：3
6欧阳卓,周思源,吕勇,谭国平,张悦,项亮亮.基于深度强化学习的无信号灯交叉路口车辆控制[J].计算机科学,2022,49(3):46-51. 被引量：7
7张帆,黄赟,方子茁,郭威.卷积神经网络的损失最小训练后参数量化方法[J].通信学报,2022,43(4):114-122. 被引量：5
8崔新悦,阳周明,赵彦东,杨霄,范玲瑜.一种针对坦克速度控制的深度强化学习算法[J].火力与指挥控制,2022,47(4):120-125. 被引量：1
9田豆,李凤莲,张雪英,张晋义.特征选择融合深度强化学习分类模型的构建及应用[J].电子设计工程,2022,30(12):93-97. 被引量：5
10饶宁,许华,蒋磊,宋佰霖,史蕴豪.基于多智能体深度强化学习的分布式协同干扰功率分配算法[J].电子学报,2022,50(6):1319-1330. 被引量：11

1宋凯征,钱冀敏,李光宇.盘古故里好人多——记郭明义爱心团队河北青县民兵志愿者分队[J].雷锋,2023(13):41-43.
2无.北京市城市管理综合行政执法局关于印发《城市管理违法行为举报奖励办法》的通知(京城管发〔2023〕8号)[J].北京市人民政府公报,2023(21):69-76.
3陈磊,周伟,卓洪波,国涛,张骥.战时弹药混合装箱优化模型研究[J].电子产品可靠性与环境试验,2023,41(3):1-5. 被引量：1
4李建标,陈建福,高滢,裴星宇,吴宏远,陆子凯,周少雄,曾杰.基于RG-DDPG的直流微网能量管理策略[J].中国电力,2023,56(7):85-94. 被引量：1
5汪学潮(文/图).“蓝盔天使”,绽放医者大美——记中国第十批赴马里维和医疗分队护士周娟[J].解放军健康,2023(3):30-31.
6平措次仁(文\摄影),崔运红(文\摄影).本期人物:旦增曲杰[J].政工导刊,2023(7).
7韩旭,吴锋.结合对比预测的离线元强化学习方法[J].计算机科学与探索,2023,17(8):1917-1927. 被引量：1

火力与指挥控制

2023年第6期

浏览历史

内容加载中请稍等...

基于最近双经验SAC算法的无人分队控制研究

参考文献4

二级参考文献15

共引文献47

相关作者

相关机构

相关主题

浏览历史