基于Actor-Critic框架的渗透测试路径技术研究

Research on Penetration Test Path Technology Based on Actor Critical Framework

下载PDF

导出

摘要该文将层次强化学习与渗透测试相结合,将渗透测试过程建模为半马尔可夫决策模型,训练Agent在模拟网络环境中完成渗透测试路径发现,并提出了一种改进的基于Actor-Critic框架改进的自动分层记忆AHM-DQN算法(Automatic hierarchical memory Deep Q Networks,AHM-DQN)。首先,在Actor网络中加入一个双向递归神经网络作为同一Agent的信息交换层;其次,在Critic网络加入其他种类的Agent信息来学习多种Agent协同策略。该算法在Actor-Critic算法上进行了以下改进:一是集成了自动分层功能,对任务目标和动作的选择进行自动分层,提高了算法的效率;二是结合记忆因子,帮助Agent有效地记忆和学习,解决奖励值的稀疏性问题,提高算法精度。该算法在学习效率和收敛速度上优于传统的分层学习算法,解决了渗透测试主要依靠人工进行的问题。 In this paper, hierarchical reinforcement learning and penetration testing are combined, the process of penetration testing is modeled as a semi-Markov decision model, and the Agent is trained to complete penetration testing path discovery in the simulated network environment. An improved automatic hierarchical memory Deep Q Networks(Automatic hierarchical memory Deep Q Networks, AHM-DQN) algorithm based on Actor Critical framework is proposed. First, a bidirectional recurrent neural network is added to Actor network as the information exchange layer of the same Agent;Secondly, add other kinds of agent information to the Critic network to learn multiple agent cooperation strategies. The algorithm makes the following improvements on Actor-Critic algorithm:First, it integrates the automatic layering function to automatically layer the selection of task objectives and actions,which improves the efficiency of the algorithm;The second is to combine memory factors to help Agent effectively remember and learn, solve the sparsity problem of reward values, and improve the accuracy of the algorithm. The algorithm is superior to the traditional hierarchical learning algorithm in learning efficiency and convergence speed,and solves the problem that penetration testing mainly depends on manual work.

作者陆燕杨秋芬 LU Yan;YANG Qiufen(Hunan Open University,Changsha,Hunan Province,410004 China)

机构地区湖南开放大学

出处《科技资讯》 2022年第21期5-10,共6页 Science & Technology Information

基金湖南开放大学2021年度校级科研课题“改进的分层强化学习算法在自动化渗透测试路径发现中的应用研究”(项目编号:XDK-2021-A-4) 湖南省教育厅科学研究项目“基于Actor-Critic框架的DDPG算法优化研究”(项目编号:21C1186) 湖南省职业院校教育教学改革研究项目“基于深度学习的高职课堂教学评价研究”(项目编号:ZJGB2021189) 湖南省自然科学基金项目“基于AdaBoost的哈欠检测算法研究”(项目编号:2021JJ60038)。

关键词渗透测试分层学习算法 AHM-DQN算法 Actor-Critic框架 Penetration test Hierarchical learning algorithm AHM-DQN algorithm Actor-critical framework

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王海红,刘莉.基于分层和强化学习的改进路径搜索算法[J].计算机与现代化,2020(11):77-82. 被引量：2
2李腾,曹世杰,尹思薇,魏大卫,马鑫迪,马建峰.应用Q学习决策的最优攻击路径生成方法[J].西安电子科技大学学报,2021,48(1):160-167. 被引量：13
3杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191. 被引量：40
4杨瑞,严江鹏,李秀.强化学习稀疏奖励算法研究——理论与实验[J].智能系统学报,2020,15(5):888-899. 被引量：18

二级参考文献23

1孙一品,钟求喜,苏金树.基于隐马尔可夫模型的攻击意图识别技术研究[J].计算机工程与科学,2007,29(8):19-22. 被引量：6
2汪小帆,刘亚冰.复杂网络中的社团结构算法综述[J].电子科技大学学报,2009,38(5):537-543. 被引量：80
3唐晋韬,王挺,王戟.适合复杂网络分析的最短路径近似算法[J].软件学报,2011,22(10):2279-2290. 被引量：43
4李庆朋,王布宏,王晓东,张春明.基于最优攻击路径的网络安全增强策略研究[J].计算机科学,2013,40(4):152-154. 被引量：7
5闫峰,刘淑芬,冷煌.基于转换的攻击图分析方法研究[J].电子学报,2014,42(12):2477-2480. 被引量：4
6高妮,高岭,贺毅岳,雷艳婷,高全力.基于贝叶斯攻击图的动态安全风险评估模型[J].四川大学学报（工程科学版）,2016,48(1):111-118. 被引量：52
7易正俊,李勇霞,易校石.自适应蚁群算法求解最短路径和TSP问题[J].计算机技术与发展,2016,26(12):1-5. 被引量：16
8于红,程超.基于多约束条件反馈的QoS链路选择算法[J].吉林大学学报（信息科学版）,2017,35(3):311-318. 被引量：3
9王雷,李明.改进自适应遗传算法在移动机器人路径规划中的应用[J].南京理工大学学报,2017,41(5):627-633. 被引量：46
10胡浩,叶润国,张红旗,杨英杰,刘玉岭.基于攻击预测的网络安全态势量化方法[J].通信学报,2017,38(10):122-134. 被引量：29

共引文献63

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2李瑜,张占强,孟克其劳,魏皓天.基于改进深度确定性策略梯度算法的微电网能量优化调度[J].电子测量技术,2023,46(2):73-80. 被引量：6
3张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
4何忠文.电网信息物理系统耦合决策控制技术研究进展[J].集成电路应用,2020,37(6):1-3.
5杨瑞,严江鹏,李秀.强化学习稀疏奖励算法研究——理论与实验[J].智能系统学报,2020,15(5):888-899. 被引量：18
6张永超,于智伟,丁丽林.基于强化学习的煤矸石分拣机械臂智能控制算法研究[J].工矿自动化,2021,47(1):36-42. 被引量：10
7张振,黄炎焱,张永亮,陈天德.基于近端策略优化的作战实体博弈对抗算法[J].南京理工大学学报,2021,45(1):77-83. 被引量：18
8王瑞星,董诗音,江飞龙,黄胜全.稀疏奖励下基于强化学习的异构多智能体对抗[J].信息技术,2021,45(5):12-20. 被引量：2
9疏利生,李桂芳,嵇胜.基于强化学习的航空器机场智能静态路径规划[J].航空工程进展,2021,12(3):65-70. 被引量：6
10宋宏川,詹浩,夏露,李向阳,刘艳.基于深度确定性策略梯度算法的战机规避中距空空导弹研究[J].航空工程进展,2021,12(3):85-94. 被引量：3

1胡俊承.一种基于高相关性特征集选择技术的病历大数据分类方法[J].数字通信世界,2020,0(3):70-70.
2杨洪福,朱翔宇,孙延秋.面向车辆域控制器的渗透测试方法研究[J].汽车零部件,2022(10):91-94.
3陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：23
4单圣哲,杨孟超,张伟伟,高传强.自主空战连续决策方法[J].航空工程进展,2022,13(5):47-58. 被引量：7
5陈颖,姚春雨,李娟,杨添洋,勾丽洁.低频重复经颅磁刺激对学龄前孤独症谱系障碍儿童执行功能及核心症状的影响[J].中华物理医学与康复杂志,2022,44(6):514-518. 被引量：4
6李静晨,史豪斌,黄国胜.基于自注意力机制和策略映射重组的多智能体强化学习算法[J].计算机学报,2022,45(9):1842-1858. 被引量：7
7王震,李赛飞,张丽杰.基于强化学习的自动化红队测试计划构建与验证[J].信息安全与通信保密,2022(8):71-82. 被引量：1
8乔治,王丹,刘雅炜,石军军,张新平.空间叙事视角下西安事变纪念馆创意系列化设计[J].包装工程,2022,43(14):362-374. 被引量：4
9杨兴昊,宋建梅,佘浩平,吴程杰,杨钦宁,付伟达.基于深度强化学习的无人机空中目标自主跟踪[J].计算机测量与控制,2022,30(10):88-94. 被引量：2
10李乃文,王胜男.融合用户属性的虚拟学术社区用户画像模型构建研究[J].情报探索,2022(10):85-90. 被引量：4

科技资讯

2022年第21期

浏览历史

内容加载中请稍等...

基于Actor-Critic框架的渗透测试路径技术研究

参考文献4

二级参考文献23

共引文献63

相关作者

相关机构

相关主题

浏览历史