基于最大熵强化学习的最优渗透路径生成方法

Optimal Penetration Path Generation Based on Maximum Entropy Reinforcement Learning

下载PDF

导出

摘要从攻击者角度分析入侵意图和渗透行为对于指导网络安全防御具有重要意义。然而,现有的渗透路径大多依据瞬时的网络环境构建,导致路径参考价值降低。针对该问题,文中提出了一种基于最大熵强化学习的最优渗透路径生成方法,该方法可以在网络环境动态变化的情况下,以探索的形式捕获多种模式的近似最优行为。首先,依据攻击图和漏洞评分对渗透过程进行建模,通过量化攻击获益来刻画渗透行为的威胁程度;然后,考虑到入侵行为的复杂性,开发基于最大熵模型的Soft Q-学习方法,通过控制熵值和奖励的重要程度来保证求解渗透路径的过程具有稳定性;最后将该方法应用于动态变化的测试环境中,生成高可用的渗透路径。仿真实验结果表明,相比于现有基于强化学习的基准方法,所提方法具有更强的环境适应性,能够以更低的代价生成更高收益的渗透路径。 Analyzing intrusion intentions and penetration behaviors from the attackers’perspective is of great significance for guiding network security defense.However,most existing penetration paths are constructed based on the instantaneous network environment,resulting in reduced reference value.Aiming at this problem,this paper proposes an optimal penetration path generation method based on maximum entropy reinforcement learning,which can capture the approximate optimal behavior of multiple modes in the form of exploration under dynamic network environments.Firstly,the penetration process is modeled according to the attack graph and the vulnerability score,and the threat degree of the penetration behavior is described by quantifying the attack benefits.Then,considering the complexity of the intrusion behavior,a soft Q-learning method based on the maximum entropy model is developed.The stability of the penetration path is ensured by controlling the entropy value and the importance of the reward.Finally,the method is applied to a dynamic environment to generate a highly available penetration path.Simulation experimental results show that,compared with the existing baseline methods based on reinforcement learning,the proposed method has more robust environmental adaptability and can generate higher-yielding penetration paths at a lower cost.

作者王焱王天荆沈航白光伟 WANG Yan;WANG Tianjing;SHEN Hang;BAI Guangwei(College of Computer Science and Technology,Nanjing Tech University,Nanjing 211816,China)

机构地区南京工业大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2024年第3期360-367,共8页 Computer Science

基金国家自然科学基金(61502230,61501224) 江苏省自然科学基金(BK20201357) 江苏省“六大人才高峰”高层次人才项目(RJFW-020)。

关键词最大熵强化学习攻击图 Soft Q-学习渗透路径 Maximum entropy reinforcement learning Attack graph Soft Q-learning Penetration path

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1胡浩,刘玉岭,张红旗,杨英杰,叶润国.基于吸收Markov链的网络入侵路径预测方法[J].计算机研究与发展,2018,55(4):831-845. 被引量：28
2王硕,王建华,汤光明,裴庆祺,张玉臣,刘小虎.一种智能高效的最优渗透路径生成方法[J].计算机研究与发展,2019,56(5):929-941. 被引量：8
3王硕,汤光明,寇广,宋海涛.基于因果知识网络的攻击路径预测方法[J].通信学报,2016,37(10):188-198. 被引量：29
4周仕承,刘京菊,钟晓峰,卢灿举.基于深度强化学习的智能化渗透测试路径发现[J].计算机科学,2021,48(7):40-46. 被引量：13

二级参考文献35

1苘大鹏,张冰,周渊,杨武,杨永田.一种深度优先的攻击图生成方法[J].吉林大学学报（工学版）,2009,39(2):446-452. 被引量：23
2SHAH C. Zeus crime ware toolkit[EB/OL]. http://blogs.mcafee.com/ mcafeelabs/zeus-crimeware-toolkit.
3QIN X, LEE W. Statistical causality of INFOSEC alert data[C]// Re-cent Advances in Intrusion Detection 2003. Berlin, 2003: 73-93.
4VALEUR F, VIGNA G, KRUEGEL C, et al. A comprehensive ap-proach to intrusion detection alert correlation[J]. IEEE Trans. De-pendable and Secure Computing, 2004, 1(3): 146-169.
5JAJODIA S, NOEL S, KALAPA P, et al. Cauldron: mission-centric cyber situational awareness with defense in depth[C]//The Military Communications Conference. Baltimore, 2011: 1339-1344.
6YU D, FRINCKE D. Improving the quality of alerts and predicting intruder’s next goal with hidden colored petri-net[J]. Computer Net-works, 2007,51(3): 632-654.
7WANG L, ISLAM T, LONG T, et al. An attack graph-based probabil-istic security metric[C]//Data and Applications Security XXII. Berlin Heidelberg, 2008: 283-296.
8XIE P, LI J H, OU X M, et al. Using Bayesian networks for cyber security analysis[C]//The 40th IEEE/IFIP International Conference on Dependable Systems and Networks(DSN). Chicago, 2010: 211-220.
9ABRAHAM S, NAIR S. A predictive framework for cyber security analytics using attack graphs[J]. International Journal of Computer Networks & Communications, 2015, 7(1): 1-17.
10FREDJ O B. A realistic graph-based alert correlation system[J]. Secu-rity and Communication Network, 2015, 8(15): 2477-2493.

共引文献66

1吴德胜,管媛辉.移动互联网异常入侵行为下攻击意图预测仿真[J].计算机仿真,2018,35(12):241-244. 被引量：1
2李洪成,吴晓平,俞艺涵.基于多维频繁序列挖掘的攻击轨迹识别方法[J].海军工程大学学报,2018,30(1):40-45. 被引量：3
3何媛,谢林栩.光纤通信网络被入侵后的最优激光传感节点选取[J].激光杂志,2018,39(4):129-133. 被引量：3
4王辉,鹿士凯,王银城.基于关联攻击图的入侵预测算法[J].计算机工程,2018,44(7):131-138. 被引量：5
5胡浩,刘玉岭,张玉臣,张红旗.基于攻击图的网络安全度量研究综述[J].网络与信息安全学报,2018,4(9):1-16. 被引量：12
6王勇杰,张铁宝.网络安全防护中高密度入侵频率监测方法仿真[J].计算机仿真,2018,35(10):321-324.
7吕定辉.稳态网络抗攻击频率准确预测方法仿真[J].计算机仿真,2018,35(11):396-400. 被引量：1
8胡浩,刘玉岭,张红旗,杨英杰,叶润国.基于吸收Markov链的网络入侵路径预测方法[J].计算机研究与发展,2018,55(4):831-845. 被引量：28
9王硕,汤光明,王建华,孙怡峰,寇广.基于因果知识网络的攻击场景构建方法[J].计算机研究与发展,2018,55(12):2620-2636. 被引量：9
10朱宇辉,宋礼鹏.基于层次攻击图的网络安全态势感知方法（英文）[J].Journal of Measurement Science and Instrumentation,2019,10(2):182-190.

1罗智勇,张玉,王青,宋伟伟.基于贝叶斯攻击图的SDN入侵意图识别算法的研究[J].通信学报,2023,44(4):216-225. 被引量：4
2徐雪冉,杨庚,黄喻先.横向联邦学习中差分隐私聚类算法[J].计算机应用,2024,44(1):217-222.
3王庞伟,刘程,汪云峰,张名芳.面向城市道路的智能网联汽车多车道轨迹优化方法[J].汽车工程,2024,46(2):241-252.
4张一晗,肖振飞,李金娜.数据驱动的线性离散系统自学习H_(∞)跟踪控制[J].控制工程,2023,30(10):1927-1934.
5刘登越.考虑网络攻击影响的智能网联汽车安全防御综述[J].综合运输,2024,46(1):79-84.
6彭建祥.改进RBF模型的医院网络异常信息入侵意图预测[J].吉林大学学报（信息科学版）,2023,41(2):352-358.
7孟秀丽,吴一凡,刘波.考虑延误险的多期众包物流服务质量优化[J].中国管理科学,2023,31(12):87-95. 被引量：1
8王丽梅,王红叶,吴永兴,苏昌.计算机网络技术的应用及安全防御技术分析[J].微型计算机,2024(1):94-96.
9李伟强,黄磊,骆小凡.远洋客船网络化服务平台安全风险挑战及应对策略[J].长江信息通信,2023,36(12):140-143.
10陈翊璐,王子博,张耀方,梁超,刘红日,王佰玲.面向流程工业系统的关键攻击步骤识别[J].计算机技术与发展,2024,34(2):105-112.

计算机科学

2024年第3期

浏览历史

内容加载中请稍等...

基于最大熵强化学习的最优渗透路径生成方法

参考文献4

二级参考文献35

共引文献66

相关作者

相关机构

相关主题

浏览历史