基于Bert和BiLSTM-CRF的APT攻击实体识别及对齐研究被引量：12

Research on entity recognition and alignment of APT attack based on Bert and BiLSTM-CRF

下载PDF

导出

摘要针对高级可持续威胁(APT)分析报告未被有效利用,缺乏自动化方法生成结构化知识并形成黑客组织特征画像问题,提出一种融合实体识别和实体对齐的APT攻击知识自动抽取方法。首先,结合APT攻击特点设计12种实体类别;其次,构建融合Bert、双向长短期记忆(BiLSTM)网络和条件随机场(CRF)的APT攻击实体识别模型,利用Bert预训练标注语料,BiLSTM学习上下文语义信息,注意力机制突出关键特征,再由CRF识别实体;最后,结合实体对齐方法来生成不同APT组织的结构化知识。实验结果表明,所提方法能有效识别APT攻击实体,其精确率、召回率和F1值分别为0.9296、0.8733和0.9006,均优于现有模型。此外,所提方法能在少量样本标注的情况下自动抽取高级可持续威胁知识,通过实体对齐能生成常见APT组织的结构化特征画像,从而为后续APT攻击知识图谱构建和攻击溯源提供支撑。 Aiming at the problems that APT(advanced persistent threat)analysis reports have not been fully utilized,and there is a lack of automation methods to generate structured knowledge and construct feature portraits of the hacker organizations,an automatic knowledge extraction method of APT attacks combining entity recognition and entity alignment was proposed.Firstly,12 entity categories were designed according to the characteristics of APT attacks.Then,an APT attack entity recognition method that combined Bert,BiLSTM(bidirectional long and short-term memory)network,and CRF(conditional random field)was proposed.The Bert model was used to pre-train the annotated corpus.The BiLSTM model was constructed to learn contextual semantic information.The attention mechanism was built to extract key features.Moreover,the CRF algorithm was proposed to identify entities.Finally,the entity alignment method was designed to generate structured knowledge of different APT organizations.Experimental results show that the proposed method can effectively identify APT attack entities,with a precision of 0.9296,a recall of 0.8733,and an F1-score of 0.9006,superior to existing models.In addition,the proposed method can automatically extract advanced persistent threat knowledge with a small number of annotated samples and generate the structured portraits of APT groups through entity alignment,thus providing support for subsequent knowledge graph construction of APT attacks and attack tracing.

作者杨秀璋彭国军李子川吕杨琦刘思德李晨光 YANG Xiuzhang;PENG Guojun;LI Zichuan;LYU Yangqi;LIU Side;LI Chenguang(Key Laboratory of Aerospace Information Security and Trusted Computing of Ministry of Education,Wuhan University,Wuhan 430072,China;School of Cyber Science and Engineering,Wuhan University,Wuhan 430072,China)

机构地区武汉大学空天信息安全与可信计算教育部重点实验室武汉大学国家网络安全学院

出处《通信学报》 EI CSCD 北大核心 2022年第6期58-70,共13页 Journal on Communications

基金国家自然科学基金资助项目(No.62172308,No.U1626107,No.61972297,No.62172144)。

关键词高级可持续威胁威胁情报抽取实体识别实体对齐深度学习 advanced persistent threat threat intelligence extraction entity recognition entity alignment deep learning

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1宋文纳,彭国军,傅建明,张焕国,陈施旅.恶意代码演化与溯源技术研究[J].软件学报,2019,30(8):2229-2267. 被引量：22
2付钰,李洪成,吴晓平,王甲生.基于大数据分析的APT攻击检测研究综述[J].通信学报,2015,36(11):1-14. 被引量：84
3张小松,牛伟纳,杨国武,卓中流,吕凤毛.基于树型结构的APT攻击预测方法[J].电子科技大学学报,2016,45(4):582-588. 被引量：22
4张若彬,刘嘉勇,何祥.基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J].四川大学学报（自然科学版）,2019,56(3):469-475. 被引量：16

二级参考文献158

1李跃,翟立东,王宏霞,时金桥.一种基于社交网络的移动僵尸网络研究[J].计算机研究与发展,2012,49(S2):1-8. 被引量：10
2李阳,王晓岩,王昆,沙瀛.基于社交网络的安全关系研究[J].计算机研究与发展,2012,49(S2):124-130. 被引量：10
3杨欢,张玉清,胡予濮,刘奇旭.基于权限频繁模式挖掘算法的Android恶意应用检测方法[J].通信学报,2013,34(S1):106-115. 被引量：47
4穆祥昆,王劲松,薛羽丰,黄玮.基于活跃熵的网络异常流量检测方法[J].通信学报,2013,34(S2):51-57. 被引量：20
5穆成坡,黄厚宽,田盛丰,林友芳,秦远辉.基于模糊综合评判的入侵检测报警信息处理[J].计算机研究与发展,2005,42(10):1679-1685. 被引量：49
6李勇,左志宏.目标代码混淆技术综述[J].计算机技术与发展,2007,17(4):125-127. 被引量：10
7郭帆,余敏,叶继华.一种基于分类和相似度的报警聚合方法[J].计算机应用,2007,27(10):2446-2449. 被引量：11
8CHEN P,DESMET L, HUYGENS C, A study on advanced persistentthreats[A]. Communications and Multimedia Security-15th Interna-tional Conference[C]. 2014. 63-72.
9NIKOS V’ DIMITRI G. The big four?what we did wrong in advancedpersistent threat detection [A]. International Conference on Availability,Reliability and Security[C]. 2013. 248-254.
10YANG G M Z, TIAN Z H, DUAN W L. The prevent of advancedpersistent threat[J], Journal of Chemical and Pharmaceutical Research,2015, 6(1):572-576.

共引文献133

1肖鸣.一种多层次融合的APT防御模型研究与构建[J].中国新通信,2016,18(14):87-87.
2俞艺涵,付钰,吴晓平.基于改进正则表达式规则分组的内网行为审计方案[J].计算机应用,2016,36(8):2241-2245.
3董娜,张君艳,刘伟娜,常杰.电网企业APT攻击防御存在的问题及防御措施[J].河北电力技术,2016,35(4):25-27. 被引量：3
4雷程,马多贺,张红旗,杨英杰,王淼.基于变点检测的网络移动目标防御效能评估方法[J].通信学报,2017,38(1):126-140. 被引量：12
5戴玲,杨玉龙.人事档案资源共享的风险及对策[J].兰台世界,2017,0(1):54-57. 被引量：2
6姜海涛,王黎明,周超,郭静.智能变电站网络异常分析方法[J].电力信息与通信技术,2017,15(2):54-58. 被引量：4
7高东伟.在线社交网络中用户伪装攻击检测方法研究[J].科学技术与工程,2017,17(7):194-198. 被引量：2
8李静,郭永和,程杰,王婵,李瑞雪,刘安,卢晓梅,丁雪伟.互联网未知威胁监测及应用技术研究[J].网络安全技术与应用,2017(3):35-37. 被引量：3
9俞艺涵,付钰,吴晓平.基于内网行为分析的未知攻击检测模型[J].网络与信息安全学报,2016,2(6):54-57. 被引量：3
10琚安康,郭渊博,朱泰铭.基于开源工具集的大数据网络安全态势感知及预警架构[J].计算机科学,2017,44(5):125-131. 被引量：38

同被引文献108

1王捷,洪宇,陈佳丽,姚建民.基于共享BERT和门控多任务学习的事件检测方法[J].中文信息学报,2021,35(10):101-109. 被引量：5
2张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：83
3秦娅,申国伟,赵文波,陈艳平.基于深度神经网络的网络安全实体识别方法[J].南京大学学报（自然科学版）,2019,55(1):29-40. 被引量：20
4杜小勇,陈峻,陈跃国.大数据探索式搜索研究[J].通信学报,2015,36(12):77-88. 被引量：9
5刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：965
6徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. 被引量：507
7王红斌,沈强,线岩团.融合迁移学习的中文命名实体识别[J].小型微型计算机系统,2017,38(2):346-351. 被引量：24
8冯新翎,何胜,熊太纯,武群辉,柳益君.“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角[J].情报杂志,2017,36(1):149-153. 被引量：42
9吴运兵,阴爱英,林开标,余小燕,赖国华.基于多数据源的知识图谱构建方法研究[J].福州大学学报（自然科学版）,2017,45(3):329-335. 被引量：22
10杨观赐,杨静,李少波,胡建军.基于Dopout与ADAM优化器的改进CNN算法[J].华中科技大学学报（自然科学版）,2018,46(7):122-127. 被引量：111

引证文献12

1王大阜,王静,邓志文,贾志勇,张浴日.深度学习赋能网络安全知识图谱实体关系联合抽取研究[J].中国电子科学研究院学报,2023,18(5):420-428. 被引量：1
2谢丽霞,李雪鸥,杨宏宇,张良,成翔.基于样本特征强化的APT攻击多阶段检测方法[J].通信学报,2022,43(12):66-76. 被引量：5
3胡杰,李源洁,耿號,耿黄政,郭雄,易红卫.基于深度学习的汽车故障知识图谱构建[J].汽车工程,2023,45(1):52-60. 被引量：5
4谢崇波.基于自然语言处理的医疗问答系统研究与实现[J].现代信息科技,2023,7(12):1-5. 被引量：1
5冯景瑜,李嘉伦,张宝军,韩刚,张文波.工业互联网中抗APT窃密的主动式零信任模型[J].西安电子科技大学学报,2023,50(4):76-88. 被引量：1
6沙子凡,承楠,惠一龙,岳文伟,付宇钏,孙瑞锦.6G知识体系构建:面向全域全场景的学术知识挖掘及其按需应用[J].通信学报,2023,44(9):173-187. 被引量：2
7韩如雪,杨苗,宫小泽,胡镑,王永利,熊伟,赵显伟,徐琳.基于预训练语言模型与多任务学习的事件检测方法[J].南京理工大学学报,2023,47(6):748-755.
8常钰,王钢,朱鹏,孔令飞,何京恒.工业互联网安全知识图谱构建研究综述[J].计算机科学与探索,2024,18(2):279-300. 被引量：1
9李大岭,张浩军,王家慧,李世龙.基于深度学习的网络安全命名实体识别方法[J].无线电工程,2024,54(3):644-652. 被引量：1
10李元诚,罗昊,王欣煜,原洁璇.基于溯源图和注意力机制的APT攻击检测模型构建[J].通信学报,2024,45(3):117-130. 被引量：1

二级引证文献18

1张容祯,孟小艳,刘潇潇,汪洋.面向我国畜牧业法律法规的知识图谱构建[J].畜牧与饲料科学,2023,44(3):69-74.
2朱光明,卢梓杰,冯家伟,张向东,张锋军,牛作元,张亮.基于攻击上下文分析的多阶段攻击趋势预测[J].计算机技术与发展,2023,33(7):104-110.
3唐荻音,丁奕州,王轩,刘文静,王淑一,赖李媛君.面向多源异构数据的航天器故障知识图谱构建方法[J].空间控制技术与应用,2023,49(4):40-49. 被引量：1
4张诚,金峰,奚英涛,何文凯.基于知识图谱技术的设备缺陷闭环管理[J].电力大数据,2023,26(12):54-61. 被引量：2
5吴寒,李晓东,成星恺,李湘宁.APT攻击检测技术研究综述[J].通讯世界,2024,31(2):61-63.
6李元诚,罗昊,王欣煜,原洁璇.基于溯源图和注意力机制的APT攻击检测模型构建[J].通信学报,2024,45(3):117-130. 被引量：1
7吴洁.制造领域知识图谱的构建及应用[J].现代信息科技,2024,8(8):186-193.
8林冲,范加利,闫文君,陈姮,杨颖.深度神经网络架构轻量化方法综述[J].中国电子科学研究院学报,2024,19(2):179-193.
9李巍,闫利文,赵文平.智能制造领域现场工程师数字技能培养的价值、要素及路径[J].中国职业技术教育,2024(14):3-12.
10杨芳祺,刘聪,赵宇翔,蒋健,肖亮,彭庆.6G网络智慧内生愿景、架构与关键技术[J].无线电通信技术,2024,50(3):430-438. 被引量：2

1欧昀佳,周天阳,朱俊虎,臧艺超.基于BBNN的网络攻击文本自动化分类方法[J].信息工程大学学报,2021,22(1):44-50.
2李艳翠,冯继克,来纯晓,冯洪玉,冯文贺.汉英篇章衔接对齐语料库构建研究[J].中文信息学报,2022,36(4):39-47.
3陶永才,吴文乐,石磊,卫琳.基于注意力机制与情感的多通道RCNN和ON-LSTM模型[J].小型微型计算机系统,2022,43(7):1406-1412. 被引量：1
4沈金金,陈荔.基于多跳动态记忆网络和情感词典的情感分析模型[J].情报工程,2022,8(2):3-18. 被引量：1
5赵小兵,高璐,高定国,包乌格徳勒,米尔阿迪力江·麦麦提,刘洋,才智杰,孙媛.少数民族语言分词技术评测数据集MLWS2021[J].中国科学数据（中英文网络版）,2022,7(2):2-10. 被引量：1

通信学报

2022年第6期

浏览历史

内容加载中请稍等...

基于Bert和BiLSTM-CRF的APT攻击实体识别及对齐研究被引量：12

参考文献4

二级参考文献158

共引文献133

同被引文献108

引证文献12

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Bert和BiLSTM-CRF的APT攻击实体识别及对齐研究 被引量：12

参考文献4

二级参考文献158

共引文献133

同被引文献108

引证文献12

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Bert和BiLSTM-CRF的APT攻击实体识别及对齐研究被引量：12