基于NLP及特征融合的漏洞相似性算法评估被引量：2

Vulnerability Similarity Algorithm Evaluation Based on NLP and Feature Fusion

下载PDF

导出

摘要漏洞相似性研究有助于安全研究人员从历史漏洞的信息中寻找新漏洞的解决方法。现有漏洞相似性研究工作开展不多,模型的选择也缺乏客观的实验数据支撑。文章将多种词嵌入技术与深度学习自编码器进行组合,从漏洞描述文本角度计算语义相似性。同时,结合从NVD等公共数据库提取的多维度特征数据,从漏洞特征角度计算漏洞特征相似性,并设计了一套基于NLP及特征融合的双角度漏洞相似性度量算法和评估方案。实验从数值分布、相似区分度和准确性等方面评估各种模型组合的效果,最优的模型组合在漏洞相似性判定中最高可获得0.927的F1分数。 The study of vulnerability similarity helps security researchers to find solutions to new vulnerabilities from historical vulnerability information.The existing work on vulnerability similarity is not much,and the selection of its model is also lack of objective experimental data support.On this basis,this paper combined various word embedding technologies and deep learning auto-encoders to calculate semantic similarity from the perspective of vulnerability description text.At the same time,multi-dimensional feature data were extracted from public databases such as NVD,to calculate vulnerability feature similarity from the perspective of vulnerability features,and finally a dual angle vulnerability similarity measurement algorithm and evaluation scheme based on NLP and feature fusion was designed.Based on objective experimental analysis,the effects of various model combinations were compared from the aspects of numerical distribution,similarity discrimination,accuracy,etc.The final optimized model combination can obtain the highest F1 score of 0.927 in the determination of vulnerability similarity.

作者贾凡康舒雅江为强王光涛 JIA Fan;KANG Shuya;JIANG Weiqiang;WANG Guangtao(School of Electronic and Information Engineering,Beijing Jiaotong University,Beijing 100044,China;Information Security Center,China Mobile Group Co.,Ltd.,Beijing 100053,China)

机构地区北京交通大学电子信息工程学院中国移动通信集团有限公司信息安全管理与运行中心

出处《信息网络安全》 CSCD 北大核心 2023年第1期18-27,共10页 Netinfo Security

基金教育部中国移动科研基金[MCM20200106]。

关键词自然语言处理深度学习漏洞相似性词嵌入 natural language processing deep learning vulnerability similarity word embedding

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1夏之阳,易平,杨涛.基于神经网络与代码相似性的静态漏洞检测[J].计算机工程,2019,45(12):141-146. 被引量：15
2李玫,高庆,马森,张世琨,胡文蕙,张兴明.面向代码相似性检测的相似哈希改进方法[J].软件学报,2021,32(7):2242-2259. 被引量：9
3张丹,罗平.代码相似性检测方法与工具综述[J].计算机科学,2020,47(3):5-10. 被引量：8
4熊浩,晏海华,黄永刚,郭涛,李舟军.一种基于BP神经网络的代码相似性检测方法[J].计算机科学,2010,37(3):159-164. 被引量：11
5王春柳,杨永辉,邓霏,赖辉源.文本相似度计算方法研究综述[J].情报科学,2019,37(3):158-168. 被引量：80
6李海林,邹金串.基于分类词典的文本相似性度量方法[J].智能系统学报,2017,12(4):556-562. 被引量：6
7俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：31

二级参考文献60

1曹羽中,金茂忠,刘超.克隆代码检测技术综述[J].计算机工程与科学,2006,28(z2):9-13. 被引量：6
2孟庆磊,姚春莲,宋建斌,李炜.一种面向H.264/AVC的快速帧内预测选择算法[J].北京航空航天大学学报,2007,33(2):219-223. 被引量：13
3McCabe D. Levels of Cheating and Plagiarism Remain High[C/ OL]. Center for Academic Integrity, Duke University, 2005. http://academicintegrity. org/.
4Bull J,Collins C,Coughlin E, et al. Technical Review of Plagiarism Detection Software Report [C/OL]. http://www. jisc. ac. uk/pub01/luton. pdf,July 2002.
5Sheard J, Dick M, Markham S, et al. Cheating and plagiarism: perceptions and practices of first year IT students[C]//The 7th Annual Joint Conference on Innovation and Technology in Computer Science Education. Aarhus, Denmark, 2002 : 183-187.
6Parker A, Hamblem J O. Computer algorithms for plagiarism detection[J]. IEEE Transactions on Education, 1989,32 (2) :94- 99.
7Faidhi J A W,Robinson S K. An Empirical Approach for Detection Program Similarity and Plagiarism within a University Programming Environment[J]. Computers and Education, 1987,11 (1):11-19.
8Jones E L. Metrics based plagiarism monitoring[C] // The 6th Annual CSSC Northeastern Conference. Middlebury, VT, 2001.
9Verco K L, Wise M J. Software for detecting suspected plagiarism:comparing structure and attribute-counting systems[C]// Proceedings of the 1st Australian Conference on Computer Science Education. 1996:3- 5.
10WISE M J. YAP3 : Improved Detection of similarities in computer program and other Texts[C]//ACM SIGCSE. 1996:130-134.

共引文献152

1严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
2周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
5杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：7
6谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：9
7康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：3
8张骥,张红梅,邵华,郑紫尧,李亮玉.基于全景数字仿真的变电站一键顺控测试技术[J].高电压技术,2023,49(S01):128-134. 被引量：2
9谢波,左红,管力超,张晓烨,杨洁.电子数据鉴定在"零口供"案件中的应用实例[J].中国公共安全,2023(3):81-86.
10熊浩,晏海华,郭涛,黄永刚,郝永乐,李舟军.代码相似性检测技术:研究综述[J].计算机科学,2010,37(8):9-14. 被引量：23

同被引文献14

1王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76. 被引量：334
2李霞,李守伟.面向个性化推荐系统的二分网络协同过滤算法研究[J].计算机应用研究,2013,30(7):1946-1949. 被引量：16
3董立岩,王越群,贺嘉楠,孙铭会,李永丽.基于时间衰减的协同过滤推荐算法[J].吉林大学学报（工学版）,2017,47(4):1268-1272. 被引量：31
4郑鹏,王应明,梁薇.基于信任和矩阵分解的协同过滤推荐算法[J].计算机工程与应用,2018,54(13):34-40. 被引量：16
5陶永才,火昊,石磊,卫琳.基于时间因子的个性化新闻混合推荐研究[J].小型微型计算机系统,2018,39(8):1794-1798. 被引量：6
6肖青秀,汤鲲.基于双层注意力机制的深度学习电影推荐系统[J].计算机与现代化,2018(11):109-114. 被引量：12
7姜信景,齐小刚,刘立芳.个性化信息推荐方法研究[J].智能系统学报,2018,13(2):189-195. 被引量：14
8李韵,黄辰林,王中锋,袁露,王晓川.基于机器学习的软件漏洞挖掘方法综述[J].软件学报,2020,31(7):2040-2061. 被引量：44
9李凌,顾晓梅,刘子豪.多子域随机森林在情境感知推荐中的应用研究[J].计算机工程与应用,2020,56(22):132-141. 被引量：3
10段旭,吴敬征,罗天悦,杨牧天,武延军.基于代码属性图及注意力双向LSTM的漏洞挖掘方法[J].软件学报,2020,31(11):3404-3420. 被引量：36

引证文献2

1贾凡,康舒雅,江为强,王光涛.基于相似性的多用户漏洞推荐算法[J].清华大学学报（自然科学版）,2023,63(9):1399-1407. 被引量：3
2刘元坤,宋礼鹏,朱宇辉,石江雨.基于SeqGAN和Bi-GRU实施过采样的SVD方法[J].计算机仿真,2024,41(2):500-506.

二级引证文献3

1楼雯,马昕钰,苏子龙.融合依存句法网络和PageRank的检索词推荐方法研究[J].情报学报,2023,42(11):1358-1368. 被引量：1
2朱昆,刘姜,倪枫,朱佳怡.融合上下文和视觉信息的多模态电影推荐模型[J].软件工程,2024,27(6):68-73.
3李享.集合相似度自连接算法研究[J].软件,2024,45(4):95-97.

1赵晖.基于反馈驱动的Fuzz工具设计[J].科学技术创新,2020(32):67-68. 被引量：1
2杨诗雨,桂畅旎.美国网络安全和基础设施安全局(CISA)网络安全漏洞治理政策分析[J].中国信息安全,2022(6):34-39. 被引量：4
3苏二花.脱离短篇小说[J].滇池,2020,0(4):4-17.
4张悦,高晗,吴清雨,李军山,王亚涛,曾永祯,董博宇,张睿智,孙福仁.美洲大蠊饮片、标准汤剂、中间体、配方颗粒的HPLC特征图谱相似性研究[J].中国民族民间医药,2022,31(20):29-32.
5林进涛.数字音频和嵌入技术在广播电视工程中的运用分析[J].卫星电视与宽带多媒体,2023(2):31-32. 被引量：2
6费习昌,彭瑶,张明军.胃腺癌肿瘤微环境中基质和免疫相关预后基因的鉴定[J].现代消化及介入诊疗,2022,27(11):1436-1442.
7杨永勤,路宁,张明鑫.结肠癌免疫相关lncRNA风险预测模型的建立[J].医学分子生物学杂志,2023,20(1):34-39.
8董晶,李鹏,孙智佩.飞机光纤的安装与检测技巧分析[J].中文科技期刊数据库（全文版）工程技术,2022(12):163-166.
9陈哲垚,侯德富,彭莉蓉,刘琼,于爱清,王启广.基于TCGA数据库分析B3GAT3基因在肝癌中的表达及临床意义[J].湖南师范大学学报（医学版）,2022,19(6):70-75. 被引量：1
10宋永春.浅挂线法治疗高位肛周脓肿的临床研究[J].中文科技期刊数据库（文摘版）医药卫生,2022(11):157-159.

信息网络安全

2023年第1期

浏览历史

内容加载中请稍等...

基于NLP及特征融合的漏洞相似性算法评估被引量：2

参考文献7

二级参考文献60

共引文献152

同被引文献14

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于NLP及特征融合的漏洞相似性算法评估 被引量：2

参考文献7

二级参考文献60

共引文献152

同被引文献14

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于NLP及特征融合的漏洞相似性算法评估被引量：2