基于simhash与倒排索引的复用代码快速溯源方法被引量：9

Fast reused code tracing method based on simhash and inverted index

下载PDF

导出

摘要提出了一种新颖的复用代码精确快速溯源方法。该方法以函数为单位,基于simhash与倒排索引技术,能在海量代码中快速溯源相似函数。首先基于simhash利用海量样本构建具有三级倒排索引结构的代码库。对于待溯源函数,依据函数中代码块的simhash值快速发现相似代码块,继而倒排索引潜在相似函数,依据代码块跳转关系精确判定是否相似,并溯源至所在样本。实验结果表明,该方法在保证高准确率与召回率的前提下,基于代码库能快速识别样本中的编译器插入函数与复用函数。 A novel method for fast and accurately tracing reused code was proposed. Based on simhash and inverted index, the method can fast trace similar functions in massive code. First of all, a code database with three-level inverted index structures was constructed. For the function to be traced, similar code blocks could be found quickly according to simhash value of the code block in the function code. Then the potential similar functions could be fast traced using inverted index. Finally, really similar functions could be identified by comparing jump relationships of similar code blocks. Further, malware samples containing similar functions could be traced. The experimental results show that the method can quickly identify the functions inserted by compilers and the reused functions based on the code database under the premise of high accuracy and recall rate.

作者乔延臣云晓春庹宇鹏张永铮 QIAO Yan-chen YUN Xiao-chunl, TUO Yu-peng ZHANG Yong-zheng(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China Graduate School, Chinese Academy of Sciences, Beijing 100039, China Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China)

机构地区中国科学院计算技术研究所中国科学院研究生院中国科学院信息工程研究所

出处《通信学报》 EI CSCD 北大核心 2016年第11期104-113,共10页 Journal on Communications

基金国家自然科学基金资助项目(No.61303261) 国家高技术研究发展计划("863"计划)基金资助项目(No.2013AA014703 No.2012AA012803) 国家242信息安全计划基金资助项目(No.2014A094) 中国科学院战略性科技先导专项基金资助项目(No.XDA06030200)~~

关键词网络安全复用代码快速溯源同源判定恶意代码 network security, reused code, retrieval method, homology identification, malware

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1郭颖,陈峰宏,周明辉.大规模代码克隆的检测方法[J].计算机科学与探索,2014,8(4):417-426. 被引量：9
2董志强,肖新光,张栗伟.编码心理学分析病毒同源性[J].信息安全与通信保密,2005(8):55-59. 被引量：9

二级参考文献16

1.震荡波等蠕虫应急处理报告[EB/OL].http://www.antiy.com/resource/cert/alarm/a040501.htm,.
2Raghavan K. Automated duplicated-code detection and pro- cedure extraction[D]. Wisconsin: University of Wisconsin- Madison, 2003.
3Google code search[EB/OL]. [2013-08-10]. http://en.wiki- pedia.org/wiki/Google_Code_Search.
4Roy C K, Cordy J R. A survey on software clone detection research, Queen's Technical Report 541 [R]. 2007:115.
5Baker I~ S. On finding duplication and near-duplicate in large software systems[C]//Proceedings of the 2rid Working Conference on Reverse Engineering (WCRE '95). Washington, DC, USA: IEEE Computer Society, 1995: 86-95.
6Mockus A. Large-scale code reuse in open source sottware[C]// Proceedings of the 1st International Workshop on Emerging Trends in FLOSS Research and Development (FLOSS '07),Minneapolis, USA, 2007. Washington, DC, USA: IEEE Com- puter Society, 2007: 1-7.
7Liu Peng. Cloud computing: programmers return to the age of personal hero[J/OL]. Programmers, 2010(7). http://www. programmer, com. cn/365.
8Bellon S, Koschke R, Antoniol G, et al. Comparison and evaluation of clone detection tools[J]. IEEE Transactions on Software Engineering, 2007, 33(9): 577-591.
9Kamiya T, Kusumoto S, Inoue K. CCFinder: a multi-linguistic token-based code clone detection system for large scale source code[J]. IEEE Transactions on Software Engineering, 2002, 28(7): 654-670.
10Baxter I D, Yahin A, Moura L, et al. Clone detection using abstract syntax trees[C]//Proceedings of the 14th Interna- tional Conference on Software Maintenance (ICSM '98), Bethesda, USA, 1998. Washington, DC, USA: IEEE Com- puter Society, 1998: 368-377.

共引文献16

1蔡剑锋.基于新理念的杀毒软件[J].信息安全与通信保密,2006,28(9):142-144. 被引量：4
2谢川.手动杀毒技术的应用[J].信息系统工程,2010,23(12):80-82.
3赵金龙,韩旗,杨雨铮.基于物联网模式下的小型智能家居设计[J].信息系统工程,2013,26(12):51-52.
4张媛.扬水泵站运行中的节能措施[J].信息系统工程,2013,26(12):114-114.
5钱雨村,彭国军,王滢,梁玉.恶意代码同源性分析及家族聚类[J].计算机工程与应用,2015,51(18):76-81. 被引量：18
6郑荣锋,方勇,刘亮.基于动态行为指纹的恶意代码同源性分析[J].四川大学学报（自然科学版）,2016,53(4):793-798. 被引量：12
7乔延臣,云晓春,张永铮,李书豪.基于调用习惯的恶意代码自动化同源判定方法[J].电子学报,2016,44(10):2410-2414. 被引量：9
8颜颖,方勇,刘亮,刘露平,贾鹏.基于基本块指纹的二进制代码同源性分析[J].网络安全技术与应用,2017(3):67-69.
9彭双和,图尔贡.麦提萨比尔,周巧凤.基于Simhash的中文文本去重技术研究[J].计算机技术与发展,2017,27(11):137-140. 被引量：5
10刘复星,魏金津,任女尔.基于深度学习的代码克隆检测技术研究[J].电脑知识与技术,2018,14(6X):178-179. 被引量：3

同被引文献70

1陈周国,蒲石,祝世雄.匿名网络追踪溯源综述[J].计算机研究与发展,2012,49(S2):111-117. 被引量：14
2李勇,左志宏.目标代码混淆技术综述[J].计算机技术与发展,2007,17(4):125-127. 被引量：10
3左黎明,刘二根,徐保根,汤鹏志.恶意代码族群特征提取与分析技术[J].华中科技大学学报（自然科学版）,2010,38(4):46-49. 被引量：9
4于晓聪,董晓梅,于戈,秦玉海.僵尸网络在线检测技术研究[J].武汉大学学报（信息科学版）,2010,35(5):578-581. 被引量：10
5熊浩,晏海华,郭涛,黄永刚,郝永乐,李舟军.代码相似性检测技术:研究综述[J].计算机科学,2010,37(8):9-14. 被引量：23
6孔德光,谭小彬,奚宏生,宫涛,帅建梅.提升多维特征检测迷惑恶意代码[J].软件学报,2011,22(3):522-533. 被引量：17
7方滨兴,崔翔,王威.僵尸网络综述[J].计算机研究与发展,2011,48(8):1315-1331. 被引量：63
8彭家寅.格值下推自动机与格值上下文无关文法[J].计算机工程与应用,2011,47(25):34-38. 被引量：8
9杨轶,苏璞睿,应凌云,冯登国.基于行为依赖特征的恶意代码相似性比较方法[J].软件学报,2011,22(10):2438-2453. 被引量：21
10罗文华.基于逆向技术的恶意程序分析方法[J].计算机应用,2011,31(11):2975-2978. 被引量：9

引证文献9

1宋文纳,彭国军,傅建明,张焕国,陈施旅.恶意代码演化与溯源技术研究[J].软件学报,2019,30(8):2229-2267. 被引量：22
2黄立冬.分布式搜索引擎中关键词倒排索引方法仿真[J].计算机仿真,2019,36(8):380-383. 被引量：5
3刘亚姝,王志海,侯跃然,严寒冰.一种基于概率主题模型的恶意代码特征提取方法[J].计算机研究与发展,2019,56(11):2339-2348. 被引量：13
4许福,郝亮,陈飞翔,李冬梅,崔晓晖.面向开源代码复用的程序比对分析方法[J].计算机工程,2020,46(1):222-228. 被引量：2
5张德浩,徐云.函数级别的复用开源代码检测方法[J].信息技术与网络安全,2021,40(6):22-27.
6李玫,高庆,马森,张世琨,胡文蕙,张兴明.面向代码相似性检测的相似哈希改进方法[J].软件学报,2021,32(7):2242-2259. 被引量：9
7夏冰,庞建民,周鑫,单征.二进制代码相似性搜索研究进展[J].计算机应用,2022,42(4):985-998. 被引量：8
8白波,冯云,刘宝旭,汪旭童,何松林,姚敦宇,刘奇旭.基于网络行为的攻击同源分析方法研究[J].信息安全学报,2023,8(2):66-80. 被引量：4
9王子晨,汤艳君,潘奕扬.面向取证的网络攻击者溯源分析技术研究综述[J].信息安全研究,2024,10(4):302-310.

二级引证文献61

1谢波,左红,管力超,张晓烨,杨洁.电子数据鉴定在"零口供"案件中的应用实例[J].中国公共安全,2023(3):81-86.
2黄汉威.琴韵音响数码影音中心——AVR9928[J].实用影音技术,2000(3):18-19.
3陈涵泊,吴越,邹福泰.基于Asm2Vec的恶意代码同源判定方法[J].通信技术,2019,52(12):3010-3015. 被引量：4
4丁士杰,张志伟,谢军.气象灾害系统的恶意代码攻击自动化免疫方法[J].灾害学,2020,35(2):18-21. 被引量：1
5蔡荣彦,王鹤,姚启桂,何高峰.基于域名关联的恶意移动应用检测研究[J].计算机工程,2020,46(5):174-180. 被引量：5
6戴纯兴,刘刚,韩春超,王传国.KVM环境下基于异常行为的恶意软件检测技术研究[J].信息安全研究,2020,6(6):514-522. 被引量：1
7李青,徐子闻.基于集成降噪自编码的网络入侵多模式匹配算法设计[J].广西大学学报（自然科学版）,2020,45(3):530-537. 被引量：3
8段玉莹,王凤英.基于级联与深度信念网络的恶意代码分层检测[J].计算机工程与设计,2020,41(7):1815-1820. 被引量：5
9封万里,王之伟,池庆国,孙志惠,岑翼刚.CDN日志全链路分析系统的实施[J].广东通信技术,2020,40(10):53-56.
10吴朝雄,马书磊,石波,于冰.基于电子指纹的网络攻击溯源技术[J].计算机工程与设计,2020,41(11):3036-3041. 被引量：4

1杨坤,杨庚.关于无线传感器网络中溯源方法的分析[J].计算机技术与发展,2011,21(7):58-62. 被引量：2
2池水明,阚歆炜,张旻.基于Simhash的SQL注入漏洞检测技术研究[J].计算机时代,2014(3):3-5. 被引量：3
3栗迎结,任洪敏.基于Selenium的SQL注入漏洞检测系统的研究[J].现代计算机,2016,22(14):20-24. 被引量：2
4周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3
5夏坤鹏,谢正勇,崔伟.基于IDS报警和rootkit的威胁溯源方法研究[J].信息网络安全,2015(9):231-235. 被引量：1
6曹海傧,朱明,冯伟国.一种快速有效的海量视频拷贝检测方法[J].小型微型计算机系统,2014,35(5):1160-1163. 被引量：1
7何淑娟.基于XML信息检索技术的研究[J].信息技术,2011,35(1):116-118. 被引量：3
8朱鹏.基于Lucene的倒排索引性能的研究[J].无线互联科技,2014,11(8):149-149. 被引量：1
9胥正川,陈忠民,孙海,周傲英.关系数据库中的XML关键字检索技术[J].高技术通讯,2004,14(2):1-6.
10陈燕红.智能中文农业垂直搜索引擎体系的架构与实现[J].湖北农业科学,2014,53(12):2913-2918.

通信学报

2016年第11期

浏览历史

内容加载中请稍等...

基于simhash与倒排索引的复用代码快速溯源方法被引量：9

参考文献2

二级参考文献16

共引文献16

同被引文献70

引证文献9

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于simhash与倒排索引的复用代码快速溯源方法 被引量：9

参考文献2

二级参考文献16

共引文献16

同被引文献70

引证文献9

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于simhash与倒排索引的复用代码快速溯源方法被引量：9