-
题名基于词序嵌入的二进制基本块相似性检测
- 1
-
-
作者
李涛
王金双
周振吉
-
机构
陆军工程大学指挥控制工程学院
-
出处
《计算机系统应用》
2023年第12期253-260,共8页
-
文摘
神经机器翻译技术能够自动翻译多种语言的语义信息,已被应用于跨指令集架构的二进制代码相似性检测,并取得了较好的效果.将汇编指令序列当作文本序列处理时,指令顺序关系很重要.进行二进制基本块级别相似性检测时,神经网络使用位置嵌入来对指令位置进行建模.然而,这种位置嵌入未能捕获指令位置之间的邻接、优先等关系.针对该问题,本文使用指令位置的连续函数来建模汇编指令的全局绝对位置和顺序关系,实现对词序嵌入的泛化.首先使用Transformer训练源指令集架构编码器;然后使用三元组损失训练目标指令集架构编码器,并微调源指令集架构编码器;最后使用嵌入向量之间欧氏距离的映射表示基本块之间的相似程度.在公开数据集MISA上的实验表明,P@1评价指标达到69.5%,比对比方法MIRROR提升了4.6%.
-
关键词
二进制基本块
相似性检测
跨指令集架构
神经机器翻译
词序嵌入
-
Keywords
binary basic block
similarity detection
cross-instruction set architecture
neural machine translation
word order embedding(WOE)
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-