对于结构性代码变换,基于Token的同源性检测技术缺乏抽象提取手段,难以识别和定位结构化信息。为此,针对代码同源性检测结构化匹配进行了研究,在LCS(longest common sequence)算法中融入了跳变信息保留、结构边界划分、窗口搜索、计数...对于结构性代码变换,基于Token的同源性检测技术缺乏抽象提取手段,难以识别和定位结构化信息。为此,针对代码同源性检测结构化匹配进行了研究,在LCS(longest common sequence)算法中融入了跳变信息保留、结构边界划分、窗口搜索、计数重置、有效序列界定等逻辑,用于Token摘要的结构化信息匹配,提出了一种结构化匹配同源性代码检测技术,并通过实际工程代码样本进行多种场景的实验测试。实验表明,该方法能够高效识别代码结构化信息,对于代码同源性检测是有效的。展开更多
传统基于Token的同源性检测算法存在代码变体结构化信息定位困难、模块提取、识别能力差、同源性度量精度低的问题.为此,提出了一种基于改进编辑距离和LCS(longest common sequence)的结构化识别同源性检测技术.在编辑距离(edit distan...传统基于Token的同源性检测算法存在代码变体结构化信息定位困难、模块提取、识别能力差、同源性度量精度低的问题.为此,提出了一种基于改进编辑距离和LCS(longest common sequence)的结构化识别同源性检测技术.在编辑距离(edit distance)计算中,引入交换算子,提高模块内部同源性度量精度.在LCS算法中,引入相似模块度量的最小尺寸监测机制和代码行间最大动态相关性度量,提供代码结构边界划分、模块行关联、代码有效结构化信息抽取的能力.实验证明,该方法是一种有效的基于结构化信息的同源性检测技术,其随机抽样检测结果的准确率、召回率及F值均有较优表现,且稳定性较好.展开更多
文摘对于结构性代码变换,基于Token的同源性检测技术缺乏抽象提取手段,难以识别和定位结构化信息。为此,针对代码同源性检测结构化匹配进行了研究,在LCS(longest common sequence)算法中融入了跳变信息保留、结构边界划分、窗口搜索、计数重置、有效序列界定等逻辑,用于Token摘要的结构化信息匹配,提出了一种结构化匹配同源性代码检测技术,并通过实际工程代码样本进行多种场景的实验测试。实验表明,该方法能够高效识别代码结构化信息,对于代码同源性检测是有效的。
文摘传统基于Token的同源性检测算法存在代码变体结构化信息定位困难、模块提取、识别能力差、同源性度量精度低的问题.为此,提出了一种基于改进编辑距离和LCS(longest common sequence)的结构化识别同源性检测技术.在编辑距离(edit distance)计算中,引入交换算子,提高模块内部同源性度量精度.在LCS算法中,引入相似模块度量的最小尺寸监测机制和代码行间最大动态相关性度量,提供代码结构边界划分、模块行关联、代码有效结构化信息抽取的能力.实验证明,该方法是一种有效的基于结构化信息的同源性检测技术,其随机抽样检测结果的准确率、召回率及F值均有较优表现,且稳定性较好.