期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
中文文本挖掘中最长频繁序列的发现算法 被引量:1
1
作者 胥桂仙 朴泰雄 +2 位作者 杨丹丹 徐小博 高旭 《中央民族大学学报(自然科学版)》 2004年第1期36-42,共7页
 本文对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的发现所有最长频繁序列的算法.该算法基于"找最长字共现"的原则,可以准确地将文本中的词汇切分出来.
关键词 文本挖掘 最长频繁序列 发现算法 词汇处理 汉语 “找最长字共现” 中文分词
下载PDF
基于最长频繁序列挖掘的恶意代码检测 被引量:6
2
作者 黄琨茗 张磊 +1 位作者 赵奎 刘亮 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第4期681-688,共8页
基于动态API序列挖掘的恶意代码检测方法未考虑不同类别恶意代码之间的行为差别,导致代表恶意行为的恶意序列挖掘效果不佳,其恶意代码检测效率较低.本文引入面向目标的关联挖掘技术,提出一种最长频繁序列挖掘算法,挖掘最长频繁序列作为... 基于动态API序列挖掘的恶意代码检测方法未考虑不同类别恶意代码之间的行为差别,导致代表恶意行为的恶意序列挖掘效果不佳,其恶意代码检测效率较低.本文引入面向目标的关联挖掘技术,提出一种最长频繁序列挖掘算法,挖掘最长频繁序列作为特征用于恶意代码检测.首先,该方法提取样本文件的动态API序列并进行预处理;然后,使用最长频繁序列挖掘算法挖掘多个类别的最长频繁序列集合;最后,使用挖掘的最长频繁序列集合构造词袋模型,根据该词袋模型将样本文件的动态API序列转化为向量,使用随机森林算法构造分类器检测恶意代码.本文采用阿里云提供的数据集进行实验,恶意代码检测的准确率和AUC(Area Under Curve)值分别达到了95.6%和0.99,结果表明,本文所提出的方法能有效地检测恶意代码. 展开更多
关键词 恶意代码 最长频繁序列 序列挖掘 词袋模型 随机森林算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部