-
题名一种基于子串识别的多模式串匹配算法
被引量:1
- 1
-
-
作者
何慧敏
刘燕兵
谭建龙
郭莉
-
机构
中国科学院计算技术研究所
中国科学院研究生院北京
信息内容安全技术国家工程实验室
-
出处
《计算机应用与软件》
CSCD
2011年第11期10-14,56,共6页
-
基金
国家自然科学基金项目(61070026)
国家重点基础研究发展计划基金项目(2007CB311100)
-
文摘
多模式串匹配算法是网络内容过滤系统的核心技术。巨大的存储空间开销是制约多模式匹配串算法应用的瓶颈之一。提出一种基于子串识别的多模式匹配算法—HashBOM,该算法利用位哈希表存储模式串的子串信息以大幅度减少存储空间,利用递归哈希函数计算字符串的哈希值以实现快速匹配。理论分析表明,该算法的空间复杂度为O(rm^2),优于基于子串识别的匹配算法BOM的空间复杂度O(mr|∑|log_2mr);该算法搜索匹配过程的平均时间复杂度为O(nlog|∑|)mr/m,与BOM算法相同(其中m为最短模式串的长度,r为模式串的个数,n为待匹配文本的长度,|∑|为字母表的大小)。在随机数据集和真实数据集上的实验表明,该算法的存储空间远远低于BOM算法,而匹配速度与BOM算法相当,非常适合在线实时匹配的应用环境。
-
关键词
多模式串匹配算法
位哈希表
递归哈希函数
空间压缩
-
Keywords
Multiple patterns string matching algorithm Bit hash map Recursive hash function Memory reduction
-
分类号
TP301.5
[自动化与计算机技术—计算机系统结构]
-
-
题名大规模语料中频繁模式增量发现算法
被引量:2
- 2
-
-
作者
廖豪
陈洁
谭建龙
-
机构
中国科学院计算技术研究所
中国科学院研究生院
北京邮电大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第23期27-29,32,共4页
-
基金
国家"973"计划基金资助项目(2007CB311100)
国家自然科学基金资助项目(20110250)
-
文摘
提出一种适用于大规模语料的频繁模式增量发现算法。统计局部区域提取的字符串频度,对局部相对低频字符串进行剪枝。利用多模式串匹配算法,统计剪枝后局部相对高频字符串在整个语料中的频度,得到频度大于阈值的频繁模式。实验结果表明,该算法具有较低的空间复杂度和时间复杂度,内存消耗为基于后缀数组的频繁模式发现算法的20%左右。
-
关键词
频繁模式
增量式
多模式串匹配算法
后缀树
后缀数组
-
Keywords
frequent pattern
incremental
multi-pattern string matching algorithm
suffix tree
suffix array
-
分类号
TP306
[自动化与计算机技术—计算机系统结构]
-