串匹配算法中模式串与文本之间关系的研究被引量：16

Research on Relationship Between Patterns and Text in String Matching Algorithms

下载PDF

导出

摘要经典的串匹配算法设计和分析中假设"字符互相独立并且等概率出现",这与实际应用环境差异很大,导致出现很多问题.考虑了字符的概率分布和上下文的关联,同时兼顾应用的方便,提出了命中密度的概念.在给出基本定义和扩展定义后,通过对4种类型的代表性算法的理论和实验分析,给出了命中密度与算法性能之间的关系.同时,在对命中密度的分析中得出一些极具价值的结论.对命中密度概念的多角度理解以及对它与算法性能关系的深入剖析都说明,命中密度作为一个特征量,可以从一个侧面刻画模式串和文本之间的相关性,它对算法的设计和分析以及串匹配领域研究工作的扩展都具有指导意义. It was assumed that the pattern and text characters are independent and uniformly distributed over a finite alphabet in classical string matching algorithms, and this assumption differs from real applications and causes many problems. Considering the probability distributions, the contexts of the characters, and the convenience of applications, this paper gives a concept hit rate and four extended concepts about it. Then it gives the theory analysis and detailed experiments with hit rate on the four classical algorithms. The map of the relationships is obtained between the hit rate and the algorithms＇ performance, and at the same time some valuable conclusions are made through above work. As a character variable, hit rate describes the relativity of patterns and text and can serve as guidelines in the algorithms design, analysis and some other extended research fields of the string matching.

作者刘萍刘燕兵郭莉方滨兴

机构地区中国科学院计算技术研究所信息内容安全技术国家工程实验室中国科学院研究生院

出处《软件学报》 EI CSCD 北大核心 2010年第7期1503-1514,共12页 Journal of Software

基金国家重点基础研究发展计划(973)No.2007CB311100~~

关键词串匹配字符概率分布字符串相关性 string matching probability distributions of character relativity of strings

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1张鑫,谭建龙,程学旗.一种改进的Wu-Manber多关键词匹配算法[J].计算机应用,2003,23(7):29-31. 被引量：27
2宋华,戴一奇.一种用于内容过滤和检测的快速多关键词识别算法[J].计算机研究与发展,2004,41(6):940-945. 被引量：22
3程伟,刘玉军,卢泽新.最佳比较序字符串匹配算法研究和应用[J].计算机工程与设计,2004,25(9):1430-1432. 被引量：5
4孙晓山,王强,关毅,王晓龙.一种改进的Wu-Manber多模式匹配算法及应用[J].中文信息学报,2006,20(2):47-52. 被引量：10

二级参考文献21

1王素琴,邹旭楷.一种优化的并行汉字／字符串匹配算法[J].中文信息学报,1995,9(1):49-53. 被引量：4
2[1]RS Boyer, J S Moore. A fast string searching algorithm.Communications of ACM, 1977, 20(10): 762～772
3[2]A Aho, M Corasick. Efficient string matching: An aid to biliographic search. Communications of ACM, 1975, 18(6): 333～ 340
4[3]B Commentz-Walter. A string matching algorithm fast on average.In: H A Maurer ed. Proc of the 6th Int'l Colloquium on Automata, Languages, and Programming, LNCS 71. Berlin:Springer, 1979. 118～132
5[5]E Ukkonen. On-line construction of suffix trees. Algorithmica,1995, 14(3): 249～260
6[6]Bruce W Watson. The performance of single-keyword and multiple-keyword pattern matching algorithms. Eindhoven University of Technology, Eindhoven, the Netherlands, Tech Rep: 94/19, 1994
7Boyer RS, Moore JS. A fast string searching algorithm[ M]. Communications of the ACM20, 1977. 762- 772.
8Sun W, Manber U. A Fast Algorithm For Multi-pattern Searching[ D]. The Computer Science Department of The University of Arizona, 1994.
9Sun W, Manber U. Agrep-A Fast Approximate Pattem-matching Tool[M]. Usenix Winter Technical Conference, 1992.
10Kim S. A Fast Multiple String - Pattern Matching Algorithm [ A ] .17th AoM/IAoM International Conference on Computer Science[ C].San Diego CA, August 1999.

共引文献54

1彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
2孙晓山,王强,关毅,王晓龙.一种改进的Wu-Manber多模式匹配算法及应用[J].中文信息学报,2006,20(2):47-52. 被引量：10
3代六玲,黄河燕,陈肇雄.一种改进的多模式串匹配算法[J].模式识别与人工智能,2006,19(1):47-51. 被引量：4
4杨东红,徐恪,崔勇.改进的Wu-Manber多模式串匹配算法[J].清华大学学报（自然科学版）,2006,46(4):555-558. 被引量：13
5陈曙晖,苏金树.基于两级审计的分布式内容审计系统[J].计算机工程与科学,2006,28(6):1-3.
6潘伟,郑刚.基于聚类模式的多数据源匹配的实现[J].计算机技术与发展,2007,17(1):76-78.
7袁世忠,曹旻,王燕燕.基于WM算法的多模式匹配改进算法WMN[J].计算机工程与应用,2007,43(15):128-130. 被引量：6
8张国平,徐汶东.字符串模式匹配算法的改进[J].计算机工程与设计,2007,28(20):4881-4884. 被引量：11
9吴冰,云晓春,高琪.基于网络的恶意代码检测技术[J].通信学报,2007,28(11):87-91. 被引量：8
10刘辉,秦耕,王发茂.分布式网络信息过滤系统研究与实现[J].通信技术,2008,41(2):52-53. 被引量：3

同被引文献136

1赵丽明,刘自齐.湘西方块苗文[J].民族语文,1990(1):44-49. 被引量：21
2杨毅夫,刘燕兵,刘萍,郭牧怡,郭莉.正则表达式的DFA压缩算法[J].通信学报,2009,30(S1):36-42. 被引量：6
3戈晓斐,黄竞伟,胡磊.改进的KMP算法在生物序列模式自动识别中的应用[J].计算机工程,2004,30(10):140-142. 被引量：6
4陈军,李志林,蒋捷,赵仁亮.基础地理数据库的持续更新问题[J].地理信息世界,2004,2(5):1-5. 被引量：159
5秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
6王若梅,张绮雯,周凡.一种新的多模式快速匹配算法[J].中山大学学报（自然科学版）,2005,44(A02):107-110. 被引量：3
7杨薇薇,廖翔.一种改进的BM模式匹配算法[J].计算机应用,2006,26(2):318-319. 被引量：25
8杨东红,徐恪,崔勇.改进的Wu-Manber多模式串匹配算法[J].清华大学学报（自然科学版）,2006,46(4):555-558. 被引量：13
9闵联营,赵婷婷.BM算法的研究与改进[J].武汉理工大学学报（交通科学与工程版）,2006,30(3):528-530. 被引量：19
10范立新.改进的中文近似字符串匹配算法[J].计算机工程与应用,2006,42(34):172-174. 被引量：8

引证文献16

1吴旭,贡华,李汪根,方群.基于特征串匹配的X射线荧光光谱仪数据采集[J].计算机工程,2012,38(2):250-252.
2刘许刚,黄海,马宏.一种基于分段匹配的字符串匹配算法[J].计算机应用与软件,2012,29(3):128-131. 被引量：9
3郑天明,王韬,郭世泽,李华,赵新杰.改进的空间协议识别算法[J].通信学报,2012,33(5):183-190. 被引量：6
4罗玺,罗红,王晓东,刘洪坤.病毒特征检测中改进的多模式匹配算法[J].计算机应用研究,2012,29(10):3828-3830. 被引量：2
5韩光辉,曾诚.KMP算法的理论研究[J].微电子学与计算机,2013,30(4):30-33. 被引量：7
6韩光辉,曾诚.BM算法中函数shift的研究[J].计算机应用,2013,33(8):2379-2382. 被引量：5
7李志文,张伟.一种面向大规模短特征集的字符串匹配技术[J].计算机工程与应用,2014,50(1):105-110. 被引量：1
8韩光辉,曾诚.Boyer-Moore串匹配算法的改进[J].计算机应用,2014,34(3):865-868. 被引量：5
9李少芳.基于近似串匹配算法的评分优化设计[J].黄山学院学报,2015,17(3):11-13.
10蒋亚平,田月霞,赵军伟.一种改进的BM模式匹配算法[J].科技通报,2015,31(9):178-182.

二级引证文献42

1韩光辉,曾诚.Boyer-Moore串匹配算法的改进[J].计算机应用,2014,34(3):865-868. 被引量：5
2朱平,杜彦辉.基于虚拟机与API调用监控技术的APT木马取证研究[J].信息网络安全,2014(4):78-81. 被引量：4
3蒋鹏,袁嵩.基于MQTT协议的综合消息推送[J].现代计算机（中旬刊）,2014(4):11-15. 被引量：7
4郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
5母泽平.字符串匹配算法探讨[J].重庆工商大学学报（自然科学版）,2014,31(8):79-82. 被引量：2
6李进东,吴杨,王韬,雷东.协议不相关的未知协议比特流特征提取方法研究[J].军械工程学院学报,2014,26(6):47-52.
7朱保锋,宋艳.一种改进的BM算法性能分析[J].中州大学学报,2015,32(3):114-116. 被引量：2
8马绍龙,刘海砚,李吕骏.一种改进的单模式匹配算法[J].测绘科学技术学报,2015,32(2):207-211. 被引量：1
9王兆丰,单甘霖.一种基于聚类和模式串匹配的未知协议比特流分类方法研究[J].军械工程学院学报,2015,27(4):65-71. 被引量：1
10邵孟良.基于云计算的木马检测技术研究与实现[J].山东农业大学学报（自然科学版）,2015,46(5):769-774.

1段磊,唐常杰,Guozhu Dong,杨宁,苟驰.基于显露模式的对比挖掘研究及应用进展[J].计算机应用,2012,32(2):304-308. 被引量：8
2杜彦敏.无线传感器网络(WSN)安全综述[J].软件,2015,36(3):127-131. 被引量：16
3赵翠玲.PLC控制系统设计中的几个问题考虑[J].医药工程设计,2004,25(5):39-39.
4和灰尘说拜拜[J].家饰,2012(4):152-155.
5黎勇,徐元根,王军.物联网安全框架与风险评估研究[J].电子测试,2015,26(10):81-84. 被引量：6
6黄庆晓.中美铝业网络信息安全的设计与实现[J].电子世界,2014(8):118-119.
7张水利,高瑛.基于加权距离的新的颜色特征的图像检索算法[J].网络新媒体技术,2015,4(2):61-64.
8VioLin.高容量L2Cache=高性能吗[J].电脑应用文萃,2004(10):14-15.
9徐福成.常见振动传感器及其典型应用电路[J].电子制作,2008,16(10):13-15. 被引量：4
10ARM发布功耗效率最高的应用处理器,及重新定义传统功耗性能关系的解决方案[J].电子与电脑,2011(11):79-79.

软件学报

2010年第7期

浏览历史

内容加载中请稍等...

串匹配算法中模式串与文本之间关系的研究被引量：16

参考文献4

二级参考文献21

共引文献54

同被引文献136

引证文献16

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

串匹配算法中模式串与文本之间关系的研究 被引量：16

参考文献4

二级参考文献21

共引文献54

同被引文献136

引证文献16

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

串匹配算法中模式串与文本之间关系的研究被引量：16