为实现对网络敏感信息的检测和过滤,提出一种基于确定有穷自动机的改进算法ST-DFA(swift tree DFA)。对传统的DFA过滤算法进行改进,不再依赖敏感信息语料库,只须建立一次敏感信息决策树,即可实现对网络信息的多次过滤;当敏感词语料库发...为实现对网络敏感信息的检测和过滤,提出一种基于确定有穷自动机的改进算法ST-DFA(swift tree DFA)。对传统的DFA过滤算法进行改进,不再依赖敏感信息语料库,只须建立一次敏感信息决策树,即可实现对网络信息的多次过滤;当敏感词语料库发生更新时,可以实现对敏感词的决策树的实时更新。实验结果表明,ST-DFA算法有较高的工作效率,适合当下对互联网敏感信息的检测与过滤。展开更多
提出一种基于确定的有穷状态自动机(deterministic finite automaton,简称DFA)的正则表达式压缩算法.首先,定义了膨胀率DR(distending rate)来描述正则表达式的膨胀特性.然后基于DR提出一种分片的算法RECCADR(regular expressions cut a...提出一种基于确定的有穷状态自动机(deterministic finite automaton,简称DFA)的正则表达式压缩算法.首先,定义了膨胀率DR(distending rate)来描述正则表达式的膨胀特性.然后基于DR提出一种分片的算法RECCADR(regular expressions cut and combine algorithm based on DR),有效地选择出导致DFA状态膨胀的片段并隔离,降低了单个正则表达式存储需求.同时,基于正则表达式的组合关系提出一种选择性分群算法REGADR(regular expressions group algorithm based on DR),在可以接受的存储需求总量下,通过选择性分群大幅度减少了状态机的个数,有效地降低了匹配算法的复杂性.展开更多
文摘为实现对网络敏感信息的检测和过滤,提出一种基于确定有穷自动机的改进算法ST-DFA(swift tree DFA)。对传统的DFA过滤算法进行改进,不再依赖敏感信息语料库,只须建立一次敏感信息决策树,即可实现对网络信息的多次过滤;当敏感词语料库发生更新时,可以实现对敏感词的决策树的实时更新。实验结果表明,ST-DFA算法有较高的工作效率,适合当下对互联网敏感信息的检测与过滤。
文摘提出一种基于确定的有穷状态自动机(deterministic finite automaton,简称DFA)的正则表达式压缩算法.首先,定义了膨胀率DR(distending rate)来描述正则表达式的膨胀特性.然后基于DR提出一种分片的算法RECCADR(regular expressions cut and combine algorithm based on DR),有效地选择出导致DFA状态膨胀的片段并隔离,降低了单个正则表达式存储需求.同时,基于正则表达式的组合关系提出一种选择性分群算法REGADR(regular expressions group algorithm based on DR),在可以接受的存储需求总量下,通过选择性分群大幅度减少了状态机的个数,有效地降低了匹配算法的复杂性.