-
题名基于改进Trie树的变形敏感词过滤算法
被引量:4
- 1
-
-
作者
叶情
-
机构
四川大学计算机学院
-
出处
《现代计算机》
2018年第22期3-7,共5页
-
基金
国家自然科学基金资助项目(No.61332001)
-
文摘
在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏感词过滤算法。该算法经过对变形敏感词分析归类、文本进行分立预处理、构建符合中文特点的Trie树、变形敏感词过滤等阶段,形成一套完整的中文文本过滤体系。经过反复实验表明,该算法不仅可以有效查找中文本中的普通敏感词,并且能高效地过滤出变形敏感词,其中对总敏感词和变形敏感词的查全率分别达到95.46%和92.49%,扩大敏感词查找范围,提高敏感词过滤的精确度。
-
关键词
敏感词过滤
TRIE树
变形敏感词
文本分立
模糊匹配
-
Keywords
Sensitive Word Filtering
Trie Tree
Fuzzy Matching
Text Separation
Deformation-Sensitive Word
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于决策树的敏感词变形体识别算法研究及应用
被引量:19
- 2
-
-
作者
余敦辉
张笑笑
付聪
张万山
-
机构
湖北大学计算机与信息工程学院
湖北省教育信息化工程技术中心
-
出处
《计算机应用研究》
CSCD
北大核心
2020年第5期1395-1399,1405,共6页
-
基金
国家重点研发计划资助项目(2016YFB0800401)
国家自然科学基金资助项目(61572371,61832014)
湖北省技术创新专项(重大项目)(2018ACA13)。
-
文摘
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1%。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。
-
关键词
敏感词识别
敏感词变形体
决策树
敏感程度计算
多因子模型
-
Keywords
sensitive word recognition
sensitive word deformable body
decision tree
sensitivity computation
multi factor model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-