-
题名基于Bi-LSTM神经网络的短文本敏感词识别方法
- 1
-
-
作者
周军芽
吴进伟
吴广飞
张何为
-
机构
国网浙江省电力有限公司丽水供电公司
-
出处
《武汉理工大学学报(信息与管理工程版)》
CAS
2024年第2期312-316,共5页
-
文摘
为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉字),引入Bi-LSTM神经网络构建短文本分词模型,二次训练确定最佳参数,反复计算词语的敏感性数值,通过敏感性对比函数,提取短文本敏感词,并匹配敏感词库,确定敏感词的类别与等级,实现短文本敏感词识别。实验结果表明:在不同实验组别下,应用本文方法获得的短文本分词时延均低于给定最大限值,短文本敏感词识别精度高于84.42%,应用性能较佳。
-
关键词
短文本
敏感词识别
文本过滤
编辑距离
双向长短期记忆神经网络
-
Keywords
short text
sensitive word recognition
text filtering
edit distance
bidirectional long short-term memory neural network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于决策树的敏感词变形体识别算法研究及应用
被引量:19
- 2
-
-
作者
余敦辉
张笑笑
付聪
张万山
-
机构
湖北大学计算机与信息工程学院
湖北省教育信息化工程技术中心
-
出处
《计算机应用研究》
CSCD
北大核心
2020年第5期1395-1399,1405,共6页
-
基金
国家重点研发计划资助项目(2016YFB0800401)
国家自然科学基金资助项目(61572371,61832014)
湖北省技术创新专项(重大项目)(2018ACA13)。
-
文摘
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1%。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。
-
关键词
敏感词识别
敏感词变形体
决策树
敏感程度计算
多因子模型
-
Keywords
sensitive word recognition
sensitive word deformable body
decision tree
sensitivity computation
multi factor model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向中文敏感词变形体的识别方法研究
被引量:15
- 3
-
-
作者
付聪
余敦辉
张灵莉
-
机构
湖北大学计算机与信息工程学院
湖北省教育信息化工程技术中心
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第4期988-991,共4页
-
基金
国家"973"计划资助项目(2014CB340404)
国家自然科学基金资助项目(61373037
61672387)
-
文摘
针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体时有较高的查全率和查准率。
-
关键词
变形体
敏感词识别
编辑距离
KMP算法
-
Keywords
change form
sensitive word recognition
edit distance
KMP algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名维吾尔语广播新闻敏感词检索系统的研究
被引量:1
- 4
-
-
作者
木合塔尔.沙地克
李晓
布合力齐姑丽.瓦斯力
-
机构
中国科学院新疆理化技术研究所
中国科学院研究生院
新疆教育学院数学与信息技术分院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第4期3-10,共8页
-
文摘
维吾尔语广播新闻敏感词检索系统是以HMM为基础。在MATLAB平台上设计实现的。该系统的特点包括:1.由于维吾尔语敏感词数量不多,该系统语音语料库很小。2.由于广播新闻中的发音较为标准规范,在识别中避免了说话人发音上的不规范,这有利于语音识别系统性能的提高。3.由于选择词素为识别基元,易于识别基元端点检测。
-
关键词
维吾尔语
广播新闻
敏感词识别
HMM
MATLAB
-
Keywords
Uyghur
broadcast news
keyword spotting
HMM
MATLAB
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种不良信息过滤的文本预处理方法研究
被引量:2
- 5
-
-
作者
吴慧玲
耿西伟
沈建京
贺广生
-
机构
河南郑州信息工程大学理学院
-
出处
《微计算机信息》
北大核心
2006年第12X期58-60,共3页
-
文摘
目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理前,对不良信息形式的变化进行预处理,能够提高过滤的效率。
-
关键词
信息安全
信息过滤
文本预处理
敏感词识别
-
Keywords
information security,information filtering,text pre-processing
sensitive word recognize
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于不良文本信息过滤预处理方法的研究
被引量:2
- 6
-
-
作者
吴慧玲
沈建京
贺广生
-
机构
解放军信息工程大学理学院
-
出处
《网络安全技术与应用》
2006年第11期61-63,共3页
-
文摘
本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理方面,对不良信息形式的变化进行预处理,能够提高过滤的效率。
-
关键词
信息安全
信息过滤
文本预处理
敏感词识别
-
Keywords
information security
information filtering
text pre-processing
sensitive word recognize
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-