期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于Bi-LSTM神经网络的短文本敏感词识别方法
1
作者 周军芽 吴进伟 +1 位作者 吴广飞 张何为 《武汉理工大学学报(信息与管理工程版)》 CAS 2024年第2期312-316,共5页
为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉... 为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉字),引入Bi-LSTM神经网络构建短文本分词模型,二次训练确定最佳参数,反复计算词语的敏感性数值,通过敏感性对比函数,提取短文本敏感词,并匹配敏感词库,确定敏感词的类别与等级,实现短文本敏感词识别。实验结果表明:在不同实验组别下,应用本文方法获得的短文本分词时延均低于给定最大限值,短文本敏感词识别精度高于84.42%,应用性能较佳。 展开更多
关键词 短文本 敏感词识别 文本过滤 编辑距离 双向长短期记忆神经网络
下载PDF
基于决策树的敏感词变形体识别算法研究及应用 被引量:19
2
作者 余敦辉 张笑笑 +1 位作者 付聪 张万山 《计算机应用研究》 CSCD 北大核心 2020年第5期1395-1399,1405,共6页
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏... 针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1%。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。 展开更多
关键词 敏感词识别 敏感变形体 决策树 敏感程度计算 多因子模型
下载PDF
面向中文敏感词变形体的识别方法研究 被引量:15
3
作者 付聪 余敦辉 张灵莉 《计算机应用研究》 CSCD 北大核心 2019年第4期988-991,共4页
针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设... 针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体时有较高的查全率和查准率。 展开更多
关键词 变形体 敏感词识别 编辑距离 KMP算法
下载PDF
维吾尔语广播新闻敏感词检索系统的研究 被引量:1
4
作者 木合塔尔.沙地克 李晓 布合力齐姑丽.瓦斯力 《中文信息学报》 CSCD 北大核心 2011年第4期3-10,共8页
维吾尔语广播新闻敏感词检索系统是以HMM为基础。在MATLAB平台上设计实现的。该系统的特点包括:1.由于维吾尔语敏感词数量不多,该系统语音语料库很小。2.由于广播新闻中的发音较为标准规范,在识别中避免了说话人发音上的不规范,这有利... 维吾尔语广播新闻敏感词检索系统是以HMM为基础。在MATLAB平台上设计实现的。该系统的特点包括:1.由于维吾尔语敏感词数量不多,该系统语音语料库很小。2.由于广播新闻中的发音较为标准规范,在识别中避免了说话人发音上的不规范,这有利于语音识别系统性能的提高。3.由于选择词素为识别基元,易于识别基元端点检测。 展开更多
关键词 维吾尔语 广播新闻 敏感词识别 HMM MATLAB
下载PDF
一种不良信息过滤的文本预处理方法研究 被引量:2
5
作者 吴慧玲 耿西伟 +1 位作者 沈建京 贺广生 《微计算机信息》 北大核心 2006年第12X期58-60,共3页
目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理前... 目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理前,对不良信息形式的变化进行预处理,能够提高过滤的效率。 展开更多
关键词 信息安全 信息过滤 文本预处理 敏感词识别
下载PDF
基于不良文本信息过滤预处理方法的研究 被引量:2
6
作者 吴慧玲 沈建京 贺广生 《网络安全技术与应用》 2006年第11期61-63,共3页
本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理方面,对不良信息形式的变化进行预处理,能够提高... 本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理方面,对不良信息形式的变化进行预处理,能够提高过滤的效率。 展开更多
关键词 信息安全 信息过滤 文本预处理 敏感词识别
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部