基于决策树的敏感词变形体识别算法研究及应用被引量：19

Research and application of change form of sensitive words recognition algorithm based on decision tree

下载PDF

导出

摘要针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1%。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。 In order to solve the problem that the recognition efficiency of sensitive word deformed bodies of the network text is not high,this paper proposed a sensitive word deformed bodies recognition algorithm based on decision tree.Firstly,it studied sensitive words and deformed bodies by analyzing the characteristics of Chinese characters and pronunciation and so on.Secondly,it constructed a sensitive word decision tree based on sensitive word library.Finally,it calculated the text sensitivity of new media such as Weibo by multi-factor improved model.The experimental results show that the proposed algorithm can achieve the highest recall rate and precision rate of 95%and 94%respectively when identifying Chinese sensitive words and deformed bodies.Compared with the improved algorithm based on the finite automaton,the recall rate and the precision rate are increased by 19.8%and 21.1%respectively.Compared with the sensitive information decision tree information filtering algorithm,the recall rate and the precision rate are increased by 17.9%and 18.1%respectively.The analysis show that the algorithm is effective in the recognition and automatic filtering of sensitive word deformed bodies.

作者余敦辉张笑笑付聪张万山 Yu Dunhui;Zhang Xiaoxiao;Fu Cong;Zhang Wanshan(College of Computer&Information Engineering,Hubei University,Wuhan 430062,China;Education Informationization Engineering&Technology Center of Hubei Province,Wuhan 430062,China)

机构地区湖北大学计算机与信息工程学院湖北省教育信息化工程技术中心

出处《计算机应用研究》 CSCD 北大核心 2020年第5期1395-1399,1405,共6页 Application Research of Computers

基金国家重点研发计划资助项目(2016YFB0800401) 国家自然科学基金资助项目(61572371,61832014) 湖北省技术创新专项(重大项目)(2018ACA13)。

关键词敏感词识别敏感词变形体决策树敏感程度计算多因子模型 sensitive word recognition sensitive word deformable body decision tree sensitivity computation multi factor model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：32
2俞浩亮,王秋森,冯旭鹏,刘利军,傅铁威,黄青松.基于特征加权的网络不良内容识别方法[J].现代电子技术,2016,39(3):76-79. 被引量：5
3殷志平.构造缩略语的方法和原则[J].语言教学与研究,1999(2):73-82. 被引量：46
4付聪,余敦辉,张灵莉.面向中文敏感词变形体的识别方法研究[J].计算机应用研究,2019,36(4):988-991. 被引量：16
5刘梅彦,黄改娟.面向信息内容安全的文本过滤模型研究[J].中文信息学报,2017,31(2):126-131. 被引量：18
6薛朋强,努尔布力,吾守尔.斯拉木.基于网络文本信息的敏感信息过滤算法[J].计算机工程与设计,2016,37(9):2447-2452. 被引量：32

二级参考文献44

1刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：35
2殷志平.构造缩略语的方法和原则[J].语言教学与研究,1999(2):73-82. 被引量：46
3乔登科,柳厅文,孙永,郭莉.一种获得有限自动机状态间关系的高效算法[J].计算机研究与发展,2012,49(S2):138-144. 被引量：2
4冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
5郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
6朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：327
7索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
8曹海.基于文本内容分析的过滤技术研究[J].四川大学学报（自然科学版）,2006,43(6):1248-1252. 被引量：9
9姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79. 被引量：78
10李钝,曹元大,万月亮.信息安全中的变形关键词的识别[J].计算机工程,2007,33(21):155-156. 被引量：9

共引文献124

1田贇宗,肖九根.汉语缩略语的构成方式及缩略机制[J].江西师范大学学报（哲学社会科学版）,2006,39(6):36-41. 被引量：11
2黄元龙.也谈现代汉语缩略语的构造原则[J].绥化学院学报,2008,28(4):127-130. 被引量：1
3殷志平.数字式缩略语的特点[J].汉语学习,2002(2):26-30. 被引量：15
4侯昌硕.台湾国语的缩略语[J].湛江师范学院学报,2004,25(5):80-82. 被引量：6
5陈文.试论缩略语及其与原词语的关系[J].广西师院学报（哲学社会科学版）,2001,22(1):74-77. 被引量：7
6吴翠芹.缩略语及其与原词语的关系[J].广西社会科学,2005(3):147-149. 被引量：3
7刘杰.试论缩略语语言符号的双层性[J].现代语文（下旬．语言研究）,2006(7):25-26. 被引量：1
8朱志国.“海归系”词群新词生成的认知原理[J].信阳农业高等专科学校学报,2008,18(1):102-103. 被引量：1
9吕文蓓.小议南京话中的“A得一B”格式[J].语文学刊（基础教育版）,2009(3):120-122. 被引量：1
10熊云惠.简称新论[J].科技信息,2009(17):206-206.

同被引文献182

1乔登科,柳厅文,孙永,郭莉.一种获得有限自动机状态间关系的高效算法[J].计算机研究与发展,2012,49(S2):138-144. 被引量：2
2李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25
3刘耕,方勇,刘嘉勇.基于关联词和扩展规则的敏感词库设计[J].四川大学学报（自然科学版）,2009,46(3):667-671. 被引量：13
4吕滨,雷国华,于燕飞,杨泽雪,王亚东.基于语义分析的网络不良信息过滤系统研究[J].计算机应用与软件,2010,27(2):283-285. 被引量：7
5刘利俊.一种关键字过滤系统下的DFA分词算法设计与优化[J].计算机应用与软件,2012,29(1):284-287. 被引量：4
6周毅敏,李光耀.一种根据决策树结合信息论的经典算法复杂度可能下界分析[J].计算机科学,2013,40(11A):238-241. 被引量：3
7姜仁会,王挺,唐晋韬.面向微博文本的命名实体识别[J].计算机与数字工程,2014,42(4):647-651. 被引量：11
8刘新庚,聂建晖.舆情预警问题的伦理学探析——评《网络舆情预警伦理研究》[J].江西社会科学,2018,38(12):259-259. 被引量：1
9冷亚军,陆青,梁昌勇.协同过滤推荐技术综述[J].模式识别与人工智能,2014,27(8):720-734. 被引量：195
10邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：32

引证文献19

1朱泽圻.面向聊天机器人的敏感内容识别研究[J].智能计算机与应用,2020,10(3):218-222. 被引量：3
2朴承哲.基于改进深度学习的网络敏感信息快速过滤研究[J].宁夏师范学院学报,2021,42(1):85-90. 被引量：2
3孙小雪,钟辉,陈海鹏.基于决策树分类技术的学生考试成绩统计分析系统[J].吉林大学学报（工学版）,2021,51(5):1866-1872. 被引量：10
4张维,蒋颖,楼斐,王庆娟,陈齐瑞.基于机器学习的生活号敏感内容感知与预警系统设计[J].微型电脑应用,2021,37(11):104-107.
5石小兵.基于K近邻分类算法的网络敏感信息自动过滤[J].河北北方学院学报（自然科学版）,2021,37(11):1-6. 被引量：2
6刘莹,杨超宇.融合有向图的文本敏感词过滤模型[J].绥化学院学报,2022,42(2):143-148. 被引量：2
7李瀛,王冠楠.网络新闻敏感信息识别与风险分级方法研究[J].情报理论与实践,2022,45(4):105-112. 被引量：11
8叶海燕.基于情感计算与深度学习的弹幕文本敏感词识别方法[J].常州工学院学报,2022,35(3):29-33. 被引量：1
9王艺皓,丁洪伟,王丽清,李波,李浩.基于决策树和DFA的老挝文敏感信息过滤算法[J].计算机应用与软件,2022,39(7):241-246. 被引量：4
10成彦衡,黄宇.基于K近邻算法的网络敏感信息过滤方法[J].电子设计工程,2023,31(6):105-108. 被引量：1

二级引证文献42

1朴承哲.基于改进深度学习的网络敏感信息快速过滤研究[J].宁夏师范学院学报,2021,42(1):85-90. 被引量：2
2焦自权,杨丽君,冯志强,韩鑫,吕娜,覃海俭,黎欣,袁浩.基于粗糙-模糊软计算建模技术的船海类专业实践课程教育改革研究[J].课程教育研究,2021(17):192-193.
3陈丹萍.网络时代统计技术的变革及其影响探微[J].科技创新导报,2022,19(3):69-71.
4张劲松,周迪,陈明举,熊兴中,杨志文.基于稀疏主成分分析白酒GC-MS图谱分类识别技术[J].中国酿造,2022,41(4):216-221. 被引量：4
5林广朋.基于贝叶斯算法的网络信息安全过滤系统设计[J].长江信息通信,2022,35(6):54-56. 被引量：2
6邓家美.新闻敏感在新闻实践中的重要作用[J].环球首映,2022(7):157-159.
7陈潇艺.基于Seq2Seq的英语聊天机器人构建[J].自动化与仪器仪表,2022(7):242-246. 被引量：4
8高适,黄宇,戴雯菊.基于NLP的语音敏感词智能识别方法[J].信息技术,2022,46(11):66-70. 被引量：1
9谢加良,陈艳玲,朱荣坤,宾红华,李凤.基于改进Apriori算法的线性代数试卷分析[J].长春师范大学学报,2022,41(12):48-54.
10李瀛,杨芮.我国政府数据开放的隐私保护困境及管理框架研究[J].情报杂志,2023,42(1):152-157. 被引量：17

1万勇.人工智能时代的版权法通知—移除制度[J].中外法学,2019,31(5):1254-1269. 被引量：43
2夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
3王慧慧,郭庆胜,赵常雄,夏华林,何捷,王雪冰.导航道路数据的渐进式压缩方法[J].测绘工程,2020,29(3):20-26. 被引量：1
4李正娟.在阅读中融入识字的有效策略[J].小学生作文辅导（语文园地）,2020,0(3):93-93.
5白泽昌.多功能虹吸式灌溉装置在小型农业水利工程中的应用[J].新农业,2019,0(23):81-82. 被引量：2
6刘江海.墨香润美童心——江苏省扬州市江都区大桥中心小学开展“书法家进校园”活动[J].江苏教育,2020(21).
7赵水忠,王剑,顾晔.利用机器学习RFID混合模型的运维检修移动作业应用[J].现代电子技术,2020,43(9):157-160.

计算机应用研究

2020年第5期

浏览历史

内容加载中请稍等...

基于决策树的敏感词变形体识别算法研究及应用被引量：19

参考文献6

二级参考文献44

共引文献124

同被引文献182

引证文献19

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于决策树的敏感词变形体识别算法研究及应用 被引量：19

参考文献6

二级参考文献44

共引文献124

同被引文献182

引证文献19

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于决策树的敏感词变形体识别算法研究及应用被引量：19