一种基于DFA的短文本信息过滤算法被引量：2

A Short Text Message Filtering Algorithm Based on DFA

下载PDF

导出

摘要有关信息过滤的算法应用广泛,随着微信、微博等社交平台的迅速发展,短文本信息在网络通信中占据了主流,针对短文本信息的过滤也越来越重要。通过比较BF算法、KMP算法、AC算法等经典模式匹配算法的优缺点,选择更适合短文本过滤的DFA算法。介绍DFA算法基本原理,提出一种基于DFA的改进算法,改进后的算法通过敏感词预处理和过滤过程优化来提高检测率。实验结果表明,相比于SWDT-IFA算法,改进后的算法对中文对话数据集检测的查准率提高了3%,误报率降低了0.87%,具有较高的应用价值。 The filtering algorithm of text is widely used,with the rapid development of social platforms such as WeChat and Weibo,short text messages occupy the mainstream in network communication,and the filtering of short text messages is becoming more and more important.By comparing the advantages and disadvantages of classic pattern matching algorithms such as BF algorithm,KMP algorithm,AC algorithm,etc.,this paper selects the DFA algorithm that is more suitable for short text filtering,introduces the basic principles of DFA algorithm,and proposes an improved algorithm based on DFA,which improves the detection rate through sensitive word preprocessing and filtering process optimization.Experimental results show that the improved algorithm improves the accuracy of Chinese dialogue dataset detection by 3%and re⁃duces the false alarm rate by 0.87%,which has high application value.

作者关兴义赵敏伍文昌 GUAN Xing-yi;ZHAO Min;WU Wen-chang(Command and Control Engineering College,Army Engineering University of PLA,Nanjing 210007,China)

机构地区陆军工程大学指挥控制工程学院

出处《软件导刊》 2023年第4期103-108,共6页 Software Guide

关键词短文本信息过滤 DFA 模式匹配 TRIE树 short text message filtering DFA pattern matching Trie tree

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1李华.部件拆分与对外汉字部件教学[J].海外华文教育,2017(6):759-767. 被引量：9
2孙明乾,乔庐峰,陈庆华.一种无匹配时间损耗的DFA压缩算法的研究与实现[J].电子学报,2020,48(6):1132-1139. 被引量：1
3朱俊.基于规则分组的DFA正则表达式匹配算法[J].湖南工程学院学报（自然科学版）,2021,31(2):49-53. 被引量：2
4王翔,卢毓海,马伟,刘燕兵.一种针对DFA状态爆炸的正则表达式匹配方法[J].计算机工程,2019,45(4):148-156. 被引量：4
5余敦辉,张笑笑,付聪,张万山.基于决策树的敏感词变形体识别算法研究及应用[J].计算机应用研究,2020,37(5):1395-1399. 被引量：19
6付聪,余敦辉,张灵莉.面向中文敏感词变形体的识别方法研究[J].计算机应用研究,2019,36(4):988-991. 被引量：15
7熊仁都,杨嘉佳,朱广宇,唐球,隋然.PARA-AC:一种基于AC自动机的高性能匹配算法[J].电子技术应用,2020,46(11):87-90. 被引量：6
8叶情.基于改进Trie树的变形敏感词过滤算法[J].现代计算机,2018,24(22):3-7. 被引量：4
9邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：31
10乔登科,柳厅文,孙永,郭莉.一种获得有限自动机状态间关系的高效算法[J].计算机研究与发展,2012,49(S2):138-144. 被引量：2

二级参考文献91

1苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量：6
2崔永华.关于汉字教学的一种思路[J].北京大学学报（哲学社会科学版）,1998,35(3):113-117. 被引量：33
3万业馨.汉字字符分工与部件教学[J].语言教学与研究,1999(4):32-41. 被引量：54
4殷志平.构造缩略语的方法和原则[J].语言教学与研究,1999(2):73-82. 被引量：46
5崔永华.汉字部件和对外汉字教学[J].语言文字应用,1997(3):51-56. 被引量：132
6费锦昌.现代汉字部件探究[J].语言文字应用,1996(2):20-26. 被引量：42
7晓东.现代汉字部件分析的规范化[J].语言文字应用,1995(3):56-59. 被引量：15
8张天光,黄伯荣,翟万林.汉字构成的字元分析法[J].语言文字应用,1995(3):60-64. 被引量：7
9施正宇.现代形声字形符意义的分析[J].语言教学与研究,1994(4):83-102. 被引量：25
10苏培成.现代汉字的构字法[J].语言文字应用,1994(3):71-75. 被引量：16

共引文献69

1李芊芊,付兴,杨凤,侯鉴宸,陶晓华,韩帅,贾昌民.基于“病脉证并治”诊疗思维的《伤寒论》知识图谱构建与应用[J].世界科学技术-中医药现代化,2022,24(9):3613-3621. 被引量：8
2贾忠涛,吴颖川,刘志勤.一种协同过滤算法在网络干扰过滤中的应用[J].计算机仿真,2016,33(1):284-287. 被引量：5
3钟远军,李自,雷丽珍,朱晓强.基于字符匹配算法组合的地理空间敏感属性检测系统[J].测绘与空间地理信息,2016,39(5):116-118.
4路金泉,徐开勇,戴乐育.基于文本过滤的贝叶斯分类算法的改进[J].计算机与现代化,2016(9):100-103. 被引量：3
5薛朋强,努尔布力,吾守尔.斯拉木.基于网络文本信息的敏感信息过滤算法[J].计算机工程与设计,2016,37(9):2447-2452. 被引量：31
6高文,李荣华,陈昌奇,胡航,李文超.网络虚拟社区文本内容敏感词过滤系统研究[J].现代商贸工业,2017,38(16):169-172. 被引量：2
7杨艳.大数据环境下海量多媒体信息过滤技术改进[J].西安工程大学学报,2017,31(4):569-575. 被引量：10
8傅明建.一种基于Java Web的敏感词过滤方法研究与实现[J].智能计算机与应用,2017,7(4):21-23. 被引量：1
9雷凯,刘树波,李丹,李永凯.实时路况制约下基于内容的兴趣点推荐[J].计算机工程,2017,43(10):147-152. 被引量：6
10桑园.多媒体网络信息提供高质量服务检测仿真[J].计算机仿真,2017,34(10):217-220. 被引量：1

同被引文献9

1李扬,潘泉,杨涛.基于短文本情感分析的敏感信息识别[J].西安交通大学学报,2016,50(9):80-84. 被引量：19
2刘梅彦,黄改娟.面向信息内容安全的文本过滤模型研究[J].中文信息学报,2017,31(2):126-131. 被引量：18
3孟旭阳,徐雅斌.社交网络中的敏感内容检测方法研究[J].现代电子技术,2019,42(15):72-78. 被引量：6
4廖俊杰,陶智勇.微服务API网关的设计及应用[J].自动化技术与应用,2019,38(8):85-88. 被引量：24
5金贵涛,石元兵,魏忠,王雍,刘峻豪.一种基于Word2vec的敏感内容识别技术[J].通信技术,2019,52(11):2750-2756. 被引量：8
6吴珊,李英祥,徐鸿雁,张仕霞,施宜军.基于改进的Trie树和DFA的敏感词过滤算法[J].计算机应用研究,2021,38(6):1678-1682. 被引量：13
7陶琳.基于SpringBoot和Vue框架的高校实验室耗材管理系统的分析与设计[J].电脑知识与技术,2021,17(13):83-85. 被引量：7
8Deqing Li,Honghui Mei,Yi Shen,Shuang Su,Wenli Zhang,Junting Wang,Ming Zu,Wei Chen.ECharts: A declarative framework for rapid construction of web-based visualization[J].Visual Informatics,2018,2(2):136-146. 被引量：76
9白源,马浚,刘松华,李泽鹏.基于用户评分一致性的协同过滤个性化推荐算法[J].广州大学学报（自然科学版）,2023,22(1):9-16. 被引量：1

引证文献2

1杜俊,李金忠,何新武,李志鸿.基于Spring Cloud微服务架构的非物质文化遗产展示与学习系统的设计与实现[J].广东轻工职业技术学院学报,2024,23(1):14-21.
2董思源,王子扬,章坤,孙美凤.面向中文文本的敏感信息识别方法研究[J].软件,2024,45(3):51-53. 被引量：1

二级引证文献1

1纪威宇,张永,姜巍.面向业务需求的知识增强大模型生成框架技术研究[J].软件,2024,45(5):158-160.

1专访2022年DFA世界杰出华人设计师——郭培:走向世界的中国高定[J].包装与设计,2023(2):22-41.
2石文婷,赵品杰.基于短时傅里叶变换与KNN算法结合的车牌识别方法[J].西部交通科技,2023(2):194-196.
3蔡欣龙,朱培琦,张雁.基于VUE和Spring MVC竹亚科植物物种信息管理系统的设计与实现[J].现代计算机,2022,28(24):95-99.
4徐寒冰,郁书怀.双果糖酐水解酶分子改造提升酶活性研究[J].食品与发酵工业,2023,49(5):1-8. 被引量：1
5邓昊熙.Kolb体验式学习经典模式再探——启示和反思[J].湖北经济学院学报（人文社会科学版）,2023,20(4):154-160. 被引量：1
6Bing-Run Zhu,Mo A.Verhoeven,Chris J.Hassell,Katherine K-S Leung,Dmitry Dorofeev,Qiang Ma,Krairat Eiamampai,Jonathan T.Coleman,Uchrakhzaya Tserenbat,Gankhuyag Purev-Ochir,David Li,Zhengwang Zhang,Theunis Piersma.Predicting the non-breeding distributions of the two Asian subspecies of Black-tailed Godwit using morphological information[J].Avian Research,2023,14(1):1-6.
7雷雨.B2B电子商务模式下的电子招投标系统[J].产业创新研究,2023(3):161-163. 被引量：1
8Linzhi Li,Fenghua Xie,Naiming Yuan.On the long-term memory characteristic in land surface air temperatures:How well do CMIP6 models perform?[J].Atmospheric and Oceanic Science Letters,2023,16(1):41-46.
9牟庆军,宋玉峰,杨胜坤,郗丹.异氰酸酯的国内外检测标准现状分析[J].中国标准化,2023(7):178-180. 被引量：1
10陈蕴钰,陈婷婷.余华作品在西班牙的外译与接受障碍[J].燕山大学学报（哲学社会科学版）,2023,24(1):58-65. 被引量：1

软件导刊

2023年第4期

浏览历史

内容加载中请稍等...

一种基于DFA的短文本信息过滤算法被引量：2

参考文献10

二级参考文献91

共引文献69

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于DFA的短文本信息过滤算法 被引量：2

参考文献10

二级参考文献91

共引文献69

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于DFA的短文本信息过滤算法被引量：2