结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别被引量：10

Spam Message Recognition Based on TFIDF and Self-Attention-Based Bi-LSTM

下载PDF

导出

摘要随着手机短信成为人们日常生活交往的重要手段,垃圾短信的识别具有重要的现实意义.针对此提出一种结合TFIDF的self-attention-based Bi-LSTM的神经网络模型.该模型首先将短信文本以词向量的方式输入到Bi-LSTM层,经过特征提取并结合TFIDF和self-attention层的信息聚焦获得最后的特征向量,最后将特征向量通过Softmax分类器进行分类得到短信文本分类结果.实验结果表明,结合TFIDF的self-attention-based Bi-LSTM模型相比于传统分类模型的短信文本识别准确率提高了2.1%–4.6%,运行时间减少了0.6 s–10.2 s. Mobile phone text messaging has become an increasingly important means of daily communication,so the identification of spam messages has importantly practical significance.A self-attention-based Bi-LSTM neural network model combined with TFIDF is proposed for this purpose.The model first inputs the short message to the Bi-LSTM layer in a vector manner,after feature extraction and combining the information of TFIDF and self-attention layers,the final feature vector is obtained.Finally,the feature vector is classified by the Softmax classifier to obtain the classification result.The experimental results show,compared with the traditional classification model,the self-attention-based Bi-LSTM model combined with TFIDF improves the accuracy of text recognition by 2.1%–4.6%,and the running time is reduced by 0.6 s–10.2 s.

作者吴思慧陈世平 WU Si-Hui;CHEN Shi-Ping(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;Shanghai Key Laboratory of Data Science,Fudan University,Shanghai 201203,China)

机构地区上海理工大学光电信息与计算机工程学院复旦大学上海市数据科学重点实验室

出处《计算机系统应用》 2020年第9期171-177,共7页 Computer Systems & Applications

基金国家自然科学基金(61472256,61170277,61003031) 上海重点科技攻关项目(14511107902) 上海市工程中心建设项目(GCZXL14014) 上海市一流学科建设项目(S1201YLXK,XTKX2021.) 上海市数据科学重点实验室开发课题(201609060003) 沪江基金(A14006) 沪江基金研究基地专项(C14001)。

关键词垃圾短信文本分类 self-attention Bi-LSTM TFIDF spam message text categorization self-attention Bi-LSTM TFIDF

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：142
2雷朔,刘旭敏,徐维祥.基于词向量特征扩展的中文短文本分类研究[J].计算机应用与软件,2018,35(8):269-274. 被引量：16
3来斯惟,徐立恒,陈玉博,刘康,赵军.基于表示学习的中文分词算法探索[J].中文信息学报,2013,27(5):8-14. 被引量：34
4郑雄风,丁立新,万润泽.基于用户和产品Attention机制的层次BGRU模型[J].计算机工程与应用,2018,54(11):145-152. 被引量：12

二级参考文献57

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
3汉语信息处理词汇01部分:基本术语(GB12200.1-90)6[s],中国标准出版社,1991.
4Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
5Bengio Y,Schwenk H,Senécal J S,et al.Neural probabilistic language models[M].Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186.
6Collobert R,Weston J,Bottou L,et al.Natural language processing (almost) from scratch[J].The Journal of Machine Learning Research,2011,12:2493-2537.
7Xue N.Chinese word segmentation as character tagging[J].Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.
8Peng F,Feng F,McCallum A.Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:562.
9Tang B,Wang X,Wang X.Chinese Word Segmentation Based on Large Margin Methods[J].Int.J.of Asian Lang.Proc.,2009,19(2):55-68.
10ZhaoH,Huang C N,Li M,et al.Effective tag set selection in Chinese word segmentation via conditional random field modeling[C]//Proceedings of PACLIC.2006,20:87-94.

共引文献198

1李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
2戴非凡,司卫云,倪进平.基于机器学习的司法数据分析及建模研究——以“故意伤害罪”为例[J].智能计算机与应用,2020,0(1):89-94. 被引量：1
3丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
4韩佳良.浅谈综合调度与成本控制[J].城镇供水,2000(2):21-23.
5李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
6殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1
7秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
8苏良良,雷蕾,李景文,黄敏杰.基于Word2Vec技术隐性特征挖掘及潜在升级投诉用户识别研究[J].电信技术,2018(12):36-39. 被引量：1
9冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
10张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9

同被引文献81

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
2陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
3陈功平,沈明玉,王红,张燕平.基于内容的短信分类技术[J].华东理工大学学报（自然科学版）,2011,37(6):770-774. 被引量：17
4Xi-chuan ZHOU,Hai-bin SHEN,Zhi-yong HUANG,Guo-jun LI.Large margin classification for combatingdisguise attacks on spam filters[J].Journal of Zhejiang University-Science C(Computers and Electronics),2012,13(3):187-195. 被引量：1
5刘建芸,赵宇航,张兆翔,王蕴红,袁雪梅,胡磊,董振江.Spam Short Messages Detection via Mining Social Networks[J].Journal of Computer Science & Technology,2012,27(3):506-514. 被引量：1
6张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：76
7胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：37
8郝爽,李国良,冯建华,王宁.结构化数据清洗技术综述[J].清华大学学报（自然科学版）,2018,58(12):1037-1050. 被引量：72
9李琼阳,田萍.基于主成分分析的朴素贝叶斯算法在垃圾短信用户识别中的应用[J].数学的实践与认识,2019,49(1):134-138. 被引量：7
10蔡永泉,晋月培,葛安生,赵凯.基于关联分类的中文短信分类[J].北京工业大学学报,2015,41(7):1020-1027. 被引量：4

引证文献10

1罗玲,李硕凯,何清,杨骋骐,王宇洋恒,陈天宇.基于知识图谱、TF-IDF和BERT模型的冬奥知识问答系统[J].智能系统学报,2021,16(4):819-826. 被引量：7
2李根,王科峰,贲卫国,宋微,刘鸿儒,徐亦晋.基于自分簇自学习算法的垃圾短信识别[J].吉林大学学报（信息科学版）,2021,39(5):583-588. 被引量：4
3刘硕,王庚润,任玉媛.基于LOTClass模型的弱监督中文短文本分类算法[J].信息工程大学学报,2021,22(5):613-620.
4刘后胜,陶健林.基于Keras的CNN的垃圾短信分类研究[J].沧州师范学院学报,2022,38(1):38-43. 被引量：3
5王志晓,李卓淳,闫文耀.基于Bi-LSTM+Attention公共安全危机识别[J].计算机技术与发展,2022,32(4):134-139. 被引量：1
6叶彪,李琳,丁应,宋荆汉,万振华.基于特征权重的恶意软件分类方法[J].计算机技术与发展,2022,32(11):115-120.
7淦亚婷,安建业,徐雪.基于深度学习的短文本分类方法研究综述[J].计算机工程与应用,2023,59(4):43-53. 被引量：12
8王靖轩,陆贝妮,杨杰,吴思楠.基于Bert模型的垃圾短信识别研究[J].软件,2023,44(1):16-19. 被引量：1
9樊继慧,滕少华.基于局部敏感哈希的K邻近算法识别垃圾短信[J].济南大学学报（自然科学版）,2023,37(6):746-751.
10董佳鑫,罗婷.基于BERT-TextCNN融合模型的垃圾短信识别方法[J].电脑知识与技术,2024,20(6):1-4.

二级引证文献28

1谷宗运,汪庆,殷云霞.基于NLP的大学生自主学习智能问答系统设计[J].齐鲁工业大学学报,2022,36(1):44-49.
2帕孜来提·努尔买提,古丽娜孜·艾力木江,乎西旦·居马洪,朱双玲.一种基于深度学习方法的面部微变识别的研究[J].伊犁师范大学学报（自然科学版）,2022,16(2):41-46.
3马自力,王淑营,张海柱,黎荣.基于知识图谱的智能问答意图识别联合模型[J].计算机工程与应用,2023,59(6):171-178. 被引量：3
4刘鑫,王皓晨,黄宇煦.基于朴素贝叶斯分类的电信诈骗信息的识别[J].计算机时代,2023(4):29-32. 被引量：4
5戴泽淼.MateFi:基于WiFi设备的材料识别系统[J].吉林大学学报（信息科学版）,2023,41(2):299-305.
6张宇.基于深度学习的机器翻译方法研究综述[J].信息与电脑,2023,35(10):40-42. 被引量：2
7汪子健,李传富.基于BERT的医学智能问答模型研究[J].微型电脑应用,2023,39(9):23-25.
8许多,张仕霞.基于BERT模型的中文新闻文本分类应用[J].四川工商学院学术新视野,2023,8(2):102-109.
9樊继慧,滕少华.基于局部敏感哈希的K邻近算法识别垃圾短信[J].济南大学学报（自然科学版）,2023,37(6):746-751.
10冯俊一,崔健敏,温连鹏,王国华,聂晶.基于深度学习的高温环境下QCM湿度传感器温度补偿模型[J].计测技术,2023,43(5):24-30.

1温爱华,王凤兰.“话说”的语篇功能与信息聚焦[J].沈阳大学学报（社会科学版）,2020,22(5):626-630. 被引量：1

计算机系统应用

2020年第9期

浏览历史

内容加载中请稍等...

结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别被引量：10

参考文献4

二级参考文献57

共引文献198

同被引文献81

引证文献10

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别 被引量：10

参考文献4

二级参考文献57

共引文献198

同被引文献81

引证文献10

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别被引量：10