不同长度下中文垃圾邮件分类模型的研究被引量：1

Performance and Selection of Chinese Spam Classification Model Under Different Lengths

下载PDF

导出

摘要针对日益泛滥的垃圾邮件问题,本文使用多种算法对不同长度下中文垃圾邮件分类模型进行比较研究。首先,使用朴素贝叶斯算法对邮件数据集进行训练和测试;然后,从邮件数据集中筛选出三种不同文本长度的数据集和两种不同大小样本量的数据集,组成五个实验样本集;最后分别使用多种传统机器学习模型、神经网络模型和预训练模型在五个实验样本集上进行建模比较。实验结果表明,预训练模型ALBERT最适合分类句子长度的中文垃圾邮件,传统机器学习模型SVM最适合分类段落长度的中文垃圾邮件,神经网络模型TextRCNN最适合分类篇章长度的中文垃圾邮件。实验结果还显示,神经网络模型TextRNN和预训练模型RoBERTa不适用于小样本数据。 In response to the increasingly widespread spam problem,this paper uses a variety of algorithms to compare Chinese spam classification models with different lengths.Firstly,use the naive Bayes algorithm to train and test the mail dataset.Then,three datasets with different text lengths and two datasets with different sample sizes were screened out from the email dataset to form five experimental sample sets.Finally,a variety of traditional machine learning models,neural network models and pre-trained models are used to model and compare on five experimental sample sets.The experimental results show that the pre-trained model ALBERT is best for classifying Chinese spam with sentence length,the traditional machine learning model SVM is best for classifying Chinese spam with paragraph length,and the neural network model TextRCNN is best for classifying Chinese spam with text length.The experimental results also show that the neural network model TextRNN and the pre-trained model RoBERTa are not suitable for small sample data.

作者顾孟钧冯文舟陈中兵 Gu Mengjun;Feng Wenzhou;Chen Zhongbing(China Telecom Zhejiang Brach,Hangzhou Zhejiang,310000;Public Security Bureau of Linhai City,Taizhou Zhejiang,318000;Zhejiang Public Information Industry Co.,Ltd,Hangzhou Zhejiang,310000)

机构地区中国电信股份有限公司浙江分公司浙江省台州临海市公安局浙江省公众信息产业有限公司

出处《工业信息安全》 2022年第7期28-35,共8页 Industry Information Security

关键词中文垃圾邮件文本分类机器学习深度学习 Chinese Spam Text Classification Machine Learning Deep Learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1石铁峰.垃圾邮件过滤技术发展现状及展望[J].数字技术与应用,2012,30(5):211-211. 被引量：1
2陶峰,汤鲲,程光.基于改进TFIDF算法的邮件分类技术[J].计算机技术与发展,2018,28(8):27-31. 被引量：3
3贾澎涛,孙炜.基于深度学习的文本分类综述[J].计算机与现代化,2021(7):29-37. 被引量：18

二级参考文献30

1线岩团,相艳,余正涛,文永华,王红斌,张亚飞.用于文本分类的均值原型网络[J].中文信息学报,2020(6):73-80. 被引量：2
2肖明,殷锋,张楠.垃圾邮件过滤技术及发展[J].西南民族大学学报（自然科学版）,2007,33(1):207-212. 被引量：8
3程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. 被引量：40
4时红梅,高茂庭.垃圾邮件过滤技术及发展[J].计算机与数字工程,2008,36(6):128-132. 被引量：8
5张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20. 被引量：37
6刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-132. 被引量：55
7石铁峰.支持向量机在电子邮件分类中的应用研究[J].计算机仿真,2011,28(8):156-158. 被引量：6
8徐峻岭,周毓明,陈林,徐宝文.基于互信息的无监督特征选择[J].计算机研究与发展,2012,49(2):372-382. 被引量：69
9张征杰,王自强.文本分类及算法综述[J].电脑知识与技术,2012,8(2):825-828. 被引量：19
10李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48

共引文献19

1杜若鹏,鲜国建,寇远涛.基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J].数字图书馆论坛,2019(8):18-24. 被引量：9
2王新艳.一种深度学习的文本特征提取方法研究[J].微型电脑应用,2021,37(1):137-139. 被引量：3
3沈自强,李晔,丁青艳,王金颖,白全民.基于BERT模型的科技政策文本分类研究[J].数字图书馆论坛,2022(1):10-16. 被引量：14
4陈钢.融合RoBERTa和特征提取的政务热线工单分类[J].计算机与现代化,2022(6):21-26. 被引量：6
5任鹏,李文杰,舒宇杰,孙航,赵旖旎.结合BERT词嵌入和双向循环卷积神经网络的新闻文本分类研究[J].信息记录材料,2022,23(6):20-23. 被引量：2
6宋冠谕,程登,张森,刘威,丁晓雯.基于BERT的语音文本二分类方法[J].计算机应用文摘,2022,38(18):96-98.
7孟怡悦,彭蓉,吕其标.一种结合标签分类和语义查询扩展的文本素材推荐方法[J].计算机科学,2023,50(1):76-86.
8白思萌,牛振东,何慧,时恺泽,易坤,马原驰.基于超图注意力网络的生物医学文本分类方法[J].数据分析与知识发现,2022,6(11):13-24. 被引量：5
9王文娟,何晓莲,胡峰,赵伟,钟淘淘.多注意力机制BERT分类模型及其在电力运维中的应用[J].重庆邮电大学学报（自然科学版）,2023,35(1):156-163. 被引量：1
10郑创伟,王泳,邢谷涛,谢志成,陈义飞.基于深度神经网络的中文新闻文本分类方法[J].中国传媒科技,2023(3):147-151. 被引量：1

同被引文献17

1周航帆,周莲英.基于会话记录的Word2Vec音乐推荐算法研究[J].通信技术,2019,52(4):850-857. 被引量：3
2黄鹤,荆晓远,董西伟,吴飞.基于Skip-gram的CNNs文本邮件分类模型[J].计算机技术与发展,2019,29(6):143-147. 被引量：7
3徐博龙.应用Jieba和Wordcloud库的词云设计与优化[J].福建电脑,2019,35(6):25-28. 被引量：20
4邵珊珊,王立非,刘智洋.基于大数据的中外标准中英文本情感分析[J].中国标准化,2019(17):62-67. 被引量：1
5杨星鑫,吕泽均.基于LSTM的无人机轨迹识别技术研究[J].现代计算机,2020,26(5):18-22. 被引量：5
6徐娟,卞良.基于SVM的中文垃圾邮件预测系统研究[J].数字技术与应用,2020,38(1):38-39. 被引量：5
7薛兴荣,靳其兵.基于词典的文本极性计算及分类研究[J].网络安全技术与应用,2020(4):57-61. 被引量：1
8朱昶胜,康亮河,冯文芳.基于自适应鲸鱼优化算法结合Elman神经网络的股市收盘价预测算法[J].计算机应用,2020,40(5):1501-1509. 被引量：6
9胡玉琦,李婧,常艳鹏,梁顺攀,原福永.引入注意力机制的BiGRU-CNN情感分类模型[J].小型微型计算机系统,2020,41(8):1602-1607. 被引量：10
10冯军军,李力.机器学习在垃圾邮件过滤中的实现[J].电脑知识与技术,2021,17(8):154-155. 被引量：2

引证文献1

1俞荧妹,禹素萍,许武军,范红.基于深度学习的垃圾邮件检测[J].计算机科学与应用,2023,13(4):764-772.

1李晴,唐东昕,贺松.基于Albert模型的民族医药知识图谱构建[J].计算机时代,2022(9):6-11. 被引量：1
2郑洁,黄辉,秦永彬.一种融合法律知识的相似案例匹配模型[J].数据分析与知识发现,2022,6(7):99-106. 被引量：5
3胡昊天,邓三鸿,张逸勤,张琪,孔嘉,王东波.数字人文视角下的非物质文化遗产文本自动分词及应用研究[J].图书馆杂志,2022,41(8):76-83. 被引量：7
4王为久,徐敏亚,徐博希,孟思雨,魏钊.基于XGBoost算法的非法经营罪量刑预测模型构建及应用[J].情报探索,2022(9):20-28. 被引量：2
5王凤丹,胥孝川,顾晓薇,赵昀奇,王青.数学模型在尾矿混凝土性能优化中的应用[J].矿业研究与开发,2022,42(8):189-194.
6于洋,王关,贾智旗,任玉斌.基于RBF-SVR组合模型的切削力预测[J].工具技术,2022,56(8):92-96.
7万巍峙,杨琴,曹若辰,秦小荣,谌霞灿,杨蕊,王紫烨,刘浩,胡峻梅.严重精神障碍者暴力行为预测模型应用研究[J].中国法医学杂志,2022,37(4):340-344. 被引量：1

工业信息安全

2022年第7期

浏览历史

内容加载中请稍等...

不同长度下中文垃圾邮件分类模型的研究被引量：1

参考文献3

二级参考文献30

共引文献19

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

不同长度下中文垃圾邮件分类模型的研究 被引量：1

参考文献3

二级参考文献30

共引文献19

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

不同长度下中文垃圾邮件分类模型的研究被引量：1