基于改进遗传算法的支持向量机微信垃圾文章识别被引量：2

Recognition of Spam in Wechat Based on the Support Vector Machine with Improving Genetic Algorithm

下载PDF

导出

摘要近几年,随着微信的快速发展和普及,微信已经成为智能移动设备必备的应用之一,但与之同时也出现了大量微信诈骗信息、垃圾广告等,给人们带来了极大的困扰。本文将从搜狗微信搜索中抽取微信文章样本,将微信垃圾文章识别看做文本分类问题,采用支持向量机对样本进行分类模型的训练,并应用改进的遗传算法对支持向量机的参数进行优化。文中详细的介绍了改进遗传算法在支持向量机上的应用,相比传统的支持向量机,采用改进遗传算法对支持向量机参数进行优化,提升了模型准确率和优化效率。在文章的最后进行了由15000篇微信文章所形成的测试集上的分类模型效果实验,实现结果表明,本方法能够达到94.7%的准确率,非常准确的识别微信垃圾文章。 In recent years, along with the rapid development and popularization of Wechat, it becomes one of the essential applications on smart mobile device. Meanwhile, it brings tremendous troubles that a large number of swindling messages and rubbish ads on Weehat appeared. Extracting Wechat articles from Sogou ＆ Wechat search as samples, this paper regards the recognition of spam in Weehat as a question of text classification, uses the support vector machine to do the disaggregated model training of samples, and applies the improving genetic algorithm to optimize parameters on support vector machine. The author introduces particularly the application of improving genetic algorithm on the support vector machine. Comparing to traditional support vector machine, support vector machine with improving genetic algorithm could improve the accuracy rate of model and its optimization efficiency. Finally, this paper conducts the classification model experiment of which test set is constituted of 15000 articles on Wechat. The result shows accuracy rate of this method could reach to 94. 7% which is accurate extremely to recognize spam articles on Wechat.

作者梁阔洋

机构地区东北石油大学计算机与信息技术学院

出处《计算技术与自动化》 2015年第4期137-141,共5页 Computing Technology and Automation

关键词支持向量机遗传算法特征选择参数优化垃圾文章 support vector machine genetic algorithm feature selection parameter optimization spare

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1ANDROUTSPOULOS I, PALIOURAS G, KARKALETSIS V,et al. Learning to filter spam e-mail: A Comparison of a Naive Bayesian and a Memory Based Approaeh[C]. Proceed- ings of the workshop on machine learning and textual infor- mation access, 4th European conference on principles and practice of knowledge discovery in databases. Lyon, France: Esn. I. 2000:1--13.
2ANDROUTSOPOULOS I, KOUTSIAS J, CHANDRINOS K, et al. An evaluation of nave Bayesian anti-spam filtering [C]. Proceedings of the llth European conference on ma- chine learning. Barcelona, Spain:[sn. ]. 2000:9 17.
3CARRERAS X,MARQUEZ L. Boosting trees for anti spare email filtering [C]. The Forth International Conference on Recent Advances in Natural Language Processing. Bulgaria: Tzigov Chark. 2001 : 58-- 64.
4CORTES C,VAPNIK V. Support vector networks[J]. Ma- chine Learning. 1995,20(1) :273 - 329.
5KUBAT T M,MATWIN S. Addressing the Curse of Imbal- anced Training Sets: One-Side Selection[C]. Proceedings of the 14th International Conference on Machine Learning. USA~ Nashville. 1997:217--225.
6李人厚.智能控制理论和方法[M].陕西:西安电子科技大学出版社,2005.
7施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
8DASH M, LIU H. Feature Selection for Classification[J]. Intelligent Data Analysis, 1997, 1(3):131-156.

二级参考文献12

1谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
2许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
3柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
6周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
7王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
8熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
9徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
10宋斌,方小璐.基于网页特征的TFIDF改进算法[J].微计算机应用,2002,23(1):18-20. 被引量：9

共引文献218

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
5王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：5
6陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
7杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：3
8任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
9司红娜,姚力文,李向军.基于同义替换和相邻词合并的关键词特征权重计算新方法[J].计算机与现代化,2010(4):115-117. 被引量：1
10刘东平,单甘霖,张岐龙,段修生.基于改进遗传算法的支持向量机参数优化[J].微计算机应用,2010,31(5):11-15. 被引量：33

同被引文献16

1董春曦,饶鲜,杨绍全,徐松涛.支持向量机参数选择方法研究[J].系统工程与电子技术,2004,26(8):1117-1120. 被引量：65
2吕志军,杨建国,项前,王晓玲.基于支持向量机的纺纱质量预测模型研究[J].控制与决策,2007,22(6):693-696. 被引量：17
3刘东平,单甘霖,张岐龙,段修生.基于改进遗传算法的支持向量机参数优化[J].微计算机应用,2010,31(5):11-15. 被引量：33
4林峰,焦慧锋,傅建中.基于贝叶斯网络的平面磨削状态智能监测技术研究[J].中国机械工程,2011,22(11):1269-1273. 被引量：12
5刘茂福.基于改进自适应模糊推理系统的YG3硬质合金精密外圆磨削表面质量预测[J].中国机械工程,2012,23(9):1070-1074. 被引量：4
6许兆美,周建忠,黄舒,孟宪凯,韩煜航,田清.基于遗传算法优化反向传播神经网络的激光铣削层质量预测[J].中国激光,2013,40(6):167-171. 被引量：21
7方兴东,石现升,张笑容,张静.微信传播机制与治理问题研究[J].现代传播（中国传媒大学学报）,2013,35(6):122-127. 被引量：282
8刘彬,项前,杨建国,吕志军.基于遗传神经网络的纱线质量预测[J].东华大学学报（自然科学版）,2013,39(4):504-508. 被引量：17
9张亚婷.微信朋友圈的话语传播机制分析[J].重庆邮电大学学报（社会科学版）,2014,26(5):124-128. 被引量：18
10王小立.智能多Agent网络的微信信息传播仿真研究[J].现代图书情报技术,2015(6):85-92. 被引量：9

引证文献2

1李莉,王小刚.基于SIRS的微信信息传播模型[J].计算机系统应用,2017,26(9):269-273. 被引量：4
2李先飞,高琦,高菲.基于IGBCA与SVM的质量预测[J].制造技术与机床,2019,0(12):128-132. 被引量：7

二级引证文献11

1陈力姝.让小型飞机更安全[J].国外科技动态,2000(1):34-34.
2付璨,王子阳,赵佳敏,李启东,董晨曦.在线网络信息传播研究综述[J].东南传播,2018(10):108-111. 被引量：1
3魏静,黄阳江豪,朱恒民,宋瑞晓.基于双层微信网络的舆情传播模型研究[J].统计与决策,2019,35(1):38-42. 被引量：7
4韩新明.基于行为分析的微信朋友圈信息传播模型[J].现代情报,2018,38(7):62-66. 被引量：13
5曹春,门秀萍,张子振.一类时滞SIRS微信信息传播模型稳定性和Hopf分岔[J].安庆师范大学学报（自然科学版）,2020,26(3):16-20.
6董海,田赛.基于DA-XGboost算法的复杂机械产品质量预测[J].组合机床与自动化加工技术,2021(3):53-56. 被引量：1
7杨建新,兰小平,姚志强,赵振,冯亚东.基于郊狼算法优化的LSSVM多工序质量预测方法[J].制造业自动化,2021,43(12):105-109. 被引量：1
8赵小凡,杜舒明.基于电力大数据的变电设备故障诊断方法研究[J].信息技术,2022,46(9):163-168. 被引量：3
9韩金星.基于Borderline-SMOTE-LightGBM的直拉硅单晶放肩断棱预测[J].制造业自动化,2023,45(11):172-177.
10张天瑞,刘玉亭,王译可.基于改进BiLSTM的多工序产品质量预测研究[J].系统仿真学报,2023,35(11):2321-2332.

1刘进京.驱逐桌面流氓图标[J].网络运维与管理,2015,0(1):112-114.
2本月热点[J].数码,2007(9):14-14.
3阿勇.彻底拒绝软件的垃圾广告[J].网友世界,2004(15):32-32.
4杜华英,吴志攀.垃圾广告留言的防范对策[J].计算机时代,2007(2):55-56. 被引量：1
5网络答疑室2[J].电脑爱好者,2003(18):115-115.
6巧妙设防让上网冲浪少受“骚扰”[J].计算机与网络,2009,35(21):36-37.
7network.向软件的垃圾广告说“不”[J].电脑知识与技术（过刊）,2004,11(9):17-18.
8物联网世界的安全问题[J].网络运维与管理,2014,0(19):9-9.
9亦云.垃圾广告休想骚扰我——手机安全卫士信安易[J].电脑爱好者（普及版）,2010(6):72-73.
10猫六.是谁清除了垃圾广告[J].科技新时代,2012(8):27-27.

计算技术与自动化

2015年第4期

浏览历史

内容加载中请稍等...

基于改进遗传算法的支持向量机微信垃圾文章识别被引量：2

参考文献8

二级参考文献12

共引文献218

同被引文献16

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于改进遗传算法的支持向量机微信垃圾文章识别 被引量：2

参考文献8

二级参考文献12

共引文献218

同被引文献16

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于改进遗传算法的支持向量机微信垃圾文章识别被引量：2