基于Hadoop和Mahout的钓鱼邮件检测技术研究被引量：2

Research of Phishing-Mail Detection Based on Hadoop and Mahout

下载PDF

导出

摘要随着因特网的日益发展,网络空间的安全形势也愈发严峻。其中,以盗取用户敏感信息或者用户名口令为目的的网络钓鱼活动是网络犯罪行为中危害较大、影响较为严重的一种。针对网络钓鱼频发的现状,文中提出了一种基于Hadoop和mahout的钓鱼邮件检测方法,此方法采用hadoop平台的HDFS作为存储基础,Map Reduce作为并行计算框架.该方法对邮件信息进行特征提取,利用mahout的贝叶斯算法对钓鱼邮件进行检测。使用真实邮件数据集对该方法进行测试,取得了良好的效果。 With the development of the Internet, the network space safety situation is increasingly serious.Phishing with purpose of stealing users' sensitive information and password is one of cyber crime acitivity which harm a lot.In view of the situation of frequent phishing, this paper puts forward a fishing mail detection method based on Hadoop and mahout.This method uses the HDFS of Hadoop platform as the foundation of storage, Map Reduce as the parallel computing framework.It extracts feature for E-mail messages and uses the bayesian algorithm of mahout to test the phishing emails.Using real email data set to test the method which has obtained good effect.

作者高一男蔡满春

机构地区中国人民公安大学网络安全保卫学院

出处《电脑知识与技术（过刊）》 2016年第4X期27-30,共4页 Computer Knowledge and Technology

关键词网络钓鱼 HADOOP mahout 贝叶斯分类 phishing hadoop mahout bayesian classification

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Giacomelli P.Apache mahout cookbook. . 2013
2Lam C.Hadoop in action. . 2010
3M J Berry,G Linoff.Data Mining Techniques:For Marketing,Sales,and Customer Support. . 1997
4翟军昌,秦玉平,王春立.改进的朴素贝叶斯垃圾邮件过滤算法[J].计算机工程与应用,2009,45(14):145-148. 被引量：11
5White T Hadoop.The definitive guide. . 2012
6Anil R,Dunning T,Friedman E.Mahout in action. . 2011
7Harrington P.Machine learning in action. . 2012

二级参考文献11

1王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
2王涛,裘国永,何聚厚.基于改进Nave Bayes的垃圾邮件过滤模型研究[J].计算机工程与应用,2007,43(13):186-190. 被引量：10
3Sahami M,Dumais S,Heckerman D,et al.A Bayesian approach to filtering Junk e-mail[C]//Learning for Text Categorization:Papers from AAAI Workshop,Madison,Wisconsin,1998:55-62.
4Androutsopoulos I,Koutsias J,Chandrinos K V,et al.An evaluation of Naive Bayesian anti-spare fihering[C]//Proc of the Workshop on Machine Learning in the New Information Age,lhh European Conference on Machine Leaming(ECML'00),Barcelona,Spain,June 3,2000:9-17.
5Vangelis M,Androutsopoulos I,Georgios P.Spam filtering with Naive Bayes-which Naive Bayes?[C]//CEAS 2006 Third Conference on Email and AntiSpam(CEAS 2006),Mountain View,California,USA, July 27-28,2006.
6Schneider K.A comparison of event models for Naive Bayes antispare e-mail fihering[C]//Procedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics (EACL'03) ,2003:307-314.
7Zorkadis V,Karras D A.Efficient information theoretic extraction of higher order features for improving neural network-based spare e-mail categorization[J].Journal of Experimental & Theoretical Artificial Intelligence,2006,18(4):523-534.
8Mitchell T M.机器学习[M].曾华军,张银奎,译.北京:机械工业出版社,2008:40-43.
9Ma Wan-li,Dat T,Dharmendra S,et al.Ou extendable software architecture for spam email filtering[J].IAENG International Journal of Computer Science, 2007,34( 1 ) : 133-139.
10Cook D,Hartnett J,Manderson K,et al.Catehing spare before it arrives:Domain specific dynamic blacklists[C]//the Fourth Australasian Information Security Workshop(Network Security)(AISW-NetSec 2006 ), 2006,54: 193 -202.

共引文献12

1包理群,马宏锋,李祥林.贝叶斯邮件分类中概念漂移问题研究[J].计算机应用与软件,2011,28(9):116-118. 被引量：2
2黄珏,陈兵,廖常武.改进的人工免疫垃圾邮件过滤算法[J].计算机工程与应用,2011,47(30):72-74. 被引量：2
3翟军昌,秦玉平,车伟伟.应用特征词分类贡献的垃圾邮件过滤研究[J].计算机工程与应用,2012,48(34):116-119. 被引量：2
4王小伟,郭红涛,王中锋.抗干扰词攻击的免疫垃圾邮件过滤模型[J].计算机工程与科学,2013,35(12):173-177.
5周兵,谭骏珊.基于用户需求垃圾邮件过滤分类模型设计[J].信息技术,2013,37(12):90-94.
6周巧扣,倪红军.一种基于语义的垃圾短信过滤算法[J].实验室研究与探索,2016,35(11):137-140. 被引量：1
7刘月峰,苑江浩,张晓琳.改进NB算法在垃圾邮件过滤技术中的研究[J].微电子学与计算机,2017,34(4):115-120. 被引量：6
8徐梦龙,黄家旺.朴素贝叶斯算法在垃圾邮件过滤方面的应用[J].网络安全技术与应用,2018(7):46-47. 被引量：4
9肖瑶.三支决策基于粒度的邮件过滤[J].电脑知识与技术（过刊）,2016,22(6X):248-251.
10符雨童,聂笑一,肖毅.基于数据挖掘和分析的食品安全智能测评系统[J].现代计算机,2019,0(20):73-77.

同被引文献15

1王惟.反钓鱼技术综述[J].山东广播电视大学学报,2011(3):45-46. 被引量：1
2肖洪云.图像识别在钓鱼检测中的应用[J].沧州师范学院学报,2012,28(3):69-73. 被引量：1
3周诚诚,张代远.利用图像识别技术过滤海量可疑钓鱼网站[J].计算机技术与发展,2012,22(11):246-249. 被引量：5
4段青.一种移动平台钓鱼攻击的解决方法[J].信息安全与技术,2016,7(4):48-52. 被引量：3
5刘永明,杨婧.基于图像相似性的Android钓鱼恶意应用检测方法[J].计算机系统应用,2014,23(12):170-175. 被引量：5
6沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：40
7胡向东,刘可,张峰,林家富,付俊,郭智慧.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(2):31-38. 被引量：8
8张茜,延志伟,李洪涛,耿光刚.网络钓鱼欺诈检测技术研究[J].网络与信息安全学报,2017,3(7):7-24. 被引量：12
9满蔚仕,吉元元.Hadoop平台分布式SVM算法分类研究[J].计算机系统应用,2017,26(8):141-146. 被引量：6
10薛峰,朱强,林楠.结合改进的SVM和随机森林算法车标分类识别[J].计算机工程与设计,2017,38(12):3425-3430. 被引量：10

引证文献2

1曹蒙蒙,郭朝有.Hadoop平台下Mahout随机森林算法的分析与实现[J].舰船电子工程,2018,38(9):40-44. 被引量：1
2付溪,李晖,赵兴文.网络钓鱼识别研究综述[J].网络与信息安全学报,2020,6(5):1-10. 被引量：4

二级引证文献5

1陆向艳,刘峻.网络钓鱼攻击分析和防范探讨[J].数字通信世界,2022(1):179-181. 被引量：2
2毛伊敏,耿俊豪.结合信息论和范数的并行随机森林算法[J].计算机科学与探索,2022,16(5):1064-1075.
3张荣,杨叔利,关安青,刘昆.基于Stackelberg博弈论的网络用户安全模型[J].电子信息对抗技术,2022,37(3):85-90.
4蔡召,荆涛,任爽.以太坊钓鱼诈骗检测技术综述[J].网络与信息安全学报,2023,9(2):21-32.
5邢士发.基于Kali的社工SET钓鱼攻击与研究[J].网络安全技术与应用,2023(4):18-20. 被引量：2

1密君英,李正茂.一种基于粗集和贝叶斯分类器的邮件病毒检测方法[J].福建电脑,2005,21(3):68-69.
2田雨霖,杨松儒.网络钓鱼攻击行为分析及防范对策研究[J].信息网络安全,2010(6):73-75.
3双龙一剑.MSN Messenger的黄金搭档[J].计算机应用文摘,2003(11):50-50.
4石山.抛弃邮件检测实现QQ快速登录[J].电脑迷,2005,0(12):91-91.
5张楚,安永勇.信息网络安全的法律保障[J].计算机安全,2004(2):1-2.
6王怀军,王琳,房鼎益,刘志伟.一种动态监控恶意APK应用的移动操作系统[J].西北大学学报（自然科学版）,2014,44(3):373-378. 被引量：1
7瑞星专家详解伪造邮件攻击方法和防范措施[J].计算机与网络,2012,38(17):44-45.
8倪天华,朱程荣.网络钓鱼防御方法研究[J].计算机技术与发展,2008,18(9):115-118. 被引量：7
9彭富明,张卫丰,彭寅.基于文本特征分析的钓鱼邮件检测[J].南京邮电大学学报（自然科学版）,2012,32(5):140-145. 被引量：6
10张红,张天明.数据挖掘在邮件检测中的应用[J].电脑知识与技术,2006(6):9-9. 被引量：2

电脑知识与技术（过刊）

2016年第4X期

浏览历史

内容加载中请稍等...

基于Hadoop和Mahout的钓鱼邮件检测技术研究被引量：2

参考文献7

二级参考文献11

共引文献12

同被引文献15

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Hadoop和Mahout的钓鱼邮件检测技术研究 被引量：2

参考文献7

二级参考文献11

共引文献12

同被引文献15

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Hadoop和Mahout的钓鱼邮件检测技术研究被引量：2