基于mRMR-RF特征选择和XGBoost模型的钓鱼网站检测被引量：12

PHISHING WEBSITE DETECTION BASED ON MRMR-RF FEATURE SELECTION AND XGBOOST MODEL

下载PDF

导出

摘要针对大量冗余数据带来的钓鱼网站检测准确率不够、误判率较高等问题,提出一种基于最大相关最小冗余(mRMR)和随机森林(RF)相结合的特征选择方法(mRMR-RF),并利用极端梯度提升(XGBoost)算法构建钓鱼网站检测模型。利用mRMR和RF算法分别对特征进行排序;综合两种特征排序得出最终的排序结果,并根据实验得出的最佳特征数选出XGBoost模型所需的最优特征子集;使用最优特征子集对XGBoost分类模型进行训练。实验结果表明,该方法相比其他分类方法可以提高钓鱼网站检测的准确率,具有实际意义。 Aiming at the problem of inadequate detection accuracy and high misjudgment rate of phishing websites caused by a large amount of redundant data,we propose a feature selection method(mRMR-RF)based on the combination of maximum correlation minimum redundancy(mRMR)and random forest(RF).And an extreme gradient lifting(XGBoost)algorithm is used to construct the detection model of phishing websites.It used the mRMR and RF algorithms to sort the features separately.The final sorting result was obtained by synthesizing two kinds of feature sorting,and the optimal feature subset required by XGboost model was selected according to the best feature number obtained by the experiment.Then,the XGBoost classification model was trained by using the optimal feature subset.The experimental results show that this method can improve the accuracy of phishing website detection compared with other classification methods,and it has practical significance.

作者毕青松梁雪春陈舒期 Bi Qingsong;Liang Xuechun;Chen Shuqi(College of Electrical Engineering and Control Science,Nanjing Tech University,Nanjing 211816,Jiangsu,China)

机构地区南京工业大学电气工程与控制科学学院

出处《计算机应用与软件》北大核心 2020年第9期296-301,共6页 Computer Applications and Software

基金江苏省研究生科研与实践创新计划项目(KYCX19-0874)。

关键词特征选择最大相关最小冗余随机森林 XGBoost 钓鱼网站 Feature selection Maximum correlation and minimum redundancy Random forest XGBoost Phishing website

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1赵加林.基于K-Means和SVM的流行中文钓鱼网站识别研究[J].软件导刊,2016,15(4):176-178. 被引量：3
2丁岩,努尔布力.基于URL混淆技术识别的钓鱼网页检测方法[J].计算机工程与应用,2017,53(20):75-82. 被引量：4
3何高辉,邹福泰,谭大礼,王明政.基于SVM主动学习算法的网络钓鱼检测系统[J].计算机工程,2011,37(19):126-128. 被引量：10
4黄华军,钱亮,王耀钧.基于异常特征的钓鱼网站URL检测技术[J].信息网络安全,2012(1):23-25. 被引量：44
5李鲜,王艳,罗勇,周激流.基于随机森林特征选择算法的鼻咽肿瘤分割[J].计算机应用,2019,39(5):1485-1489. 被引量：11

二级参考文献36

1Justin M K. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs[C]//Proc. of ACM SIGKDD’09. Paris, France: ACM Press, 2009: 1245-1253.
2Basnet S M. Detection of Phishing Attacks: A Machine Learning Approach[M]//Prasad B. Soft Computing Applications in Industry. Berlin, Germany: Springer, 2008.
3Pan Ying. Anomaly Based Web Phishing Page Detection[C]//Proc. of Computer Security Applications Conference. Miami Beach, Florida, USA: [s. n.], 2006: 381-392.
4Wilson T M. Improved Heterogeneous Distance Functions[J]. Journal of Artificial Intelligence Research, 1997, 6(1): 1-34.
5Anti-Phishing Working Group [EB/OL]. http://www.antiphishing. org, 2008-01/2011-12-15.
6PhishTank [EB/OL]. http://www.phishtank.com, 2011-04/2011-12-15.
7Engin Kirda, Christopher Kruegel. Protecting Users against Phishing Attacks[J]. The Computer Journal, 2006, 49(05):554-561.
8Ian Fette, Norman Sadeh, Anthony Tomasic. Learning to Detect Phishing Emails[C]. In Proc. of the WWW 2007, Alberta, Canada, May 8-12, 2007: 649-656.
9Chenfeng Vincent Zhou, Christopher Leckie, Shanika Karunasekera. Collaborative Detection of Fast Flux Phishing Domains[J]. Journal of Networks, 2009, 4(01):75-84.
10D. Kevin McGrath, Minaxi Gupta. Behind Phishing: An Examination of Phisher Modi Operandi[C]. In Proc. of the 1st Usenix Workshop on Large- Scale Exploits and Emergent Threats, California USA, April 15 2008:1-8.

共引文献61

1吴锐帆,代海洋,杨坦,江颖,蔡志杰.直肠癌淋巴结转移的智能诊断研究[J].数学建模及其应用,2019,8(4):30-37. 被引量：2
2周诚诚,张代远.利用图像识别技术过滤海量可疑钓鱼网站[J].计算机技术与发展,2012,22(11):246-249. 被引量：5
3赵伯琪.浅谈企业信息安全治理框架[J].信息安全与技术,2013,4(5):19-21. 被引量：4
4赵跃华,胡向涛.网络钓鱼攻击的防御技术及防御框架设计[J].计算机应用研究,2013,30(6):1863-1866. 被引量：11
5刘洪玉.PDT警用数字集群技术发展及应用[J].信息安全与技术,2013,4(7):13-14. 被引量：14
6蔡洪民.校园网钓鱼邮件监控系统的研究与实现[J].计算机技术与发展,2013,23(10):103-106. 被引量：1
7宋明秋,曹晓芸.基于敏感特征的网络钓鱼网站检测方法[J].大连理工大学学报,2013,53(6):903-907. 被引量：9
8杨曦.云计算背景下计算机安全问题及对策[J].信息安全与技术,2013,4(8):68-69. 被引量：8
9黄夷芯,胡爱群.基于边界检测的移动智能终端隐私泄露检测方法[J].信息网络安全,2014(1):21-24. 被引量：3
10李艺颖,邓皓文,王思齐,龙军.基于机器学习和NetFPGA的智能高速入侵防御系统[J].信息网络安全,2014(2):12-19. 被引量：7

同被引文献92

1曾鸣,谢佳.互联网金融个人信用风险评估的指标选择方法[J].时代金融,2019,0(33):6-9. 被引量：5
2姚兴隆,李红有,迟洪明,周全智,曹淑刚.高压海缆敷设动力响应与参数敏感性分析[J].船舶工程,2021,43(S01):18-23. 被引量：6
3董师师,黄哲学.随机森林理论浅析[J].集成技术,2013,2(1):1-7. 被引量：147
4周晓青,孙立军,颜利.各国路面平整度验收规范[J].中外公路,2006,26(1):52-56. 被引量：25
5宁远涛.Au与Au合金材料近年的发展与进步[J].贵金属,2007,28(2):57-64. 被引量：26
6李银娥,姜婷,马光,贾志华,郑晶.金及金合金的主要应用现状[J].稀有金属快报,2008,27(12):1-6. 被引量：5
7单多,徐安军,汪红兵,田乃媛.连铸坯质量判定系统研究综述[J].连铸,2011,36(2):16-28. 被引量：19
8罗良文,阚大学.对外贸易和外商直接投资对中国人力资本存量影响的实证研究——基于岭回归分析法[J].世界经济研究,2011(4):31-35. 被引量：28
9常运合,曾智,张家泉,何庆文,申景霞,张利平.基于BP神经网络的大方坯质量在线预报模型[J].钢铁,2011,46(5):33-37. 被引量：12
10李辉,郑海起,唐力伟.基于EEMD和THT的齿轮故障诊断方法[J].振动．测试与诊断,2011,31(4):496-500. 被引量：20

引证文献12

1刘猛猛,徐国天.改进鲸鱼优化算法在入侵检测中的应用研究[J].网信军民融合,2022(7):48-56. 被引量：2
2杨黎娜,姚凯学,何勇,席雷鹏,刘文才,赵继露.基于SmoteEnn_XGBoost模型的路况感知方法研究[J].智能计算机与应用,2021,11(11):137-142. 被引量：1
3王向东,徐鹏程,卢天,刘秀娟,陆文聪.低电阻率三元金合金材料的逆向设计[J].中国材料进展,2021,40(4):251-256. 被引量：1
4程芳明,容芷君,但斌斌,刘洋.铸坯质量预测的混合式特征选择方法[J].冶金设备,2021(5):1-6.
5胡强,周杭霞,刘倩.一种基于BERT-Stacking的钓鱼网站检测方法[J].中国计量大学学报,2022,33(1):49-54. 被引量：2
6胡强,刘倩,周杭霞.基于改进Stacking策略的钓鱼网站检测研究[J].广西师范大学学报（自然科学版）,2022,40(3):132-140. 被引量：1
7查志成,梁雪春.基于特征选择算法的个人信用预测模型[J].计算机工程与设计,2022,43(6):1678-1685. 被引量：1
8段金凤,张晓颖.基于Stacking集成结构的钓鱼网站识别[J].现代计算机,2023,29(7):49-53.
9李耀华,王签签.基于VPNRS-RF的飞机液压系统故障诊断模型[J].机械设计与制造,2024(2):255-260.
10王雪蒙,郭滨,马欣.基于优化变分模态分解的脑电情绪识别[J].计算机应用与软件,2024,41(2):80-85.

二级引证文献8

1李颖,吴增源,陈亮.基于ADASYN-LOF-RF模型的核心专利识别研究[J].中国计量大学学报,2022,33(4):609-616. 被引量：3
2刘佳.基于机器学习的英语翻译机器人异常智能诊断模型构建及仿真[J].自动化与仪器仪表,2023(1):241-245. 被引量：2
3胡栩榛,严天宏.基于改进Mask R-CNN的海参和海星的检测算法[J].中国计量大学学报,2023,34(1):34-43.
4卢凯亮,畅东平,纪晓波,陆文聪.基于机器学习的钙钛矿锰氧化物材料设计[J].中国材料进展,2023,42(8):625-630.
5姜言波,邵增珍.基于无监督自适应模糊聚类的多家族恶意域名细粒度检测[J].中国电子科学研究院学报,2023,18(7):663-670. 被引量：1
6杨黎娜,孙新杰,李惠,许然.基于安卓手机的路况感知系统设计与实现[J].六盘水师范学院学报,2023,35(5):88-95.
7张三妹,林晓,洪燕龙,冯怡,吴飞.基于鲸鱼算法优化反向传播神经网络的中药安慰剂溶液颜色模拟处方预测[J].中国中药杂志,2024,49(16):4437-4449.
8戴春雨,马廉洁,蒋涵存,李红双.基于多种策略改进的鲸鱼优化算法[J].计算机工程与科学,2024,46(9):1635-1647.

1朱世起,努尔布力.钓鱼网站检测研究现状与发展趋势的计量分析[J].计算机工程与应用,2020,56(15):92-100. 被引量：1
2无.严正声明[J].中国输血杂志,2020,33(5):496-496.
3杨望,江咏涵,张三峰.基于网页结构与语言特征的垃圾网页链接检测方法[J].东北大学学报（自然科学版）,2020,41(8):1091-1096.
4本刊编辑部.关于《医疗卫生装备》杂志征稿的严正声明[J].医疗卫生装备,2020,41(9):25-25.
5丁伟翔,倪岳通,张莺.基于SVR模型的建筑空调系统能耗预测方法[J].建筑热能通风空调,2020,39(8):64-67. 被引量：3

计算机应用与软件

2020年第9期

浏览历史

内容加载中请稍等...

基于mRMR-RF特征选择和XGBoost模型的钓鱼网站检测被引量：12

参考文献5

二级参考文献36

共引文献61

同被引文献92

引证文献12

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于mRMR-RF特征选择和XGBoost模型的钓鱼网站检测 被引量：12

参考文献5

二级参考文献36

共引文献61

同被引文献92

引证文献12

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于mRMR-RF特征选择和XGBoost模型的钓鱼网站检测被引量：12