基于特征选择模型的钓鱼网站快速识别方法被引量：4

Method for Quickly Identifying Phishing Websites Based on Feature Selection Model

下载PDF

导出

摘要目前在识别钓鱼网站的研究中,对识别速度有着越来越高的需求,因此提出了一种基于混合特征选择模型的钓鱼网站快速识别方法。混合特征选择模型包含初次特征选择、二次特征选择和分类三个主要部分,使用信息增益、卡方检验相结合以及基于随机森林的递归特征消除算法建立了混合特征选择模型,并在模型中使用分布函数与梯度,获取最佳截断阈值,得到最优数据集,从而提高钓鱼网站识别的效率。实验数据表明,使用该混合特征选择模型进行特征筛选后的数据集,维度降低了79.2%,在分类精确度几乎不损失的情况下,降低了32%的分类时间复杂度,有效地提高了分类效率。另外,使用UCI机器学习库中的大型钓鱼数据集对该模型进行评价,分类精确率虽然损失1.7%,但数据集维度降低了70%,分类时间复杂度降低了41.1%。 At present,in the research of identifying phishing websites,there is an increasing demand for recognition speed.Therefore,we propose a fast recognition method for phishing websites based on a mixed feature selection model.The mixed feature selection model consists of three main parts:primary feature selection,secondary feature selection and classification.A hybrid feature selection model is established by combining information gain,Chi-square test and recursive feature elimination algorithm based on random forest.The distribution function and gradient are used in the model to obtain the optimal cutoff threshold and the optimal data set,so as to improve the efficiency of phishing website recognition.Experimental data shows that the data set after feature selection using this mixed feature selection model has a 79.2%reduction in dimension,and reduces the classification time complexity by 32%with almost no loss of classification accuracy,effectively improving classification effectiveness.In addition,using the large-scale fishing data set in the UCI machine learning library to evaluate the model,although the classification accuracy rate is lost by 1.7%,the data set dimension is reduced by 70%,and the classification time complexity is reduced by 41.1%.

作者陈鹏李勇志余肖生 CHEN Peng;LI Yong-zhi;YU Xiao-sheng(School of Computer and Information,Three Gorges University,Yichang 443002,China)

机构地区三峡大学计算机与信息学院

出处《计算机技术与发展》 2021年第4期40-45,共6页 Computer Technology and Development

基金国家重点研究发展计划资助项目(2016YFC0802500)。

关键词特征选择信息增益卡方检验随机森林递归特征消除 feature selection information gain Chi-square test random forest recursive feature elimination

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王燕,王兴芬,任俊玲.面向钓鱼网站敏感特征项选取的IIGAIN算法[J].计算机应用与软件,2016,33(4):297-301. 被引量：5
2周传华,柳智才,丁敬安,周家亿.基于特征选择与集成学习的钓鱼网站检测方法[J].计算机应用研究,2019,36(4):1128-1132. 被引量：7
3王振,邱晓晖.混合CHI和MI的改进文本特征选择方法[J].计算机技术与发展,2018,28(4):87-90. 被引量：6
4梁天超,荆晓远,姚永芳,董西伟.基于加权RFE-Bayes方法的软件缺陷预测模型[J].计算机技术与发展,2015,25(10):131-134. 被引量：2
5冯晓荣,瞿国庆.基于深度学习与随机森林的高维数据特征选择[J].计算机工程与设计,2019,40(9):2494-2501. 被引量：16

二级参考文献40

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
3朱雪梅.基于动态方法的嵌入式软件缺陷检测技术研究与实现[D].杭州:杭州电子科技大学,2014.
4Zeng G P, Fan H L. Two-subpopulation particle swarm optimi- zation based on pheromone diffusion [ J ]. Applied Mechanics and Materials ,2014,667:300-308.
5Vapnik V N. The nature of statistical learning theory [ M ]. New York : Springer-Verlag, 1995.
6Basili V, Green S, Laitenberger O, et al. The empirical investi- gation of perspective - based reading [ J ]. Empirical Software Engineering, 1996,1 : 133-164.
7Mozina M, Zabkar J, Bratko I. Argument based machine learn- ing [ J ]. Artificial Intelligence,2007,171:922-937.
8Mundra P A,Rajapakse J C. SVM-RFE with MRMR filter for gene selection [ J ]. IEEE Trans on NanoBioscience, 2010,9 (1) :31-37.
9Kazman R, Bass L, Abowd G, et al. SAAM : a method for analy- zing the properties of software architectures[ C ]//Proceedings of the 16th international conference on software engineering. Sorrento, Italy : IEEE, 1994 : 81-90.
10Whatling C, McPheat W, Hersloef M. The potential link be- tween atherosclerosis and the 5-1ipoxygenase pathway:investi- gational agents with new implications for the cardiovascular field[ J ]. Expert Opinion on Investigational Drugs, 2007,16 (12) :1879-1893.

共引文献30

1吴兴惠,周玉萍,邢海花.利用随机森林算法对学生成绩评价与预测研究[J].电脑知识与技术,2020,0(4):254-255. 被引量：5
2胡向东,刘可,张峰,林家富,付俊,郭智慧.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(2):31-38. 被引量：8
3魏琴芳,李林乐,张峰,胡向东.一种安卓系统手机恶意软件链接串行联合检测方法[J].重庆邮电大学学报（自然科学版）,2017,29(2):251-256. 被引量：4
4肖程望,卢军,余力耕.分类算法在手机取证中的应用[J].电子设计工程,2017,25(22):49-53. 被引量：1
5张丐卓.文本挖掘及其在信息内容安全中的应用[J].华北科技学院学报,2018,15(2):115-121. 被引量：2
6胡国强,杨彦荣,马秋明.科技期刊钓鱼网站常用技术手段分析及防范措施[J].中国科技期刊研究,2018,29(10):987-992. 被引量：7
7张强强,苏变萍,李敏.基于改进CHI的新的短文本混合特征选择方法[J].信息与电脑,2018,30(16):34-36.
8朱琪,林果园.基于改进随机森林算法的钓鱼网站检测方法研究[J].微电子学与计算机,2019,36(4):43-46. 被引量：5
9段国仑,谢钧,郭蕾蕾,王晓莹.Web文档分类中TFIDF特征选择算法的改进[J].计算机技术与发展,2019,29(5):49-53. 被引量：4
10蔡镇,高健,秦晓军.基于改进CHI和带权ECE结合的特征选择方法[J].计算机应用研究,2019,36(10):2962-2964. 被引量：4

同被引文献34

1耿晶晶,刘玉敏,李洋,赵哲耘.基于CNN-LSTM的股票指数预测模型[J].统计与决策,2021(5):134-138. 被引量：20
2赵全民,樊建春,张洪.天然气钻井人因失误事故风险定量评价方法[J].天然气工业,2012,32(7):80-83. 被引量：5
3蔡汶君,王兵,谭露.基于BP网络和证据理论的钻井安全事故预测[J].重庆科技学院学报（自然科学版）,2014,16(4):89-92. 被引量：3
4杨帆,张祚良,张清联,刘磊,胥勇.钻井现场作业风险概率预测[J].能源与节能,2015(2):40-41. 被引量：1
5刘光星,翟坤,陶宇龙,李安乐,邵小华.单因素时间序列ARMA建模在卡钻预测中的应用研究[J].重庆科技学院学报（自然科学版）,2015,17(1):92-96. 被引量：4
6孙合辉,陶青龙,李邓玥,陈玉新,高敬民,姜勇.基于录井参数的溢流预警模型研究[J].录井工程,2015,26(4):17-21. 被引量：7
7张禾,李祁颖,张露之,米玲.基于模糊专家系统的钻井溢流智能预警技术[J].西南石油大学学报（自然科学版）,2016,38(2):169-175. 被引量：8
8谢平,蒋丽雯,赵尧,何海乐.基于神经网络的井涌井漏实时预测方法研究[J].现代计算机（中旬刊）,2018(4):23-28. 被引量：8
9陈远,王超群,胡忠义,吴江.基于主成分分析和随机森林的恶意网站评估与识别[J].数据分析与知识发现,2018,2(4):71-80. 被引量：8
10陈伟利,郑子彬.区块链数据分析:现状、趋势与挑战[J].计算机研究与发展,2018,55(9):1853-1870. 被引量：77

引证文献4

1毛典辉,梁秀霞,赵爽,郝治昊.面向区块链平台的庞氏骗局模式检测方法[J].计算机技术与发展,2022,32(5):153-159. 被引量：1
2凌永标,毛峰,杨岚岚,邱兴卫,张志锐,张杰.基于混合注意力网络的安全工器具检测[J].计算机技术与发展,2022,32(6):209-214.
3赵春兰,屈瑶,王兵,范翔宇,赵鹏斐,李屹,何婷.一种基于2D-CNN深度学习的钻井事故等级预测新方法[J].天然气工业,2022,42(12):95-105. 被引量：2
4熊凌龙,何月顺,陈杰,杜萍,韩鑫豪.基于文本⁃视觉多特征融合的非法网站识别研究[J].现代电子技术,2024,47(9):97-103.

二级引证文献3

1白英民,师智斌,信文阁,窦建民,张舒娟,王子建.基于词嵌入与Shapelet时序特征的智能合约漏洞检测方法研究[J].中北大学学报（自然科学版）,2023,44(4):381-387. 被引量：3
2张瑞,祝兆鹏,李大钰,宋先知,李根生,张诚恺,朱硕.基于改进时序网络的钻进参数可解释实时预测[J].石油机械,2024,52(4):1-10.
3闵超,文国权,李小刚,赵大志,李昆成.可解释机器学习在油气领域人工智能中的研究进展与应用展望[J].天然气工业,2024,44(9):114-126.

1蔡长征.数据驱动算法在旋转机械故障诊断中的应用研究[J].机床与液压,2020,48(23):218-223. 被引量：9
2任梦宇,胡梦婕,汪正飞.中国居民健康水平影响因素分析[J].池州学院学报,2021,35(1):57-61.
3黄欢,孙力娟,曹莹,郭剑,任恒毅.基于注意力的短视频多模态情感分析[J].图学学报,2021,42(1):8-14. 被引量：9
4杨秋伟,陈华,周聪,李翠红.一种新的病态问题奇异值修正方法[J].全球定位系统,2020,45(6):16-20.
5曾冬洲,郑宗华.基于局部离群因子算法的变压器异常检测[J].电气开关,2021,59(2):12-15. 被引量：3
6石龙杰,周扬,岑岗,施秧.基于机器视觉的汽车换挡面板自动分类方法[J].现代制造工程,2021(4):104-108. 被引量：2
7梁淑蓉,陈基漓,谢晓兰.基于权重搜索树改进K近邻的高维分类算法[J].科学技术与工程,2021,21(7):2760-2766. 被引量：7
8刘振友,郑茜颖,程树英.基于改进Census变换的抗噪立体匹配算法[J].半导体光电,2021,42(1):100-105. 被引量：6
9廖丹,杨兵,杨雪云,林建.专科颜色标识联合流程化管理在手术室精密器械管理中的应用[J].全科护理,2021,19(11):1540-1542. 被引量：6

计算机技术与发展

2021年第4期

浏览历史

内容加载中请稍等...

基于特征选择模型的钓鱼网站快速识别方法被引量：4

参考文献5

二级参考文献40

共引文献30

同被引文献34

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于特征选择模型的钓鱼网站快速识别方法 被引量：4

参考文献5

二级参考文献40

共引文献30

同被引文献34

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于特征选择模型的钓鱼网站快速识别方法被引量：4