基于CNN和BiLSTM的钓鱼URL检测技术研究被引量：5

Research on Phishing URL Detection Technology Based on CNN-BiLSTM

下载PDF

导出

摘要为了解决日益严峻的网络钓鱼问题,提出一种基于卷积神经网络(CNN)和双向长短记忆网络(BiLSTM)的钓鱼URL检测方法CNN-BiLSTM。该方法首先基于敏感词分词的方法对URL分词,根据特殊字符和敏感词对URL进行单词级别划分,对其中的非敏感词进行字符级别划分,以获取特殊字符和敏感词的有效信息,提升利用URL数据信息的程度;然后将分词后的URL输入到CNN和BiLSTM中,通过CNN获取URL的空间局部特征,通过BiLSTM获取URL的双向长距离依赖特征,基于自动提取的特征检测钓鱼网页。实验结果表明:基于CNN和BiLSTM的钓鱼URL检测方法能够达到较好的检测效果,其准确率达到了98.84%,精确率达到了99.71%,召回率达到了98.04%,F1值达到了98.86%。此方法相对于传统的机器学习和黑名单检测方法,无须人工提取特征且能识别新出现的钓鱼网页。 In order to solve the increasingly serious problem of phishing,a phishing URL detection method based on convolution neural network(CNN)and bi-directional long short termmemory(BiLSTM)was proposed.This method first classified the URL based on the sensitive word segmentation method;classified the URL according to the special characters and sensitive words;and classified the non-sensitive words in the character level,so as to obtain the effective information of the special characters and sensitive words,and improve the use of URL data information.Then the segmented URL was input into CNN and BiLSTM,to obtain the spatial local features of the URL through CNN,to obtain the bidirectional long-distance dependent features of the URL through BiLSTM,and to detect phishing webpages based on the automatically extracted features.Compared with traditional machine learning and blacklist detection methods.Experimental results showed that the phishing URL detection method based on CNN and BiLSTM could achieve better detection results,the accuracy rate was 98.84%,the precision rate was 99.71%,the recall rate was 98.04%,and the F1 value was 98.86%.This method did not require manual feature extraction and could identify newly emerging phishing webpages.

作者卜佑军张桥陈博张稣荣王方玉 BU Youjun;ZHANG Qiao;CHEN Bo;ZHANG Surong;WANG Fangyu(PLA Strategic Support Force Information Engineering University, Zhengzhou 450001,China;Zhongyuan Network Security Research Institute, Zhengzhou University, Zhengzhou 450001, China)

机构地区中国人民解放军战略支援部队信息工程大学郑州大学中原网络安全研究院

出处《郑州大学学报（工学版）》 CAS 北大核心 2021年第6期14-20,共7页 Journal of Zhengzhou University（Engineering Science）

基金国家重点研发计划项目(2017YFB0803201) 国家自然科学基金资助项目(61572519)。

关键词钓鱼URL URL分词卷积神经网络双向长短记忆网络 phishing URL URL segmentation CNN BiLSTM

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1崔艳鹏,刘咪,胡建伟.基于CNN的恶意Web请求检测技术[J].计算机科学,2020,47(2):281-286. 被引量：7
2沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：38

二级参考文献61

1Mahmoud K, Youssef I, Andrew J. Phishing detection: A literature survey. IEEE Communications Surveys & Tutorials, 2013, 15(4): 2091-2121.
2Paul K, Georgia K, Hector G M. Fighting spam on social Web sites a survey of approaches and future challenges. IEEE Internet Computing, 2007, 11(6): 36-45.
3Priya M, Sandhya L, Ciza T. A static approach to detect drive-by-download attacks on Webpages//Proceedings of the International Conference on Control Communication and Computing. Xi'an, China, 2013:298-303.
4Mavrommatis N P P, Monrose M A R F. All your iframes point to us//Proceedings of the 17th USENIX Security Symposium. San Jose, USA, 2008:1-22.
5Ma J, Saul L K, Savage S, Voetker G M. Beyond blacklists: Learning to detect malicious Web sites from suspicious URLs//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2009: 1245-1253.
6Ma J, Saul L K, Savage S, Voelker G M. Identifying suspi- cious URLs: An application of large-scale online learning// Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Canada, 2009:681-688.
7Ma J, Saul L K, Savage S, Voelker G M. Learning to detect malicious URLs. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 1-24.
8Canali D, et al. Prophiler: A fast filter for the large-scale detection of malicious Web pages//Proceedings of the 20th International Conference on World Wide Web. Hyderabad, India, 2011:197-206.
9Thomas K, et al. Design and evaluation of a real-time URL spam filtering service//Proceedings of the IEEE Symposium on Security and Privacy. Oakland, USA, 2011:447-462.
10Yadav S, Reddy A K K, Reddy A L, et al. Detecting algorithmic.ally generated malicious domain names//Proeeedings of the 10th ACM SIGCOMM Conference on Internet Measurement. New York, USA, 2010:48-61.

共引文献43

1麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：3
2陈星铭,赵胜祥.二次曲面截交线投影成圆的条件及应用[J].上海工程技术大学学报,2000,14(1):50-55. 被引量：1
3杨洪娇.基于机器学习的校园网恶意网页检测方法[J].信息与电脑,2016,28(11):175-176. 被引量：2
4张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
5胡向东,刘可,张峰,林家富,付俊,郭智慧.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(2):31-38. 被引量：8
6张茜,延志伟,李洪涛,耿光刚.网络钓鱼欺诈检测技术研究[J].网络与信息安全学报,2017,3(7):7-24. 被引量：12
7汪鑫,武杨,卢志刚.基于威胁情报平台的恶意URL检测研究[J].计算机科学,2018,45(3):124-130. 被引量：9
8丁岩,努尔布力.基于URL混淆技术识别的钓鱼网页检测方法[J].计算机工程与应用,2017,53(20):75-82. 被引量：4
9程岚岚,田文涛,汪剑.基于Spring Boot的网页健康性评级系统的设计与实现[J].电脑与信息技术,2018,26(2):45-47. 被引量：1
10张蕾,崔勇,刘静,江勇,吴建平.机器学习在网络空间安全研究中的应用[J].计算机学报,2018,41(9):1943-1975. 被引量：145

同被引文献30

1任志玲,张媛媛.矿下电缆故障诊断的能量熵和PSO‐BP算法[J].系统仿真学报,2015,27(5):1044-1049. 被引量：9
2唐金锐,尹项根,张哲,杨晨,叶磊,戚宣威,林瑨.配电网故障自动定位技术研究综述[J].电力自动化设备,2013,33(5):7-13. 被引量：134
3沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：38
4周昌令,陈恺,公绪晓,陈萍,马皓.基于Passive DNS的速变域名检测[J].北京大学学报（自然科学版）,2016,52(3):396-402. 被引量：15
5周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1651
6苏立.基于HHT变换和FOA_LSSVM的电缆故障诊断[J].计算机与现代化,2017(9):96-101. 被引量：5
7汪颖,卢宏,杨晓梅,肖先勇,张文海.堆叠自动编码器与S变换相结合的电缆早期故障识别方法[J].电力自动化设备,2018,38(8):117-124. 被引量：31
8杨鹏,曾朋,赵广振,吕培培.基于Logistic回归和XGBoost的钓鱼网站检测方法[J].东南大学学报（自然科学版）,2019,49(2):207-212. 被引量：4
9朱琪,林果园.基于改进随机森林算法的钓鱼网站检测方法研究[J].微电子学与计算机,2019,36(4):43-46. 被引量：5
10王媛媛,吴春江,刘启和,谭浩,周世杰.恶意域名检测研究与应用综述[J].计算机应用与软件,2019,36(9):310-316. 被引量：25

引证文献5

1胡强,周杭霞,刘倩.一种基于BERT-Stacking的钓鱼网站检测方法[J].中国计量大学学报,2022,33(1):49-54. 被引量：2
2胡强,刘倩,周杭霞.基于改进Stacking策略的钓鱼网站检测研究[J].广西师范大学学报（自然科学版）,2022,40(3):132-140. 被引量：1
3樊昭杉,王青,刘俊荣,崔泽林,刘玉岭,刘松.域名滥用行为检测技术综述[J].计算机研究与发展,2022,59(11):2581-2605. 被引量：2
4高超,刘泽辉,曹栋,姚利娜.基于1DCNN-BiLSTM的电力电缆故障诊断[J].郑州大学学报（工学版）,2023,44(5):86-92. 被引量：5
5盛蒙蒙,史建晖,沈立峰.基于CBA算法的恶意URL检测[J].数字技术与应用,2023,41(10):9-13.

二级引证文献10

1李颖,吴增源,陈亮.基于ADASYN-LOF-RF模型的核心专利识别研究[J].中国计量大学学报,2022,33(4):609-616. 被引量：3
2胡栩榛,严天宏.基于改进Mask R-CNN的海参和海星的检测算法[J].中国计量大学学报,2023,34(1):34-43.
3姜言波,邵增珍.基于无监督自适应模糊聚类的多家族恶意域名细粒度检测[J].中国电子科学研究院学报,2023,18(7):663-670.
4薛菲,王世民,李霄,刘嘉美.基于多频带小波变换的电力电缆故障定位方法[J].光源与照明,2023(11):102-104.
5胡安磊,田语,陈勇,李振宇,谢高岗.基于深度学习的不良应用域名早期识别方法[J].高技术通讯,2024,34(2):151-161.
6闫锋,苏忠允.基于时频域融合和ECA-1DCNN的航空串联故障电弧检测[J].科学技术与工程,2024,24(5):1937-1945.
7祁炜雯,张俊,吴洋,范强,赵峰,陈建国,王健.基于改进BP-Bagging算法的光伏电站故障诊断方法[J].浙江电力,2024,43(3):65-74.
8杨东辉,曾彬,李振宇.新通用顶级域名解析行为分析与恶意域名检测方法[J].计算机研究与发展,2024,61(4):1038-1048.
9胡业林,王子涵.基于TCN-BiLSTM网络的电力电缆故障诊断[J].佳木斯大学学报（自然科学版）,2024,42(4):15-18.
10朱津欣,赵思文.基于小波熵神经网络的高压电缆短路故障诊断方法[J].电气技术与经济,2024(7):214-217.

1李妍(文/图).必须解决的几个钓鱼问题--这些时候钓鱼可以不打窝子[J].垂钓,2021(4):4-9. 被引量：1
2鲜宸宇.基于节点脆弱性的铁路客运站分级研究[J].农业装备与车辆工程,2021,59(10):153-157. 被引量：1
3张桥,卜佑军,陈博,曹东伟,张稣荣.一种基于MPAN的钓鱼URL检测方法[J].信息工程大学学报,2021,22(4):443-449. 被引量：3
4蒋文博,黄玉洁,刘正,方文,郑洋,周强.基于健康风险的危险废物智能化分级分类研究[J].环境监控与预警,2021,13(5):14-18. 被引量：4
5任美衡.当代文学评奖的历史分期、类型生成及体系建构[J].衡阳师范学院学报,2021,42(5):103-111.
6《华中学术》编辑部.《华中学术》来稿注意事项[J].华中学术,2021(2):269-272.
7谢斌红,董悦闰,潘理虎,张英俊.基于多特征LSTM-Self-Attention文本情感分类[J].计算机仿真,2021,38(11):479-484. 被引量：1
8何永春,申永伟,吴涛,陈淑波.基于注意力机制的多尺度仪表检测[J].科学技术与工程,2021,21(31):13430-13438. 被引量：3
9唐洪婷,蔡秀定,张延林,李志宏.基于深度学习的企业开放社区用户创意挖掘方法研究[J].系统工程理论与实践,2021,41(10):2488-2500. 被引量：2
10沈同平,俞磊,金力,黄方亮,许欢庆.基于BERT-BiLSTM-CRF模型的中文实体识别研究[J].齐齐哈尔大学学报（自然科学版）,2022,38(1):26-32. 被引量：9

郑州大学学报（工学版）

2021年第6期

浏览历史

内容加载中请稍等...

基于CNN和BiLSTM的钓鱼URL检测技术研究被引量：5

参考文献2

二级参考文献61

共引文献43

同被引文献30

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于CNN和BiLSTM的钓鱼URL检测技术研究 被引量：5

参考文献2

二级参考文献61

共引文献43

同被引文献30

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于CNN和BiLSTM的钓鱼URL检测技术研究被引量：5