基于主成分分析和随机森林的恶意网站评估与识别被引量：8

Identifying Malicious Websites with PCA and Random Forest Methods

导出

摘要【目的】充分利用网站多源评测指标,研究恶意网站的评估和识别问题。【方法】在广泛收集网站多源评测指标的基础上,采用主成分分析法对恶意网站进行多维度评估,并在此基础上利用随机森林分类算法构建恶意网站识别模型。【结果】所构建方法可以有效提取权威、引用、访问量、排名、链接5个评估维度;同时,基于主成分分析法和随机森林的恶意网站识别模型具有较高的准确率和识别效率。【局限】受数据获取的限制,本研究样本大多属于国外网站,所提取的维度可能与国内恶意网站有一定差异;同时没有考虑恶意网站与正常网站的数量存在不均衡问题。【结论】所构建的基于主成分分析和随机森林的模型既可以提取具有较好解释性的网站评价维度,又具有较高的识别准确率和效率,对后续恶意网站的评估与识别研究具有借鉴意义。 [Objective] This study aims to assess and identify malicious websites with the help of multi-source evaluation metrics. [Methods] We used the principal component analysis（PCA） to conduct a multi-dimensional assessment of malicious websites based on multi-source metrics of websites. Then, we built a malicious site identification model using random forest based on the assessment. [Results] We found that the PCA could effectively extract five assessment dimensions： authority, references, website traffic, ranking, and links. Meanwhile, the identification model was accurate and efficient. [Limitations] Most of the samples in this study were foreign websites, which means the extracted dimensions may be different from those in China. Additionally, we did not study the ratio of malicious to normal websites. [Conclusions] The proposed model could effectively extract dimensions for website assessment and then identifies the malicious ones.

作者陈远王超群胡忠义吴江 Chen Yuan;Wang Chaoqun;Hu Zhongyi;Wu Jiang(School of Information Management, Wuhan University, Wuhan 430072, China;The Center for Electronic Commerce Research and Development, Wuhan University, Wuhan 430072, China)

机构地区武汉大学信息管理学院武汉大学电子商务研究与发展中心

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第4期71-80,共10页 Data Analysis and Knowledge Discovery

基金国家自然科学基金面上项目"创新2.0超网络中知识流动和群集交互的协同研究"(项目编号:71373194)和国家自然科学基金青年基金项目"基于集成学习的区间型电力负荷预测技术研究"(项目编号:71601147)的研究成果之一

关键词恶意网站评估与识别主成分分析随机森林 Malicious Websites Assessment and Identification Principal Component Analysis Random Forest

分类号 G353 [文化科学—情报学]

引文网络
相关文献

参考文献4

1黄华军,钱亮,王耀钧.基于异常特征的钓鱼网站URL检测技术[J].信息网络安全,2012(1):23-25. 被引量：44
2曾传璜,李思强,张小红.基于AdaCostBoost算法的网络钓鱼检测[J].计算机系统应用,2015,24(9):129-133. 被引量：4
3庄蔚蔚,叶艳芳,李涛,姜青山.基于分类集成的钓鱼网站智能检测系统[J].系统工程理论与实践,2011,31(10):2008-2020. 被引量：8
4林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013,30(8):25-31. 被引量：413

二级参考文献46

1王惠文.用主成分分析法建立系统评估指数的限制条件浅析[J].系统工程理论与实践,1996,16(9):24-29. 被引量：19
2李闯,丁晓青,吴佑寿.一种改进的AdaBoost算法——AD AdaBoost[J].计算机学报,2007,30(1):103-109. 被引量：53
3王学民.对主成分分析中综合得分方法的质疑[J].统计与决策,2007,23(8):31-32. 被引量：67
4何平.我国综合评价活动发展述评[EB/OL].http://www.sts.org.cn/fxyj/zbtx/documents/zhps.htm,2005.
5Anti-Phishing Working Group [EB/OL]. http://www.antiphishing. org, 2008-01/2011-12-15.
6PhishTank [EB/OL]. http://www.phishtank.com, 2011-04/2011-12-15.
7Engin Kirda, Christopher Kruegel. Protecting Users against Phishing Attacks[J]. The Computer Journal, 2006, 49(05):554-561.
8Ian Fette, Norman Sadeh, Anthony Tomasic. Learning to Detect Phishing Emails[C]. In Proc. of the WWW 2007, Alberta, Canada, May 8-12, 2007: 649-656.
9Chenfeng Vincent Zhou, Christopher Leckie, Shanika Karunasekera. Collaborative Detection of Fast Flux Phishing Domains[J]. Journal of Networks, 2009, 4(01):75-84.
10D. Kevin McGrath, Minaxi Gupta. Behind Phishing: An Examination of Phisher Modi Operandi[C]. In Proc. of the 1st Usenix Workshop on Large- Scale Exploits and Emergent Threats, California USA, April 15 2008:1-8.

共引文献463

1张忠信,王庆东,赵婧伊,董文召,韩锁义,高伟,刘华,徐静,杜培.不同花生品种秸秆与籽仁营养成分综合分析[J].植物遗传资源学报,2020,0(1):215-223. 被引量：12
2蒙克,华冉,汪佩洁.重新发现比较社会政策研究:概念化与方法[J].中国公共政策评论,2020(2):1-27. 被引量：1
3卢明,高超,邹乔戈,刘泽辉,李黎,刘阳.特高压交流线路大吨位瓷绝缘子运行状态评估方法研究[J].中国电机工程学报,2021,41(S01):392-400. 被引量：4
4李红坤,祁永正.人身险行业的包容性发展是否提高了公众对商业人身险的评价?[J].投资研究,2022,41(8):115-128.
5冷仙,曾源,周键,杨飞龄,武瑞东.基于熵权TOPSIS法的西南自然保护区景观保护成效评价[J].生态学报,2023,43(3):1040-1053. 被引量：8
6曾剑云.群体调查与风险识别视角的互联网金融风险治理[J].开发性金融研究,2021(5):10-23.
7叶德珠,黄允爵,李小林.董事会多元化与公司风险承担[J].金融学季刊,2021,15(2):73-115.
8蒲小琴,丁志伟,彭红艳.黄河金三角示范区城镇体系等级结构特征及其网络联系格局[J].河南大学学报（自然科学版）,2022,52(4):392-404.
9李光赫,刘志颖.日语条件复句的用法对比与日汉对照研究——以「ト」与「タラ」为中心[J].高等日语教育,2023(1):148-162.
10庄蔚蔚,姜青山.恶意软件鉴别技术及其应用[J].集成技术,2012,1(1):55-64. 被引量：3

同被引文献74

1梁飞.基于多分组注意力机制的恶意URL智能检测方法[J].信息网络安全,2020(S01):18-22. 被引量：2
2邱均平,李江.链接分析与引文分析的比较[J].中国图书馆学报,2008,34(1):60-64. 被引量：32
3谢开,刘永奇,朱治中,于尔铿.面向未来的智能电网[J].中国电力,2008,41(6):19-22. 被引量：419
4陈树勇,宋书芳,李兰欣,沈杰.智能电网技术综述[J].电网技术,2009,33(8):1-7. 被引量：1126
5肖世杰.构建中国智能电网技术思考[J].电力系统自动化,2009,33(9):1-4. 被引量：595
6张琳,徐莉莉.基于链接分析的企业网站评价指标的有效性分析[J].图书情报工作,2010,54(16):86-89. 被引量：15
7黄贺方,孙建军.基于链接分析的网站评价实证研究——以四大门户网站为例[J].情报杂志,2011,30(1):74-77. 被引量：28
8赵文兵,朱庆华,吴克文,黄奇.微博客用户特性及动机分析——以和讯财经微博为例[J].现代图书情报技术,2011(2):69-75. 被引量：31
9魏瑞斌.国内链接分析研究的计量分析[J].图书情报工作,2012,56(2):40-45. 被引量：6
10黄华军,钱亮,王耀钧.基于异常特征的钓鱼网站URL检测技术[J].信息网络安全,2012(1):23-25. 被引量：44

引证文献8

1胡忠义,王超群,吴江,陈远.基于链接分析和规则分类的恶意网站识别技术研究[J].信息资源管理学报,2019,9(1):105-113. 被引量：1
2何昆,何子昂,范杏元.基于PCA孤立森林的用电异常识别研究[J].计算技术与自动化,2021,40(2):76-80.
3张珂伟,郑世普,程永灵,王长帅.一种应用于机器学习的恶意网页特征提取方法[J].电子技术应用,2022,48(12):122-127.
4胡忠义,张硕果,吴江.基于URL多粒度特征融合的钓鱼网站识别[J].数据分析与知识发现,2022,6(11):103-110. 被引量：4
5杨立圣,罗文华.Tri-BERT-SENet:融合多特征的恶意网页识别[J].小型微型计算机系统,2023,44(4):875-880. 被引量：2
6郭四代,袁子寒,雷高文.企业碳信息披露质量评价及影响因素研究[J].地球环境学报,2023,14(6):848-860.
7熊凌龙,何月顺,陈杰,杜萍,韩鑫豪.基于文本⁃视觉多特征融合的非法网站识别研究[J].现代电子技术,2024,47(9):97-103.
8李纲,周华阳,毛进,陈思菁.基于机器学习的社交媒体用户分类研究[J].数据分析与知识发现,2019,3(8):1-9. 被引量：4

二级引证文献11

1朱团钦.我国风险资本市场发育的制约因素与对策分析[J].金融理论与实践,2000(3):22-24.
2邓子云.一种为辅助诊断筛选机器学习模型的方法[J].计算机与现代化,2021(3):88-93.
3肖波,邓甜甜,周春光.网站群中不良外链的治理方法研究[J].电脑知识与技术,2022,18(20):45-47.
4杨远洋,周聪,朱海,汪涛.基于字符串随机率特征和随机森林算法的改进钓鱼网站检测系统[J].网络安全技术与应用,2023(5):44-46. 被引量：1
5尹杰,倪鹏锐.基于深度学习的网站类型识别研究[J].电子设计工程,2023,31(21):42-46.
6熊志华.基于多特征融合的水闸工程运行安全感知研究[J].珠江水运,2023(20):88-90.
7熊凌龙,何月顺,陈杰,杜萍,韩鑫豪.基于文本⁃视觉多特征融合的非法网站识别研究[J].现代电子技术,2024,47(9):97-103.
8朱学芳,田甜俊子,李川.网络多媒体信息服务调查及相关智慧管理技术应用策略研究[J].情报科学,2024,42(1):30-40.
9魏嘉迪,赵晓凡,陈丽,宋震.电信网络诈骗犯罪防治研究综述[J].中国人民公安大学学报（自然科学版）,2024,30(2):102-108.
10罗文华,张晓龙.基于联邦学习与卷积神经网络的入侵检测模型[J].信息安全研究,2024,10(7):642-648.

1王锦飞.试论以培育核心素养为指向的思想政治课教学评价[J].思想政治课研究,2018(2):128-130. 被引量：2
2赵霞.整本书阅读,如何评价?[J].基础教育课程,2018(11):60-64. 被引量：9
3深化改革,让“网上共青团”火起来[J].中国共青团,2018(4):60-61.
4张向东,任昆,李军.EPS颗粒改良土作为寒区路基填料的抗冻性能研究[J].冰川冻土,2017,39(6):1273-1280. 被引量：8
5魏士凯,范顺祥,张玉珍,黄选瑞,张志东.塞罕坝自然保护区主要植被类型动态及其驱动力[J].应用生态学报,2018,29(4):1170-1178. 被引量：11
6黄聪.影响贫困儿童及家庭获得公共服务清单的因素分析——以贵州省兴义市“营养改善计划”为例[J].社会福利,2017(12):21-25.
7魏正韬,杨有龙,白婧.基于非平衡数据的随机森林分类算法改进[J].重庆大学学报（自然科学版）,2018,41(4):54-62. 被引量：11
8宋月华.大数据给跨境商品“把关”[J].科普天地,2018,0(4):4-4.
9袁书萍.大数据背景下的激光荧光光谱数据模式识别研究[J].激光杂志,2018,39(5):124-127. 被引量：2
10刘诗吟,王丽芬.青泥黑猪的致富传奇——徽县产业扶贫侧记[J].甘肃农业,2018(8):12-16.

数据分析与知识发现

2018年第4期

浏览历史

内容加载中请稍等...

基于主成分分析和随机森林的恶意网站评估与识别被引量：8

参考文献4

二级参考文献46

共引文献463

同被引文献74

引证文献8

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于主成分分析和随机森林的恶意网站评估与识别 被引量：8

参考文献4

二级参考文献46

共引文献463

同被引文献74

引证文献8

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于主成分分析和随机森林的恶意网站评估与识别被引量：8