CAT-RFE:点击欺诈的集成检测框架

CAT-RFE:ensemble detection framework for click fraud

下载PDF

导出

摘要点击欺诈是近年来最常见的网络犯罪手段之一,互联网广告行业每年都会因点击欺诈而遭受巨大损失。为了能够在海量点击中有效地检测欺诈点击,构建了多种充分结合广告点击与时间属性关系的特征,并提出了一种点击欺诈检测的集成学习框架——CAT-RFE集成学习框架。CAT-RFE集成学习框架包含3个部分:基分类器、递归特征消除(RFE,recursive feature elimination)和voting集成学习。其中,将适用于类别特征的梯度提升模型——CatBoost(categorical boosting)作为基分类器;RFE是基于贪心策略的特征选择方法,可在多组特征中选出较好的特征组合;Voting集成学习是采用投票的方式将多个基分类器的结果进行组合的学习方法。该框架通过CatBoost和RFE在特征空间中获取多组较优的特征组合,再在这些特征组合下的训练结果通过voting进行集成,获得集成的点击欺诈检测结果。该框架采用了相同的基分类器和集成学习方法,不仅克服了差异较大的分类器相互制约而导致集成结果不理想的问题,也克服了RFE在选择特征时容易陷入局部最优解的问题,具备更好的检测能力。在实际互联网点击欺诈数据集上的性能评估和对比实验结果显示,CAT-RFE集成学习框架的点击欺诈检测能力超过了CatBoost模型、CatBoost和RFE组合的模型以及其他机器学习模型,证明该框架具备良好的竞争力。该框架为互联网广告点击欺诈检测提供一种可行的解决方案。 Click fraud is one of the most common methods of cybercrime in recent years,and the Internet advertising industry suffers huge losses every year because of click fraud.In order to effectively detect fraudulent clicks within massive clicks,a variety of features that fully combine the relationship between advertising clicks and time attributes were constructed.Besides,an ensemble learning framework for click fraud detection was proposed,namely CAT-RFE ensemble learning framework.The CAT-RFE ensemble learning framework consisted of three parts:base classifier,recursive feature elimination(RFE)and voting ensemble learning.Among them,the gradient boosting model suitable for category features-CatBoost was used as the base classifier.RFE was a feature selection method based on greedy strategy,which can select a better feature combination from multiple sets of features.Voting ensemble learning was a learning method that combined the results of multiple base classifiers by voting.The framework obtained multiple sets of optimal feature combinations in the feature space through CatBoost and RFE,and then integrated the training results under these feature combinations through voting to obtain integrated click fraud detection results.The framework adopted the same base classifier and ensemble learning method,which not only overcame the problem of unsatisfactory integrated results due to the mutual constraints of different classifiers,but also overcame the tendency of RFE to fall into a local optimal solution when selecting features,so that it had better detection ability.The performance evaluation and comparative experimental results on the actual Internet click fraud dataset show that the click fraud detection ability of the CAT-RFE ensemble learning framework exceeds that of the CatBoost method,the combined method of CatBoost and RFE,and other machine learning methods,proving that the framework has good competitiveness.The proposed framework provides a feasible solution for Internet advertising click fraud detection.

作者卢翼翔耿光刚延志伟朱效民张新常 LU Yixiang;GENG Guanggang;YAN Zhiwei;ZHU Xiaomin;ZHANG Xinchang(College of Cyber Security,Jinan University,Guangzhou 510632,China;China Internet Network Information Center,Beijing 100190,China;Shandong Institute of Big Data,Jinan 250001,China;Shandong Academy of Sciences,Jinan 250001,China)

机构地区暨南大学网络空间安全学院中国互联网络信息中心山东齐鲁大数据研究院山东省科学院

出处《网络与信息安全学报》 2022年第5期158-166,共9页 Chinese Journal of Network and Information Security

基金国家自然科学基金(92067108) 广东省自然科学基金(2021A1515011314)。

关键词点击欺诈检测类别梯度提升递归特征消除集成学习 click fraud detection CatBoost recursive feature elimination ensemble learning

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1董亚楠,刘学军,李斌.一种基于用户行为特征选择的点击欺诈检测方法[J].计算机科学,2016,43(10):145-149. 被引量：6
2张欣,刘学军,李斌,郭汉.一种网络广告点击欺诈检测的SVM集成方法[J].小型微型计算机系统,2018,39(5):951-956. 被引量：4

二级参考文献7

1张义荣,鲜明,肖顺平,王国玉.一种基于粗糙集属性约简的支持向量异常入侵检测方法[J].计算机科学,2006,33(6):64-68. 被引量：20
2袁健,张劲松,马良.一种有效预防点击欺诈的策略[J].计算机应用,2009,29(7):1790-1792. 被引量：8
3陈诗国,张道强.半监督降维方法的实验比较[J].软件学报,2011,22(1):28-43. 被引量：23
4龚尚福,姜晓旭.基于用户行为分析的广告欺诈点击检测[J].计算机应用与软件,2011,28(4):127-128. 被引量：4
5李爱春,滕少华.Web挖掘在网络广告点击欺诈检测中的应用[J].计算机工程与设计,2012,33(3):957-962. 被引量：5
6谭爱平,陈浩,吴伯桥.基于SVM的网络入侵检测集成学习算法[J].计算机科学,2014,41(2):197-200. 被引量：34
7职为梅,郭华平,张银峰,范明.一种面向非平衡数据集分类问题的组合选择方法[J].小型微型计算机系统,2014,35(4):770-775. 被引量：7

共引文献8

1李鑫,郭汉,张欣,胡方强,帅仁俊.基于非平衡数据处理方法的网络在线广告中点击欺诈检测的研究[J].计算机科学,2018,45(B06):371-374. 被引量：4
2雷海锐,高秀峰,刘辉.基于机器学习的混合式特征选择算法[J].电子测量技术,2018,41(16):42-46. 被引量：7
3张书月.社交网络用户登录特征数据分类挖掘仿真[J].计算机仿真,2019,36(5):426-429. 被引量：4
4王世豪,蔡延光.基于改进GA-SVM的电信客户欺诈识别方法[J].东莞理工学院学报,2019,26(5):14-20. 被引量：3
5王振辉,王振铎,姚全珠.信息系统内部威胁检测技术研究[J].计算机系统应用,2019,28(12):219-225. 被引量：4
6朱海龙,徐聪,曲媛媛,贺维,杨文佳.一种基于证据推理规则的集成学习方法[J].小型微型计算机系统,2021,42(8):1604-1609. 被引量：2
7张轶,高雪冬,郭亚伟,赵丙贺.加权k-means算法及其在高校贫困生判别中的应用[J].产业与科技论坛,2022,21(19):40-44. 被引量：2
8秦尔楠,叶锦辉,张瑞钦,蔡飞宇.云安全环境下的多特征异常行为检测技术研究[J].通讯世界,2024,31(4):40-42.

1傅湘玲,闫晨巍,赵朋亚,宋美琦,仵伟强.图表示学习方法在消费金融领域团伙欺诈检测中的研究[J].中文信息学报,2022,36(9):120-128.
2武星,高进,丁鹏.聚丙烯复合材料老化数据集成学习[J].上海大学学报（自然科学版）,2022,28(3):440-450.
3加雪莲,谌颃.基于自编码器神经网络的会计异常数据自动审计方案[J].贵阳学院学报（自然科学版）,2022,17(3):73-78. 被引量：1
4刘涌泉,李巍,牛伟,罗旭东.航空液压系统流量智能预测方法研究[J].科学技术与工程,2022,22(28):12476-12483. 被引量：2
5谷学攀,杨斌,赵凌峰,韩胜斌,王琦,冯曜宇.基于影像组学与机器学习对颈动脉体瘤术后并发症的预测[J].中国血管外科杂志（电子版）,2022,14(3):237-241. 被引量：2
6王文姣,张娜.关于LSTM-TCN模型结合递归特征消除法的股票预测[J].应用数学进展,2022,11(10):7135-7142.
7常庆,罗龙峰.基于XGBoost特征提取的热电联产发电功率预测[J].软件工程与应用,2022,11(5):1105-1122.
8Wan Xuming.Voting for Hundred Flowers Awards begins[J].Changjiang Weekly,2022(23):9-9.
9焦昊,王海林,陈锦铭,刘伟.基于K-Means聚类和梯度提升树算法的配电网线损计算方法[J].自动化与仪器仪表,2022(10):74-79. 被引量：7
10陆文红,刘剑.基于大数据+AI机器学习的反诈模型研究[J].邮电设计技术,2022(9):59-64. 被引量：1

网络与信息安全学报

2022年第5期

浏览历史

内容加载中请稍等...

CAT-RFE:点击欺诈的集成检测框架

参考文献2

二级参考文献7

共引文献8

相关作者

相关机构

相关主题

浏览历史