-
题名CAT-RFE:点击欺诈的集成检测框架
- 1
-
-
作者
卢翼翔
耿光刚
延志伟
朱效民
张新常
-
机构
暨南大学网络空间安全学院
中国互联网络信息中心
山东齐鲁大数据研究院
山东省科学院
-
出处
《网络与信息安全学报》
2022年第5期158-166,共9页
-
基金
国家自然科学基金(92067108)
广东省自然科学基金(2021A1515011314)。
-
文摘
点击欺诈是近年来最常见的网络犯罪手段之一,互联网广告行业每年都会因点击欺诈而遭受巨大损失。为了能够在海量点击中有效地检测欺诈点击,构建了多种充分结合广告点击与时间属性关系的特征,并提出了一种点击欺诈检测的集成学习框架——CAT-RFE集成学习框架。CAT-RFE集成学习框架包含3个部分:基分类器、递归特征消除(RFE,recursive feature elimination)和voting集成学习。其中,将适用于类别特征的梯度提升模型——CatBoost(categorical boosting)作为基分类器;RFE是基于贪心策略的特征选择方法,可在多组特征中选出较好的特征组合;Voting集成学习是采用投票的方式将多个基分类器的结果进行组合的学习方法。该框架通过CatBoost和RFE在特征空间中获取多组较优的特征组合,再在这些特征组合下的训练结果通过voting进行集成,获得集成的点击欺诈检测结果。该框架采用了相同的基分类器和集成学习方法,不仅克服了差异较大的分类器相互制约而导致集成结果不理想的问题,也克服了RFE在选择特征时容易陷入局部最优解的问题,具备更好的检测能力。在实际互联网点击欺诈数据集上的性能评估和对比实验结果显示,CAT-RFE集成学习框架的点击欺诈检测能力超过了CatBoost模型、CatBoost和RFE组合的模型以及其他机器学习模型,证明该框架具备良好的竞争力。该框架为互联网广告点击欺诈检测提供一种可行的解决方案。
-
关键词
点击欺诈检测
类别梯度提升
递归特征消除
集成学习
-
Keywords
click fraud detection
CatBoost
recursive feature elimination
ensemble learning
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-