基于非平衡数据处理方法的网络在线广告中点击欺诈检测的研究被引量：4

Study on Click Fraud Detection in Online Advertising with Imbalanced Data Processing Methods

下载PDF

导出

摘要网络在线广告中以套取广告费为目的的点击欺诈检测是机器学习应用的重要内容之一。支持向量机(Support Vector Machine,SVM)是一种优秀的解决二分类和回归问题的机器学习算法,但应用于网络在线广告中的欺诈点击检测时,由于数据集的极端非平衡性,算法性能受到极大的限制。从FDMA2012竞赛欺诈发布商检测的真实数据集出发,在详细研究与对比了3种非平衡数据处理方法后,选取最佳的混合采样方法对原始数据进行处理,再将其应用于SVM分类器。实验结果表明,所提方法能够有效识别实施欺诈点击行为的非法发布商,准确度达到95%左右,满足了网络在线广告中点击欺诈检测的要求。 Click fraud detection in online advertising is one of the most important applications of machine learning.Support vector machine（SVM）is a prominent supervised machine learning algorithm on classification problems with roughly equal distributions datasets.However,when applied to click fraud detection problems,the success of SVM is greatly limited due to the extreme imbalanced distribution of FDMA2012 competition dataset.In this paper,three data preprocess methods,random under-sample（RUS）,synthetic minority over-sampling technique（SMOTE）and SMOTE＋edited nearest neighbor（ENN）,were detailed investigated,followed by SVM classifier to solve the question.Results show that the method combining SMOTE＋ENN with SVM achieves accuracy about 95% on minority samples,which basically reaches the requirements of online advertising click fraud detection system.

作者李鑫郭汉张欣胡方强帅仁俊 LI Xin ,GUO Han, ZHANG Xin ,HU Fang- qiang, SHUAI Ren -jun(College of Computer Science and Technology, Nanjing Tech University,Nanjing 21181G, Chin)

机构地区南京工业大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2018年第B06期371-374,共4页 Computer Science

基金国家自然科学基金资助项目(61672279) 江苏省重点研发计划项目(BE2015697)资助

关键词点击欺诈支持向量机非平衡混合采样 Click fraud SVM lmbalanced Mixed sampling

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：83
2董亚楠,刘学军,李斌.一种基于用户行为特征选择的点击欺诈检测方法[J].计算机科学,2016,43(10):145-149. 被引量：5
3于化龙,高尚,赵靖,秦斌.基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J].计算机科学,2012,39(5):190-194. 被引量：9

二级参考文献24

1张义荣,鲜明,肖顺平,王国玉.一种基于粗糙集属性约简的支持向量异常入侵检测方法[J].计算机科学,2006,33(6):64-68. 被引量：20
2牛强,王志晓,陈岱,夏士雄.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895. 被引量：22
3Guyon I, Weston J, Barnhill S, et al. Gene Selection for Cancer Classification Using Support Vector Machines [J]. Machine Learning, 2002,46(1-3) : 389-422.
4Golub T R, Slonim D K, Tarnayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999,286(5439) : 531-537.
5Lee C P, Leu Y. A novel hybrid feature selection method for microarray data analysis[J]. Applied Soft Computing, 2011, 11 (1) :208-213.
6Patiwal K K, Sharma A. Improved direct LDA and its application to DNA microarray gene expression data[J]. Pattern Recognition letters, 2010,31 (16) : 2489-2492.
7Liu X Y, Wu J X, Zhou Z H. Exploratory Under-sampling for Class-Imbalance Learning[C]//Proeeedings of the Sixth International Conference on Data Mining. Hongkong: IEEE Press, 2006 : 965-969.
8Yang K, Cai Z, Li J, et al. A stable gene selection in microarray data analysis[J]. BMC Bioinformatics, 2006,7 : 228.
9Li G Z, Meng H H, Ni J. Embedded Gene Selection for Imbalaneed Mieroarray Data Analysis[C]//Proceedings of Third International Multi-symposiums on Computer and Computational Sciences. Shanghai: IEEE Press, 2008 : 17-24.
10Kamal A H M, Zhu X Q, Narayanan R. Gene Selection for Microarray Expression Data with Imbalanced Sample Distributions [C] // Proceedings of 2009 International Joint Conference on Bioinformatics, Systems Biology and Intelligent Computing. Shanghai: IEEE Press, 2009 : 3-9.

共引文献94

1韩祥民,刘晓波,徐邦贤,邱知,唐辉.基于CEEMD与GWO-SVM算法的配电网高阻接地故障选线方法[J].智能计算机与应用,2021,11(12):143-148. 被引量：2
2于化龙,倪军,徐森.基于留一交叉验证的类不平衡危害预评估策略[J].小型微型计算机系统,2012,33(10):2287-2292. 被引量：5
3秦胜君,卢志平.稀疏自动编码器在文本分类中的应用研究[J].科学技术与工程,2013,21(31):9422-9426. 被引量：17
4蔡永铭,谷凌雁.基于社交网络监测药品不良反应[J].医学信息学杂志,2014,35(4):52-54. 被引量：1
5汪少敏,杨迪,任华.基于深度学习的文本分类系统关键技术研究与模型验证[J].电信科学,2018,34(12):117-124. 被引量：9
6冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
7武建军,罗文龙.基于SVM的热点话题跟踪实现过程研究[J].信息安全与技术,2016,7(3):21-23.
8李优柱,李崇光,李谷成.我国蔬菜价格预警系统研究[J].农业技术经济,2014(7):79-88. 被引量：20
9于飞,李红莲,吕学强.基于支持向量机的文本分类技术[J].无线互联科技,2014,11(8):185-186.
10梅笑冬,王彪,朱哲,赵培陆,胡小龙,卢革宇.基于支持向量机的香水识别电子鼻系统设计[J].吉林大学学报（信息科学版）,2014,32(4):355-360. 被引量：4

同被引文献30

1邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展,2010,47(8):1407-1414. 被引量：26
2吴克寿,曾志强.非平衡数据集分类研究[J].计算机技术与发展,2011,21(9):39-42. 被引量：5
3朱明,陶新民.基于随机下采样和SMOTE的不均衡SVM分类算法[J].信息技术,2012,36(1):39-43. 被引量：12
4陶新民,郝思媛,张冬雪,徐鹏.不均衡数据分类算法的综述[J].重庆邮电大学学报（自然科学版）,2013,25(1):101-110. 被引量：66
5袁兴梅,杨明,杨杨.一种面向不平衡数据的结构化SVM集成分类器[J].模式识别与人工智能,2013,26(3):315-320. 被引量：21
6胡小生,张润晶,钟勇.两层聚类的类别不平衡数据挖掘算法[J].计算机科学,2013,40(11):271-275. 被引量：6
7胡小生,张润晶,钟勇.一种基于聚类提升的不平衡数据分类算法[J].集成技术,2014,3(2):35-41. 被引量：6
8李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：72
9龙钧宇.基于压缩矩阵Apriori算法的高校学生成绩相关性分析研究[J].现代电子技术,2014,37(24):47-51. 被引量：5
10李婷婷,姬东鸿.基于SVM和CRF多特征组合的微博情感分析[J].计算机应用研究,2015,32(4):978-981. 被引量：81

引证文献4

1向鸿鑫,杨云.不平衡数据挖掘方法综述[J].计算机工程与应用,2019,55(4):1-16. 被引量：52
2刘博,卢婷婷,陈国磊,赵璐.面向非平衡数据集的随机森林算法对学生学业问题的预测分析[J].宜宾学院学报,2019,19(12):72-78. 被引量：2
3蒋华,江日辰,王鑫,王慧娇.ADASYN和SMOTE相结合的不平衡数据分类算法[J].计算机仿真,2020,37(3):254-258. 被引量：15
4黄彩云,吴金红,陈勇跃,王翠波.非均衡数据下基于卷积神经网络的专利文本自动分类研究[J].文献与数据学报,2020,2(3):25-36. 被引量：3

二级引证文献71

1程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61.
2孔刘玲,刘秀文.基于改进YOLOv4算法的船舶目标检测方法[J].船舶工程,2022,44(1):96-103. 被引量：7
3崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：28
4李宇帆,张会福,刘上力,唐兵.教育数据挖掘研究进展[J].计算机工程与应用,2019,55(14):15-23. 被引量：18
5袁帅,张慧丽,王晓燕,王涵,赵波.不平衡学习在电力设备故障诊断中的应用[J].信息与电脑,2019,0(9):38-40. 被引量：2
6吴方君.静态软件缺陷预测研究进展[J].计算机科学与探索,2019,13(10):1621-1637. 被引量：13
7王利君,支志英,贾鹿,李伟.基于SCRF的抽油井结蜡预测方法优化研究[J].计算机科学,2019,46(S11):599-603. 被引量：2
8王圆方.基于层次聚类改进SMOTE的过采样方法[J].软件,2020,41(2):201-204. 被引量：2
9马玉涛,黄新波,朱永灿,吴明松,王宁,刘成.面向多源异构数据的牵引变压器故障诊断平台设计[J].广东电力,2020,33(2):131-138. 被引量：10
10王彩文,杨有龙.针对不平衡数据的改进的近邻分类算法[J].计算机工程与应用,2020,56(7):30-38. 被引量：9

1张欣,刘学军,李斌,郭汉.一种网络广告点击欺诈检测的SVM集成方法[J].小型微型计算机系统,2018,39(5):951-956. 被引量：4
2左晓军,董立勉,曲武.基于域名系统流量的Fast-Flux僵尸网络检测方法[J].计算机工程,2017,43(9):185-193. 被引量：6
3李亚倢.直播撒钱,大火之后可能啥也不剩[J].当代工人（C版）,2018,0(5):87-88.
4高考虚假类APP套取个人信息进行诈骗[J].中国防伪报道,2018,0(7):39-39.
5病毒播报[J].电脑爱好者,2015,0(5):51-51.
6张晓娟.信息类、导航类与事务类查询个性化潜力的对比析究[J].数字图书馆论坛,2017(9):35-41. 被引量：2
7陈湘满,黄立矫.融资融券对创业板定价效率影响的实证研究[J].湘潭大学学报（哲学社会科学版）,2018,42(4):74-77.
8刘强,李静远,王元卓,刘悦,任彦.社交网络用户在在线媒体中点播行为预测[J].中文信息学报,2017,31(4):199-207. 被引量：2
9刘枭,王晓国.基于概率图的银行电信诈骗检测方法[J].计算机科学,2018,45(7):122-128. 被引量：4
10陈润文,邱勇,黄文彬,王军.基于日志分析的民办高校大学生网络生活类型研究[J].数据分析与知识发现,2017,1(8):31-38. 被引量：1

计算机科学

2018年第B06期

浏览历史

内容加载中请稍等...

基于非平衡数据处理方法的网络在线广告中点击欺诈检测的研究被引量：4

参考文献3

二级参考文献24

共引文献94

同被引文献30

引证文献4

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于非平衡数据处理方法的网络在线广告中点击欺诈检测的研究 被引量：4

参考文献3

二级参考文献24

共引文献94

同被引文献30

引证文献4

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于非平衡数据处理方法的网络在线广告中点击欺诈检测的研究被引量：4