基于免疫克隆特征选择和欠采样集成的垃圾网页检测被引量：3

Web spam detection based on immune clonal feature selection and under-sampling ensemble

下载PDF

导出

摘要为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和Ada Boost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。 To solve the problem of ＂curse of dimensionality＂ and imbalance classification, a binary classifier algorithm based on immune clonal feature selection and Under-Sampling（ US） ensemble was proposed to detect Web spam. Firstly,major samples in training dataset were sampled into several sample subsets, which were combined with minor samples to generate several balanced training sample subsets. Then an immune clonal algorithm was proposed to select several optimal feature subsets. The balanced training subsets were projected to multiple views based on the optimal feature subsets. Finally,several Random Forest（ RF） classifiers were trained by these views of the training sample subsets to classify the testing samples. The testing samples＇ classifications were determined by voting. The experimental results on the WEBSPAM UK-2006 dataset show that the ensemble classifier algorithm outperforms these algorithms like RF, Bagging with RF and Ada Boost with RF, and its accuracy, F1-Measure, AUC（ Area Under ROC Curve） are increased by more than 11% respectively. Compared with several state-of-the-art baseline classification models, the F1-Measure is increased by 2% and the AUC reaches the optimum result using the ensemble classifier.

作者卢晓勇陈木生吴政隆张百栈

机构地区南昌大学软件学院南昌大学信息工程学院元智大学资讯学院

出处《计算机应用》 CSCD 北大核心 2016年第7期1899-1903,共5页 journal of Computer Applications

基金江西省科技支撑计划项目(20131102040039)~~

关键词垃圾网页检测集成学习免疫克隆算法特征选择欠采样随机森林 Web spam detection ensemble learning immune clonal algorithm feature selection Under-Sampling（US） Random Forest（RF）

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1SPIRIN N, HAN J. Survey on Web spam detection: principles and algorithms [J]. ACM SIGKDD Explorations Newsletter, 2012, 13 (2) : 50 - 64.
2CHANDRA A, SUAIB M. A survey on Web spare and spare 2.0 [ J]. International Journal of Advanced Computer Research, 2014, 4(2) : 634 -644.
3TAHIR M A, BOURIDANE A, KURUGOLLU F. Simultaneous fea- ture selection and feature weighting using hybrid tabu search/K-nea- rest neighbor classifier [ J]. Pattern Recognition Letters, 2007, 28 (4) : 438 -446.
4BONEV B, ESCOLANO F, CAZORLA M. Feature selection, mutu- al information, and the classification of high-dimensional patterns [ J]. Pattern Analysis and Applications, 2008, 11 (3/4) : 309 - 319.
5MOUSTAKIDIS S P, THEOCHARIS J B. A fast SVM-based wrap- per feature selection method driven by a fuzzy complementary criteri- on [J]. Pattern Analysis and Applications, 2012, 15(4): 379 - 397.
6LIN S, LEE Z, CHEN S, et al. Parameter determination of support vector machine and feature selection using simulated annealing ap- proach [J]. Applied Soft Computing, 2008, 8(4): 1505 -1512.
7AHMED A. Feature subset selection using ant colony optimization [ J]. International Journal of Computational Intelligence and Appli- cations, 2005, 2(1): 53-58.
8AHMAD F, ISA N A M, HUSSAIN Z, et al. A GA-based feature selection and parameter optimization of an ANN in diagnosing breast cancer [ J]. Pattern Analysis and Applications, 2014, 18(4) : 861 - 870.
9MARINAKI M, MARINAKIS Y. A hybridization of clonal selection algorithm with iterated local search and variable neighborhood search for the feature selection problem [ J]. Memetic Computing, 2015, 7 (3): 181 -201.
10SAMADZADEGAN F, NAMIN S R, RAJABI M A. Evaluating the potential of clonal selection optimization algorithm to hyperspectral image feature selection [J]. Key Engineering Materials, 2012, 500 (1) : 799 - 805.

二级参考文献16

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2GYONGYI Z, GARCIA-MOLINA H. Web spam taxonomy [ C]// Proceedings of the 14st International Workshop on Adversarial Information Retrieval on the Web. Chiba, Japan: AIRWeb, 2005:39-47.
3EIRON N, MCCURLEY K S. Analysis of anchor text for Web search [ C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003:459-460.
4SPIRIN N, HAN J. Survey on Web spam detection: principles and algorithms [ J]. ACM SIGKDD Explorations Newsletter, 2012, 13 (2): 50-64.
5CHANDRA A, SUAIB M. A survey on Web spam and spam 2.0 [ J]. International Journal of Advanced Research in Computer Science, 2014,4(15) : 634 -644.
6PRIETO V M, ALVAREZ M, CACHEDA F. SAAD, a content based Web spam analyzer and detector [ J]. Journal of Systems and Software, 2013, 86(11) : 2906 - 2918.
7SCARSELLI F, TSOI A C, HAGENBUCHNER M, et al. Solving graph data issues using a layered architecture approach with applications to Web spam detection [ J]. Neural Networks, 2013, 48(1) : 78 - 90.
8GAO S, ZHANG H, ZHENG X, et al. Improving SVM classifiers with link structure for Web spam detection [ J]. Journal of Computational Information Systems, 2014, 10(6) :2435 -2443.
9BREIMAN L. Random forests-- random features [J]. Machine Learning, 1999, 45 ( 1 ) : 5 - 32.
10BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees [M]. Boca Raton, FL: CRC Press, 1984:18 -Sg.

共引文献16

1张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
2陈木生,卢晓勇.三种用于垃圾网页检测的随机欠采样集成分类器[J].计算机应用,2017,37(2):535-539. 被引量：8
3唐燕,王苹.随机森林算法在中医药院校贫困生认定预测中的应用研究[J].中国医药导报,2017,14(14):164-168. 被引量：6
4王卫红,朱雨辰.基于N-Gram与加权分类器集成的恶意代码检测[J].浙江工业大学学报,2017,45(6):604-609. 被引量：9
5刘勇,兴艳云.基于改进随机森林算法的文本分类研究与应用[J].计算机系统应用,2019,28(5):220-225. 被引量：19
6张扬帆,张海鹏,孙俊.基于Lévy分布的不平衡数据过采样方法[J].计算机工程与应用,2019,55(16):150-156. 被引量：1
7李欢,熊梦莹,聂斌,杜建强,周丽,黄强.融合因子分析的随机森林研究[J].计算机工程与应用,2019,55(23):125-130. 被引量：8
8邓晶,李路.参数优化随机森林在股票预测中的应用[J].软件,2020,41(1):178-182. 被引量：6
9王得雪,林意,陈俊杰.协同训练算法在滚动轴承故障诊断中的应用[J].计算机工程与应用,2020,56(12):273-278. 被引量：3
10李楠,靳辉辉,樊瑞.终端区航空器爬升下降率异常识别研究[J].计算机仿真,2020,37(5):25-29. 被引量：1

同被引文献16

1兰均,施化吉,李星毅,徐敏.基于特征词复合权重的关联网页分类[J].计算机科学,2011,38(3):187-190. 被引量：12
2张长水.机器学习面临的挑战[J].中国科学：信息科学,2013,43(12):1612-1623. 被引量：33
3王桂玲,张峰,韩燕波.一种基于数据服务超链进行情景数据集成的方法[J].电信科学,2014,30(2):51-59. 被引量：1
4王海涛,张志亮,孙煜华,袁春风,黄宜华.Web信息抽取网页自动浏览导航与集成规则研究[J].计算机科学与探索,2014,8(9):1049-1066. 被引量：1
5段洁,胡清华,张灵均,钱宇华,李德玉.基于邻域粗糙集的多标记分类特征选择算法[J].计算机研究与发展,2015,52(1):56-65. 被引量：109
6潘华,王淑营,孙林夫,吕瑞.面向产业链协同SaaS平台多源信息动态集成安全技术研究[J].计算机集成制造系统,2015,21(3):813-821. 被引量：6
7王潇娴.基于视觉传达设计领域的互补设计方法研究[J].包装工程,2015,36(8):112-115. 被引量：4
8聂俊岚,陈贺敏,张继凯,郭栋梁.基于数据相似度的多维海洋数据交互式集成可视化[J].海洋通报,2015,34(5):586-591. 被引量：5
9卢晓勇,陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(3):731-734. 被引量：17
10王靖,王兴伟,赵悦.基于变精度粗糙集决策树垃圾邮件过滤[J].系统仿真学报,2016,28(3):705-710. 被引量：14

引证文献3

1陈木生,卢晓勇.三种用于垃圾网页检测的随机欠采样集成分类器[J].计算机应用,2017,37(2):535-539. 被引量：8
2曲兴卫,王自珍.多源数据集成的视觉传达设计仿真研究[J].现代电子技术,2018,41(13):172-176. 被引量：3
3程新党,张新刚,赵学武.基于免疫克隆算法的网店属地判定[J].新乡学院学报,2018,35(3):17-25.

二级引证文献11

1谭浩,田爱奎,郑睿.基于高校学生消费数据的贫困生评价分析[J].电脑知识与技术,2017,13(7X):220-221. 被引量：2
2李国和,张腾,吴卫江,洪云峰,周晓明.面向机器学习的训练数据集均衡化方法[J].计算机工程与设计,2019,40(3):812-818. 被引量：11
3徐萌,席泽西,王雍赟,李晓露.基于集成学习的航空发动机故障诊断方法[J].中国民航大学学报,2019,37(2):29-33. 被引量：7
4张忠林,吴挡平.基于概率阈值Bagging算法的不平衡数据分类方法[J].计算机工程与科学,2019,41(6):1086-1094. 被引量：14
5魏欢.基于二元分类的伪装型垃圾网页高效检测方法[J].兰州工业学院学报,2019,26(4):76-80.
6范威振,陈占芳,刘燕龙.基于多维相似度的整体式实体统一算法研究[J].长春理工大学学报（自然科学版）,2019,42(4):114-119. 被引量：1
7王磊,王艳贞,王晓芬.基于多层结构的平面视觉元素可视化系统设计[J].现代电子技术,2021,44(8):105-108.
8潘娜,潘伟.基于色彩印刷符号分析的自动化视觉传达可视融合系统设计[J].制造业自动化,2021,43(8):74-77.
9刘学文,王继奎,杨正国,李强,易纪海,李冰,聂飞平.密度峰值优化的球簇划分欠采样不平衡数据分类算法[J].计算机应用,2022,42(5):1455-1463. 被引量：6
10汤亮,张晓冰,成林芳.基于CanpoySMOTE和自适应学习的入侵检测方法研究[J].计算技术与自动化,2022,41(4):123-128.

1杨凡,朱焱,唐寿洪.基于免疫克隆选择算法的垃圾网页检测[J].计算机应用与软件,2015,32(6):20-23. 被引量：1
2陈木生,卢晓勇.三种用于垃圾网页检测的随机欠采样集成分类器[J].计算机应用,2017,37(2):535-539. 被引量：8
3项雪琰,高玲,魏亚利.基于 KPCA 和 RST 的不平衡垃圾网页检测[J].山东师范大学学报（自然科学版）,2015,30(3):10-13.
4李法良,朱焱,曾俊东.集成PCA降维与分类算法的垃圾网页检测[J].计算机应用与软件,2014,31(10):269-272. 被引量：4
5王莉丽,朱焱,马永强.基于朴素贝叶斯的伪装型垃圾网页检测[J].计算机应用,2013,33(A01):102-103. 被引量：4
6高爽,张化祥,房晓南.基于独立成分分析和协同训练的垃圾网页检测[J].山东大学学报（工学版）,2013,43(2):29-34. 被引量：1
7贾志洋,夏幼明,高炜,王勇刚.搜索引擎垃圾网页检测模型研究[J].重庆文理学院学报（自然科学版）,2011,30(5):53-58. 被引量：1
8贾志洋,李伟伟,张海燕.基于内容的搜索引擎垃圾网页检测[J].计算机应用与软件,2009,26(11):165-167. 被引量：9
9高爽,张化祥,房晓南.基于多视图典型相关分析的垃圾网页检测[J].计算机应用研究,2013,30(3):810-813. 被引量：3
10卢晓勇,陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(3):731-734. 被引量：17

计算机应用

2016年第7期

浏览历史

内容加载中请稍等...

基于免疫克隆特征选择和欠采样集成的垃圾网页检测被引量：3

参考文献18

二级参考文献16

共引文献16

同被引文献16

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于免疫克隆特征选择和欠采样集成的垃圾网页检测 被引量：3

参考文献18

二级参考文献16

共引文献16

同被引文献16

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于免疫克隆特征选择和欠采样集成的垃圾网页检测被引量：3