-
题名欺诈网页检测中基于遗传算法的特征优选
被引量:8
- 1
-
-
作者
王嘉卿
朱焱
陈同孝
张真诚
-
机构
西南交通大学信息科学与技术学院
台中科技大学资讯工程系
逢甲大学资讯工程系
-
出处
《计算机应用》
CSCD
北大核心
2018年第1期295-299,共5页
-
基金
四川省学术和技术带头人后备人选科研基金资助项目(WZ0100112371408
YH1500411031402)
+1 种基金
四川省学术和技术带头人科研基金资助项目(WZ0100112371601/004)
四川省科技服务业示范项目(2016GFW0166)~~
-
文摘
针对网页欺诈检测中特征的高维、冗余问题,提出一个基于信息增益和遗传算法的改进特征选择算法(IFS-BIGGA)。首先,通过信息增益(IG)给出特征重要性排序,设定动态阈值减少冗余特征;其次,改进遗传算法(GA)中染色体编码函数和选择算子,并结合随机森林(RF)的受试者工作特征曲线面积(AUC)作为适应度函数,选择高辨识度特征;最后,增加实验迭代次数避免算法随机性,产生最佳最小的特征集合(OMFS)。实验验证表明,应用IFS-BIGGA生成的OMFS与高维特征集合相比,尽管RF下的AUC减小了2%,但是真阳性率(TPR)提高了21%,并且特征维度减少了92%;同时多个常用分类器的平均检测时间减少了83%;另外,IFS-BIGGA的F1值相比传统的遗传算法(TGA)和帝国主义竞争算法(ICA)分别提高了4.2%和3.5%。实验结果表明,IFS-BIGGA可以进行高效特征降维,在实际的网页检测工程中,有效减少计算代价,提高检测效率。
-
关键词
特征选择
遗传算法
信息增益
随机森林算法
欺诈网页检测
-
Keywords
feature selection
Genetic Algorithm (GA)
Information Gain ( IG),
Random Forest (RF) algorithm
Webspare detection
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名烽火台
- 2
-
-
-
出处
《计算机应用文摘》
2004年第20期75-75,共1页
-
-
关键词
江民科技公司
KV2005
电脑病毒
“震荡波”
复印资料
网页欺诈
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-