-
题名基于二元分类的伪装型垃圾网页高效检测方法
- 1
-
-
作者
魏欢
-
机构
安徽工业经济职业技术学院计算机与艺术学院
-
出处
《兰州工业学院学报》
2019年第4期76-80,共5页
-
基金
安徽省质量工程项目(2015M00C144)
-
文摘
为了提高伪装型垃圾网页检测能力,提出一种基于二元分类的伪装型垃圾网页检测算法.对采集的各类网站网页样本进行暗链域名特征分析和网页爬虫分析,构建伪装型垃圾网页分布的相关文本和图片信息特征,对伪装型垃圾网页样本集采用垂直爬虫和异常特征挖掘方法进行垃圾信息过滤;以网页赋权垃圾信息为测试集,采用二元分类方法对伪装型垃圾网页进行路径模板分析,对全部的异常样本进行垂直爬虫检索;提取伪装型垃圾网页的相关文本的字体颜色与网页背景色,将伪装型垃圾网页的特征提取结果输入到二元语义分类器中进行数据分类,结合大数据融合聚类方法实现伪装型垃圾网页检测.仿真结果表明:采用该方法进行伪装型垃圾网页检测的准确性较高,抗垃圾网页和暗链接干扰能力较好,提高了网页安全监控能力.
-
关键词
二元分类
垃圾网页
暗链接
检测
-
Keywords
binary classification
spam pages
dark links
detection
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-