期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于单页语义特征的垃圾网页检测
1
作者 陈木生 高斐 吴俊华 《电子技术应用》 2023年第6期24-29,共6页
为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Ve... 为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Vec词向量和词移距离计算3个单页语义相似度特征;然后将单页语义相似度特征融合单页统计特征,使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明,基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%,比对照方法提高4%左右。 展开更多
关键词 垃圾网页检测 特征提取 记忆化搜索 隐含狄利克雷分布 词向量 词移距离 随机森林
下载PDF
基于随机森林和欠采样集成的垃圾网页检测 被引量:17
2
作者 卢晓勇 陈木生 《计算机应用》 CSCD 北大核心 2016年第3期731-734,共4页
为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练... 为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果。 展开更多
关键词 垃圾网页检测 随机森林 欠采样 集成分类器 机器学习
下载PDF
基于内容的搜索引擎垃圾网页检测 被引量:9
3
作者 贾志洋 李伟伟 张海燕 《计算机应用与软件》 CSCD 2009年第11期165-167,共3页
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,... 有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。 展开更多
关键词 搜索引擎 垃圾网页 垃圾网页检测 决策树 C4.5分类算法
下载PDF
三种用于垃圾网页检测的随机欠采样集成分类器 被引量:8
4
作者 陈木生 卢晓勇 《计算机应用》 CSCD 北大核心 2017年第2期535-539,558,共6页
针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样... 针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。 展开更多
关键词 垃圾网页检测 不平衡分类 集成学习 欠采样 分类回归树
下载PDF
基于支持向量机的搜索引擎垃圾网页检测研究 被引量:5
5
作者 贾志洋 李伟伟 +1 位作者 高炜 夏幼明 《云南民族大学学报(自然科学版)》 CAS 2011年第3期173-176,共4页
搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以... 搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器. 展开更多
关键词 垃圾网页 垃圾网页检测 机器学习 网页分类 支持向量机
下载PDF
基于多视图典型相关分析的垃圾网页检测 被引量:3
6
作者 高爽 张化祥 房晓南 《计算机应用研究》 CSCD 北大核心 2013年第3期810-813,共4页
首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数... 首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数据构建分类算法。实验结果表明,将垃圾网页看成两视图数据,并应用多视图典型相关分析技术,可有效提高垃圾网页的识别精度。 展开更多
关键词 垃圾网页检测 典型相关分析 多视图分类 特征抽取
下载PDF
基于免疫克隆特征选择和欠采样集成的垃圾网页检测 被引量:3
7
作者 卢晓勇 陈木生 +1 位作者 吴政隆 张百栈 《计算机应用》 CSCD 北大核心 2016年第7期1899-1903,共5页
为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本... 为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和Ada Boost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。 展开更多
关键词 垃圾网页检测 集成学习 免疫克隆算法 特征选择 欠采样 随机森林
下载PDF
搜索引擎垃圾网页检测模型研究 被引量:1
8
作者 贾志洋 夏幼明 +1 位作者 高炜 王勇刚 《重庆文理学院学报(自然科学版)》 2011年第5期53-58,共6页
搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型... 搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型、结合网页内容特征和链接特征的检测模型以及各种其它类型的检测模型,并对搜索引擎垃圾网页检测的未来研究方向进行了展望. 展开更多
关键词 搜索引擎 垃圾网页 垃圾网页检测 反作弊
下载PDF
基于朴素贝叶斯的伪装型垃圾网页检测 被引量:4
9
作者 王莉丽 朱焱 马永强 《计算机应用》 CSCD 北大核心 2013年第A01期102-103,106,共3页
针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算... 针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算法在同一数据集上进行测试,结果表明,朴素贝叶斯算法的综合评价F1值达到94.64%,明显高于其余几种分类算法,能够有效地检测出伪装型垃圾网页,提高网络信息检索质量。 展开更多
关键词 伪装型垃圾网页检测 机器学习 分类算法 朴素贝叶斯
下载PDF
集成PCA降维与分类算法的垃圾网页检测 被引量:4
10
作者 李法良 朱焱 曾俊东 《计算机应用与软件》 CSCD 北大核心 2014年第10期269-272,共4页
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过... 针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。 展开更多
关键词 垃圾网页 垃圾网页检测 主成分分析 ADABOOST 支持向量机
下载PDF
基于 KPCA 和 RST 的不平衡垃圾网页检测
11
作者 项雪琰 高玲 魏亚利 《山东师范大学学报(自然科学版)》 CAS 2015年第3期10-13,共4页
垃圾网页检测具有重要的现实意义。笔者针对 Webspam 数据集特征维数较高且严重不平衡的特点,从两个方面综合处理数据集。首先利用核主成分分析(KPCA)进行特征提取,选择出最具代表性的特征,实现特征降维,再通过重构数据集(RST)... 垃圾网页检测具有重要的现实意义。笔者针对 Webspam 数据集特征维数较高且严重不平衡的特点,从两个方面综合处理数据集。首先利用核主成分分析(KPCA)进行特征提取,选择出最具代表性的特征,实现特征降维,再通过重构数据集(RST),将数据集重新划分组合成新的训练子集,降低其不平衡度,最后使用处理后的数据子集训练分类器。在数据集 Webspam - UK2007上进行实验。实验结果表明,使用平衡和降维后的数据集训练的分类器,可有效提高垃圾网页的识别精度。 展开更多
关键词 垃圾网页检测 不平衡数据 KPCA 高斯核函数 重构数据集
下载PDF
改进样本加权K近邻分类器用于垃圾网页检测 被引量:1
12
作者 吴俊华 谭博觉 +1 位作者 高切 陈木生 《重庆理工大学学报(自然科学)》 CAS 北大核心 2021年第7期283-290,共8页
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score... 针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。 展开更多
关键词 垃圾网页检测 特征选择 K近邻 不平衡数据分类 代价敏感分析
下载PDF
基于独立成分分析和协同训练的垃圾网页检测 被引量:1
13
作者 高爽 张化祥 房晓南 《山东大学学报(工学版)》 CAS 北大核心 2013年第2期29-34,41,共7页
垃圾网页检测具有重要意义,由于只有少量标记网页,所以可使用半监督协同训练方法检测垃圾网页。将网页特征分为两个视图,即内容视图与链接视图。首先使用独立成分分析分别提取两视图特征的独立成分,然后进行协同训练。实验结果表明,该... 垃圾网页检测具有重要意义,由于只有少量标记网页,所以可使用半监督协同训练方法检测垃圾网页。将网页特征分为两个视图,即内容视图与链接视图。首先使用独立成分分析分别提取两视图特征的独立成分,然后进行协同训练。实验结果表明,该方法可有效提高垃圾网页检测精度,同时验证了对两个视图分别进行独立成分分析相比于其他方法更为有效。 展开更多
关键词 多视图分类 独立成分分析 协同训练 垃圾网页检测
原文传递
主题相似度与链接权重相结合的垃圾网页排序检测 被引量:2
14
作者 韦莎 朱焱 《计算机应用》 CSCD 北大核心 2016年第3期735-739,共5页
针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分... 针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的Spam Factor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点,spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。 展开更多
关键词 垃圾网页检测 链接作弊 排序算法 主题相似度 非信任值传播
下载PDF
混合采样与遗传算法相结合的垃圾网页检测 被引量:4
15
作者 刘寒 《北京邮电大学学报》 EI CAS CSCD 北大核心 2019年第6期111-117,共7页
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个... 垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法. 展开更多
关键词 垃圾网页检测 混合采样 集成分类 遗传算法 极端梯度算法
原文传递
Analysis on the Content Features and Their Correlation of Web Pages for Spam Detection 被引量:1
16
作者 JI Hua ZHANG Huaxiang 《China Communications》 SCIE CSCD 2015年第3期84-94,共11页
In the global information era,people acquire more and more information from the Internet,but the quality of the search results is degraded strongly because of the presence of web spam.Web spam is one of the serious pr... In the global information era,people acquire more and more information from the Internet,but the quality of the search results is degraded strongly because of the presence of web spam.Web spam is one of the serious problems for search engines,and many methods have been proposed for spam detection.We exploit the content features of non-spam in contrast to those of spam.The content features for non-spam pages always possess lots of statistical regularities; but those for spam pages possess very few statistical regularities,because spam pages are made randomly in order to increase the page rank.In this paper,we summarize the regularities distributions of content features for non-spam pages,and propose the calculating probability formulae of the entropy and independent n-grams respectively.Furthermore,we put forward the calculation formulae of multi features correlation.Among them,the notable content features may be used as auxiliary information for spam detection. 展开更多
关键词 web spam content features feature correlation spam detection
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部