期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
Co-Training——内容和链接的Web Spam检测方法 被引量:4
1
作者 魏小娟 李翠平 陈红 《计算机科学与探索》 CSCD 2010年第10期899-908,共10页
Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和... Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。 展开更多
关键词 web spam检测方法 内容作弊 链接作弊 Co—Training算法
下载PDF
Web Spam技术研究综述(英文) 被引量:1
2
作者 张彬 蒋涛 徐雨明 《衡阳师范学院学报》 2008年第6期131-136,共6页
Web spamming是指故意误导搜索引擎的行为,它使得一些页面的排序值比它的应有值更高。最近几年,随着webspam的急剧增加,使得搜索引擎的搜索结果也降低了一些等级。文章首先讨论了Spam的基本概念和影响,然后详细地分析了当前的各种Spamm... Web spamming是指故意误导搜索引擎的行为,它使得一些页面的排序值比它的应有值更高。最近几年,随着webspam的急剧增加,使得搜索引擎的搜索结果也降低了一些等级。文章首先讨论了Spam的基本概念和影响,然后详细地分析了当前的各种Spamming技术,包括termspaming、link spamming和隐藏技术三种类型。我们相信本文的分析对于开发恰当的反措施是非常有用的。 展开更多
关键词 web spamMING 链接分析 PAGE RANK HITS
下载PDF
降级Web Spam的可信度链接分析算法
3
作者 丁岳伟 王虎林 《计算机工程与设计》 CSCD 北大核心 2009年第10期2350-2353,共4页
以降级WebSpam算法为研究内容,在分析TrustRank等算法的优点和不足的基础上,提出了时间可信度的概念刻画不同时间下页面的可信度,引入了CreditRank算法来计算页面的可信度。同时,引入了LinkRank算法来计算基于链接的页面质量,整合权威... 以降级WebSpam算法为研究内容,在分析TrustRank等算法的优点和不足的基础上,提出了时间可信度的概念刻画不同时间下页面的可信度,引入了CreditRank算法来计算页面的可信度。同时,引入了LinkRank算法来计算基于链接的页面质量,整合权威度和可信度。定性分析和实验结果表明,CreditRank算法扩展了种子的利用范围,提高了反Spam算法的覆盖度,LinkRank算法能够解决"无辜页面"问题,并取得很好的降级Spam的效果。 展开更多
关键词 可信度 TrustRank LinkRank CreditRank web spam
下载PDF
一种反Web Spam页面的方法
4
作者 蒋涛 张彬 《微型电脑应用》 2007年第4期23-25,69,共3页
最近,spam页面急剧增加,这极大的影响了搜索引擎的精度和效率。如何抵御spam页面已经成为一个非常重要的问题。文章合并了基于内容来侦测spam页面和基于链接spam侦测spam页面的方法,从而提出了一个两步的侦测spam页面的方法。第一步是... 最近,spam页面急剧增加,这极大的影响了搜索引擎的精度和效率。如何抵御spam页面已经成为一个非常重要的问题。文章合并了基于内容来侦测spam页面和基于链接spam侦测spam页面的方法,从而提出了一个两步的侦测spam页面的方法。第一步是一个过滤的步骤,用于生成spam页面的候选列表;第二步,通过一个自动的分类器从候选页面中侦测出最终的spam页面。 展开更多
关键词 垃圾网页 TrustRank 链接spam
下载PDF
一种反Web Spam页面的方法
5
作者 蒋涛 张彬 《计算机与数字工程》 2007年第11期76-78,152,共4页
最近,spam页面急剧增加,这极大的影响了搜索引擎的精度和效率。如何抵御spam页面已经成为一个非常重要的问题。合并基于内容来侦测spam页面和基于链接spam侦测spam页面的方法,提出一个两步侦测spam页面的方法。第一步是一个过滤的步骤,... 最近,spam页面急剧增加,这极大的影响了搜索引擎的精度和效率。如何抵御spam页面已经成为一个非常重要的问题。合并基于内容来侦测spam页面和基于链接spam侦测spam页面的方法,提出一个两步侦测spam页面的方法。第一步是一个过滤的步骤,用于生成spam页面的候选列表;第二步,通过一个自动的分类器从候选页面中侦测出最终的spam页面。 展开更多
关键词 垃圾网页 TrustRank 链接spam
下载PDF
基于关联属性主成分分析的SVM技术应用于Web Spam分类
6
作者 韩缤 计华 《信息技术与信息化》 2016年第4期65-69,共5页
垃圾网页(Web Spam)的大量存在严重降低了搜索引擎的检索效率。针对垃圾网页内容特征、链接特征的高维性及特征属性间的冗余性,本研究先对垃圾网页数据集中具有较高相关度的关联属性进行分组主成分分析(PCA),并选取最高贡献率的第一主... 垃圾网页(Web Spam)的大量存在严重降低了搜索引擎的检索效率。针对垃圾网页内容特征、链接特征的高维性及特征属性间的冗余性,本研究先对垃圾网页数据集中具有较高相关度的关联属性进行分组主成分分析(PCA),并选取最高贡献率的第一主成分的主要属性,从而减少冗余。再使用支持向量机(SVM)分类模型对处理后的数据集进行分类实验。实验结果表明,本文提出的方法可有效提高SVM对垃圾网页的分类性能。 展开更多
关键词 垃圾网页 关联属性 主成分分析 支持向量机
下载PDF
基于SMOTE和随机森林的Web spam检测 被引量:11
7
作者 房晓南 张化祥 高爽 《山东大学学报(工学版)》 CAS 北大核心 2013年第1期22-27,33,共7页
Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先使用SMOTE过抽样方法平衡数据集,再利用随机森林算法训练分类... Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先使用SMOTE过抽样方法平衡数据集,再利用随机森林算法训练分类器。通过对常见的单分类器和集成学习分类器的对比实验,发现SMOTE+RF方法表现较为突出,并根据实验结果优化了方法中的重要参数,对使用SMOTE方法后AUC值提高的原因进行了分析。在WEBSPAM UK2007数据集上的实验证明,该方法可以显著提高分类器的分类效果,其AUC值已经超过了Web Spam Challenge 2008上的最好成绩。 展开更多
关键词 集成学习 搜索引擎垃圾网页 随机森林 SMOTE 搜索引擎作弊
原文传递
Analysis on the Content Features and Their Correlation of Web Pages for Spam Detection 被引量:1
8
作者 JI Hua ZHANG Huaxiang 《China Communications》 SCIE CSCD 2015年第3期84-94,共11页
In the global information era,people acquire more and more information from the Internet,but the quality of the search results is degraded strongly because of the presence of web spam.Web spam is one of the serious pr... In the global information era,people acquire more and more information from the Internet,but the quality of the search results is degraded strongly because of the presence of web spam.Web spam is one of the serious problems for search engines,and many methods have been proposed for spam detection.We exploit the content features of non-spam in contrast to those of spam.The content features for non-spam pages always possess lots of statistical regularities; but those for spam pages possess very few statistical regularities,because spam pages are made randomly in order to increase the page rank.In this paper,we summarize the regularities distributions of content features for non-spam pages,and propose the calculating probability formulae of the entropy and independent n-grams respectively.Furthermore,we put forward the calculation formulae of multi features correlation.Among them,the notable content features may be used as auxiliary information for spam detection. 展开更多
关键词 web spam content features feature correlation spam detection
下载PDF
基于Web结构挖掘的搜索引擎作弊检测方法 被引量:4
9
作者 冉丽 何毅舟 许龙飞 《计算机应用》 CSCD 北大核心 2004年第10期158-160,共3页
搜索引擎作弊行为从搜索引擎优化中演变而来,却对网络发展带来负面影响。通过构造站内站外精简模型用于判断几类作弊行为,得出PageRank改进算法中惩罚因子的公式和其中三个函数的特征,展望了搜索引擎作弊检测方法的发展前景。
关键词 web结构挖掘 搜索引擎作弊 精简模型 PAGERANK
下载PDF
一个基于Web的电子邮件收发与过滤系统WMFS的设计开发 被引量:3
10
作者 陆建德 《计算机工程与应用》 CSCD 北大核心 2002年第24期182-185,共4页
详细讨论了基于Web的电子邮件收发与过滤系统WMFS的设计思想和开发方法,对基于Web的电子邮件收发系统设计、邮件的收发与存储管理、邮件过滤器设计等具体实现进行了讨论。
关键词 web WMFS 设计 开发 电子邮件收发系统 邮件服务器
下载PDF
Efficient Spam Filtering System Based on Smart Cooperative Subjective and Objective Methods
11
作者 Samir A. Elsagheer Mohamed 《International Journal of Communications, Network and System Sciences》 2013年第2期88-99,共12页
Most of the spam filtering techniques are based on objective methods such as the content filtering and DNS/reverse DNS checks. Recently, some cooperative subjective spam filtering techniques are proposed. Objective me... Most of the spam filtering techniques are based on objective methods such as the content filtering and DNS/reverse DNS checks. Recently, some cooperative subjective spam filtering techniques are proposed. Objective methods suffer from the false positive and false negative classification. Objective methods based on the content filtering are time consuming and resource demanding. They are inaccurate and require continuous update to cope with newly invented spammer’s tricks. On the other side, the existing subjective proposals have some drawbacks like the attacks from malicious users that make them unreliable and the privacy. In this paper, we propose an efficient spam filtering system that is based on a smart cooperative subjective technique for content filtering in addition to the fastest and the most reliable non-content-based objective methods. The system combines several applications. The first is a web-based system that we have developed based on the proposed technique. A server application having extra features suitable for the enterprises and closed work groups is a second part of the system. Another part is a set of standard web services that allow any existing email server or email client to interact with the system. It allows the email servers to query the system for email filtering. They can also allow the users via the mail user agents to participate in the subjective spam filtering problem. 展开更多
关键词 ANTI-spam SYSTEM Objective spam FILTERING Cooperative SUBJECTIVE spam FILTERING web Application web Services
下载PDF
基于单页语义特征的垃圾网页检测
12
作者 陈木生 高斐 吴俊华 《电子技术应用》 2023年第6期24-29,共6页
为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Ve... 为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Vec词向量和词移距离计算3个单页语义相似度特征;然后将单页语义相似度特征融合单页统计特征,使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明,基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%,比对照方法提高4%左右。 展开更多
关键词 垃圾网页检测 特征提取 记忆化搜索 隐含狄利克雷分布 词向量 词移距离 随机森林
下载PDF
基于目的分析的作弊页面分类 被引量:7
13
作者 余慧佳 刘奕群 +2 位作者 张敏 马少平 茹立云 《中文信息学报》 CSCD 北大核心 2009年第2期95-101,共7页
随着互联网的飞速发展,因网络作弊而产生的垃圾页面越来越多,严重影响了搜索引擎的检索效率和用户体验。反作弊已经成为搜索引擎所面临的最重要挑战之一。但目前的反作弊研究大都是基于页面内容或链接特征的,没有一个通用可行的识别方... 随着互联网的飞速发展,因网络作弊而产生的垃圾页面越来越多,严重影响了搜索引擎的检索效率和用户体验。反作弊已经成为搜索引擎所面临的最重要挑战之一。但目前的反作弊研究大都是基于页面内容或链接特征的,没有一个通用可行的识别方法。本文主要基于作弊目的的分析,给出作弊页面另一种体系的分类,为基于目的的作弊页面识别起到良好的导向作用。 展开更多
关键词 计算机应用 中文信息处理 网络作弊 目的分析 作弊页面分类
下载PDF
基于内容的搜索引擎垃圾网页检测 被引量:9
14
作者 贾志洋 李伟伟 张海燕 《计算机应用与软件》 CSCD 2009年第11期165-167,共3页
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,... 有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。 展开更多
关键词 搜索引擎 垃圾网页 垃圾网页检测 决策树 C4.5分类算法
下载PDF
基于随机森林和欠采样集成的垃圾网页检测 被引量:17
15
作者 卢晓勇 陈木生 《计算机应用》 CSCD 北大核心 2016年第3期731-734,共4页
为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练... 为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果。 展开更多
关键词 垃圾网页检测 随机森林 欠采样 集成分类器 机器学习
下载PDF
基于支持向量机的搜索引擎垃圾网页检测研究 被引量:5
16
作者 贾志洋 李伟伟 +1 位作者 高炜 夏幼明 《云南民族大学学报(自然科学版)》 CAS 2011年第3期173-176,共4页
搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以... 搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器. 展开更多
关键词 垃圾网页 垃圾网页检测 机器学习 网页分类 支持向量机
下载PDF
三种用于垃圾网页检测的随机欠采样集成分类器 被引量:8
17
作者 陈木生 卢晓勇 《计算机应用》 CSCD 北大核心 2017年第2期535-539,558,共6页
针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样... 针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。 展开更多
关键词 垃圾网页检测 不平衡分类 集成学习 欠采样 分类回归树
下载PDF
基于多视图典型相关分析的垃圾网页检测 被引量:3
18
作者 高爽 张化祥 房晓南 《计算机应用研究》 CSCD 北大核心 2013年第3期810-813,共4页
首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数... 首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数据构建分类算法。实验结果表明,将垃圾网页看成两视图数据,并应用多视图典型相关分析技术,可有效提高垃圾网页的识别精度。 展开更多
关键词 垃圾网页检测 典型相关分析 多视图分类 特征抽取
下载PDF
基于免疫克隆特征选择和欠采样集成的垃圾网页检测 被引量:3
19
作者 卢晓勇 陈木生 +1 位作者 吴政隆 张百栈 《计算机应用》 CSCD 北大核心 2016年第7期1899-1903,共5页
为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本... 为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和Ada Boost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。 展开更多
关键词 垃圾网页检测 集成学习 免疫克隆算法 特征选择 欠采样 随机森林
下载PDF
搜索引擎垃圾网页检测模型研究 被引量:1
20
作者 贾志洋 夏幼明 +1 位作者 高炜 王勇刚 《重庆文理学院学报(自然科学版)》 2011年第5期53-58,共6页
搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型... 搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型、结合网页内容特征和链接特征的检测模型以及各种其它类型的检测模型,并对搜索引擎垃圾网页检测的未来研究方向进行了展望. 展开更多
关键词 搜索引擎 垃圾网页 垃圾网页检测 反作弊
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部