期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
搜索服务中基于云计算的垃圾网页识别研究
1
作者 李艳平 徐雅斌 陈俊伊 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第S1期249-253,共5页
为了快速、有效地对垃圾网页进行识别,提出了一种基于云计算平台的垃圾网页识别方案.在Hadoop分布式平台下构建一个基于页面内容和连接结构的支持向量机分类器,对垃圾网页进行识别,通过对数据进行分析.结果表明:垃圾网页的识别准确率较... 为了快速、有效地对垃圾网页进行识别,提出了一种基于云计算平台的垃圾网页识别方案.在Hadoop分布式平台下构建一个基于页面内容和连接结构的支持向量机分类器,对垃圾网页进行识别,通过对数据进行分析.结果表明:垃圾网页的识别准确率较高,处理时间随着集群节点数的增加而明显减少. 展开更多
关键词 搜索服务 垃圾网页识别 支持向量机 云计算 HADOOP MAPREDUCE
原文传递
搜索引擎应对垃圾网页的技术研究
2
作者 李驰 李林 《电脑知识与技术(过刊)》 2015年第9X期20-22,共3页
介绍了常见的垃圾网页作弊方式。并对垃圾网页的识别方式进行了详细分析,包括基于网页内容的垃圾网页识别技术、基于链接结构来识别垃圾网页的Trust Rank算法以及目前比较流行的用于垃圾页面识别的机器学习分类法。其中采用Trust Rank... 介绍了常见的垃圾网页作弊方式。并对垃圾网页的识别方式进行了详细分析,包括基于网页内容的垃圾网页识别技术、基于链接结构来识别垃圾网页的Trust Rank算法以及目前比较流行的用于垃圾页面识别的机器学习分类法。其中采用Trust Rank算法与机器学习分类法来识别垃圾网页具有一定的通用性且具有与作弊方式无关的特性。最后提出了一些基于用户行为模式来识别垃圾网页的新思路。 展开更多
关键词 搜索引擎 垃圾网页 网页作弊方式 垃圾网页识别
下载PDF
基于改进的LogitBoost算法的垃圾网页检测研究
3
作者 周爽 王洪钰 +2 位作者 李晓 孙磊 庞建萍 《科技视界》 2015年第27期29-30,共2页
实现垃圾网页的有效检测可以有效提高搜索引擎检索质量,促使网页的设计向着面向用户的方向发展。由于垃圾网页是面向搜索引擎设计的,正常网页是面向用户设计的,因而两者在特征方面存在众多区别,通过机器学习方法可以根据垃圾网页与正常... 实现垃圾网页的有效检测可以有效提高搜索引擎检索质量,促使网页的设计向着面向用户的方向发展。由于垃圾网页是面向搜索引擎设计的,正常网页是面向用户设计的,因而两者在特征方面存在众多区别,通过机器学习方法可以根据垃圾网页与正常网页在特征方面的不同对垃圾网页进行有效识别。通过对常见单分类器和集成学习分类器处理垃圾网页数据集的对比实验,发现集成学习方法 logitboost较为突出,所得结果明显优于单一分类器和常用集成学习算法,所得结果也更接近真实值,并通过对logitboost所用的预处理方法和基分类器进行改进,发现用resample对垃圾网页进行预处理,以REPTree算法为基分类器的logitboost算法对垃圾网页数据集的分类有较高的精确度。 展开更多
关键词 垃圾网页识别 集成学习 WEKA logitboost
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部