期刊文献+

基于主题网络爬虫的不良网页的发现与识别 被引量:2

Unhealthy Webpage Detection Based on Topic-focused Web Crawler
下载PDF
导出
摘要 针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略. Internet is making massive amounts of harmful information, and it is very important to remove as much harmful information as possible to purify the internet. After the analysis of a large amount of harmful information on the internet, the key text features of harmful contents are presented. The novel approach is to find harmful Webpage and site by embedding the harmful text features into the Web spider of the search engine, and generate multi-level results to the users so that they can deal with the harmful Webpage and site to purify the internet environment. The experiments show that the proposed algorithm is capable to detect unhealthy Webpage effectively, and cope with the strategy of anti-keywords filtering from the unhealthy Website.
出处 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期26-30,共5页 Journal of Zhengzhou University:Natural Science Edition
基金 国家自然科学基金资助项目 编号60973120 60903073 国家863计划项目 编号2007AA01Z440 四川省科技攻关项目 编号2008GZ0009
关键词 主题网络爬虫 不良网页 文本特征 topic-focused Web crawler unhealthy Webpage text feature
  • 相关文献

参考文献7

  • 1姜帆 张霁雪.我国政府对互联网的管制.财经界(下半月),2006,(12):75-81.
  • 2张永奎,李东艳.互联网中非法文本特征分析及其属性预选取新方法[J].计算机应用,2004,24(4):113-115. 被引量:7
  • 3陈平,刘晓霞,李亚军.文本分类中改进型互信息特征选择的研究[J].微电子学与计算机,2008,25(6):194-196. 被引量:11
  • 4Page L, Brin S. The PageRank citation ranking: bringing order to the Web[EB/OL]. [2009-11-01]. http..//www, db. stanford, edu/-backup/PageRanksub, ps.
  • 5Arasu A, Novak J, Tomkins A, et al. PageRank computation and the structure of the Web: experiments and algorithms [EB/OL]. [2010-03-01]. http://citeseerx, ist. psu. edu/viewdoc/summary? doi= ? doi= 10.1.1.18. 5264.
  • 6Ester M, Gross M, Kriegel H P. Focused Web crawling: a generic framework for specifying the use interest and for adaptive crawling strategies [EB/OL]. [2010-01-11]. http://www, dbs. informatik, uni-muenchen, de/- ester/papers/ VLDB2001. submitted, pdf.
  • 7Arasu A,Cho J, Garcia-Molina H, et al. Searching the Web[J]. ACM Transactions on Internet Technology, 2002,1 (1) : 1-42.

二级参考文献8

共引文献16

同被引文献10

引证文献2

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部