期刊文献+

网络爬虫在Web信息搜索与数据挖掘中应用 被引量:37

Application of WebCrawler in information search and data mining
下载PDF
导出
摘要 分析了万维网不良网络信息对网络文化安全带来的挑战,提出了Web信息搜索与数据挖掘体系结构,并介绍了该体系结构中的关键技术和运行原理。分析了普通爬虫所实现的功能和不足之后,重点论述了该爬虫的工作原理、实现方式和性能分析以及该爬虫不同于其它爬虫的功能和在Web信息搜索与数据挖掘体系中应用。通过试验测试表明,该爬虫能够很好地获取万维网上的各种信息资源,有助于网络文化内容监测与管理。 The challenges are analyzed,which that the adverse information on world wide web has brought to network security and web culture.The key technical and operational principles of the architecture in web information search and data-mining are introduced.After the analysis of the functions and disabilities of ordinary reptiles,the principle,implementation,functions,and performance of WebCrawler are elaborated.In addition,the application of WebCrawler in web information search and data-mining system are discussed in detail.Passed tests show that the WebCrawler can access a good range of information on the world wide web resources and contribute to network monitoring and management of cultural content.
出处 《计算机工程与设计》 CSCD 北大核心 2009年第24期5658-5662,共5页 Computer Engineering and Design
基金 "十一五"国家科技支撑计划重点基金项目(2006BAK11B01)
关键词 WEB搜索 WEB挖掘 网络爬虫 体系结构 应用 web search web-mining WebCrawler architecture application
  • 相关文献

参考文献11

二级参考文献60

  • 1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报(自然科学版),2005,45(S1):1896-1902. 被引量:28
  • 2印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量:53
  • 3赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量:11
  • 4陈刚,卢炎生.BBS搜索引擎设计与实现[J].微计算机信息,2006,22(06X):34-36. 被引量:4
  • 5林海霞,原福永,陈金森,刘俊峰.一种改进的主题网络蜘蛛搜索算法[J].计算机工程与应用,2007,43(10):174-176. 被引量:18
  • 6Heaton J 童兆丰 李纯 刘润杰 译.网络机器人java编程指南[M].北京:电子工业出版社,2001.211-237.
  • 7Shkapenyuk V, Suel T. Design and Implementation of a High- performance Distributed Web Crawler. In Proceedings of the 18th International Conference on Data Engineering (ICDE'02), San Jose, CA, 2002:357-368
  • 8Cho J, Garcia-Molina H, Page L. Efficient Crawling Through Url Ordering. In 7^th Int. World Wide Web Conference, 1998
  • 9Chakrabarti S, van den Berg M, Dom B. Focused Crawling: A New Approach to Topic-specific Web Resource Discovery. In Proc. of the 8^th Int. World Wide Web Conference (WWW8), 1999
  • 10Rennie J, McCallum A. Using Reinforcement Learning to Spider the Web Efficiently. In Proc. of the Int. Conf. on Machine Learning (ICML),1999

共引文献154

同被引文献237

引证文献37

二级引证文献158

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部