期刊文献+

基于RSS的博客采集系统的设计与实现 被引量:8

Design and Realization of Weblog Gathering System Based on RSS
下载PDF
导出
摘要 提出一种基于RSS的博客采集系统实现方案。设计两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。并为算法设计实现一个模型系统。 This paper focuses on how to crawl Weblogs effectively in some sections of Web, and brings forward an arithmetic of the Weblog gathering based on RSS. The authors design two crawlers, one of which is responsible for gathering RSS by performing a breadth - first traversal of the Web, and the other tracks updated Weblogs automatically by performing a vertical search of every RSS. Also A model system is implemented.
出处 《现代图书情报技术》 CSSCI 北大核心 2007年第11期45-48,共4页 New Technology of Library and Information Service
基金 863计划重点基金项目"跨媒体搜索关键技术研究及服务产品开发"(项目编号:2006AA010105)的研究成果之一
关键词 RSS 博客 信息采集 RSS Weblog Information gathering
  • 相关文献

参考文献7

二级参考文献40

  • 1王丽娜.2005:RSS年[J].深圳特区科技,2005(7):82-84. 被引量:1
  • 2信伟华.互联网的新趋势——RSS[J].中国科技信息,2005(10):133-133. 被引量:9
  • 3李红艳,柯于辉.基于互联网的远程控制系统时延补偿的仿真研究[J].微计算机信息,2005,21(5):40-41. 被引量:7
  • 4王小云,张全清.MD_5报文摘要算法的各圈函数碰撞分析[J].计算机工程与科学,1996,18(2):15-22. 被引量:13
  • 5Aggarwal C, AI-Garawi F, Yu P. Intelligent Crawling on the World Wide Web with Arbitrary Predicates. In Proceedings of the 10th International WWW Conference,2001.
  • 6Brin S, Page L, Tile Anatomy of a Large-scale Hypertextual Web Search Engine. In Proceedings of the Seventh International World Wide Web Conference, 1998.
  • 7Diligenti M, Coetzee F M, Lawrence S, et al. Gori Focused Crawling Using Context Graphs. VLDB Conference, 2000.
  • 8Menczer F, Srinivasan G P P, Ruiz M. Evaluating Topic-driven Web Crawlers. In Proceedings of the 24th Annual International ACM/SIGIR Conference,2001.
  • 9Cormen TH,Leiserson CE.Introduction to Algorithms.2nd ed.,Cambridge:MIT Press,2001.221-252.
  • 10Knuth DE.Sorting and Searching,Volume 3 of the Art of Computer Programming.New York:Addison-Wesley,1973.506-549.

共引文献122

同被引文献94

引证文献8

二级引证文献37

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部