基于RSS的博客采集系统的设计与实现被引量：8

Design and Realization of Weblog Gathering System Based on RSS

下载PDF

导出

摘要提出一种基于RSS的博客采集系统实现方案。设计两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。并为算法设计实现一个模型系统。 This paper focuses on how to crawl Weblogs effectively in some sections of Web, and brings forward an arithmetic of the Weblog gathering based on RSS. The authors design two crawlers, one of which is responsible for gathering RSS by performing a breadth - first traversal of the Web, and the other tracks updated Weblogs automatically by performing a vertical search of every RSS. Also A model system is implemented.

作者刘莉肖诗斌王涛施水才

机构地区北京信息科技大学中文信息处理研究中心北京拓尔思信息技术有限公司

出处《现代图书情报技术》 CSSCI 北大核心 2007年第11期45-48,共4页 New Technology of Library and Information Service

基金 863计划重点基金项目"跨媒体搜索关键技术研究及服务产品开发"(项目编号:2006AA010105)的研究成果之一

关键词 RSS 博客信息采集 RSS Weblog Information gathering

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1张道银,蔡瑞英.RSS技术及其应用研究[J].微计算机信息,2006,22(07X):281-283. 被引量：27
2Najork M, Heydon A. High - Performance Web Crawling [ M ]. Handbook of Massive Data Sets, Kluwer Academic Publishers Inc, 2001:25 -45.
3Heydon A, Najork M. Mercator:A Scalable, Entensible Web Crawler[J]. World Wide Web,1999(2) :219 -229.
4李盛韬,赵章界,余智华.基于主题的Web信息采集系统的设计与实现[J].计算机工程,2003,29(17):102-104. 被引量：23
5李晓明,凤旺森.两种对URL的散列效果很好的函数[J].软件学报,2004,15(2):179-184. 被引量：45
6崔国华,周荣华,粟栗.关于MD5强度分析的研究[J].计算机工程与科学,2007,29(1):45-48. 被引量：14
7郭红艳,杨波,金蓓弘.高效DOM实现的技术研究[J].计算机科学,2006,33(6):274-277. 被引量：18

二级参考文献40

1王丽娜.2005:RSS年[J].深圳特区科技,2005(7):82-84. 被引量：1
2信伟华.互联网的新趋势——RSS[J].中国科技信息,2005(10):133-133. 被引量：9
3李红艳,柯于辉.基于互联网的远程控制系统时延补偿的仿真研究[J].微计算机信息,2005,21(5):40-41. 被引量：7
4王小云,张全清.MD_5报文摘要算法的各圈函数碰撞分析[J].计算机工程与科学,1996,18(2):15-22. 被引量：13
5Aggarwal C, AI-Garawi F, Yu P. Intelligent Crawling on the World Wide Web with Arbitrary Predicates. In Proceedings of the 10th International WWW Conference,2001.
6Brin S, Page L, Tile Anatomy of a Large-scale Hypertextual Web Search Engine. In Proceedings of the Seventh International World Wide Web Conference, 1998.
7Diligenti M, Coetzee F M, Lawrence S, et al. Gori Focused Crawling Using Context Graphs. VLDB Conference, 2000.
8Menczer F, Srinivasan G P P, Ruiz M. Evaluating Topic-driven Web Crawlers. In Proceedings of the 24th Annual International ACM/SIGIR Conference,2001.
9Cormen TH,Leiserson CE.Introduction to Algorithms.2nd ed.,Cambridge:MIT Press,2001.221-252.
10Knuth DE.Sorting and Searching,Volume 3 of the Art of Computer Programming.New York:Addison-Wesley,1973.506-549.

共引文献122

1吕喆.MD5身份鉴别及在线房屋交易系统的应用[J].网络安全技术与应用,2008(8):44-46. 被引量：1
2周泓.基于RSS的高校网络教育资源系统研究[J].电脑学习,2009(6):74-77.
3张勇波,宋晓丽.RSS技术及其在高校讲座资源平台中的应用研究[J].微型电脑应用,2011(7):57-58.
4杨清虎.关于MD5摘要算法认识的几个误区[J].保密科学技术,2012(6):61-63. 被引量：1
5张智江,王志军,张尼.一种可应用于大流量环境的双层散列算法研究[J].电信科学,2011,27(S1):280-284.
6梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
7燕彩蓉,彭勤科,沈钧毅,武红江.基于两阶段散列的Web集群服务器内容分配研究[J].西安交通大学学报,2005,39(8):812-815. 被引量：5
8李玉玲.厦门高校学生对本地就业意愿的调查[J].中国大学生就业,2005(16):37-38. 被引量：1
9詹川,卢显良,侯孟书,邢茜.一种快速的基于URL的垃圾邮件过滤系统[J].计算机科学,2005,32(8):55-56. 被引量：3
10徐凤刚,许俊奎,潘清.可扩展Hash方法的一种改进算法[J].计算机工程与应用,2006,42(4):95-97. 被引量：3

同被引文献94

1邱均平,徐蓓,李江.BlogRank算法及其在图书馆博客中的应用[J].图书情报知识,2008,25(1):68-71. 被引量：16
2潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
3王林.搜索引擎的原理和发展[J].图书馆理论与实践,2004(4):37-38. 被引量：17
4杨雄标.试论网络论坛信息的开发与利用[J].情报科学,2004,22(8):960-963. 被引量：11
5李子臣 ,王晓丽 .引擎竞争的两大焦点：RSS技术和桌面搜索模式[J].中国信息导报,2004(10):54-56. 被引量：10
6孙瑾.网络信息资源评价研究综述[J].大学图书馆学报,2005,23(1):7-13. 被引量：46
7杨道玲.Web资源保存的热点问题管窥[J].图书情报工作,2005,49(3):91-94. 被引量：11
8易海燕.新闻网站:用好RSS聚合新闻这把双刃剑[J].中国传媒科技,2005(6):44-47. 被引量：2
9李武.开放存取出版的两种主要实现途径[J].大学图书馆学报,2005,23(4):58-63. 被引量：121
10江泽文,李桂蓉.RSS:即将到来的互联网新革命[J].传媒观察,2005(9):46-47. 被引量：5

引证文献8

1张立彬,杨军花,翟春红,王璐.基于RSS的搜索引擎技术及其发展趋向探析[J].情报科学,2009,27(2):183-189. 被引量：14
2常娥,袁曦临.网络原生数字资源管理问题探析[J].图书馆建设,2009(5):27-30. 被引量：15
3陈红星,张淑芳.网络原生数字资源建设的必要性和可行性[J].图书馆学研究,2010(4):47-50. 被引量：7
4陈红星,张淑芳,郑琳.我国网络原生数字资源研究现状述评[J].图书情报工作,2010,54(13):37-40. 被引量：5
5吕艳飞.论图情博客作为高校图书馆馆藏资源的必要性和可行性[J].情报探索,2012(1):83-85.
6李澍.网络原生数字资源的类型、特点及利用[J].农业图书情报学刊,2012,24(6):35-37.
7陈宁,徐志明.Web3.0时代网络原生数字资源开发利用可行性分析[J].河南图书馆学刊,2014,34(12):100-102. 被引量：1
8满振良.信息聚合技术的应用及发展状况[J].内蒙古科技与经济,2021(24):74-75.

二级引证文献37

1靳辉.基于RSS技术的图书馆一站式信息服务[J].黑龙江史志,2010(23):93-94. 被引量：2
2潘冰,徐亮亮.中文博客搜索引擎研究[J].计算机工程与设计,2010,31(8):1718-1721. 被引量：3
3陈红星,张淑芳.网络原生数字资源:概念、特征与类型[J].图书馆建设,2010(5):1-4. 被引量：20
4莫再英.数字馆藏建设中关于网络原生数字资源的组织研究[J].现代情报,2010,30(5):67-69. 被引量：7
5陈红星,张淑芳,郑琳.我国网络原生数字资源研究现状述评[J].图书情报工作,2010,54(13):37-40. 被引量：5
6陈红星,肖时占.网络原生数字资源社会价值刍论——从价值哲学角度分析[J].情报科学,2010,28(8):1136-1139. 被引量：4
7肖离离.浅议基于RSS技术的博客搜索引擎[J].电子商务,2011,12(9):55-57.
8蔡屏.网络环境下未来图书馆的服务定位——信息策展人[J].情报资料工作,2011,32(5):61-64. 被引量：5
9刘旭东.RSS技术在数字图书馆知识服务中的应用[J].情报科学,2011,29(11):1684-1687. 被引量：7
10刘军.微内容分层聚合及在数字参考咨询中的应用[J].图书情报工作,2011,55(23):106-109. 被引量：4

1小新.对RSS评分快速找到热门文章[J].电脑爱好者,2009(9):40-40.
2刘菲菲.省时省力MSN个性订阅新鲜资讯不用找[J].网络与信息,2010,24(8):62-62.
3刘文彬.Klipfolio“身段玲珑”的Blog阅读器[J].计算机应用文摘,2004(18):65-65.
4杜恒.图的广度优先遍历的算法实现[J].南阳师范学院学报,2012,11(12):26-29. 被引量：3
5王鹏程,李光杰.基于队列的广度优先遍历算法设计与实现[J].计算机光盘软件与应用,2014,17(2):116-116.
6李元臣,刘维群,徐凯声.一种基于广度优先遍历的网络拓扑发现算法及其自适应研究[J].武汉理工大学学报（交通科学与工程版）,2005,29(3):481-484. 被引量：8
7周明元,曹中华.一种字符孔洞数的求法[J].计算机与现代化,2005(9):5-7. 被引量：2
8李亮,梅松.基于邻接表存储结构的遍历策略探讨[J].无线互联科技,2012,9(3):61-62.
9高红军.普通树非递归遍历算法的实现[J].信息技术,2011,35(3):122-124. 被引量：1
10翁明辉.用RSS订阅博客日志[J].计算机应用文摘,2007(03S):107-107.

现代图书情报技术

2007年第11期

浏览历史

内容加载中请稍等...

基于RSS的博客采集系统的设计与实现被引量：8

参考文献7

二级参考文献40

共引文献122

同被引文献94

引证文献8

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于RSS的博客采集系统的设计与实现 被引量：8

参考文献7

二级参考文献40

共引文献122

同被引文献94

引证文献8

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于RSS的博客采集系统的设计与实现被引量：8