一种通用Web信息采集系统的设计与实现被引量：11

Design and Realization of a General Web Crawler

下载PDF

导出

摘要介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。 The paper introduces the design and realization of a general Web crawler, presents the whole structure of the system, analyzes gather, control and data publish, discusses the practical applications. The experiment proves that the system can automate crawl Internet information and provide sufficiency support for following information applications, and have nice generality.

作者吴丽辉王斌余智华

机构地区中国科学院计算技术研究所软件研究室中国科学院研究生院

出处《计算机工程》 EI CAS CSCD 北大核心 2005年第3期123-124,194,共3页 Computer Engineering

关键词 WEB信息通用性采集系统服务器信息发布信息采集设计证明实际系统总体结构 Web crawler Information processing Search engine

分类号 TP393 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1Cho J, Garcia-Molina H. Paraller Crawlers. Proceedings of the Eleventh International Conference on World Wide Web, 2002-05
2Aggarwal C, Al-Garawi F, Yu P. Intelligent Crawling on the World Wide Web with Arbitrary Predicates. In: Proceedings of the 10th International WWW Conference, 2003
3Menczer F, Pant G, Srinivasan P, et al. Evaluating Topic-Driven WebCrawlers. In: Proceedings of the 24th Annual International ACM/SIGIRConference, 2002
4Chakrabarti S, Van Den Berg M, Dom B. Focused Crawling: A New Approach to Topic-specific Web Resource Discovery. In: Proceedings of the 8th International WWW Conference, Toronto, Canada, 1999-05

同被引文献86

1杜成龙,龙绍军.分布式系统开发优化策略[J].电脑知识与技术（过刊）,2007(18):1607-1608. 被引量：2
2刘彬,高福安.政府应对危机的信息资源管理[J].中国传媒大学学报（自然科学版）,2003,11(3):41-47. 被引量：20
3惠志斌,何小菁,吴建华.试论国家综合性危机信息管理系统的建立[J].情报杂志,2004,23(8):56-58. 被引量：20
4张实,肖卫东,唐九阳.基于Web Services的异构空间信息共享[J].计算机应用研究,2004,21(10):185-187. 被引量：11
5姚海法.数字图书馆网络信息资源采集与整合研究[J].情报理论与实践,2004,27(6):605-608. 被引量：30
6杜义华,及俊川.通用互联网信息采集系统的设计与初步实现[J].计算机应用研究,2005,22(1):187-189. 被引量：9
7唐钧.建构全面整合的政府公共危机信息管理系统[J].信息化建设,2004(10):12-15. 被引量：23
8林佳,李京华."CALIS重点学科网络资源导航系统资源选择与评估标准"的建立与思考[J].大学图书馆学报,2005,23(1):38-41. 被引量：14
9崔杰锋,卫学杰,康凤雷.基于B/S三层模式的应用开发设计[J].齐齐哈尔大学学报（自然科学版）,2005,21(1):46-49. 被引量：10
10贾红宇,石磊,赵轶.基于B/S结构网上学籍管理系统的设计与实现[J].科技与管理,2005,7(2):151-152. 被引量：4

引证文献11

1李海英.网络时代信息资源的采集、描述与质量控制——以东北林业大学重点学科导航库为例[J].图书馆学研究,2006(3):57-59. 被引量：12
2杨艺,代春艳.基于IOCC的定题Web信息发现机制研究[J].计算机工程与设计,2008,29(22):5906-5909. 被引量：1
3刘忠强,柳长安,李国栋.多策略网络信息采集系统的设计与实现[J].中国电力教育,2007(S3):225-227. 被引量：1
4杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
5金岳富,范剑英,冯扬.分布式Web信息采集系统的设计与实现[J].哈尔滨理工大学学报,2010,15(1):116-119. 被引量：7
6董亚则,王国春,张丽娟,彭馨仪.基于Web的个性化就业信息服务系统设计[J].长春工业大学学报,2011,32(6):548-553.
7王传清,毕强.政府危机信息管理联动系统模型构建[J].图书情报工作,2012,56(17):31-36. 被引量：12
8袁威,薛安荣,周小梅.基于Nutch的分布式爬虫的优化研究[J].无线通信技术,2014,23(3):44-47. 被引量：7
9张建营,王嘉梅,汤雪,胡刚.彝文网页信息采集技术研究[J].网络安全技术与应用,2014(12):6-8. 被引量：3
10刘志明,王琨.舆情监测系统中信息采集模块的设计与实现[J].南华大学学报（自然科学版）,2015,29(2):102-107.

二级引证文献80

1金科,孙金立,井晓梅,俞洁.学科网络资源导航数据库质量控制体系研究[J].情报杂志,2007,26(2):138-139. 被引量：5
2邹丽红,方胜华,刘金.网络学科资源的获取与学科信息导航库的构建[J].中国信息导报,2007(3):33-35. 被引量：5
3康微,孙成艺.WEB2.0技术对学科导航库建设在学术资源上的贡献[J].新世纪图书馆,2007(2):79-81. 被引量：9
4韩群鑫.网络信息资源采集研究[J].农业网络信息,2007(4):63-66. 被引量：4
5何义珠.基于农村信息化的信息资源整合策略研究[J].晋图学刊,2009(1):9-11. 被引量：4
6何义珠.丽水地区农业信息资源整合方案设计[J].情报探索,2009(3):82-84.
7何义珠,李露芳.基于农村文化信息化的农业信息资源整合研究[J].图书馆学刊,2009,31(12):31-32. 被引量：5
8何义珠,李露芳.农业信息资源整合框架研究——以丽水农村文化信息化为例[J].情报探索,2010(4):79-81. 被引量：4
9杨艺,唐灿,杨琛.一种启发式Web信息检索方法[J].重庆工商大学学报（自然科学版）,2010,27(2):139-144. 被引量：1
10朱林,吴兆文,程志刚.重点学科信息资源保障整合创新[J].图书馆学研究,2010(4):51-54. 被引量：3

1钱力,齐林海,马素霞.基于ASP.NET 2.0 AJAX的Web信息采集系统的设计与实现[J].中国电力教育,2007(S3):241-243. 被引量：3
2涂波,王忠民.智能化Web信息采集系统的研究与设计[J].情报杂志,2005,24(3):48-49. 被引量：1
3欧歌,赵恒永.一种专题Web信息采集系统的设计方案[J].电脑与信息技术,2004,12(6):52-55. 被引量：2
4邓宇,夏红霞.Web信息采集系统的设计与实现[J].微计算机信息,2009,25(24):83-85. 被引量：2
5张华杰,汪晓晨.基于W7100A的实时高速物联网采集控制器的实现[J].电脑与电信,2013(8):49-51.
6林欢欢,庄福振,王文杰,史忠植.一种新型网络信息采集器的研究[J].计算机仿真,2009,26(5):129-133. 被引量：3
7朱倪瑶,赵奎.海表温度信息采集器运行原理探究[J].科技创新与应用,2015,5(15):27-29.
8莫桂江.一种基于51单片机的物联网信息采集器的设计与实现[J].制造业自动化,2010,32(12):9-11. 被引量：5
9倪颖杰,李弢,王晓敏,李祖华,郑翔.大数据中心建设设想与实践[J].高性能计算技术,2014,0(2):56-59.
10仲志燕.基于ARM内核的便携式农田信息采集器[J].电脑知识与技术,2010,6(9):7170-7172. 被引量：2

计算机工程

2005年第3期

浏览历史

内容加载中请稍等...

一种通用Web信息采集系统的设计与实现被引量：11

参考文献4

同被引文献86

引证文献11

二级引证文献80

相关作者

相关机构

相关主题

浏览历史

一种通用Web信息采集系统的设计与实现 被引量：11

参考文献4

同被引文献86

引证文献11

二级引证文献80

相关作者

相关机构

相关主题

浏览历史

一种通用Web信息采集系统的设计与实现被引量：11