一个集群系统上的网络信息采集器被引量：3

A Web Information Crawler Based on Cluster

下载PDF

导出

摘要随着硬件和网络技术的发展 ,集群系统已成为构建网络服务的重要方式 .基于集群系统提供网络信息检索服务 (如搜索引擎等 )具有很大的应用价值 .网络信息检索的工作基础是从网络空间采集检索数据 ,通常由信息采集系统完成 .本文介绍一个集群系统上的网络信息采集器 .该采集器利用 WWW网页之间的链接关系对采集空间进行宽度优先遍历 .采用多线程并发方式来提高单结点上的带宽利用率 ; With the development of hardware and network, the cluster system has become an important solution to build up a Web server. Constructing information retrieve (IR) systems on the cluster, such as search engines, is promising in practice. The IR systems usually retrieve data sets downloaded from the web by information gathering (crawling) systems. This paper will introduce a web information crawler based on a cluster system. By analyzing the linkages among the WWW pages, this crawler gathers information in the BFS pattern. On each single node, multi thread pattern helps to improve the efficiency of bandwidth usage; and an effective cooperative mechanism among the nodes of the cluster is implemented in this crawler.

作者高塽齐继国沈美明郑纬民

机构地区清华大学计算机系高性能计算研究所

出处《小型微型计算机系统》 CSCD 北大核心 2003年第8期1413-1417,共5页 Journal of Chinese Computer Systems

基金国家 8 63计划项目资助 ( 863 -3 0 6-ZT0 1-0 3 -1) 国家自然科学基金资助 ( 60 13 1160 743 )

关键词网络信息采集集群系统 BFS 多线程 network information gathering cluster system BFS multi thread

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1田范江,王曦东,王鼎兴.高效率WWW信息采集(英文)[J].软件学报,2001,12(1):33-40. 被引量：10

二级参考文献7

1[1]http://altavista.digital.com.
2[2]http://www.excite.com.
3[3]http://www.webzip.com.
4[4]Lesser, V., Horling, B., Klassner, F., et al. BIG: a resource-bounde d information gathering agent. In: AAAI Press Staff ed. Proceedings of the 5th N ational Conference on Artificial Intelligence (AAAI-98). Madison, WI: MIT Press , 1998. 243～254.
5[5]Bowman, C.M., et al. The harvest information discovery and access sys tem. Computer Networks and ISDN Systems, 1995,28(1,2):119～125.
6[6]Salton, G. Automatic Text Processing: The Transformation, Analysis, and R etrieval of Information by Computer. Reading, Mass: Addison-Wesley, 1989. 146～ 154.
7[7]Dunlop, M.D., Rijsbergen, C.J. van. Hypermedia and free text retrieval. I nformation Processing and Management, 1993,29(3):287～298.

共引文献9

1王晓东,王靖.基于Ontology的Web语料的挖掘[J].河南师范大学学报（自然科学版）,2006,34(4):43-45. 被引量：3
2王征清,张文德,成全.基于Multi-Agent的主题信息采集结构模式探究[J].情报探索,2007(1):55-59. 被引量：1
3王征清,成全.基于Multi-Agent的分布式主题信息采集结构模式研究[J].情报理论与实践,2007,30(3):419-422. 被引量：2
4王晓东,王靖.基于Ontology的语料库系统[J].计算机应用与软件,2007,24(8):44-46. 被引量：1
5张小红,王靖.具有语义的英语语料库的支撑平台[J].平顶山学院学报,2008,23(2):115-117.
6李珊,马静,邱广华,冯文龙.基于网页分块的科技信息采集系统的设计与实现[J].价值工程,2011,30(2):169-170. 被引量：4
7袁传思.基于B／S的高校科研信息采集系统的设计与实现[J].科技成果管理与研究,2011(9):30-31.
8王新庄.EB环境下的一个匹配模型及其算法研究[J].电子科技大学学报,2001,30(5):533-537.
9李振星,陆大珏,任继成,唐卫清,唐荣锡.基于潜在语义索引的Web信息预测采集过滤方法[J].计算机辅助设计与图形学学报,2004,16(1):142-147. 被引量：9

同被引文献12

1杨淇蘥.网络资源的重组与利用[J].科技情报开发与经济,2005,15(13):241-242. 被引量：2
2程艾军,胡铁军.网络信息资源采集研究进展[J].医学信息学杂志,2006,27(2):85-88. 被引量：6
3http://www.discuz.net/forum.php?mod=viewthread&tid=1702635&rpid=14202333&page=1.
4http://baike.haidu.com/view/2473030.htm?fr=a1a0_1.
5http://baike, haidu, corn/view/1644, htm? fr = a1a0_1_1.
6陈征华,杨内.基于数据挖掘的网络信息采集与服务研究[J].情报理论与实践,2007,30(5):702-704. 被引量：8
7Jaideep Srivastava,Robert Cooley,Mukund Deshpande,et al.Web usage mining:discovery and applications of usage patterns from web data[J].Appear in SIGKDD Explorations,2000,1(2):12-23.
8Mobasher R,Cooly R,Srivastara J.Automatic personalization based on web usage mining[J].Communications of the ACM,2000,43(8):142-151.
9李广建,李亚子.基于分布式知识库的开放服务链接系统设计与实现[J].情报学报,2008,27(2):244-249. 被引量：10
10王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275

引证文献3

1王炼,孙艳,伯绍波,何凌.面向决策支持的交通运输信息平台研究[J].交通科技,2007,17(1):81-83. 被引量：4
2何瑛,刘琦,宋军,张树祥.网络信息采集现状及技术研究[J].甘肃科技,2011,27(1):19-20. 被引量：3
3周瑜智,刘展鸣,王博,韩雨辰,吴锦莹.关于网络信息自动采集技术的难点及其解决办法的研究[J].科技传播,2013,5(6):204-205. 被引量：4

二级引证文献11

1李志成,吴芳.Web挖掘技术在公路施工项目成本管理中的作用探析[J].交通标准化,2008,36(2):181-184.
2许卉莹,包勇强,江海龙.交通安全管理数据需求设计研究[J].中国公共安全（学术版）,2010(3):70-73. 被引量：1
3苏炜.关于网络信息采集现状及技术的研究[J].中国电子商务,2012(6):137-137.
4张丽丽.高校图书馆读者决策采购模式的风险及规避策略[J].图书馆学研究,2013(23):30-33. 被引量：8
5张淑梅,宋维堂.低碳经济下的公路交通运输信息平台的建设研究[J].中国科技纵横,2014,0(19):20-21.
6张若冰,马达.图书馆网络资源采集与利用版权探析[J].图书馆学研究,2015(3):80-83. 被引量：4
7夏日,王宗宝.近十年来我国信息资源整合研究综述[J].情报科学,2015,33(2):154-160. 被引量：14
8刘洋.探究如何控制网络信息数据采集的质量[J].信息系统工程,2017,30(2):139-139. 被引量：1
9殷复莲,徐荣阁,刘志心,冀美琪.影视节目扁平化标签获取技术研究[J].软件导刊,2019,18(7):150-153. 被引量：1
10袁俊杰,王彬.基于网络信息采集技术的体育信息采译编平台的研制与应用[J].体育科技文献通报,2019,27(11):156-158.

1苏炜.关于网络信息采集现状及技术的研究[J].中国电子商务,2012(6):137-137.
2肖祥云.网络信息采集技术探析[J].华中师范大学研究生学报,2011(3):158-163. 被引量：4
3刘洋.探究如何控制网络信息数据采集的质量[J].信息系统工程,2017,30(2):139-139. 被引量：1
4颜雪松,蔡之华,蒋良孝,贺毅.关联规则挖掘综述[J].计算机应用研究,2002,19(11):1-4. 被引量：6
5刘桂芳.基于EDA技术的网络信息采集资源的应用[J].内蒙古科技与经济,2008(10):141-141.
6贠晓晴.基于.NET 3.5的网络信息采集系统设计与实现[J].电脑编程技巧与维护,2010(16):73-74. 被引量：1
7刘杰,董淑福,温东,王坤.无线传感器网络节点定位问题研究[J].传感器世界,2012,18(6):23-26. 被引量：3
8李芸,张凯.网络信息采集的难点与解决方案[J].计算机光盘软件与应用,2011(9):76-76. 被引量：1
9陈庆章.如何利用HTML语言编写WWW网页[J].多媒体世界,1996(11):47-50. 被引量：2
10陈庆章.如何写出用户欢迎的WWW网页[J].多媒体世界,1997(2):47-49.

小型微型计算机系统

2003年第8期

浏览历史

内容加载中请稍等...

一个集群系统上的网络信息采集器被引量：3

参考文献1

二级参考文献7

共引文献9

同被引文献12

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一个集群系统上的网络信息采集器 被引量：3

参考文献1

二级参考文献7

共引文献9

同被引文献12

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一个集群系统上的网络信息采集器被引量：3