一种增量式并行Web信息采集方法被引量：5

A Parallel System of Incremental Web Information Gathering

下载PDF

导出

摘要提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。 This paper gets into the research on how to crawl information effectively in some sections of Web, which is also called parallel Web crawling technology, and brings forward a structure design model of the parallel incremental Web crawler. In order to download Web pages in parallel, the means of multiple thread and the latest character of Java language are adopted, meanwhile the paper adopts the right means for URL dispatching to make sure that threads would work in parallel with page analysis. In order to reduce redundancy, the method chooses footprint algorithm and extracts URL for threads to download. The test result proves the expect. It can effectively improve information gathering performance.

作者杨天奇周晔

机构地区暨南大学计算机科学系

出处《计算机工程》 EI CAS CSCD 北大核心 2006年第20期97-99,共3页 Computer Engineering

基金广东省自然科学基金资助项目(5006102)

关键词 WEB 信息采集搜索引擎并行 Web Information gathering Search engine Parallel

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1Edwards J,McCurley K,Tomlin J.An Adaptive Model for Optimizing Performance of an Incremental Web Crawler[C].Proceedings of the 10th International World Wide Web Conference,2001-05:1245-1249.
2Keiji Y.A Fast Image-gathering System from the World Wide Web Using a PC Cluster[J].Image and Vision Computing,2004,22(1):24-28.
3Lawrence S,Giles C L.Accessibility of Information on the Web[J].Nature,2003,400(6740):107-109.
4Merugu,Shashidhar.Adding Structure to Unstructured Peer-to-peer Networks:the Use of Small-world Graphs[J].Journal of Parallel and Distributed Computing,2005,65(2):54-59.

同被引文献20

1梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
2陈康,许婷,戴文俊,武港山.基于Web的全文搜索引擎的设计与实现[J].计算机工程,2005,31(20):51-53. 被引量：7
3刘杰,程学旗.高速网络环境下的垃圾邮件快速检测技术[J].计算机工程,2006,32(4):139-141. 被引量：1
4熊鸿燕.3G时代的电信运营商之间网间结算方式探讨[J].海南金融,2006(9):75-77. 被引量：1
5蒋宗礼,赵钦,肖华,王蕊.高性能并行爬行器[J].计算机工程与设计,2006,27(24):4762-4766. 被引量：7
6钱功伟,倪林,MIAO Yuan,曹荣.基于网页链接和内容分析的改进PageRank算法[J].计算机工程与应用,2007,43(21):160-164. 被引量：25
7Rabin M O.Fingerprinting by random polynomials. CRCT TR-15-81 . 1981
8Cox L,Murray C,Noble B.Pastiche:Making backup cheap and easy[].ACM SIGOPS Operating Systems Review.2002
9You LL,Pollack KT,Long DDE.Deep Store: An archival storage system architecture[].Proceedings of thest International Conference on Data Engineering.2005
10Athicha Muthitacharoen,Benjie Chen,David Mazieres.A low-bandwidth network file system[].Proceedings of the th ACM Symposium on Operating Systems Principles.2001

引证文献5

1梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
2潘大胜,黄小龙.基于校园网的信息资源搜索引擎系统的设计[J].贵州工业大学学报（自然科学版）,2008,37(5):160-162. 被引量：1
3何振华,李兴,.电信市场竞争对手信息搜集系统开发[J].电脑知识与技术（过刊）,2010,0(17):4854-4855.
4谢垂益,钟红君.Rabin指纹算法在重复数据检测中的应用研究[J].电脑知识与技术,2013,9(7X):4918-4920.
5高婷,白如江.基于OutbackCDX的增量式Web信息采集研究[J].山东理工大学学报（社会科学版）,2020,36(4):99-105. 被引量：3

二级引证文献12

1龚秋艳,陈良育,曾振柄.简单高效的URL消重的方法[J].计算机应用,2010,30(A01):49-50. 被引量：2
2孙志,张莉.中小型校园网全文搜索引擎的研究与实现[J].电子世界,2012(19):8-10.
3姜涛,刘晓洁.基于重复数据删除的远程备份系统[J].计算机工程与设计,2012,33(12):4546-4550. 被引量：1
4严磊,丁宾,姚志敏,马勇男,郑涛.基于MD5去重树的网络爬虫的设计与优化[J].计算机应用与软件,2015,32(2):325-329. 被引量：10
5贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量：2
6谢垂益,钟红君.Rabin指纹算法在重复数据检测中的应用研究[J].电脑知识与技术,2013,9(7X):4918-4920.
7陈宇伦,周奎.分布式爬虫系统中URL去重的设计与实现[J].现代信息科技,2019,3(11):105-106. 被引量：1
8李方方,陈容华,秦胜男,戴胜.基于互联网大数据的事件智能抓取和画像[J].无线互联科技,2020,17(1):20-21. 被引量：1
9杨云鹏.互联网网站存档增量采集研究[J].数字图书馆论坛,2020(12):17-21.
10杨云鹏.日本国立国会图书馆互联网资源存档研究与启示[J].数字图书馆论坛,2021(1):24-31. 被引量：1

1庄伟强,王鼎兴,沈美明,郑纬民.可扩展并行Web服务器群技术的研究[J].小型微型计算机系统,2000,21(1):19-23. 被引量：10
2吴斌杰,徐子玮,虞飞华.基于API的微博信息采集系统设计与实现[J].电脑知识与技术（过刊）,2013,19(6X):4005-4008. 被引量：4
3庄锁法,龚俭.网络拓扑发现综述[J].计算机技术与发展,2007,17(10):80-83. 被引量：15
4王龙,王云霞,蒋麒麟,李亚鹏.数控机床信息智能采集技术的现状与趋势[J].装备制造技术,2016(12):116-119. 被引量：1
5高振清,齐元胜.串行通信数控设备信息采集技术研究[J].制造技术与机床,2008(5):110-112. 被引量：2
6王慧娟.基于移动Agent技术的并行Web信息检索[J].情报探索,2007(9):42-43. 被引量：1
7陈华平,孙清扬.可扩展并行Web服务器集群的实现技术[J].计算机工程与应用,2002,38(3):149-151. 被引量：16
8铁玲,诸鸿文,戎蒙恬.具有区分服务等级的可扩展并行服务器集群[J].计算机工程,2001,27(1):28-29. 被引量：6
9周诗慧,殷建.Hadoop平台下的并行Web日志挖掘算法[J].计算机工程,2013,39(6):43-46. 被引量：6
10谢桂园,魏文国,何克晶.可伸缩并行Web服务器体系结构的设计与研究[J].海南大学学报（自然科学版）,2009,27(1):69-72. 被引量：2

计算机工程

2006年第20期

浏览历史

内容加载中请稍等...

一种增量式并行Web信息采集方法被引量：5

参考文献4

同被引文献20

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种增量式并行Web信息采集方法 被引量：5

参考文献4

同被引文献20

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种增量式并行Web信息采集方法被引量：5