一种分布式网络爬虫的设计与实现被引量：2

Design and Implementation of a Distributed Web Crawler

下载PDF

导出

摘要利用用户指定的关键字和搜索引擎生成URL种子,通过分布式网络爬虫抽取符合用户需求的网页作为研究所用的语料.实验结果表明:分布式网络爬虫可以较好地解决在短时间内抽取大量语料的需求. User-specified keywords to generate URL seeds by search engine has been used.Webpage for user＇s requirements as research corpus through distributed web crawler has been extracted.Experiments show that the distributed web crawler can be good solution to extract a large number of corpora in a short time.

作者杨瑞胡弘思张文波姚天昉

机构地区上海交通大学计算机科学与工程系

出处《江西师范大学学报（自然科学版）》 CAS 北大核心 2013年第4期382-386,共5页 Journal of Jiangxi Normal University(Natural Science Edition)

基金国家自然科学基金(60773087)资助项目

关键词分布式系统网络爬虫设计 distributed system web crawler design

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Tripathy A, Patra P K. A web mining architectural model of distributed crawler for internet searches using page rank algorithm [ EB/OL ]. [ 2012-08-18 ]. http: ff wenku. baidu, corn/view/03181 bd084254b35 eefd3412.
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
3Radhakishan V, aser F, Selvakumar S, CRAYSE : design and implementation of efficient text search algorithm in a web crawler [ EB/OL]. [ 2012-08-19 ]. http: //libra. msra. cn/Publication/1 d414792/crayse-design-and-imple- mentation-of-efficient-text-search-algorithm-in-a-web-craw- ler.
4Shekhar S, Agrawal R, Arya K V. An architectural frame- Work of a crawler for retrieving highly relevant web docu- ments by filtering replicated web collections [ EB/OL ]. [ 2012-08-19 ]. http:///dl, acm. org/citation, cfm? id - 1844773.
5Zhu Kunpeng, Xu Zhiming, Wang Xiaolong, et al. A full distributed web crawler based on structured network [ M ]. Berlin :: Springer,2008:478-483.
6李晓明,李星.搜索引擎与web挖掘进展论文集[C].北京:高等教育出版社,2003:1-8.
7Robert C M. Krishna B. SPHINX:a framework for creating personal, site-specific Web crawlers [ J J. Computer Net- works md ISDN Systems, 1998,39 (1/7) : 119-130.
8闵秋应,况庆强.改进型BP神经网络自适应均衡器设计[J].江西师范大学学报（自然科学版）,2012,36(3):276-279. 被引量：1
9周模,张建宇,代亚非.可扩展的DHT网络爬虫设计和优化[J].中国科学：信息科学,2010,40(9):1211-1222. 被引量：7
10王珏.重叠型P2P网络中的查询负载均衡策略研究[J].江西师范大学学报（自然科学版）,2012,36(3):292-296. 被引量：1

二级参考文献74

1赫枫龄,左万利.用有向图法解决网页爬行中循环链接问题[J].吉林大学学报（理学版）,2004,42(3):402-404. 被引量：7
2杨家兴,陈文.神经网络自适应均衡器研究[J].信息工程学院学报,1994,13(2):9-17. 被引量：3
3余敏,李战怀,张龙波.基于super-peer的连续查询策略[J].计算机工程与应用,2006,42(1):9-12. 被引量：4
4贾丽会,张修如.BP算法分析与改进[J].计算机技术与发展,2006,16(10):101-103. 被引量：47
5邱彤庆,陈贵海.一种令P2P覆盖网络拓扑相关的通用方法[J].软件学报,2007,18(2):381-390. 被引量：41
6陈昊鹏,饶若楠.Java编程思想,第3版[M].机械工业出版社,2005.5.
7Derrick Oswald 等 HtmlParser参考文档,http://htmlparser.sourceforge.net.[OL].
8史寿伟.正则表达式参考文档,http://www.regexlab.com/zh/regref.htm[OL].
9Martin Fowler UML 精粹:标准对象建模语言简明指南[M].2006.3.
10Thomas HC,Charies EL,Ronald LR,等.算法导论[M].潘金贵,顾铁成,李成法,等译.北京:机械工业出版社,2006:344-380.

共引文献164

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
5李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
6孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
7王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
8陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
9李兆春,谢庆生,徐立章.机械主题爬虫的设计与实现[J].现代机械,2007(6):68-70. 被引量：1
10杜光芹,张化祥,赵瑞东.主题Web挖掘研究[J].计算机技术与发展,2008,18(2):94-97. 被引量：3

同被引文献55

1王宏伟.特大自然灾害的舆情监控研究[J].中国公共安全（学术版）,2008(Z1):11-15. 被引量：5
2孔凡敏,杨乃.移动互联网时代政府公共信息服务方式展望[J].中国地质大学学报（社会科学版）,2013,13(S1):23-26. 被引量：11
3MA Y P,SHU X M,SHEN S F,et al.Study on network public opinion dissemination and coping strategies in large fire disasters[J].Procedia Engineering,2014,71:616-621.
4ALEXANDER D E.Social media in disaster risk reduction and crisis management[J].Sci Eng Ethics,2014(20):717-733.
5QU Y,WU P F,WANG X.Online Community Response to Major Disaster:A Study of Tianya Forum in the 2008Sichuan Earthquake[C].Proceedings of the 42nd Hawaii International Conference on System Sciences(HICCS),2009.1423-1427.
6LIU Y,YANG Y,LI L.Major natural disasters and their spatio-temporal variation in the history of China[J].J.Geogr.Sci,2012,22(6):963-976.
7人民网舆情监测室.2014年中国互联网舆情分析报告.[EB/OL]http://yuqing.people.com.cn/n/2014/1231/c354318-26306123.html.2015-12-31.
8ACHSAN H T Y,WIBOWO W C.A fast distributed focusedweb crawling[J].Procedia Engineering,2014,69:492-499.
9WOODWARD W A,GRAY H L,ELLIOTT A C.Applied Time Series Analysis[M].Boca Raton,FL:CRC Press,2012.
10GUAN Q L,YE S Z,YAO G X.Research and Design of Internet Public Opinion Analysis System[C].2009IITA International Conference on Services Science,Management and Engineering,2009.173-177.

引证文献2

1吕雪锋,陈思宇.自然灾害网络舆情信息分析与管理技术综述[J].地理与地理信息科学,2016,32(4):49-56. 被引量：9
2严旭.基于Spark的藏汉双语语料大数据分布式爬取[J].通讯世界,2017,23(23):319-320. 被引量：1

二级引证文献10

1薄涛,李小军,陈苏,王玉婷,祁国良.基于社交媒体数据的地震烈度快速评估方法[J].地震工程与工程振动,2018,38(5):206-215. 被引量：14
2韩雪华,王卷乐,卜坤,王玉洁.基于Web文本的灾害事件信息获取进展[J].地球信息科学学报,2018,20(8):1037-1046. 被引量：16
3苏晓慧,张晓东,胡春蕾,邹再超,邱晓康.基于改进TF-PDF算法的地震微博热门主题词提取研究[J].地理与地理信息科学,2018,34(4):90-95. 被引量：8
4张晓.一种网络多模态语料库构建方法[J].软件导刊,2018,17(11):49-51.
5韩晓彤,葛佳杰,张鑫,郭勇.地震速报驱动的舆情监控系统研究及应用[J].云南科技管理,2019,32(2):4-7.
6陈梦怡.互联网舆情的线索发掘和走势研判[J].通讯世界,2019,26(6):124-125. 被引量：1
7杨腾飞,解吉波,闫东川,李国庆.基于深度学习的社交媒体情感信息抽取及其在灾情分析中的应用研究[J].地理与地理信息科学,2020,36(2):62-68. 被引量：12
8张清兰,解吉波,刘战,杨腾飞,李振宇.基于社交媒体的海南风灾监测数据集[J].中国科学数据（中英文网络版）,2019,4(2):145-155.
9曹天阳,张雪英,怀安.公共卫生事件中社会情绪的时空分析方法——以新冠疫情事件为例[J].地理与地理信息科学,2021,37(6):16-23. 被引量：5
10叶鹏,张春菊,刘欣,何鹤鸣.基于事件过程建模的台风灾害社交媒体信息聚合与演变特征表达[J].地理与地理信息科学,2024,40(2):11-18.

1李广丽,刘觉夫.面向URL的网络机器人软件模型的研究与实现[J].华东交通大学学报,2007,24(1):67-70.
2谢泽辉,李建忠.海量音频分布式网络爬虫系统的研究与实现[J].韩山师范学院学报,2015,36(6):28-34.

江西师范大学学报（自然科学版）

2013年第4期

浏览历史

内容加载中请稍等...

一种分布式网络爬虫的设计与实现被引量：2

参考文献11

二级参考文献74

共引文献164

同被引文献55

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种分布式网络爬虫的设计与实现 被引量：2

参考文献11

二级参考文献74

共引文献164

同被引文献55

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种分布式网络爬虫的设计与实现被引量：2