基于Heritrix限定爬虫的设计与实现被引量：13

DESIGN AND IMPLEMENTATION OF QUALIFIED SPIDER BASED ON HERITRIX

下载PDF

导出

摘要目前互联网中的网页数量以相当惊人的速度在增长。面对如此多的网页,用户往往只需要特定网站的网页,或者说只需要某一地区的网页,那么通用爬虫就无能为力了。因此,根据通用爬虫存在的不足,阐述了限定爬虫的相关概念以及技术,并基于Heritrix框架实现了通过IP地址限制爬虫只抓取某一地区主机上的网页。最后通过相关实验表明限定爬虫的合理性和实用性。 The number of webpages in Internet is on the rise in quite an alarming rate.Facing so many webpages,users often only need the webpages of a particular website,or of a certain region,so the common spider can be of no help.According to the shortcoming of common spider,in this paper we elaborate the related concept and the technologies of the qualified spider,and implement based on Heritrix framework and through IP address the qualified spider crawling webpages of the host of a certain area only.In end of the paper,relevant experiment shows that the qualified spider is reasonable and practical.

作者张敏孙敏

机构地区大连大学信息工程学院

出处《计算机应用与软件》 CSCD 北大核心 2013年第4期33-35,80,共4页 Computer Applications and Software

基金国家自然科学基金项目(61170255)

关键词限定爬虫 HERITRIX IP地址合理性实用性 Qualified spider Heritrix IP address Reasonability Practicality

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1陈黎,李志蜀,琚生根,唐小棚,梁时木,韩国辉.基于SVM预测的金融主题爬虫[J].四川大学学报（自然科学版）,2010,47(3):493-497. 被引量：7
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：154
3汪涛,樊孝忠.主题爬虫的设计与实现[J].计算机应用,2004,24(S1):270-272. 被引量：40

二级参考文献37

1祝宇,夏诏杰,聂峰光,郭力.支持向量机在化学主题爬虫中的应用[J].计算机与应用化学,2006,23(4):329-332. 被引量：8
2Chakrabarti S,Dom B,Indyk P.Enhanced hypertext categorization using hyperlinks[C].New York:ACM,1998:3072318.
3Johnson J,Tsioutsioul I I K,Giles C L.Evolving strategies for focused Web crawling[C].Proceedings of the Twentieth International Conference on Machine Learning (ICML-2003).Washington DC:[s.n.],2003.
4Gautam Pant,Padmini Srinivasan.Learning to crawl:comparing classification schemes[J].ACM Transactions on Information Systems,2005,23:4302462.
5Pant G,Tsioutsiouliklis K,Johnson J,et al.Panorama:Extending digital libraries with topical crawlers[C].New York:[s.n.],2004.
6Diligenti M,Coetzee F,Lawrence S,et al.Focused crawling using context graphs[C].Egypt:Cairo,2000:527.
7Johnson J,Tsioutsiouliklis K,Giles C L.Evolving strategies for focused web crawling[C].Washington DC:[s.n.],2003.
8Chakrabarti S,Van Den Berg M,Dom B.Focused crawling:a new approach to topic-specific Web resource discovery[J].Computer Networks,1999,31:1623.
9EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
10GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.

共引文献195

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005,25(1):1-12. 被引量：44
5汪涛,樊孝忠.链接分析对主题爬虫的改进[J].计算机应用,2004,24(B12):174-176. 被引量：12
6姜杰,杨晓江.专业搜索引擎分布式Robot的设计研究[J].中国电化教育,2005(6):95-97. 被引量：4
7胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
8刘洁清,吴京慧.面向主题的个人实时搜索引擎的设计与实现[J].现代图书情报技术,2006(5):40-43. 被引量：6
9李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
10李广丽,刘觉夫.面向URL的网络机器人软件模型的研究与实现[J].华东交通大学学报,2007,24(1):67-70.

同被引文献105

1吕志花.网络信息挖掘及其在搜索引擎方面的应用[J].微计算机信息,2008,24(6):173-174. 被引量：6
2孙锐,闫晓星,丁志中.基于图像正则化的抗几何变换的感知哈希算法[J].工程图学学报,2010,31(2):116-122. 被引量：4
3孙庚,冯艳红,于红,史鹏辉.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].软件导刊,2010,9(5):47-49. 被引量：5
4拉链创造的数字[J].中国制衣,2008,0(5):33-33. 被引量：1
5陈明晶,姚建荣,唐志豪.电子商务系统的商品搜索算法研究[J].计算机工程与应用,2006,42(3):209-211. 被引量：5
6邵波.企业竞争与反竞争情报中的专利分析研究[J].情报科学,2006,24(2):235-238. 被引量：18
7Grigalis T.Towards web-scale structured Web data extraction:WSDM 2013:Proceedings of the sixth ACM international conference on Web search and data mining,Rome,February 4-8,2013[C].New York:ACM,2013.
8Furche T,Gottlob G,Grasso G,et al.OXPath:A language for scalable data extraction,automation,and crawling on the deep web[J].VLDB,2013,22(1):47-72.
9Bin He, Mitesh pate.l, zhen zhang, et al. Accessing the deep web[J]. Communications of the ACM, 2007,50 (5) :94 - 101.
10Raghavan, S. , H. Garcia - Molina. Crawling the hidden web. 2000.

引证文献13

1林振洲.VFP技术在网页数据采集中的应用——以高校数字资源建设为例[J].计算机光盘软件与应用,2013,16(14):56-58. 被引量：1
2陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
3魏正曦,邱玲,赵攀.基于灰度分类的图像搜索引擎[J].四川理工学院学报（自然科学版）,2014,27(1):37-40. 被引量：3
4王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
5罗成,程耀东,胡庆宝,李海波.DeepWeb可配置聚焦爬虫设计与实现[J].核电子学与探测技术,2014,34(3):353-358. 被引量：3
6陈荟慧,舒云星,林丽.Web语料抓取中基于相似度的URL过滤规则生成算法[J].模式识别与人工智能,2014,27(7):631-637.
7刘全志,于治楼.基于Heritrix和Jsoup的信息抽取系统的设计与实现[J].山东师范大学学报（自然科学版）,2015,30(2):16-19. 被引量：2
8徐春凤,王艳春,翟宏宇.全自动网页信息采集系统[J].长春理工大学学报（自然科学版）,2015,38(2):151-154. 被引量：5
9魏少鹏,夏小玲.基于Chrome扩展的爬虫系统设计与实现[J].软件导刊,2016,15(3):76-80. 被引量：5
10江文龙,赵逢禹,陈章.加权映射匹配方法的站内搜索引擎设计[J].计算机应用与软件,2016,33(4):91-94.

二级引证文献22

1王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
2何钧雷.以主题爬虫视角进行数字资源的建设探析[J].电子技术与软件工程,2014(16):17-18. 被引量：1
3邓炳光,郭慧兰,张治中.移动互联网用户行为分析系统中聚焦爬虫的设计与实现[J].重庆邮电大学学报（自然科学版）,2015,27(3):359-365. 被引量：4
4魏少鹏,夏小玲.基于Chrome扩展的爬虫系统设计与实现[J].软件导刊,2016,15(3):76-80. 被引量：5
5张爽.互联网页面信息的采集与处理技术分析[J].信息系统工程,2016,29(6):29-29.
6张锋.基于URL和网页类型的网页信息采集研究[J].电子制作,2017,0(2):28-29.
7吴永亮,贾志杰,陈建平,朱月琴.基于大数据智能的找矿模型构建与预测[J].中国矿业,2017,26(9):79-84. 被引量：13
8许清媛,刘韦声.基于爬虫和LeanCloud数据存储的双语阅读平台设计[J].电子设计工程,2018,26(2):35-38. 被引量：2
9王雪瑞,刘渊.面向国内直播行业的分布式弹幕爬虫研究[J].计算机应用与软件,2018,35(2):134-140. 被引量：5
10高琰,余游,冯林.大数据情报分析平台在图书馆管理与服务中的应用[J].四川图书馆学报,2018(3):29-32. 被引量：6

1郑彦树.SMARXO:一个优秀的信息共享和信息安全的体系结构[J].现代测绘,2005,28(S1):36-39.
2高培峻.王兴:咬定,就不放松[J].软件工程师,2007(4):19-21.
3人王.突破IP地址限制看电影[J].软件指南,2005(8):63-64.
4杨先文.Apache限制访问技术剖析[J].网管员世界,2005(2):94-95.
5徐皓.Microsoft Web服务器的安全性[J].辽宁大学学报（自然科学版）,2000,27(2):143-145.
6白羽,何磊,白家明.校园数字教学资源的VPN准入模式的探讨及实现[J].计算机安全,2011(3):89-91. 被引量：2
7白羽,何磊,白家明.校园网数字教学资源VPN准入模式的探索与实现[J].中国教育信息化（高教职教）,2011(4):22-23.
8霹雳奇侠.下载没有什么不可以[J].电脑时空,2004(9):134-135.
9王学光,马爱芝,江家鹤.利用EZproxy实现高校图书馆数字资源的远程访问——以EZproxy在河北建筑工程学院图书馆的应用为例[J].黑龙江史志,2014(1):193-194.
10林亚忠,万任华,郝刚,林村河,王苓.基于AVL树的自组网地址自动分配算法[J].医疗卫生装备,2012,33(4):49-51.

计算机应用与软件

2013年第4期

浏览历史

内容加载中请稍等...

基于Heritrix限定爬虫的设计与实现被引量：13

参考文献3

二级参考文献37

共引文献195

同被引文献105

引证文献13

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于Heritrix限定爬虫的设计与实现 被引量：13

参考文献3

二级参考文献37

共引文献195

同被引文献105

引证文献13

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于Heritrix限定爬虫的设计与实现被引量：13