基于主题定制的专利网络爬虫的设计与实现被引量：2

Design and Implementation of Patent Crawler Based on Customized Theme

下载PDF

导出

摘要目前,我国的网页数量已经达到三百多亿,并且正以年增长率超过百分之百的速度飞速增长。为了从众多的网页中快速高效准确地找到需要的信息,主题爬虫孕育而生,它从网络上选择用户需要的主题信息下载,为用户提供庞大的数据信息支持。本文研究可定制关键词(即主题)的基于.NET的更加精准有效的网络爬虫的设计和实现。通过实验及实际应用验证,该爬虫的精准率大大高于普通的爬虫。 At present,the number of pages in our country has reached more than thirty billion,and it grows more than one hundred percent every year.For getting the information efficiently and accurately from Internet,subject crawler born.It downloads the useful information from Internet,and provides the huge data for user.This article describes the design and implementation of subject crawler which is based on.NET and can get the information more accurately and effectively.By experiments and practical applications,the subject crawler＇s accuracy rate is much higher than others.

作者张睿涵林振荣李建民衷湾

机构地区南昌大学信息工程学院计算机科学与技术系海军

出处《计算机与现代化》 2011年第7期52-55,共4页 Computer and Modernization

关键词可定制关键词网络爬虫 .NET customizable Key words crawler .NET

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1汪斌,张云伟,刘健,陈晶.一种面向农业信息主题网络爬虫的设计[J].安徽农业科学,2009,37(20):9699-9700. 被引量：6
2刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现[J].计算机系统应用,2010,19(3):49-52. 被引量：13
3陈瑜芳,何克右.网络蜘蛛的设计与实现[J].现代计算机,2009,15(11):141-144. 被引量：2
4孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：134
5邹海亮,孙莉.可定制的聚焦网络爬虫[J].电子科技,2009,22(1):47-50. 被引量：4
6陈晓慧,陈荣国,卫文学.基于网络爬虫的Web服务抓取解析器的设计与实现[J].地理信息世界,2010,8(3):64-68. 被引量：6
7Alexandros Batzios, Christos Dimou, Andreas L Symeonidis, et al. BioCrawler: An intelligent crawler for the semantic Web [ J ]. Expert Systems with Applications, 2008,35 (1-2) :524-530.
8PENG Tao HE Fengling ZUO Wanli.A New Framework for Focused Web Crawling[J].Wuhan University Journal of Natural Sciences,2006,11(5):1394-1397. 被引量：3
9Sotiris Batsakis,Euripides G M Petrakis,Evangelos Milios. Improving the performance of focused Web crawlers [ J ]. Data & Knowledge Engineering,2009,68(10) :1001-1013.
10梁雪松,张容.网络爬虫对网络安全的影响及其对策分析[J].计算机与数字工程,2009,37(12):86-88. 被引量：7

二级参考文献71

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2龙宇巍,王永成,许欢庆.定题搜索引擎Robot的设计与算法[J].计算机仿真,2004,21(4):69-72. 被引量：9
3印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
4周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
5郑健珍,林坤辉,周昌乐,康恺.基于本体语义的定题爬虫[J].山东大学学报（理学版）,2006,41(3):106-110. 被引量：11
6常为领,孙瑞志,高万林.基于ROBOT的农业信息搜索引擎设计[J].农业网络信息,2006(8):59-61. 被引量：3
7陈吴鹏译.Java编程思想(第4版).机械工业出版社,2007.
8陈宗斌等译.Java编程规范(第三版).中国电力出版社,2006.
9杨春花,俞黎敏译.EffectiveJava中文版(第2版).机械工业出版社.2009.
10O’Reilly著.Java线程(第三版).东南大学出版社,2006.

共引文献170

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2彭新林,赵辉.恶意网络爬虫行为的刑事规制及其完善[J].刑法论丛,2022(1):217-236.
3饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：5
4金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
5彭攀峰,刘波.基于农业信息化的垂直搜索引擎的分析与设计[J].农机化研究,2012,34(5):95-99. 被引量：1
6杨靖韬,陈会果.对网络爬虫技术的研究[J].科技创业月刊,2010,23(10):170-171. 被引量：5
7乔建忠.基于锚与链接文本扩展的KBES算法隧道策略[J].现代图书情报技术,2011(3):45-50. 被引量：1
8于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
9张安妮,姜华,郝相莲.面向主题的快速搜索引擎的设计与研究[J].淮阴工学院学报,2011,20(3):12-15. 被引量：1
10李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17

同被引文献13

1陈刚,卢炎生.BBS搜索引擎设计与实现[J].微计算机信息,2006,22(06X):34-36. 被引量：4
2刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
3赵晓峰.基于Web的网站信息采集系统的设计与实现[J].电脑知识与技术,2008(6):1263-1264. 被引量：1
4周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：92
5杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
6刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现[J].计算机系统应用,2010,19(3):49-52. 被引量：13
7施佺,王恒山,肖仰华,丁卫平.面向主题的垂直搜索引擎系统的研究与实现[J].微电子学与计算机,2011,28(7):1-4. 被引量：10
8张安妮,姜华,郝相莲.面向主题爬虫改进算法的个性化搜索引擎应用研究[J].海南大学学报（自然科学版）,2011,29(3):221-225. 被引量：1
9李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17
10范劲松,方廷健.特征选择和提取要素的分析及其评价[J].计算机工程与应用,2001,37(13):95-99. 被引量：18

引证文献2

1王沐心.门户网站保密检查系统[J].计算机与现代化,2013(10):121-124.
2黄勇,朱卫华,习军.基于网络爬虫技术的螺杆膨胀机专利查询平台的设计与实现[J].科技风,2016(1):36-36.

1宋天福.浅谈信息下载的方法[J].中小学电教（综合）,2005(12):80-80.
2胡仁昱.财会人员如何进入专业网址[J].财务与会计,2000(9):51-52.
3亢锐,叶青,范全义.基于Multi-agent技术的Internet信息挖掘研究[J].计算机工程,2001,27(2):107-109. 被引量：17
4陈琳.数码相机特有功能纵横（上）[J].摄影与摄像,1999(7):24-26.
5赵盛林,秦志东,王新政.专利信息下载软件设计[J].轻工科技,2012,28(7):92-93.
6张宪（编译）.在机质量控制检测技术[J].工具展望,2006(3):9-11.
7蒋蔚.走进中国传统节日——《从因特网获取信息》教学设计[J].中国信息技术教育,2012(9):32-35.
8用户追踪，与客户关系的紧密结合[J].视窗世界,2005(8):35-36.
9李子丰.基于Web的图书馆系统页面的设计[J].中华医学图书情报杂志,2003,12(5):50-52.
10王道胜.巧用网络端口保护服务器的安全[J].电脑开发与应用,2006,19(5):60-60.

计算机与现代化

2011年第7期

浏览历史

内容加载中请稍等...

基于主题定制的专利网络爬虫的设计与实现被引量：2

参考文献14

二级参考文献71

共引文献170

同被引文献13

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于主题定制的专利网络爬虫的设计与实现 被引量：2

参考文献14

二级参考文献71

共引文献170

同被引文献13

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于主题定制的专利网络爬虫的设计与实现被引量：2