一种面向农业信息主题网络爬虫的设计被引量：6

Design of an Agricultural Information Focused Web Crawler

下载PDF

导出

摘要针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。 An agricultural information focused web crawler was designed to improve that when people searched agricultural information, general search engine often returued too much but non-relevance information. Its crawling strategy, structure design, working principle and implementation were discussed in details. The results of preliminary experiment showed that the focused crawler based on this design obviously more accurately and efficiently than ordinary one when crawling agricultural pages.

作者汪斌张云伟刘健陈晶

机构地区昆明理工大学现代农业工程学院

出处《安徽农业科学》 CAS 北大核心 2009年第20期9699-9700,9824,共3页 Journal of Anhui Agricultural Sciences

关键词主题爬虫搜索引擎农业信息主题相关度 Focused crawler Search engine Agricultural information Degree of theme correlation

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献4

1常为领,孙瑞志,高万林.基于ROBOT的农业信息搜索引擎设计[J].农业网络信息,2006(8):59-61. 被引量：3
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：154
3龙宇巍,王永成,许欢庆.定题搜索引擎Robot的设计与算法[J].计算机仿真,2004,21(4):69-72. 被引量：9
4宋聚平,王永成,滕伟,许欢庆.搜索引擎中Robot搜索算法的优化[J].情报学报,2002,21(2):130-133. 被引量：21

二级参考文献43

1[1]Mark A.C.Overmeer.My personal search engine.Computer Networks,1999,31:2271～2279
2[2]S.Lawrence,C.Lee Giles.Accessibility of information on the Web.Nature,1999,400
3[3]M.Koster.Robots in the web:threat or treat.Conne Xions,1995,9(4) http://info.webcrawler.com/mak/projects/robots/threat-or-treat.html
4[4]Krishan Bharat,Andrei Broder,Monika Henzinger,etc..The connectivity derver:fast access to linkage information on the web.Proc.7th International World Wide Web Conference,1998
5[5]Soumen Chakrabarti.Mining the Web's link structure.Computer,IEEE,1999,August:60～67
6[6]Altigran S.Da Silva,Eveline A.Veloso,Paulo B.Golgher,etc..CoBWeb--A crawler for the Brazilian Web.String Processing and Information Retrieval Symposium,1999:184～191
7[7]C.M.Bowman,P.B.Danzig,D.R.Hardy,U.Manber,and M.F.Schwartz.Harvest:a scalable,customizable discovery and access system.Technical Report CU-CS-732-94,1994
8[8]H.Yamana,K.Tamur,H.Kawano,S.Kamei,M.Harada,etc.Experiments of collecting www information using distributed www robots.In Proceedings of the 21st International ACM SIGIR Conference,Australian,1998
9[9]Y.S.Maarek,et al.WebCutter:a system for dynamic and tailorable site mapping.Proc.of 6th WWW Conference,Santa Clara,USA,April,1997
10[10]Gun-Woo Nam,Jong-Hee Park,Tai-Yun Kim.Dynamic management of URL based on object-oriented paradigm.Parallel and Distributed Systems,IEEE,1998:226～230

共引文献182

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2吴楠.Robot算法分析[J].舰船电子工程,2008,28(1):107-108.
3江禅志,王才元.Robot算法分析[J].舰船电子工程,2008,28(6):160-161.
4高磊,徐东平.启发式算法在搜索引擎的应用[J].电脑知识与技术（过刊）,2007(2):426-427.
5郭一平,王亮.资源整合系统中搜索引擎的研究[J].高等工程教育研究,2006,54(S1):108-110. 被引量：4
6杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
7蒯晓童,王银娣.搜索引擎Robot技术的优化算法研究[J].地理空间信息,2004,2(4):32-34.
8张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
9胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
10葛蓉.利用网络日志分析提高搜索引擎的检准率[J].情报科学,2004,22(10):1250-1253. 被引量：5

同被引文献42

1彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
2PENG Tao HE Fengling ZUO Wanli.A New Framework for Focused Web Crawling[J].Wuhan University Journal of Natural Sciences,2006,11(5):1394-1397. 被引量：3
3胡昌平,晏浩.知识管理活动创新性研究之协同知识管理[J].中国图书馆学报,2007,33(3):95-97. 被引量：55
4Alexandros Batzios, Christos Dimou, Andreas L Symeonidis, et al. BioCrawler: An intelligent crawler for the semantic Web [ J ]. Expert Systems with Applications, 2008,35 (1-2) :524-530.
5Sotiris Batsakis,Euripides G M Petrakis,Evangelos Milios. Improving the performance of focused Web crawlers [ J ]. Data & Knowledge Engineering,2009,68(10) :1001-1013.
6LI ST,TSAI FC.Concerpt-guided query expansion for knowledge management with semi-automatic knowledge captur-ing[J].Journal of Computer Information Systems,2009(1):53-65.
7Cho J, Garcia-molina H, Page L Efficient Crawling Through URL Ordering[J]. Computer Networks, 1998,30(1-7) :161-172.
8Cbakrabarti S,Dom B E,Gibson D,et al. Miming the Web ' s Link Structure Computer [J]. IEEE, 1999, 32 (8):60-67.
9Heritrix-homepage[-EB/OL]. http :// rawler, archive. org/,2007-06-10.
10赵慧娟,卞艺杰,杨际青.基于知识链的组织知识管理绩效评价[J].情报杂志,2008,27(2):25-27. 被引量：7

引证文献6

1张睿涵,林振荣,李建民,衷湾.基于主题定制的专利网络爬虫的设计与实现[J].计算机与现代化,2011(7):52-55. 被引量：2
2明辉.Establishment of the Agricultural Knowledge Management System in the Knowledge-oriented Government[J].Agricultural Science & Technology,2012,13(2):477-480.
3吴菊英,贾炅昊,冯秀芳.基于农业领域的网络爬虫[J].电脑开发与应用,2012,25(8):30-32. 被引量：2
4赵继春,刘世洪,乔珠峰.农业网站舆情热点信息发现系统研究与开发[J].安徽农业科学,2015,43(24):279-280. 被引量：1
5申聪,戴小鹏,樊振宇.基于网络爬虫的移动农业信息服务系统的设计与实现[J].湖南农业科学,2017(6):81-83. 被引量：3
6王晓楠,李杨,张海峰,张宇,杨雪峰.网络爬虫技术在农业生产数据获取中的研究和应用[J].农业工程技术,2021,41(3):49-51.

二级引证文献7

1王沐心.门户网站保密检查系统[J].计算机与现代化,2013(10):121-124.
2黄勇,朱卫华,习军.基于网络爬虫技术的螺杆膨胀机专利查询平台的设计与实现[J].科技风,2016(1):36-36.
3武振国.小麦品种资源知识库系统构建[J].通讯世界,2018,25(6):237-238.
4曾亚琴,黄智敏,游凌翔,黄小华.科研院所科研人员网络舆情管理研究对策分析[J].新媒体研究,2017,3(15):161-163. 被引量：1
5王晓楠,李杨,张海峰,张宇,杨雪峰.网络爬虫技术在农业生产数据获取中的研究和应用[J].农业工程技术,2021,41(3):49-51.
6张胜敏,王爱菊.基于Python的分布式多主题网络爬虫的研究与设计[J].开封大学学报,2021,35(1):93-96. 被引量：2
7武振国,李艳翠.植物病虫害智能问答系统设计与实现[J].农业网络信息,2017(1):70-76. 被引量：4

1胡晓翠,陈建勋.对数码产品主题爬虫的设计与实现[J].计算机应用与软件,2010,27(2):203-205. 被引量：1
2马帅.浅析网页设计中的色彩设计技巧[J].科技信息,2012(20):267-267.
3汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
4马蕾,龚戈淬,刘建平.海量数据存储机制的研究——以海量金属数据为例[J].世界有色金属,2015,40(9):72-73.
5樊海珍.Windows风格的HELP设计(一)[J].警察技术,1999(2):35-39.
6陈方,谭爱平,成亚玲,文益民.主题爬虫技术研究综述[J].湖南工业职业技术学院学报,2008,8(5):13-16. 被引量：5
7刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
8邵鹏鸣.基于VB的MCAI系统的设计与实现[J].现代教育技术,1999,9(3):25-33.
9殿雯.网络灯塔[J].家庭科技,1999,0(4):21-21.
10戴克.云时代小学信息主题学习模式的实践研究[J].中国教育技术装备,2013(34):11-12.

安徽农业科学

2009年第20期

浏览历史

内容加载中请稍等...

一种面向农业信息主题网络爬虫的设计被引量：6

参考文献4

二级参考文献43

共引文献182

同被引文献42

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种面向农业信息主题网络爬虫的设计 被引量：6

参考文献4

二级参考文献43

共引文献182

同被引文献42

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种面向农业信息主题网络爬虫的设计被引量：6