基于主题相关度的地理信息Web服务爬虫研究被引量：12

Topic-Relevance Based Crawler for Geographic Information Web Services

下载PDF

导出

摘要针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。 According to the defects of Common Search Engine on retrieving Geographic Information Web Services（GIServices）,a web service crawler based on topic-relevance was designed and proposed in this paper.Firstly,this paper analyzed and defined the topic features of GIServices by utilizing Vector Space Model（VSM）,which could facilitate the representation and calculation of topic features.Secondly,based on the introduction of calculation of topic weight,the paper presented an algorithm to analyze the similarity of web pages and eigenvector,which could be used to filter the web pages that were unrelated to the topic.Afterwards,an improved PageRank algorithm was reviewed based on analyzing the significance of hyperlink,which included the URL and anchor text,in order to optimize the crawling stack.The experimental results and analysis has proved that this method has distinct advantages on the searching efficiency and capturing ability compared to Common Search Engine.

作者武昊廖安平何超英侯东阳

机构地区武汉大学遥感信息工程学院国家基础地理信息中心中国矿业大学环境与测绘学院

出处《地理与地理信息科学》 CSCD 北大核心 2012年第2期27-30,共4页 Geography and Geo-Information Science

基金国家自然科学基金项目(41001216)

关键词地理信息Web服务服务检索爬虫主题相关度 geographic information Web services service retrieval crawler topic-relevance

分类号 P208 [天文地球—地图制图学与地理信息工程]

引文网络
相关文献

参考文献15

1陈军,丁明柱,蒋捷,周旭,翟勇,朱武.从离线数据提供到在线地理信息服务[J].地理信息世界,2009,7(2):6-9. 被引量：21
2白玉琪,杨崇俊.空间信息搜索引擎研究[J].中国矿业大学学报,2004,33(1):90-94. 被引量：10
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：154
4李卫疆,赵铁军,朴星海.一种新的面向主题的爬行算法[J].计算机应用研究,2009,26(5):1663-1666. 被引量：5
5Refractions Research(RR)′s white paper.http://refractions.net/expertise/whitepapers/ogcsurvey/ogcsurvey/.2011-10-23.
6Skylab Mobilesystems′WMS Service list http://www.skylab-mobilesystems.com/en/wms_serverlist.html.2011-10-23.
7GIDB′WMS Service list:http://columbo.nrlssc.navy.mil/ogcwms/servlet/WMSServlet?REQUEST=ServiceLinks.2011-10-23.
8陈永彬,张琢,张添.一种基于蚁群算法的主题爬虫搜索策略[J].微型机与应用,2011,30(1):53-56. 被引量：4
9LI W W,YANG C W,YANG C J.An active crawler for discov-ering geospatial Web services and their distribution pattern——A case study of OGC Web Map Service[J].International Journal ofGeographical Information Science,2010,24(8):1127-1147.
10李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17

二级参考文献110

1李学勇,田立军,谭义红,欧阳柳波,李国徽.一种基于非贪婪策略的网络蜘蛛搜索算法[J].计算技术与自动化,2004,23(2):35-39. 被引量：6
2李开荣,陈宏建,陈崚.一种动态自适应蚁群算法[J].计算机工程与应用,2004,40(29):149-152. 被引量：20
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：154
4姚树宇,赵少东.一种使用分布式技术的搜索引擎[J].计算机应用与软件,2005,22(10):127-129. 被引量：7
5过仕明.PageRank技术分析及网页重要性的综合评价模型[J].图书馆论坛,2006,26(1):80-81. 被引量：9
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
7黄德才,戚华春,钱能.基于主题相似度模型的TS-PageRank算法[J].小型微型计算机系统,2007,28(3):510-514. 被引量：23
8陶剑文.基于蚁群计算的自适应Web检索算法设计[J].计算机工程与应用,2007,43(15):163-165. 被引量：1
9蒋玲艳,张军,钟树鸿.蚁群算法的参数分析[J].计算机工程与应用,2007,43(20):31-36. 被引量：32
10杨崇俊.在互联网络上能找到地理空间数据吗?[A].见:陈述彭.数字地球百问[M].北京:科学出版社,1999.176-177.

共引文献234

1王元.信息化航空摄影测量系统的相关研究[J].冶金管理,2020(17):97-98.
2齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
3黄方,刘定生,李国庆,王建,于文洋,赵灵军.SIG中空间信息可视化与互操作实现研究[J].地理信息世界,2008,6(3):54-61. 被引量：1
4曹元,张巍,李俊,刘茶,潘金贵.专用GPS车辆监控系统的设计与实现[J].安防科技,2008(2):21-23.
5杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
6彭攀峰,刘波.基于农业信息化的垂直搜索引擎的分析与设计[J].农机化研究,2012,34(5):95-99. 被引量：1
7张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
8胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
9张建兵,杨崇俊.海量空间信息隐形搜索的研究[J].计算机工程,2006,32(22):58-60. 被引量：4
10李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5

同被引文献122

1王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
3童小华,邓愫愫,史文中.基于概率的地图实体匹配方法[J].测绘学报,2007,36(2):210-217. 被引量：78
4马海兵.网络舆情及其分析技术[N].光明日报,2007-01-21(6).
5刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
6刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
7陈军,赵仁亮,王东华.基础地理信息动态更新技术体系初探[J].地理信息世界,2007,5(5):4-9. 被引量：65
8Neches R, Fikes R, Gruber T,et al. Enabling Technology forKnowledge Sharing[J]. Al Magazine, 1991, 12(3):36-56.
9Sudeepthi G, Anuradha G, Surendra M. A Survey on SemanticWeb Search EnginejJ]. International Journal of ComputerScience Issues, 2012,9(2):241-245.
10Aggarwal C, Al—Garawi F, Yu P. Intelligent Crawling on theWorld Wide Web with Arbitrary Predicates[C], The 10th Intl.World Wide Web Conference, Hong Kong, 2001.

引证文献12

1马雷雷,梁汝鹏,连世伟,陈虎.一种主题本体驱动的语义搜索方法[J].地理空间信息,2013,11(4):46-48. 被引量：2
2沈平,桂志鹏,游兰,胡凯,吴华意.一种主动发现网络地理信息服务的主题爬虫[J].地球信息科学学报,2015,17(2):185-190. 被引量：4
3陈睿嘉,康志忠,张卫涛.基于网络爬虫的导航深度服务信息自动采集[J].测绘工程,2015,24(1):17-24. 被引量：8
4侯东阳,武昊,王军锋,王明山.基于深层网络爬虫的Web地图服务发现方法[J].地理与地理信息科学,2015,31(5):10-13. 被引量：11
5罗文兵,黄园,左家莉.高校舆情信息采集系统设计与实现[J].科技广场,2015(12):21-28. 被引量：1
6钱建国,马占武.经验爬虫应用于网络地图服务获取[J].测绘与空间地理信息,2017,40(3):14-16. 被引量：1
7侯东阳,陈军,武昊,邢汉发.顾及深层网络的地理信息Web服务搜索系统设计与实现[J].地理信息世界,2018,25(3):7-10. 被引量：4
8郭俊枫,赵仁亮,郑娇龙.面向网页文本的地理要素变化发现[J].地理信息世界,2015,22(1):52-56. 被引量：4
9严春芳.关于地理信息理论的几点认识[J].城市地理,2015,0(7X):56-56.
10杨宇,孙亚琴,闫志刚.网络爬虫的专题机构数据空间信息采集方法[J].测绘科学,2019,44(7):122-127. 被引量：13

二级引证文献49

1钟顺杰,葛小三.多权组与双半径结合的异源POI融合方法[J].测绘科学,2023,48(11):230-244.
2陈兴华.发现在线公众地理信息变化的关键技术[J].地理空间信息,2015,13(6):38-39. 被引量：4
3刘毅,王宇,杨德礼.本体进化驱动的个性化语义搜索研究[J].情报学报,2015,34(10):1048-1055. 被引量：3
4曾李阳,齐华,谭明建,刘建川,严林.基于天地图的POI数据采集系统设计与实现[J].测绘与空间地理信息,2016,39(3):55-58. 被引量：8
5蓝振家,郭庆胜,董慧娟,刘晴,尹航.基于海量POI数据的城市小学教育资源信息的提取与分析[J].测绘工程,2016,25(10):59-63. 被引量：9
6贺杰.基于Webdriver爬虫技术的研究[J].科技广场,2016(10):27-31. 被引量：1
7钱建国,马占武.经验爬虫应用于网络地图服务获取[J].测绘与空间地理信息,2017,40(3):14-16. 被引量：1
8严宏基,李兵,詹伟,舒红,耿晴,赵晶.基于众包模式的POI数据采集方案研究[J].地理空间信息,2017,15(12):41-44. 被引量：10
9范攀峰.县域基础地理信息变化发现机制及方法研究[J].测绘地理信息,2017,42(6):73-75. 被引量：3
10侯东阳,陈军,武昊,邢汉发.顾及深层网络的地理信息Web服务搜索系统设计与实现[J].地理信息世界,2018,25(3):7-10. 被引量：4

1远古的爬虫[J].大科技（科学之谜）（A）,2007(2).
2方帅,李林,张晓东.面向地震宏观异常的主题爬虫研究[J].震灾防御技术,2013,8(4):475-480. 被引量：1
3钱建国,马占武.经验爬虫应用于网络地图服务获取[J].测绘与空间地理信息,2017,40(3):14-16. 被引量：1
4马雷雷,李宏伟,连世伟,梁汝鹏,陈虎.一种基于本体语义的灾害主题爬虫策略[J].计算机工程,2016,42(11):50-56. 被引量：4
5沈平,桂志鹏,游兰,胡凯,吴华意.一种主动发现网络地理信息服务的主题爬虫[J].地球信息科学学报,2015,17(2):185-190. 被引量：4
6王小康,邓硕,吴博,李景文.一种基于主题爬行模式的地理信息分布式检索方法[J].测绘与空间地理信息,2015,38(4):96-97.
7杨智,刘劲松,朱以维,董保举.云南大理干湿季近地层湍流特征对比分析[J].气象科技,2009,37(4):429-433. 被引量：9
8黄俊杰,孙以谏,张建洪.碱性闪石类质同象的向量空间[J].火山地质与矿产,1998,19(2):125-132. 被引量：3
9孙一蒙,林龙.“马岛宝石”日行守宫[J].水族世界,2014,0(5):108-113.
10陈睿嘉,康志忠,张卫涛.基于网络爬虫的导航深度服务信息自动采集[J].测绘工程,2015,24(1):17-24. 被引量：8

地理与地理信息科学

2012年第2期

浏览历史

内容加载中请稍等...

基于主题相关度的地理信息Web服务爬虫研究被引量：12

参考文献15

二级参考文献110

共引文献234

同被引文献122

引证文献12

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于主题相关度的地理信息Web服务爬虫研究 被引量：12

参考文献15

二级参考文献110

共引文献234

同被引文献122

引证文献12

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于主题相关度的地理信息Web服务爬虫研究被引量：12