检索词优化与空间自适应的深网POI获取方法研究

Research on Deep Web POI acquisition based on retrieving word optimization and spatial adaptive

导出

摘要针对检索词库构建困难、数据请求量受限制等相关问题,该文提出一种基于独立覆盖率排序和空间自适应剖分的深网POI信息搜索方法,通过候选检索词初步构建、贪婪式探测搜索、检索词优化降维、空间自适应剖分爬行等主要流程,利用逐步逼近POI搜索的最大覆盖最优解,实现对深网POI信息的全量获取,大幅度提高深网POI数据的召回率与采集效率,该方法对于丰富地理信息资源、提升空间信息服务与内容管理能力具有重要意义。 In this paper,a deep-web POI information search method based on independent coverage ranking and spatial adaptive partition is proposed to solve the problems of difficult construction of retrieval word base and limited data request.By constructing candidate search terms,searching greedily,optimizing dimensionality reduction of search terms,and crawling spatially adaptive partitioning,the maximum coverage optimal solution of POI search is approached step by step,and the full POI information of deep web is obtained.It is of great significance to improve the recall rate and collection efficiency of POI data for enriching geographic information resources and improving the ability of spatial information service and content management.

作者周国新吴永静崔腾腾杨辉山罗安 ZHOU Guoxin;WU Yongjing;CUI Tengteng;YANG Huishan;LUO An(Land &Resources Technology Center of Guangdong Province,Guangzhou 510075,China;Chinese Academy of Surveying and Mapping,Beijing 100036 ,China)

机构地区广东省国土资源技术中心中国测绘科学研究院

出处《测绘科学》 CSCD 北大核心 2019年第7期135-140,共6页 Science of Surveying and Mapping

关键词深网POI 数据获取检索词优化空间自适应剖分 deep Web POI data collection retrieving word optimization spatial adaptive subdivision

分类号 P208 [天文地球—地图制图学与地理信息工程]

引文网络
相关文献

参考文献6

1田建伟,李石君.基于层次树模型的Deep Web数据提取方法[J].计算机研究与发展,2011,48(1):94-102. 被引量：14
2侯东阳,武昊,王军锋,王明山.基于深层网络爬虫的Web地图服务发现方法[J].地理与地理信息科学,2015,31(5):10-13. 被引量：11
3刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
4张玲.POI的分类标准研究[J].测绘通报,2012(10):82-84. 被引量：79
5侯东阳.地表覆盖网络化信息发现方法研究[J].测绘学报,2017,46(1):133-133. 被引量：2
6郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28

二级参考文献101

1胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
2Bergman M K. The Deep Web: Surfacing hidden value [J]. Journal of Electronic Publishing, 2001, 7(1): 1174-1175.
3Chang K C C, He B, Li C, et al. Structured databases on the Web: Observations and implications [J]. SIGMOD Record, 2004, 33(3): 61-70.
4Liu W, Meng X F, Meng W Y. Deep Web data integration, WAMDM-TR-2006-3 [OL]. [ 2010-01-10]. http://idke. rue. edu. cn/reports/report2006/seminar% 20summary[Deep] 20Web. pdf.
5Barbosa L, Freire J. An adaptive crawler for locating hidden Web entry points [C] //Proc of the 16th Int Conf on World WideWeb(WWW). NewYork: ACM, 2007: 441-450.
6Barbosa L, Freire J. Searching for hidden-Web databases [C] //Proc of the 8th ACM SIGMOD Int Workshop on Web and Databases (WebDB). New York: ACM, 2005: 1-6.
7He Hal, Meng Weiyi, Clement T Y, et al. WISE- Integrator: A system for extracting and integrating complex Web search interfaces of the Deep Web [C]//Proc of the 31st Int Conf on Very Large Data Bases(VLDB). New York: ACM, 2005: 1314-1317.
8Wu Wensheng, AnHai Doan, Clement T Y. WebIQ: learning from the Web to match Deep-Web query interfaces [C] //Proc of the 22nd Int Conf on Data Engineerlng(ICDE), Washington D C: IEEE Computer Society Press, 2006: 44- 54.
9Madhavan J, Ko D, Kot L, et al. Google's Deep Web crawl [J]. PVLDB, 2008, 1(2): 1241-1252.
10Cui Tao, David W Embley. Automatichidden-Web table interpretation by sibling page comparison [C] //Proc of the 26th Int Conf on Conceptual Modeling (ER). Berlin: Springer, 2007:560-581.

共引文献260

1李莉.浅谈ArcGIS在公交线路分布制图中的应用[J].江西测绘,2020(3):44-46.
2骆少华,刘扬,高思岩,王鹏飞.基于空间格网的城市功能区定量识别[J].测绘通报,2020(S01):214-217. 被引量：14
3魏勇刚,张国春,常勇,袁方.基于词性分析和领域知识的Deep Web语义标注[J].郑州大学学报（理学版）,2009,41(1):52-55. 被引量：7
4郑淑丽,韩江洪,程文娟,吴永忠.Deep Web查询接口自动识别方法[J].郑州大学学报（理学版）,2009,41(1):56-58. 被引量：1
5李颖,刘国华,佟冰,刘顺江.基于素数的多源模式匹配方法的研究[J].燕山大学学报,2009,33(2):141-145. 被引量：1
6王哲,徐燕文.基于差异化融合的语义信息检索模型仿真[J].微电子学与计算机,2015,32(1):146-149. 被引量：2
7苏晓珂,赵磊,黄青松.Deep Web中基于迭代的查询方式[J].云南民族大学学报（自然科学版）,2007,16(1):66-68. 被引量：1
8李越,孙彬,王东.XQuery Web搜索系统的设计与实现[J].新疆石油天然气,2007,3(2):94-96. 被引量：1
9鞠彦辉,许燕.Deep Web信息资源开发策略研究[J].现代情报,2008,28(1):77-80. 被引量：1
10曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39

1郭佳莹.斯坦福创业系:光环、痛苦与自我证明[J].中国企业家,2019,0(2):36-41.
2熊仁国,张银柱,张沁沁.自媒体深度内容生产与传播探析[J].中国广播电视学刊,2017(10):68-70. 被引量：16
3季刚.车载导航电子终端中搜索沿路POI方法研究[J].科技创新导报,2018,15(21):107-109. 被引量：1
4郭小萍,徐月,李元.基于特征空间自适应k近邻工业过程故障检测[J].高校化学工程学报,2019,33(2):453-461. 被引量：9
5陈景霞,郑茹,张鹏伟,贾小云.基于数据空间自适应与共空间模式的脑电情感分类[J].计算机工程,2019,45(4):296-301. 被引量：5
6汪丽芳,王青山,王琦,夏茂晋,郭豪,曹成.一种基于平稳分布的信息搜索方法[J].合肥工业大学学报（自然科学版）,2018,41(8):1041-1045. 被引量：1
7钱建国,李智程,吴财,项学泳.基于百度地图API的移动端旅游信息管理系统[J].测绘与空间地理信息,2019,42(5):25-28. 被引量：10
8刘顺,张德磊,郝金双.位置服务的网络测量与分析方法[J].新技术新工艺,2019,0(6):71-74. 被引量：2
9柏新盛,王凤立,何正付.激健在玉米螟减量控害中的应用效果研究[J].现代农业科技,2019,0(13):98-98.
10张晋,沈卫东,许晓跃,葛童娜,郭旭,王帅,屠晶晶,虎力.基于文献研究的穴位按压疗法力度相关参数聚类分析[J].中国医药导报,2019,16(19):124-128. 被引量：1

测绘科学

2019年第7期

浏览历史

内容加载中请稍等...

检索词优化与空间自适应的深网POI获取方法研究

参考文献6

二级参考文献101

共引文献260

相关作者

相关机构

相关主题

浏览历史