一种基于规则的模糊中文地址分词匹配方法被引量：48

A Rule-Based Segmenting and Matching Method for Fuzzy Chinese Addresses

下载PDF

导出

摘要在研究分析地址模型的基础上,建立了存储标准地址数据集的标准地址库和自定义的地址匹配规则库,提出了一种基于规则的模糊中文地址编码方法。该方法在依据标准地址库分词的同时,也沿着自定义的地址匹配规则进行推理,从而缩小了下次分词所用到的目标数据集,提高了系统执行效率。另外,通过借助构建的规则树与歧义栈,提高了文中定义的两类模糊地址匹配的成功率。最后,基于该算法建立了一个地理编码原型系统,并利用经济普查项目中的相关数据对算法的可用性进行了验证。 After analyzing Chinese address model,this paper built a standard address database and an address matching rules database,and then presented a rule-based Geocoding method for fuzzy Chinese addresses.This method used the standard address database to segment the input fuzzy Chinese address.At the same time,the method used the rules database to reduce and find a standard address that matched with that fuzzy address.The method used the customized rules to reduce candidate addresses so that it can participate in match reduction and save the matching executive time.In addition,the introduction of rule tree and semantic stacks also promote the matching of fuzzy address.Finally,a Geocoding prototype system was built,and then its availability was verified utilizing the data of natural economic census project.

作者程昌秀于滨

机构地区中国科学院地理科学与资源研究所

出处《地理与地理信息科学》 CSSCI CSCD 北大核心 2011年第3期26-29,共4页 Geography and Geo-Information Science

基金国家863项目"经济普查与基本单位统计遥感应用系统"(2006AA120106) "地理空间数据库管理系统总体设计"(2007AA120401)

关键词地理编码模糊地址规则库地址分词 Geocoding fuzzy address rule database address segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
2李军,李琦,毛东军,郭玲玲.北京市地理编码数据库的研究[J].计算机工程与应用,2004,40(2):1-3. 被引量：44
3陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：29
4孙亚夫,陈文斌.基于分词的地址匹配技术[A].中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C].2007.114-125.
5张铁燕,翁敬农,黄坚.城市地理编码方法的探索与实践[A].中国地理信息系统协会第九届年会论文集[C].2005.
6SENGAR V, JOSHI T, JOY J, et al. Robust Location Search from Text Queries. http://research, microsoft, com/en us/people/josephj/acm_gis_2007_robust_location_search. pdf, 2007-- 12--30.
7GOLDBERG D W,WILSON J P, KNOBLOCK C A. From textto geographic coordinates; The current state of geocoding[J]. Urban and Regional Information Systems Association, 2007,19 (1):33--46.
8郭会.基于自动机分词的中文地址地理编码技术研究与实现[D].北京:中国科学院地理所,2008.
9高巍.在大城市实现有线电视用户地址标准化的设想[J].广播与电视技术,2007,34(10):99-102. 被引量：1

二级参考文献20

1北京市信息资源管理中心.北京市信息资源网地理编码数据库设计总结报告[R].,2002-07..
2方正数码.ECFounder MapSearch 1．0-地址编码二次开发手册[M].,2000.08.
3北京市规划发展委员会.北京市地名管理办法[Z].,1983-03..
4北京市规划发展委员会.北京市地名管理条例[Z].,1986-01..
5北京市规划发展委员会.地名管理条例实施细则[Z].,1996-06..
6北京市信息资源管理中心.北京市地理编码数据库一期建设方案[Z].,2002-09..
7北京市信息资源管理中心.地理编码数据采集工艺[Z].,2003-01..
8首都信息发展股份有限公司.北京市规划委员会地名管理信息系统总体设计方案[Z].,2001-04..
9Tele Atlas.geocode com Eagle Geocoding Technology.http:∥www.2002-12
10The Etak Geocoding Process.http:∥www.etak.com/.2002-01

共引文献85

1简煊祥.基于地理编码的农村历史宗地落宗技术研究与应用[J].安徽地质,2022,32(S02):171-173.
2刘伟.数字城市建设中地理编码库的建设探讨[J].测绘与空间地理信息,2013,36(1):75-76. 被引量：1
3李军,彭凯,李琦,郭玲玲.基于数字北京的空间信息工程的建设与实践[J].测绘科学,2005,30(1):80-82. 被引量：9
4章意锋,吴健平,程怡,曾春润.ArcGIS中地理编码方法的改进[J].测绘与空间地理信息,2007,30(3):116-119. 被引量：8
5彭子凤,任福.基于数字深圳空间基础信息平台构筑电子地图服务体系[J].地理信息世界,2007,5(3):45-50. 被引量：7
6王秀明.地理信息系统地址自动匹配[J].闽西职业技术学院学报,2007,9(2):75-77. 被引量：6
7王周龙,刘晓玫,王大鹏,李德一.太湖流域地理数据库构建[J].水资源保护,2007,23(4):59-61. 被引量：1
8李进强.城市地理空间信息标准化问题研究[J].福建建筑,2008(1):13-14. 被引量：1
9喻文承,黄晓春,邱苏文,杜立群.城市地理编码：科学与理性城市规划的基石[J].规划师,2008,24(6):84-86. 被引量：2
10陆涛,杨冬青,伏晴艳,钱华.GIS技术在船舶大气污染物排放清单建立研究中的应用[J].上海环境科学,2005,24(6):261-265. 被引量：1

同被引文献297

1宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3高小萍,兀伟.地理编码技术探讨[J].测绘标准化,2012,28(4):1-3. 被引量：5
4王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
5陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：29
6张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
7王笑旻.基于Bigram的特征词抽取及自动分类方法研究[J].计算机工程与应用,2005,41(22):177-179. 被引量：5
8吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
9Christiane Weber,周彦,陈素素.相互作用模型在城市规划中的运用[J].国外城市规划,2006,21(3):77-82. 被引量：1
10向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27

引证文献48

1刘一宁,郭功举,林木棵,王琳.基于位置描述的地理实体信息融合方法[J].测绘通报,2021(S01):65-69. 被引量：7
2余明朗,明小娜,龙毅,张雪英.GIS环境下中文命令的规则匹配与语义解析[J].地理与地理信息科学,2012,28(6):7-12. 被引量：3
3邵妍,刘燕兵,谭建龙,郭莉.基于概率统计模型的快递地址自动分类方法[J].计算机工程,2012,38(23):277-280. 被引量：5
4张倩,郭嗣琮.基于有限状态机和Trie数的分级地址模型[J].计算机应用,2013,33(3):854-857. 被引量：5
5汤廖文.增城警用标准地址库建设及管理[J].城市勘测,2013(3):53-55. 被引量：4
6郭文龙.一种客户关系数据库相似重复记录清洗算法[J].衡水学院学报,2014,16(1):15-17. 被引量：3
7徐聪,张丰,杜震洪,张逸然,陈明,刘仁义.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报（理学版）,2014,41(2):217-222. 被引量：11
8王伟.上海市地址数据采集更新方法研究[J].矿山测量,2018,46(6):113-116. 被引量：1
9应申,李威阳,贺彪,王维,万远.统计决策树下的城市地址集中文分词[J].武汉大学学报（信息科学版）,2019,44(2):302-309. 被引量：10
10杨林,余丽,叶亚琴,万波.一种中文门楼址的自适应表达及成分解析方法[J].测绘科学,2014,39(12):109-115.

二级引证文献166

1孙世界,王锦忆.隐形消费空间的分布特征及影响因素研究——以南京老城为例[J].城市规划学刊,2021(1):97-103. 被引量：21
2王琳,赵峰,刘春.“多测合一”的空间地理实体智能提取和构建方法[J].测绘通报,2022(S02):245-249. 被引量：9
3亢孟军,曹浩杰,苏世亮,翁敏,王明军.一种优化的自然语言空间查询转换模型[J].测绘科学,2022,47(7):194-200.
4侯超,严涵,忻静.基于地理信息技术的上海市第一次自然灾害综合风险普查数据采集处理方法研究[J].安徽地质,2022,32(S02):63-68.
5冯跃林.基于数组公式的95598客服工单快速统计[J].云南电业,2023(7):39-42.
6张倩,郭嗣琮.基于有限状态机和Trie数的分级地址模型[J].计算机应用,2013,33(3):854-857. 被引量：5
7徐聪,张丰,杜震洪,张逸然,陈明,刘仁义.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报（理学版）,2014,41(2):217-222. 被引量：11
8周俊生,曲维光,许菊红,龙毅,朱耀邦.基于语义解析的中文GIS自然语言接口实现研究[J].中文信息学报,2014,28(6):62-69. 被引量：5
9成江荣.模糊查找与模糊分组在批量数据合并中的应用[J].北京印刷学院学报,2014,22(6):63-66.
10周浩,葛江涛.一种基于综合分词和模糊匹配的地名地址匹配方法研究[J].信息通信,2015,28(5):10-10. 被引量：2

1于滨,程昌秀,左廷英.面向全国经济普查需求的专家系统地理编码方法[J].计算机应用研究,2010,27(8):2976-2979. 被引量：4
2黄华国.标准地址模型在PGIS中的研究与应用[J].中小企业管理与科技,2014(11):311-313. 被引量：2
3张林曼,吴升.地理编码系统中地名地址分词算法研究[J].测绘科学,2010,35(2):46-48. 被引量：16
4郭文龙.数据清洗中中文地址分词技术研究[J].齐齐哈尔大学学报（自然科学版）,2012,28(5):14-18.
5U盘变内存eBoostr来实现[J].网友世界,2009(18):29-29.
6田云娜,李丹霞,延飞波.分布式环境下基于代理的角色访问控制[J].延安大学学报（自然科学版）,2008,27(1):28-30. 被引量：1
7庄海东,张鸿恩.基于规则的中文地址匹配系统[J].福建电脑,2013,29(9):130-132. 被引量：4
8邵妍,刘燕兵,谭建龙,郭莉.基于概率统计模型的快递地址自动分类方法[J].计算机工程,2012,38(23):277-280. 被引量：5
9胡宁,潘彦彭,毛涵月,赵克楠.浅谈标准地址在广电运营商中的实施[J].有线电视技术,2015,22(12):97-99. 被引量：1
10张红文.地名地址匹配模型构建方法研究[J].科学咨询,2016(27):41-42. 被引量：5

地理与地理信息科学

2011年第3期

浏览历史

内容加载中请稍等...

一种基于规则的模糊中文地址分词匹配方法被引量：48

参考文献9

二级参考文献20

共引文献85

同被引文献297

引证文献48

二级引证文献166

相关作者

相关机构

相关主题

浏览历史

一种基于规则的模糊中文地址分词匹配方法 被引量：48

参考文献9

二级参考文献20

共引文献85

同被引文献297

引证文献48

二级引证文献166

相关作者

相关机构

相关主题

浏览历史

一种基于规则的模糊中文地址分词匹配方法被引量：48