大数据环境下基于贝叶斯推理的中文地名地址匹配方法被引量：11

Chinese Place-name Address Matching Method Based on Large Data Analysis and Bayesian Decision

下载PDF

导出

摘要传统的中文地名地址匹配技术难以处理大数据环境下海量、多样和异构的智慧城市地理信息空间中的中文地名地址快速匹配问题。提出了一种Spark计算平台下基于中文地名地址要素的匹配框架及应用智能决策的匹配算法(An Intelligent Decision Matching Algorithm,AIDMA)。首先,从中文地名地址中富含的语义性和中文字符串、数字与字母之间的自然分隔性两个方面进行地址要素解析,构建了融合多距离信息的贝叶斯推理网络,从而提出了基于多准则评判的中文地名地址匹配决策方法。然后,利用芜湖市514967条脱敏后的燃气开户中文地名地址信息库与1770979条网格化社区中的中文地名地址信息库(包含网格化地址的地理空间信息)进行实验与分析。实验结果表明,在处理大规模中文地名地址信息时,相比于传统的中文地名地址匹配方法,该方法能够有效提高单条中文地名地址的匹配效率,同时在匹配度与精确度两个指标上匹配结果更加均衡。 Traditional matching technologies of Chinese place-name address is hard to deal with the fast matching pro- blem of Chinese place-name address in matching massive, diverse and heterogeneous geographic information under the big data environment. An intelligent decision matching algorithm（AIDMA） based on computing framework of Spark was proposed. Firstly, geographical elements are analyzed from semantic information and separations of Chinese strings, numbers and letters. Bayesian networks is constructed with three kind of distance combined with multi criteria decision making effectively. 514957 desensitized gas account information and 1770979 grid addresses information which includes spatial information of Wuhu City are used to perform the experiments. The conclusions prove that the executed time of each record of AIDMA is reduced to about 2.2s from 1rain when compared to traditional algorithms. The matching re- suits are more balanced on matching rate and precise rate. The proposed method possesses the theoretical significance and application value on the road to construct the intelligent countries.

作者许普乐王杨黄亚坤黄少芬赵传信陈付龙

机构地区安徽师范大学数学计算机科学学院

出处《计算机科学》 CSCD 北大核心 2017年第9期266-271,共6页 Computer Science

基金国家自然科学基金(61572036) 安徽省自然科学基金(1708085MF156) 安徽省重大人文社科基金项目(SK2014ZD033)资助

关键词大数据 SPARK 中文地名地址匹配技术贝叶斯推理 Big data,Spark,Matching technologies of Chinese place-name address,Bayesian decision

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1LI DeRen,CAO JianJun,YAO Yuan.Big data in smart cities[J].Science China(Information Sciences),2015,58(10):174-185. 被引量：10
2刘丹,裴颖,李闯.智慧网格化社区协同服务平台研究[J].测绘通报,2015(12):98-100. 被引量：24
3宋子辉.自然语言理解的中文地址匹配算法[J].遥感学报,2013,17(4):788-801. 被引量：28
4葛顺,夏学知.一种基于概率影响分析的智能决策模型[J].计算机工程,2016,42(6):213-217. 被引量：5
5马林兵,龚健雅.空间信息自然语言查询接口的研究与应用[J].武汉大学学报（信息科学版）,2003,28(3):301-305. 被引量：22
6江洲,李琦.地理编码(Geocoding)的应用研究[J].地理与地理信息科学,2003,19(3):22-25. 被引量：79
7魏金明,仲伟政.基于置信度的地址匹配方法初探[J].测绘科学,2015,40(1):122-125. 被引量：11
8黄科,马少平.基于统计分词的中文网页分类[J].中文信息学报,2002,16(6):25-31. 被引量：16
9覃飙,王秋月,李超.一种高效的贝叶斯网络敏感性分析方法[J].小型微型计算机系统,2016,37(4):732-737. 被引量：7
10马照亭,李志刚,孙伟,印洁.一种基于地址分词的自动地理编码算法[J].测绘通报,2011(2):59-62. 被引量：28

二级参考文献69

1甄峰,席广亮,秦萧.基于地理视角的智慧城市规划与建设的理论思考[J].地理科学进展,2015,34(4):402-409. 被引量：94
2柴彦威,郭文伯.中国城市社区管理与服务的智慧化路径[J].地理科学进展,2015,34(4):466-472. 被引量：89
3王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
4陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：29
5徐润萍,王树宗,顾健.作战单元智能体主体结构的研究[J].计算机工程,2005,31(16):173-175. 被引量：5
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
7钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
8李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
9江洲,李小林,刘碧松.地理信息系统地址编码技术标准化研究[J].世界标准化与质量管理,2007(5):22-25. 被引量：21
10刘开瑛郭炳炎.自然语言理解[M].北京:科学出版社,1991.31-41.

共引文献210

1宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
2亢孟军,曹浩杰,苏世亮,翁敏,王明军.一种优化的自然语言空间查询转换模型[J].测绘科学,2022,47(7):194-200.
3简煊祥.基于地理编码的农村历史宗地落宗技术研究与应用[J].安徽地质,2022,32(S02):171-173.
4高小萍,兀伟.地理编码技术探讨[J].测绘标准化,2012,28(4):1-3. 被引量：5
5刘伟.数字城市建设中地理编码库的建设探讨[J].测绘与空间地理信息,2013,36(1):75-76. 被引量：1
6周旭,刘若梅,贾云鹏,路平.“国家动态地图网”技术特点分析[J].测绘科学,2009,34(S1):64-66. 被引量：1
7周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
8万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
9王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
10刘瑜,方裕,邬伦,谢昆青,潘懋.基于场所的GIS研究[J].地理与地理信息科学,2005,21(5):6-10. 被引量：10

同被引文献110

1张雪英,闾国年.基于字面相似度的地理信息分类体系自动转换方法[J].遥感学报,2008,12(3):433-441. 被引量：15
2陈细谦,迟忠先,昃宗亮,苏立强.地理编码在空间数据仓库ETL中的应用[J].小型微型计算机系统,2005,26(4):628-630. 被引量：11
3王秀坤,李政,简幼良,刘剑.基于Hash方法的机器翻译词典的组织与构造[J].大连理工大学学报,1996,36(3):352-355. 被引量：12
4李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25
5宋明亮.汉语词汇字面相似性原理与后控制词表动态维护研究[J].情报学报,1996,15(4):261-271. 被引量：19
6孙钦东,黄新波,王倩.面向中英文混合环境的多模式匹配算法[J].软件学报,2008,19(3):674-686. 被引量：17
7宋启凡,李莉,朱雪征.国外地址数据标准分析及启示[J].地理信息世界,2009,7(1):60-66. 被引量：7
8吴鹏飞,马凤娟,李文革,郭鹏.开源全文检索引擎Lucene本地化实践研究[J].现代图书情报技术,2009(4):19-22. 被引量：8
9佟文会,江洲,李小林.地址编码关键技术——地址数据内容规范研究[J].标准科学,2009(11):39-42. 被引量：10
10张雪英,闾国年,李伯秋,陈文君.基于规则的中文地址要素解析方法[J].地球信息科学,2010,12(1):9-16. 被引量：74

引证文献11

1叶鹏,张雪英,杜咪.顾及字符特征的中文地名词典查询方法[J].地球信息科学学报,2018,20(7):880-886. 被引量：6
2邹恩岑,曾诚,张谦,徐川,朱润,奚雪峰.一种面向中文非标建筑地址标准化的自动匹配方法[J].苏州科技大学学报（自然科学版）,2019,36(4):66-74. 被引量：4
3朱虹,刘莎,李佳承,王淑敏,陈娜娜.我国房屋地址信息标准化建设思考[J].标准科学,2019,0(11):94-98. 被引量：2
4张剑,叶远智,翁宝凤.面向智慧城市的高精度地名地址匹配方法[J].测绘与空间地理信息,2019,42(11):166-169. 被引量：12
5陈超,谢辉,杨劲峰.基于大数据的电力用户地址库构建方法研究[J].电子设计工程,2020,28(14):154-157. 被引量：1
6徐兵,石少青,陈超.基于自然语言的中文地址匹配研究[J].电子设计工程,2020,28(16):7-10. 被引量：4
7彭雨龙,胡顺石,吴涛.多策略中文地址匹配方法[J].测绘通报,2022(2):145-148. 被引量：1
8宋鹏飞,孙勇,季民,张立国,郑岩.基于自然语言处理的大气质量舆情空间化方法[J].测绘地理信息,2022,47(2):132-135. 被引量：1
9陈雨晖,皮洲,姜滕圣,李响,王震,奚雪峰,吴宏杰,付保川.基于知识图谱的中文地址匹配方法研究[J].计算机工程与应用,2022,58(14):306-312. 被引量：1
10汪艳霞.标准地址数据库多源融合建设及动态更新研究[J].工程勘察,2023,51(12):59-64. 被引量：2

二级引证文献41

1刘航,李锡祚.基于深度学习的协同过滤推荐算法[J].智能计算机与应用,2020(8):100-104. 被引量：2
2席岩,刘庆同,薛子育,张乃光.基于智能推荐的跨媒体系统设计[J].有线电视技术,2019,26(6):40-41. 被引量：1
3杜少波.基于深度学习的商品推荐系统研究[J].价值工程,2019,38(26):237-238.
4刘佳琪,罗永莲.中文事件新闻的中国地名抽取算法研究[J].信息与电脑,2019,0(15):53-54.
5赵健东,李素粉.企业网上学习平台学习行为分析与学习推荐方法研究[J].信息通信技术,2019,13(5):64-69.
6梁玮.语音识别技术架构下的英语音标辅助学习平台开发及应用研究[J].计算技术与自动化,2020,39(2):155-159. 被引量：6
7金榜,李霖,沈航,周冬波,罗振威.基于语义位置网的地址位置预测方法[J].地理信息世界,2021,28(1):41-47.
8张琛,陈张建,刘江涛,任福,张红伟.Lucene自适应分词的地址匹配方法改进与实现[J].测绘科学,2021,46(10):185-193. 被引量：4
9秦华,王岩松,宣伟浩.基于多维度特征和深度学习模型的地址实体识别[J].计算机应用,2021,41(S02):48-53. 被引量：1
10薛冰,赵冰玉,李京忠.地理学视角下城市复杂性研究综述——基于近20年文献回顾[J].地理科学进展,2022,41(1):157-172. 被引量：11

1陈轶群.基于身份的在线电子现金系统设计[J].智能计算机与应用,2017,7(4):27-30.
2秦娅娜.视觉设计在电子商务中的应用[J].学习月刊,2016(18):43-44. 被引量：2
3徐周波,张永超,古天龙,宁黎华.面向入侵检测系统的模式匹配算法研究[J].计算机科学,2017,44(9):125-130. 被引量：7

计算机科学

2017年第9期

浏览历史

内容加载中请稍等...

大数据环境下基于贝叶斯推理的中文地名地址匹配方法被引量：11

参考文献11

二级参考文献69

共引文献210

同被引文献110

引证文献11

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

大数据环境下基于贝叶斯推理的中文地名地址匹配方法 被引量：11

参考文献11

二级参考文献69

共引文献210

同被引文献110

引证文献11

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

大数据环境下基于贝叶斯推理的中文地名地址匹配方法被引量：11