基于Trie树和有限状态自动机的中文地址解析模型被引量：3

A Chinese Address Resolution Model Based on Trie Tree and Finite Automata

下载PDF

导出

摘要目前,无论是在研究或者是商业领域中,中文地址解析都没有一个成熟的模型结果。要素识别是地址解析的关键技术,传统的地址要素识别是基于特征词和字典匹配的方法,难以解决地址命名的多样性问题。利用自然语言处理技术,根据Trie树模型对行政区域寻址的方法和有限状态自动机模型对非规范地址的要素提取方法,本文提出T-FA模型对地址进行分级划分。其中,采用隐马尔可夫模型的切词方法和最长公共子序列算法,可以解决地址要素识别的模糊化搜索。T-FA模型具有良好的泛化能力,在批量处理地址时具有很好的通用效果,能比较有效地解决中文地址多样化的解析难题。 Until now, there is not a relatively mature model in the research of Chinese address resolution no matter in the academ -ic or commercial fields .Elements identification is the main technique for address resolution .Traditional method of address ele-ments identifying basing on the method of feature words and dictionary matching is difficult to solve the problem of the non -canoni-cal address resolution .In this paper , the T-FA model is proposed to solve the problem of address segment and grading , for fur-ther, the Trie-tree model is adopted for addressing of administrative regions and the Finite-Automata（FA） model for the elements extraction of non-canonical address corresponding , which are both common technologies in natural language processing field .And fuzzy search and recognition of the address elements could be well resolved using words segmentation method based on the hidden Markov model and the Longest Common Sub-sequence （ LCS） algorithm.The T-FA model achieves a better performance in the generalization ability for batch processing the address information than state-of-art, and more effective in solving the problem of non-canonical address resolution .

作者汪洋刘师培王峥

机构地区武汉邮电科学研究院烽火通信科技股份有限公司南京研发部

出处《计算机与现代化》 2016年第7期60-67,共8页 Computer and Modernization

关键词自然语言处理地址解析要素识别 Trie树模型有限状态自动机模型 natural language processing address resolution elements identify Trie tree model finite automata model

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1宋子辉.自然语言理解的中文地址匹配算法[J].遥感学报,2013,17(4):788-801. 被引量：28
2臧英斐,王斌,瞿晓雯.重庆市中文语义地址模型构建方法探讨[J].地理空间信息,2015,13(3):122-125. 被引量：6
3刘丽霞,张志强.基于Trie树的相似字符串查找算法[J].计算机应用,2013,33(8):2375-2378. 被引量：10
4徐娟,曹晔,张奇.面向自由文本的中文地址规范化[J].计算机应用与软件,2015,32(8):22-24. 被引量：4
5秦学秀.地名数据的3种形式及其质量要求[J].测绘通报,2011(10):68-69. 被引量：7
6张雪英,闾国年,李伯秋,陈文君.基于规则的中文地址要素解析方法[J].地球信息科学,2010,12(1):9-16. 被引量：74
7亢孟军,杜清运,王明军.地址树模型的中文地址提取方法[J].测绘学报,2015,44(1):99-107. 被引量：35
8程晓锦,徐秀花.有限状态自动机及在字符串搜索中的应用[J].北京印刷学院学报,2014,22(4):45-48. 被引量：2
9杜冲,司望利,许珺.基于地理语义的空间关系查询和推理[J].地球信息科学,2010,12(1):48-55. 被引量：14
10徐聪,张丰,杜震洪,张逸然,陈明,刘仁义.基于哈希和双数组trie树的多层次地址匹配算法[J].浙江大学学报（理学版）,2014,41(2):217-222. 被引量：11

二级参考文献141

1张保钢.地名与地址之比较[J].北京测绘,2009,23(1):34-35. 被引量：10
2许珺,张晶,司望利,孙红玖.线状物体空间关系的自然语言理解的双语比较[J].遥感学报,2008,12(2):362-369. 被引量：3
3朱建伟,王泽民.地理编码原理及其本地化解决方案[J].北京测绘,2004,18(2):24-27. 被引量：17
4褚亚平.城市地名商品化与地名管理法制化[J].中国地名,1996(1):4-6. 被引量：4
5王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
6温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
7褚亚平.城市规划发展不能忽略地名规划[J].北京规划建设,2004(6):112-113. 被引量：8
8陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：29
9邓敏,刘文宝,冯学智.GIS面目标间拓扑关系的形式化模型[J].测绘学报,2005,34(1):85-90. 被引量：35
10吴静,蔡砥,王铮.地理信息系统中自然语言查询的分词处理与应用[J].地球信息科学,2005,7(3):67-71. 被引量：6

共引文献176

1李先波,陆藩藩.基于地名地址的政务数据空间化方法[J].现代测绘,2019,42(5):40-43. 被引量：1
2刘一宁,郭功举,林木棵,王琳.基于位置描述的地理实体信息融合方法[J].测绘通报,2021(S01):65-69. 被引量：7
3亢孟军,曹浩杰,苏世亮,翁敏,王明军.一种优化的自然语言空间查询转换模型[J].测绘科学,2022,47(7):194-200.
4吴龙,吴健,任红民.基于双数组Trie树的嵌入式TTS系统研究[J].现代机械,2010(4):67-70.
5陆娟,汤国安,蒋平,吴伟.公安业务地理信息关联采集方式的研究[J].地球信息科学学报,2010,12(5):713-717. 被引量：2
6刘昌,王振武.基于LINQ技术的海量数据查询匹配算法研究[J].电脑编程技巧与维护,2010(24):53-54.
7董春,艾立民,袁卫平,徐根才,康风光,刘勇,王亮,王晓丽,刘新飞,苏德国.集成GIS及信息化新技术的农家书屋工程信息管理系统建设[J].中国科技成果,2011(3):32-35.
8戴芹,刘建波,刘士彬.综合多特征遥感图像智能检索方法的概念设计[J].地球信息科学学报,2011,13(3):401-408. 被引量：6
9李琪,郭敏.基于字典树的基数排序算法[J].硅谷,2011,4(14):192-193. 被引量：4
10郑玥,龙毅,明小娜,严瑞.多种空间关系组合的地理位置自然语言描述方法[J].地球信息科学学报,2011,13(4):465-471. 被引量：14

同被引文献45

1付梦印,李杰,邓志红.基于分层道路网络的新型路径规划算法[J].计算机辅助设计与图形学学报,2005,17(4):719-722. 被引量：6
2张雪英,闾国年,李伯秋,陈文君.基于规则的中文地址要素解析方法[J].地球信息科学,2010,12(1):9-16. 被引量：74
3蒋文明,张雪英,李伯秋.基于条件随机场的中文地址要素识别方法[J].计算机工程与应用,2010,46(13):129-131. 被引量：20
4彭明军.利用层次空间推理进行城市空间信息多级网格划分[J].武汉大学学报（信息科学版）,2010,35(9):1112-1115. 被引量：12
5王培凤,李莉.基于Aho-Corasick算法的多模式匹配算法研究[J].计算机应用研究,2011,28(4):1251-1253. 被引量：16
6张朋东,邓敏,赵玲,王佳璆.集成不同类型特征的城市道路选取方法研究[J].地理与地理信息科学,2011,27(5):16-20. 被引量：6
7于淼,吕雅娟,苏劲松,李贤华.规则和统计相结合的中文地址翻译方法[J].中文信息学报,2012,26(3):49-53. 被引量：5
8郭春喜,王文利,白贵霞,程鹏飞.坐标系转换中全国高精度高分辨率格网改正量的确定[J].测绘科学,2013,38(2):5-7. 被引量：16
9佘冰,朱欣焰,呙维,徐晓.基于空间点模式分析的城市管理事件空间分布及演化——以武汉市江汉区为例[J].地理科学进展,2013,32(6):924-931. 被引量：31
10宋子辉.自然语言理解的中文地址匹配算法[J].遥感学报,2013,17(4):788-801. 被引量：28

引证文献3

1刘宇,张敬会.基于AC自动机和地址概率模型的地址标准化算法[J].计算机与现代化,2018(12):45-50. 被引量：1
2余俊,于文年,彭艳兵.基于ELMo-BiLSTM-CRF模型的中文地址分词[J].电子设计工程,2021,29(20):72-76. 被引量：4
3陈晓东,余劲松弟.地址模型下的城市网格划分方法[J].华侨大学学报（自然科学版）,2022,43(3):392-402. 被引量：3

二级引证文献8

1徐兵,石少青,陈超.基于自然语言的中文地址匹配研究[J].电子设计工程,2020,28(16):7-10. 被引量：4
2肖海艳.基于深度学习的在线教师课程评论情感分析模型[J].电子设计工程,2023,31(6):39-42. 被引量：1
3兰庆炜,樊宁.结合MacBERT与多层次特征协同网络的音乐社交评论情感分析模型[J].电子设计工程,2023,31(7):36-41.
4陈丽春.结合ERNIE2.0和多尺度网络的数字图书馆文本分类研究[J].电子设计工程,2023,31(19):1-5.
5刘啸婵,丁宗玮,戴煜炜,刘晓川.中文地名地址匹配方法综述[J].测绘与空间地理信息,2023,46(9):64-67. 被引量：1
6郭玉芳,武慧琳,兀伟,赵鑫.地理网格技术标准化的现状分析[J].地理空间信息,2023,21(11):141-144.
7田洁玫,梁发超.基于POI数据的社区生活圈体育服务设施空间分异[J].华侨大学学报（自然科学版）,2023,44(6):743-750.
8王璐.城市非法小广告治理地理信息系统的设计与实现[J].科技资讯,2024,22(6):47-50.

1李建华,李钊.Robocup中角色决策的有限状态自动机模型[J].山东科学,2008,21(5):71-73.
2郭玲,王晓兰,周献中.彩色地图线状要素识别系统的设计与实现[J].系统仿真学报,2004,16(5):1074-1076. 被引量：3
3朱维军,王迤冉,张树仁.一种基于时间自动机的基因网络逻辑模型[J].生物信息学,2006,4(4):167-169. 被引量：1
4苑明哲,吕勇,于海斌.基金会现场总线功能块的有限状态自动机模型[J].仪器仪表学报,2005,26(1):48-53. 被引量：1
5蒋文明,张雪英,李伯秋.基于条件随机场的中文地址要素识别方法[J].计算机工程与应用,2010,46(13):129-131. 被引量：20
6韩冰.基于FTP教学平台的代码相似度检测的研究[J].计算机光盘软件与应用,2012,15(9):217-218. 被引量：1
7袁丛洲,张金芳,彭进.高分辨率遥感影像道路线性要素识别[J].计算机工程与应用,2012,48(18):142-147. 被引量：4
8张玥杰,朱靖波,姚天顺.一种新型的面向数据的语言处理技术[J].计算机科学,1999,26(2):57-61.
9C20040402自动问答系统[J].中国科技产业,2004(4):76-76.
10技术[J].保密科学技术,2015(4).

计算机与现代化

2016年第7期

浏览历史

内容加载中请稍等...

基于Trie树和有限状态自动机的中文地址解析模型被引量：3

参考文献13

二级参考文献141

共引文献176

同被引文献45

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于Trie树和有限状态自动机的中文地址解析模型 被引量：3

参考文献13

二级参考文献141

共引文献176

同被引文献45

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于Trie树和有限状态自动机的中文地址解析模型被引量：3