基于条件随机场的中文地址要素识别方法被引量：20

CRFs-based approach to recognition of Chinese address element

下载PDF

导出

摘要由于中文地址命名的不规范性和汉语语言特点,中文地址要素识别成为地址编码的关键技术。传统的特征字匹配和字典匹配方法,难以解决地址要素命名的多样性问题。借鉴自然语言处理技术,通过构建地址要素标注集,设计了基于条件随机场的中文地址要素识别方法。实验证明,与基于特征字的规则方法相比,基于条件随机场的方法能够在较大程度上提高识别效果。由于条件随机场模型具有较好的泛化能力,该方法具有更强的通用性,特别适宜于大规模地址数据的批量解析和大众化位置服务中地址编码的快速处理。 Because of the nonstandard named Chinese address and description character of Chinese language,recognition of Chinese address elements has been regarded as key issues of Chinese geocoding.It is difficult to resolve the problem of address name diversity by traditional method of character words matching and dictionary or gazetteer matching.Chinese address recognition method on the basis of CRFs is designed by constructing address annotation set using NLP technology.The experiment proves that CRFs based method is better than character based rule method in recognition result.As CRFs model has good generalization ability,this method has greater generality that especially fits for large-scale batch parsing and quick geocoding in LBS.

作者蒋文明张雪英李伯秋

机构地区南京师范大学虚拟地理环境教育部重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2010年第13期129-131,共3页 Computer Engineering and Applications

基金国家自然科学基金No.40971231~~

关键词地址编码中文地址要素自然语言处理条件随机场 geocoding Chinese address element natural language processing conditional random fields

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1江洲,李琦.地理编码(Geocoding)的应用研究[J].地理与地理信息科学,2003,19(3):22-25. 被引量：79
2OpenGIS Consortium.Gecoder service draft candidate implementation specification 0.7.6[S].Open Consortium Discussion Paper 01-026r1,2001.
3Goldberg D W,Wilson J P,Knoblock C A.From text to geographic coordinates:The current state of geocoding[J].URISA Journal,2007,19(1):33-46.
4Leidner J L.Toponym resolution in text:Annotation,evaluation and applications of spatial grounding of place names[D].Edinburgh:University of Edinburgh,2007.
5Hill L L.Georoferencing:The geographic associations of information[M].Cambridge,Mass:MIT Press,2009.
6江洲,李小林,刘碧松.地理信息系统地址编码技术标准化研究[J].世界标准化与质量管理,2007(5):22-25. 被引量：21
7李军,李琦,毛东军,郭玲玲.北京市地理编码数据库的研究[J].计算机工程与应用,2004,40(2):1-3. 被引量：43
8崔恒异.中国古今地理通名汇释[M].安徽:黄山书社出版社,2003.
9Lafferty J,McCallum A,Pereira F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proc of the 18th ICMLSan Francisco:Morgan Kaufmann,2001:282-289.
10周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112

二级参考文献50

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
4姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
5数字城市导论编委会.数字城市导论[M].中国建筑工业出版社,2001..
6龚健雅.数字城市的基本概念及实现策略[J].地理信息系统论坛(GIS Forum),2001,.
7北京市信息资源管理中心.北京市信息资源网地理编码数据库设计总结报告[R].,2002-07..
8方正数码.ECFounder MapSearch 1．0-地址编码二次开发手册[M].,2000.08.
9北京市规划发展委员会.北京市地名管理办法[Z].,1983-03..
10北京市规划发展委员会.北京市地名管理条例[Z].,1986-01..

共引文献245

1宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
2简煊祥.基于地理编码的农村历史宗地落宗技术研究与应用[J].安徽地质,2022,32(S02):171-173.
3高小萍,兀伟.地理编码技术探讨[J].测绘标准化,2012,28(4):1-3. 被引量：5
4刘伟.数字城市建设中地理编码库的建设探讨[J].测绘与空间地理信息,2013,36(1):75-76. 被引量：1
5周旭,刘若梅,贾云鹏,路平.“国家动态地图网”技术特点分析[J].测绘科学,2009,34(S1):64-66. 被引量：1
6李军,彭凯,李琦,郭玲玲.基于数字北京的空间信息工程的建设与实践[J].测绘科学,2005,30(1):80-82. 被引量：9
7车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
8刘瑜,方裕,邬伦,谢昆青,潘懋.基于场所的GIS研究[J].地理与地理信息科学,2005,21(5):6-10. 被引量：10
9张喜旺,秦奋,刘剑锋.基于GIS的农村公共卫生区划——以河南省为例[J].人文地理,2006,21(4):20-24. 被引量：3
10李洵,陈云浩,刘纯波.基于Web Services的地名地址发布技术与应用[J].遥感信息,2006,28(5):56-59. 被引量：11

同被引文献153

1王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
2洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9
3徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
4蒋景曈,刘若梅.我国城市地理信息标准化述评[J].工程勘察,2006,34(3):50-54. 被引量：8
5周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
6任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
7李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
9邹智敏,郭荷清,高英.一种对英文字符串进行分词的方法[J].计算机应用研究,2007,24(7):52-54. 被引量：2
10蒋健.文本分类中特征提取和特征加权方法研究[D].重庆:重庆大学,2010.

引证文献20

1李先波,陆藩藩.基于地名地址的政务数据空间化方法[J].现代测绘,2019,42(5):40-43. 被引量：1
2郭文龙.基于SNM算法的大数据量中文地址清洗方法[J].计算机工程与应用,2014,50(5):108-111. 被引量：8
3段炼.基于随机词汇迭代模型的POI分类检索[J].计算机应用研究,2014,31(10):3024-3027. 被引量：1
4杨林,余丽,叶亚琴,万波.一种中文门楼址的自适应表达及成分解析方法[J].测绘科学,2014,39(12):109-115.
5魏勇,胡丹露,李响,张心悦.顾及句法特征的中文地名识别方法[J].测绘科学技术学报,2016,33(1):99-104. 被引量：5
6周海,杜泽欣,范瑞杰,马雷雷,梁汝鹏.空间关系地址模型及其表达模式分析[J].测绘工程,2016,25(5):25-31. 被引量：7
7汪洋,刘师培,王峥.基于Trie树和有限状态自动机的中文地址解析模型[J].计算机与现代化,2016(7):60-67. 被引量：3
8赵卫锋,张勤.非结构化中文自然语言地址描述的自动识别[J].计算机工程与应用,2016,52(23):19-24. 被引量：4
9魏勇,李鸿飞,胡丹露,李响,马雷雷.一种基于复合特征的中文地名识别方法[J].武汉大学学报（信息科学版）,2018,43(1):17-23. 被引量：16
10张文豪,卢山,程光.基于LSTM网络的中文地址分词法的设计与实现[J].计算机应用研究,2018,35(12):3652-3654. 被引量：6

二级引证文献74

1亢孟军,曹浩杰,苏世亮,翁敏,王明军.一种优化的自然语言空间查询转换模型[J].测绘科学,2022,47(7):194-200.
2李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：4
3赵卫锋,张勤.非结构化中文自然语言地址描述的自动识别[J].计算机工程与应用,2016,52(23):19-24. 被引量：4
4何健儿.电力地址精细管理与高级分析应用研究[J].科技创新与应用,2017,7(3):46-47. 被引量：2
5李晓林,黄爽,卢涛,李霖.非规范化中文地址的行政区划提取算法[J].计算机应用,2017,37(3):876-882. 被引量：7
6宋国兴,周喜,马博,赵凡.基于R-树索引的高维相似重复记录检测改进算法[J].微电子学与计算机,2017,34(9):97-102. 被引量：3
7李想,刘纪平,罗安,王勇.面向微博的灾害类事件地址提取与空间定位方法——以地震事件为例[J].测绘与空间地理信息,2018,41(4):128-131. 被引量：8
8王宇璐,张伟,贺泽宇.面向复杂中文地址关联的三维关系评估模型[J].计算机应用研究,2018,35(12):3541-3546. 被引量：1
9许也,申柏希,徐翔,李军.基于条件随机场的非规范化中文地址解析方法[J].地理与地理信息科学,2019,35(2):12-18. 被引量：13
10刘宇,张敬会.基于AC自动机和地址概率模型的地址标准化算法[J].计算机与现代化,2018(12):45-50. 被引量：1

1郭文龙,曾光清.基于特征字的中文地址要素编码和清洗方法[J].鲁东大学学报（自然科学版）,2013,29(4):299-302. 被引量：1
2张雪英,闾国年,李伯秋,陈文君.基于规则的中文地址要素解析方法[J].地球信息科学,2010,12(1):9-16. 被引量：74
3汪洋,刘师培,王峥.基于Trie树和有限状态自动机的中文地址解析模型[J].计算机与现代化,2016(7):60-67. 被引量：3
4郭玲,王晓兰,周献中.彩色地图线状要素识别系统的设计与实现[J].系统仿真学报,2004,16(5):1074-1076. 被引量：3
5钱敏,顾国强,鲁明.用于地址(地理位置)匹配的关键路径法[J].计算机应用与软件,2012,29(1):211-214. 被引量：5
6袁丛洲,张金芳,彭进.高分辨率遥感影像道路线性要素识别[J].计算机工程与应用,2012,48(18):142-147. 被引量：4
7佟文会,江洲,李小林.地址编码关键技术——地址数据内容规范研究[J].标准科学,2009(11):39-42. 被引量：10
8王萍,王贺颖.基于新浪微博的冰雹实况信息挖掘[J].计算机与现代化,2016(3):24-29.
9陈锋,巢文涵,周庆,李舟军.基于卷积树核的中文微博情感要素识别[J].计算机科学,2014,41(12):133-137. 被引量：7
10刘芳,赵铁军,于浩,杨沐昀,方高林.基于统计的汉语组块分析[J].中文信息学报,2000,14(6):28-32. 被引量：27

计算机工程与应用

2010年第13期

浏览历史

内容加载中请稍等...

基于条件随机场的中文地址要素识别方法被引量：20

参考文献12

二级参考文献50

共引文献245

同被引文献153

引证文献20

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的中文地址要素识别方法 被引量：20

参考文献12

二级参考文献50

共引文献245

同被引文献153

引证文献20

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于条件随机场的中文地址要素识别方法被引量：20