基于LSTM网络的中文地址分词法的设计与实现被引量：6

Design and implementation of Chinese address segmentation method based on LSTM networks

下载PDF

导出

摘要当前中文地址的分词法主要采用基于规则和传统机器学习的方法。这些方法需要人工长期维护词典和提取特征。为避免特征工程和减少人工维护,提出了将长短时记忆(long short-term memory,LSTM)网络和双向长短时记忆(bi-directional long short-term memory,Bi-LSTM)网络分别应用在中文地址分词任务中,并采用四词位标注法以及增加未标记数据集的方法提升分词性能。在自建数据集上的实验结果表明,中文地址分词任务应用Bi-LSTM网络结构能得到较好的性能,在增加未标记数据集的情况下,可以有效提升模型的性能。 Currently most methods for Chinese address segmentation are mainly based on rules and traditional machine learning technology. However,these methods maintain dictionary and extract features with artificial maintenance for a long time. In order to avoid feature engineering and reduce artificial maintenance,this paper applied LSTM and bidirectional LSTM to Chinese address segmentation,with four-tag-set and character embedding. This paper also added abundant unlabeled Chinese address to enhance the performance. The result on self-built set shows that both LSTM and bidirectional LSTM neural networks work well,and bidirectional LSTM has a bit good performance. Also,adding extra unlabeled set can great improve the performance.

作者张文豪卢山程光 Zhang Wenhao;Lu Shan;Cheng Guang(guhan Research Institute of Posts ＆ Telecommunications,guhan 430074,China;Nanjing Fiberhome Software Science ＆ Technology Co.Ltd,Wanjing 210019,China;School of Computer Science ＆ Engineering,Southeast University,Nanjing 211189,China)

机构地区武汉邮电科学研究院南京烽火软件科技有限公司东南大学计算机科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2018年第12期3652-3654,共3页 Application Research of Computers

基金国家"863"计划资助项目(2015AA015603) 国家自然科学基金资助项目(61602114)

关键词中文地址分词卡短时记忆未标记数据集 Chinese address segmentation LSTM unlabeled set

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1程昌秀,于滨.一种基于规则的模糊中文地址分词匹配方法[J].地理与地理信息科学,2011,27(3):26-29. 被引量：48
2张雪英,闾国年,李伯秋,陈文君.基于规则的中文地址要素解析方法[J].地球信息科学,2010,12(1):9-16. 被引量：71
3蒋文明,张雪英,李伯秋.基于条件随机场的中文地址要素识别方法[J].计算机工程与应用,2010,46(13):129-131. 被引量：20
4徐娟,曹晔,张奇.面向自由文本的中文地址规范化[J].计算机应用与软件,2015,32(8):22-24. 被引量：4
5罗明,黄海量.一种基于有限状态机的中文地址标准化方法[J].计算机应用研究,2016,33(12):3691-3695. 被引量：14
6任智慧,徐浩煜,封松林,周晗,施俊.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324. 被引量：69
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246
8胡婕,张俊驰.双向循环网络中文分词模型[J].小型微型计算机系统,2017,38(3):522-526. 被引量：11

二级参考文献81

1朱建伟,王泽民.地理编码原理及其本地化解决方案[J].北京测绘,2004,18(2):24-27. 被引量：16
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：29
9林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
10杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16

共引文献421

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：41
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3李先波,陆藩藩.基于地名地址的政务数据空间化方法[J].现代测绘,2019,42(5):40-43. 被引量：1
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5刘一宁,郭功举,林木棵,王琳.基于位置描述的地理实体信息融合方法[J].测绘通报,2021(S01):65-69. 被引量：5
6于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
7赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
8李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
9麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9
10王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.

同被引文献54

1李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
2信息处理用现代汉语词类标记集规范[J].语言文字应用,2001(3):16-20. 被引量：13
3周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：111
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246
5章意锋,吴健平,程怡,曾春润.ArcGIS中地理编码方法的改进[J].测绘与空间地理信息,2007,30(3):116-119. 被引量：8
6邹智敏,郭荷清,高英.一种对英文字符串进行分词的方法[J].计算机应用研究,2007,24(7):52-54. 被引量：2
7冯元勇,孙乐,张大鲲,李文波.基于小规模尾字特征的中文命名实体识别研究[J].电子学报,2008,36(9):1833-1838. 被引量：25
8龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009,5(4):2605-2607. 被引量：39
9徐哲,刘循.贝叶斯决策树在英文现在分词词性识别中的应用[J].计算机应用,2009,29(9):2571-2574. 被引量：6
10宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42

引证文献6

1程博,李卫红,童昊昕.基于BiLSTM-CRF的中文层级地址分词[J].地球信息科学学报,2019,21(8):1143-1151. 被引量：14
2彭明军,李宗华,刘辉,孟成,李勇.基于中文分词的加权地理编码在COVID-19疫情防控空间定位中的应用[J].武汉大学学报（信息科学版）,2020,45(6):808-815. 被引量：5
3孙士琦,汤鲲.基于BERT的中文地址分词方法[J].电子设计工程,2021,29(9):155-159. 被引量：2
4吴恪涵,张雪英,叶鹏,怀安,张航.基于BERT-BiLSTM-CRF的中文地址解析方法[J].地理与地理信息科学,2021,37(4):10-15. 被引量：5
5邓庆康,李晓林.采用BERT-BiLSTM-CRF模型的中文位置语义解析[J].软件导刊,2022,21(2):37-42. 被引量：4
6廖坤.基于循环神经网络和条件随机场模型在电信标准地址分级中的应用研究[J].通信与信息技术,2022(6):137-141.

二级引证文献29

1王昕,李卫红,童昊昕.TransE和TransH模型空间地址表示学习中的对比研究——以广州市天河区为例[J].华南师范大学学报（自然科学版）,2020,52(4):86-94. 被引量：1
2徐兵,石少青,陈超.基于自然语言的中文地址匹配研究[J].电子设计工程,2020,28(16):7-10. 被引量：4
3孙怡轩,石荣幸,马立军,白菁昊,刘旭红(指导).中医药领域知识图谱构建[J].数码设计,2020,9(17):144-146.
4马艺文,潘琛玲,孟成.武汉市居住空间特征与COVID-19疫情分布关系研究[J].地理空间信息,2020,18(11):43-47. 被引量：1
5刘双巧,周璐,李彩艳,袁慧敏,张异卓,李昱达,刘锦钢,郑丰杰,孙燕,李宇航.基于SentencePiece的中医学分词模型建模研究[J].世界中医药,2021,16(6):981-985. 被引量：1
6成彬,施水才,都云程,肖诗斌.基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J].数据分析与知识发现,2021,5(3):101-108. 被引量：10
7吴恪涵,张雪英,叶鹏,怀安,张航.基于BERT-BiLSTM-CRF的中文地址解析方法[J].地理与地理信息科学,2021,37(4):10-15. 被引量：5
8罗玲,李硕凯,何清,杨骋骐,王宇洋恒,陈天宇.基于知识图谱、TF-IDF和BERT模型的冬奥知识问答系统[J].智能系统学报,2021,16(4):819-826. 被引量：6
9刘现印,李玉琳,尹斌,田沁.融合神经网络和空间关系的中文地址解析[J].测绘科学,2021,46(8):165-171. 被引量：3
10周凯,刘萍.基于数据挖掘的空气质量预测模型研究[J].计算机与数字工程,2021,49(8):1631-1636. 被引量：3

1赵成,李滨.一种中文地址知识库支撑的中文地址分词算法[J].测绘科学技术学报,2017,34(6):639-643. 被引量：9
2李新放,宋转玲,陈学业,贺彪,刘海行.K叉树地址的模糊匹配研究与实现[J].测绘通报,2018(9):126-129. 被引量：6
3李文姣,白云,魏蕾.基于明尼苏达适应论的大学生适应力提升模型研究[J].现代职业教育,2018,0(25):68-69.
4吴佳林,唐晋韬,李莎莎,王挺.基于神经网络纠正器的领域分词方法[J].中文信息学报,2017,31(6):41-49. 被引量：1
5张子睿,刘云清.基于BI-LSTM-CRF模型的中文分词法[J].长春理工大学学报（自然科学版）,2017,40(4):87-92. 被引量：21
6李冰,张妍,刘石.基于LSTM的短期风速预测研究[J].计算机仿真,2018,35(11):456-461. 被引量：35
7刘全,梁斌,徐进,周倩.一种用于基于方面情感分析的深度分层网络模型[J].计算机学报,2018,41(12):2637-2652. 被引量：44
8龙登高,王正华,伊巍.传统民间组织治理结构与法人产权制度——基于清代公共建设与管理的研究[J].经济研究,2018,53(10):175-191. 被引量：32
9Mohammed A Al-Biltagi.Childhood epilepsy and sleep[J].World Journal of Clinical Pediatrics,2014,3(3):45-53. 被引量：7
10高峰,刘震,高辉.结合有监督广度优先搜索策略的通用垂直爬虫方法[J].计算机工程,2018,44(11):289-299. 被引量：7

计算机应用研究

2018年第12期

浏览历史

内容加载中请稍等...

基于LSTM网络的中文地址分词法的设计与实现被引量：6

参考文献8

二级参考文献81

共引文献421

同被引文献54

引证文献6

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于LSTM网络的中文地址分词法的设计与实现 被引量：6

参考文献8

二级参考文献81

共引文献421

同被引文献54

引证文献6

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于LSTM网络的中文地址分词法的设计与实现被引量：6