地理信息服务领域的实体自动化识别被引量：1

Automatic Entity Recognition of Geographic Information Service Document

下载PDF

导出

摘要针对地理信息服务领域(Geographic Information Services,GIServices)在实体自动识别方面存在缺乏语料、多种实体嵌套、语义稀疏等问题,本文设计了一套地理信息服务文献实体标注规范,构建了地理信息服务领域的语料;在传统实体识别模型BiLSTM-CRF的基础上,引入了BERT(Bidirectional Encoder Representaions from Transformers)预训练模型及卷积层(Convolutional layer),构建了BERT-1DCNN-BiLSTM-CRF模型,提升了地理信息服务文献实体识别的准确率.该模型在词嵌入层以BERT预训练模型取代了传统的静态语言模型,从而有效地解决了地理信息服务领域因缺乏大量训练语料而无法表达更丰富句子语义信息的问题;此外,在BERT模型之后还加入了字间卷积特征,提升了句子局部特征的表示能力,降低了句子语义稀疏的干扰.实验结果表明,融合了BERT模型与CNN模型的GIServices文献实体识别方法效果优于传统深度学习的方法,模型准确率达到了0.8268,能够较好地实现GIServices文献自动化实体识别,同时也能较好地体现基于BERT的深度学习模型在实体自动化识别方面的有效性. In order to solve the problems in the field of geographic information services(GIServices),such as lack of corpus,nesting of multiple entities,and semantic sparser,etc.,in our report,a set of document entity labeling specifications for geographic information services was designed and the corpus in this field was constructed.Based on the traditional entity recognition model BiLSTM-CRF,the BERT(Bidirectional Encoder Representations from Transformers)pre-training model and convolutional layer were introduced,the BERT-1 DCNN-BiLSTM-CRF model was proposed to improve the accuracy of the document entity recognition in geographic information services.In the word embedding layer of this model,the traditional static language model was replaced by the BERT pre-training model,which can solve the problems that the geographic information service field lacks a large amount of training corpus and cannot represent richer sentence semantic information.Additionally,the word volume features was added to the BERT model to improve the ability to express local features of sentences and reduce the interference of sentence semantic sparseness.The results showed that the GIServices document entity recognition method,which integrates BERT and CNN model,is better than the traditional deep learning method,whose accuracy is as high as 0.8268.It can realize the automatic entity recognition of GIServices documents effectively,which extends the potential application of deep learning model based on BERT in GIServices domain entity recognition.

作者独凌子肖桂荣 Du Lingzi;Xiao Guirong(Key Lab of Spatial Data Mining and Information Sharing of Ministry of Education,Academy of Digital China(Fujian),Fuzhou University,Fuzhou 350108,China)

机构地区福州大学空间数据挖掘与信息共享教育部重点实验室福州大学数字中国研究院

出处《海南大学学报（自然科学版）》 CAS 2021年第4期331-339,共9页 Natural Science Journal of Hainan University

基金中国科学院战略性先导科技专题课题(XDA23100504) 中央引导地方科技发展专项(2020L3005)。

关键词地理信息服务 BERT模型命名实体识别字间特征卷积 BiLSTM-CRF模型 geographic information service BERT named entity recognition feature convolution between words

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1温秀秀,马超,高原原,康子路.基于标签聚类的中文重叠命名实体识别方法[J].计算机工程,2020,46(5):41-46. 被引量：6
2王月,王孟轩,张胜,杜渂.基于BERT的警情文本命名实体识别[J].计算机应用,2020,40(2):535-540. 被引量：42
3何炎祥,罗楚威,胡彬尧.基于CRF和规则相结合的地理命名实体识别方法[J].计算机应用与软件,2015,32(1):179-185. 被引量：60
4魏勇,李鸿飞,胡丹露,李响,马雷雷.一种基于复合特征的中文地名识别方法[J].武汉大学学报（信息科学版）,2018,43(1):17-23. 被引量：16
5丁晟春,方振,王楠.基于Bi-LSTM-CRF的商业领域命名实体识别[J].现代情报,2020,40(3):103-110. 被引量：17
6李博,康晓东,张华丽,王亚鸽,陈亚媛,白放.采用Transformer-CRF的中文电子病历命名实体识别[J].计算机工程与应用,2020,56(5):153-159. 被引量：35
7李道全,王雪,于波,黄泰铭.基于一维卷积神经网络的网络流量分类方法[J].计算机工程与应用,2020,56(3):94-99. 被引量：14

二级参考文献54

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：65
2王娟,慈林林,姚康泽.特征选择方法综述[J].计算机工程与科学,2005,27(12):68-71. 被引量：64
3周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
4Grishman R,Sundheim B.Message Understanding Conference-6:A Brief History[C]//Proceedings of the 16th International Conference on Computational Linguistics.1996:466-471.
5Beth M Sundheim.Named entity task definition,version 2.1[C]//Proceedings of the Sixth Message Understanding Conference,1995:219-332.
6MUC[EB/OL]:http://www-nlpir.nist.gov/related_projects/muc/.
7命名实体识别评测组.2004年命名实体评测大纲[OL].http://www.863data.com.cn.
8沈达阳,孙茂松,黄昌宁.中国地名的自动辨识[J].计算机语言发展与应用,1995(10):68-76.
9Manoranjan Dash,Huan.Selection for Classification[J].Intelligent Data Analysis,1997,1(3):131-156.
10Cho H C,Okazaki N,Miwa M,et al.Named entity recognition with multiple segment representations[J].Information Processing&Management,2013,49(4):954-965.

共引文献169

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
3高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
4李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：17
5张硕,赵卓峰,刘晨.基于图卷积网络的产业领域科技服务资源命名实体识别[J].计算机与数字工程,2023,51(1):20-27.
6亢孟军,曹浩杰,苏世亮,翁敏,王明军.一种优化的自然语言空间查询转换模型[J].测绘科学,2022,47(7):194-200.
7Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：7
8易应萍,张志强,王强.基于自然语言处理技术的医学命名实体解析研究[J].中国数字医学,2018,13(12):20-22. 被引量：1
9谷川,宋旭.体育赛事命名实体识别研究[J].河南师范大学学报（自然科学版）,2015,43(4):163-167. 被引量：1
10黄水清,王东波,何琳.基于先秦语料库的古汉语地名自动识别模型构建研究[J].图书情报工作,2015,59(12):135-140. 被引量：40

同被引文献44

1路威,赵丽君.兵要知识图谱的构建与应用研究[J].测绘地理信息,2022,47(4):119-123. 被引量：3
2廖克.地学信息图谱的探讨与展望[J].地球信息科学,2002,4(1):14-20. 被引量：63
3陈燕,齐清文,杨桂山.地学信息图谱的基础理论探讨[J].地理科学,2006,26(3):306-310. 被引量：37
4钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
5宋佳,王卷乐,诸云强,冯敏.基于地理空间本体的语义检索相关度研究[J].计算机工程与应用,2011,47(5):114-117. 被引量：14
6鞠久朋,张伟伟,宁建军,周国栋.CRF与规则相结合的地理空间命名实体识别[J].计算机工程,2011,37(7):210-212. 被引量：31
7ZHANG Yi,GAO Yong,XUE LuLu,SHEN Si & CHEN KaiChen Institute of Remote Sensing and Geographic Information System,Peking University,Beijing 100871,China.A common sense geographic knowledge base for GIR[J].Science China(Technological Sciences),2008,51(S1):26-37. 被引量：7
8杜萍,刘勇.基于本体的中文地名识别[J].西北师范大学学报（自然科学版）,2011,47(6):87-93. 被引量：12
9郭剑毅,李真,余正涛,张志坤.领域本体概念实例、属性和属性值的抽取及关系预测[J].南京大学学报（自然科学版）,2012,48(4):383-389. 被引量：31
10朱少楠,张雪英,李明,王宇.基于行政隶属关系树状图的地名消歧方法[J].地理与地理信息科学,2013,29(3):39-42. 被引量：13

引证文献1

1罗强,胡中南,王秋妹,石伟伟,贾玥.GIS领域知识图谱进展研究[J].测绘地理信息,2023,48(1):60-67. 被引量：1

二级引证文献1

1黄碧辉.基于移动GIS的高标农田巡查系统研究与应用[J].计算机时代,2023(11):159-162.

1张鹏,孔韦韦,滕金保.基于多尺度特征注意力机制的人脸表情识别[J].计算机工程与应用,2022,58(1):182-189. 被引量：24
2《城市问题》编辑部作者来稿注释、参考文献标注规范[J].城市问题,2021(4):32-32.
3《中华医学遗传学杂志》编辑部.关于修订中华系列杂志作者署名与工作单位标注规范的通知[J].中华医学遗传学杂志,2022,39(1):25-25.
4《城市问题》编辑部作者来稿注释、参考文献标注规范[J].城市问题,2021(8):13-13.
5《城市问题》编辑部作者来稿注释、参考文献标注规范[J].城市问题,2021(7):22-22.
6《城市问题》编辑部作者来稿注释、参考文献标注规范[J].城市问题,2021(10):64-64.
7王红,吴燕婷.基于多跳注意力的实体关系联合抽取方法及应用研究[J].太原理工大学学报,2022,53(1):63-70. 被引量：3
8张明.基于“天地图”旅游地理信息服务系统设计与实现[J].经纬天地,2021(6):56-60. 被引量：2
9肖崎,黄泽彬.企业金融化对资产价格的影响——基于我国股价和房价的研究[J].当代金融研究,2021(6):1-10. 被引量：2
10张进一,万鹏,孙亮,张道强.基于CT图像的双重注意力网络急性胰腺炎诊断方法[J].数据采集与处理,2022,37(1):147-154. 被引量：3

海南大学学报（自然科学版）

2021年第4期

浏览历史

内容加载中请稍等...

地理信息服务领域的实体自动化识别被引量：1

参考文献7

二级参考文献54

共引文献169

同被引文献44

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

地理信息服务领域的实体自动化识别 被引量：1

参考文献7

二级参考文献54

共引文献169

同被引文献44

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

地理信息服务领域的实体自动化识别被引量：1