基于数据增强的MRC水利领域命名实体识别模型研究

Research on Named Entity Recognition of MRC Model in Water Conservancy Field Based on Data Enhancement

下载PDF

导出

摘要水利领域命名实体识别对水利知识图谱构建、水利智能问答系统构建等具有重要意义,但当前水利领域命名实体识别存在缺乏标注语料、传统方法识别精度低和无法解决多义实体等不足。针对水利文本特点,提出基于数据(词汇和实体类型标签)增强的机器阅读理解(MRC)命名实体识别模型,即MRC-WLE模型,主要是将水利文本中词汇特征信息和实体类型标签特征信息作为“知识”注入模型。引入BERT-CRF、BERT-CRF-Word、BERT-BiLSTM-CRF、BERT-BiLSTM-CRF-Word等模型作为对照,评价MRC-WLE模型的性能。结果表明:与上述BERT-CRF等模型相比,MRC-WLE模型的微平均F1值均有所提高。与MRC模型相比,MRC-WLE模型的微平均F1值提高了0.85%,体现了数据增强的有效性。 The recognition of named entities in the field of water conservancy is of great significance for the building of water conservancy knowledge graphs and intelligent question answering systems.However,in the current field of water conservancy,there are shortcomings in named entity recognition,such as a lack of annotated corpus,low recognition accuracy of traditional methods and inability to solve polyse⁃mous entities.Aiming at the characteristics of water conservancy texts,a Named Entity Recognition Model for Machine Reading Comprehen⁃sion(MRC)based on data(vocabulary and entity type labels)enhancement,namely the MRC⁃WLE model was put forward.Mainly,the vo⁃cabulary feature information and entity type label feature information in water conservancy texts were injected into the model as“knowledge”.It introduced models such as BERT⁃CRF,BERT⁃CRF⁃Word,BERT⁃BiLSTM⁃CRF and BERT⁃BiLSTM⁃CRF⁃Word as controls to evaluate the performance of the MRC⁃WLE model.The results show that compared with the BERT⁃CRF and other models mentioned above,the micro av⁃erage F1 value of the MRC⁃WLE model has been improved.Compared with the MRC model,the micro average F1 value of the MRC⁃WLE model has been increased by 0.85%,reflecting the effectiveness of data augmentation.

作者朱永明邢丹艳 ZHU Yongming;XING Danyan(College of Management,Zhengzhou University,Zhengzhou 450001,China)

机构地区郑州大学管理学院

出处《人民黄河》 CAS 北大核心 2024年第9期156-160,共5页 Yellow River

基金教育部人文社会科学研究一般项目(20YJA630101) 中国学位与研究生教育学会重大课题(2020ZDB20)。

关键词水利领域命名实体识别数据增强机器阅读理解 water conservancy field named entity recognition data enhanced MRC

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TV21 [水利工程—水文学及水资源]

引文网络
相关文献

参考文献7

1段浩,韩昆,赵红莉,蒋云钟,李豪,毛文山.水利综合知识图谱构建研究[J].水利学报,2021,52(8):948-958. 被引量：32
2张紫璇,陆佳民,姜笑,冯钧.面向水利信息资源的智能问答系统构建与应用[J].计算机与现代化,2020,0(3):65-71. 被引量：14
3曾晓玲,张弓.基于黄河资源整合共享的知识图谱研究和应用[J].人民黄河,2021,43(S02):282-284. 被引量：7
4刘雪梅,卢汉康,李海瑞,槐先锋,陈晓璐.知识驱动的水利工程应急方案智能生成方法—以南水北调中线工程为例[J].水利学报,2023,54(6):666-676. 被引量：13
5顾乾晖,徐力晨,涂振宇,黄逸翠.基于BERT-CRF与对抗训练的水利领域命名实体识别[J].南昌工程学院学报,2022,41(3):29-34. 被引量：2
6王军,高梓勋,朱永明.基于CNN-LSTM模型的黄河水质预测研究[J].人民黄河,2021,43(5):96-99. 被引量：22
7王军,马小越,张宇航,崔云烨.基于SSA-LSTM模型的黄河水位预测研究[J].人民黄河,2023,45(9):65-69. 被引量：8

二级参考文献70

1贾绍凤,梁媛.新形势下黄河流域水资源配置战略调整研究[J].资源科学,2020,0(1):29-36. 被引量：108
2李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
3吕娟,张伟兵,朱云枫.历史水灾档案信息化中的几个关键问题研究[J].中国水利水电科学研究院学报,2004,2(2):141-145. 被引量：3
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
5唐杰,梁邦勇,李涓子,王克宏.语义Web中的本体自动映射[J].计算机学报,2006,29(11):1956-1976. 被引量：98
6余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
7郑洪领,王龙,耿玉秀.黄河水质现状分析及提高水质对策建议[J].中国农村水利水电,2010(5):21-24. 被引量：14
8李娜,王腊春,谢刚,韦亚南,冷辉.山东省辖淮河流域河流水质趋势的灰色预测[J].环境科学与技术,2012,35(2):195-199. 被引量：19
9缪纶,张伟兵,叶茂,王冠华.水利水电科技文献数字化查询平台的研究[J].中国水利水电科学研究院学报,2013,11(1):59-63. 被引量：1
10许坤,冯岩松,赵东岩,陈立伟,邹磊.面向知识库的中文自然语言问句的语义理解[J].北京大学学报（自然科学版）,2014,50(1):85-92. 被引量：15

共引文献79

1张景琪,王麒臻,李颖,杨志锋.基于多案例的新一代信息技术赋能应急管理的模式分析[J].中国应急管理科学,2024(5):90-106. 被引量：1
2余雄,王伟.国家水文测站编码扩容方案探讨——以云南省为例[J].人民长江,2021,52(S02):70-73.
3张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：12
4苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
5张一勇,李建国.第三纪年代地层研究和中国第三纪年代地层表[J].地层学杂志,2000,24(2):120-125. 被引量：15
6何国对,黄容鑫,黄伟刚,李航,覃晓,元昌安,施宇,廖兆琪.基于知识图谱的广西文化旅游问答系统研究与实现[J].广西科学,2020,27(6):609-615. 被引量：5
7郭凡莎,杨风暴.基于CRF的交通肇事诉讼案件关键要素抽取[J].计算机与现代化,2021(3):77-81. 被引量：2
8孙弋,李直.使用贝叶斯分类的高考学业规划智能问答系统[J].计算机系统应用,2021,30(4):93-98. 被引量：3
9张颖,沈辰楠,杜秀兰,阎晓强.基于企业知识库的智能问答技术与应用[J].电子技术与软件工程,2021(5):206-208. 被引量：1
10张利忠.人工智能在水利工程管理中的应用探讨[J].科教导刊（电子版）,2021(13):287-288.

1周逸凡,段浩,赵红莉,赵慧子,李豪,韩昆.水文模型知识图谱构建与应用[J].水利学报,2024,55(1):80-91. 被引量：1
2张军珲,霍建伟,崔培,胡光亮,董泽亮.数字孪生小浪底知识库建设研究与实践[J].水利信息化,2024(1):13-18. 被引量：2
3陈才明,王玉铜,陈亚威,王浩翔.数字孪生飞云江流域水利知识平台建设研究[J].水利信息化,2024(1):73-77. 被引量：2
4吴翔.图书馆新媒体平台短文本的智慧化管理研究[J].安徽工业大学学报（社会科学版）,2024,41(2):21-24.
5袁丁.情景教学法在古代山水游记教学中的应用研究[J].中文科技期刊数据库（文摘版）教育,2024(9):0195-0198.
6赵芃.语言政策的话语特征及其分析维度[J].语言政策与规划研究,2024(1):152-163.
7邓丽霞.韩礼德语言观对大学英语教学的启示?[J].文教资料,2024(6):183-185.
8苗红起.前景化视角下《河岸》中词汇偏离的英译研究[J].今古文创,2024(32):100-102.
9张文泽.晚明人士撰著《论语》读本探析[J].四川图书馆学报,2024(5):89-94.
10王晓梅,陈文琳,胡长进,徐宽业,郭凤霞,周惠平.物理类论文数理公式常见问题实例解析[J].学报编辑论丛,2022(1):216-220.

人民黄河

2024年第9期

浏览历史

内容加载中请稍等...

基于数据增强的MRC水利领域命名实体识别模型研究

参考文献7

二级参考文献70

共引文献79

相关作者

相关机构

相关主题

浏览历史