基于BERT的流行病学调查信息文本的命名实体识别被引量：4

Named entity recognition of epidemiological survey information based on BERT

下载PDF

导出

摘要为准确抽取流行病学调查信息中的关键实体,构建了基于COVID-19确诊病例流调信息文本的命名实体语料集;提出了基于BERT预训练语言模型的流行病学调查流调信息的命名实体识别方法。该方法首先通过预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的9个实体类型。为进一步提升实体识别效果,对模型进行改进,继续增加注意力层,实验结果显示,模型识别的F1值在94.23%的基础上又提升了1.16%。 In order to accurately extract key entities from epidemiological survey information and effectively assist the establishment of COVID-19 epidemiological survey research and service data center,a named entity corpus based on COVID-19 confirmed case flow survey information text is constructed;A named entity recognition method of epidemiological survey flow information based on Bert pre training language model is proposed.Firstly,the semantic vector is dynamically generated according to the word context by the pre training language model Bert and input as the model,then the context features of the input text sequence are obtained by the bi-directional long and short-term memory(bilstm)neural network model embedded with conditional random field(CRF),and the corresponding 9 entity types are extracted by decoding and labeling.In order to further improve the effect of entity recognition,the model is improved and the attention mechanism is continuously increased.The experimental results show that the F1 value of model recognition is increased by 1.16%on the basis of 94.23%.

作者徐美仙谢晓尧郑欣 XU Meixian;XIE Xiaoyao;ZHENG Xin(Key Laboratory of information and Computing Science of Guizhou Province,Guizhou Normal University,Guiyang,Guizhou 550001,China)

机构地区贵州师范大学

出处《贵州师范大学学报（自然科学版）》 CAS 2022年第3期73-81,共9页 Journal of Guizhou Normal University：Natural Sciences

基金国家自然科学基金资助项目(61461009)。

关键词流行病学调查信息命名实体识别字向量 BERT 注意力机制 epidemiological survey information named entity recognition word vector BERT attention mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：99
2张聪品,方滔,刘昱良.基于LSTM-CRF命名实体识别技术的研究与应用[J].计算机技术与发展,2019,29(2):106-108. 被引量：28
3王子牛,姜猛,高建瓴,陈娅先.基于BERT的中文命名实体识别方法[J].计算机科学,2019,46(S11):138-142. 被引量：92
4吴俊,程垚,郝瀚,艾力亚尔·艾则孜,刘菲雪,苏亦坡.基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究[J].情报学报,2020,39(4):409-418. 被引量：57
5吴恪涵,张雪英,叶鹏,怀安,张航.基于BERT-BiLSTM-CRF的中文地址解析方法[J].地理与地理信息科学,2021,37(4):10-15. 被引量：6

二级参考文献70

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
4周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
5邹智敏,郭荷清,高英.一种对英文字符串进行分词的方法[J].计算机应用研究,2007,24(7):52-54. 被引量：2
6Chinchor N. MUC - 7 Named Entity Task Definition[C]. In :Proceedings of the 7th Message Understanding Conference, Virginia. 1998.
7Sproat R, Emerson T. The First International Chinese Word Segmentation Bakeoff[ C ]. In : Proceedings of the 2rid SIGHAN Workshop on Chinese Language Processing, Sapporo, Japan. 2003 : 133 - 143.
8Rau L F. Extracting Company Names from Text [ C ]. In : Proceedings of the 7th IEEE Conference on Artificial Intelligence Applicatiorts. 1991:29 -32.
9Grishman R, Sundheim B. Message Understanding Conference- 6 : A Brief History [ C ]. In : Proceedings of the 16th International Conference on Computational Linguistics. 1996.
10Chinchor N A. Overview of MUC - 7/MET - 2 [C]. In : Proceedings of the 7th Message Understanding Conference. 1998.

共引文献269

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
3赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
4杨涛,王迪,冯梦晗,黄宗海,段茹茜,卜鹏志,郭富强,温川飙.基于中医四诊、西医检验和生物信息的多类型传感器数据归一化分层处理架构的研究[J].世界科学技术-中医药现代化,2023,25(2):798-805. 被引量：2
5孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：5
6张敏杰,徐宁,胡俊华,王宇飞,李晨,徐剑波,张诗玉.面向变压器智能运检的知识图谱构建和智能问答技术研究[J].全球能源互联网,2020,3(6):607-617. 被引量：13
7步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
8徐道柱,金澄,马超,焦洋洋,许剑.基于BERT-BiGRU-CRF与多头注意力机制的地理命名实体识别[J].网络安全与数据治理,2023,42(S01):169-173. 被引量：1
9李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
10李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21

同被引文献33

1刘梦迪,梁循.基于偏旁部首知识表示学习的汉字字形相似度计算方法[J].中文信息学报,2021,35(12):47-59. 被引量：6
2乔幸潮,陈超,李宗友,朱彦.RxNorm、WHODrug、SNOMED CT三大药物术语集简介及比较研究[J].中国药房,2019,30(10):1297-1301. 被引量：6
3张猛,钱育蓉,杜娇,范迎迎.卷积神经网络在遥感影像中草地分类的应用[J].东北师大学报（自然科学版）,2019,51(3):53-58. 被引量：2
4李金莲.1961—2018年四子王旗旱涝特征及其变化规律分析[J].水资源开发与管理,2019,0(12):17-21. 被引量：2
5冯梦莹,李红.文本卷积神经网络模型在短文本多分类中的应用[J].金融科技时代,2020,28(1):38-42. 被引量：2
6杨飘,董文永.基于BERT嵌入的中文命名实体识别方法[J].计算机工程,2020,46(4):40-45. 被引量：103
7赵琳琳,张锐,刘焱序,朱西存.GF1-WFV与Landsat8-OLI对植被信息的提取差异研究[J].生态学报,2020,40(10):3495-3506. 被引量：13
8王雪梅,陶宏才.基于深度学习的中文命名实体识别研究[J].成都信息工程大学学报,2020,35(3):264-270. 被引量：5
9赵丰,黄健,张中杰.LAC-DGLU:基于CNN和注意力机制的命名实体识别模型[J].计算机科学,2020,47(11):212-219. 被引量：13
10李秋伶,郑静.基于隐马尔可夫模型的文本情感分析[J].杭州电子科技大学学报（自然科学版）,2020,40(6):50-55. 被引量：5

引证文献4

1马召贵.基于改进KNN的不均衡信息文本分类算法[J].信息与电脑,2023,35(12):85-87.
2Lin Xueyi,Pang Li,Huang Zhe,Lian Guiyu.Research and Enlightenment of Text Mining Applications in ADR from Social Media[J].Asian Journal of Social Pharmacy,2024,19(1):9-19.
3陈金玉,王名扬,刘旭.融合汉字字形结构信息的中文命名实体识别[J].东北师大学报（自然科学版）,2024,56(2):60-68. 被引量：1
4陈佳慧,路鹏,罗小玲,郜晓晶,潘新.基于CNN与ViT混合结构的遥感图像地物分类算法[J].遥感信息,2024,39(3):121-127. 被引量：2

二级引证文献3

1袁新月,龚晓慧,莫建麟.N-CNNs算法在图像分类中的实际性能优化[J].福建电脑,2024,40(10):12-17.
2蒋元义,陈伟,王宏,陈涛,张娇娇,田凯凯.利用2米级卫星数据在喀斯特高原地区的油菜遥感监测[J].智能计算机与应用,2024,14(9):179-186.
3袁伟皓,齐海燕,杨梦道,许高建.AMC-NLI:基于实体识别的农业测控领域自然语言接口[J].农业工程学报,2024,40(19):114-123.

1朱珍妮,何宇纳,苏丹婷,连怡遥,崔雪莹,房玥晖.一种用于筛查人群微量营养素不充足风险的食物多样性评分方法的建立[J].营养学报,2021,43(6):604-608. 被引量：3

贵州师范大学学报（自然科学版）

2022年第3期

浏览历史

内容加载中请稍等...

基于BERT的流行病学调查信息文本的命名实体识别被引量：4

参考文献5

二级参考文献70

共引文献269

同被引文献33

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于BERT的流行病学调查信息文本的命名实体识别 被引量：4

参考文献5

二级参考文献70

共引文献269

同被引文献33

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于BERT的流行病学调查信息文本的命名实体识别被引量：4