基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别被引量：16

Identifying Named Entities of Chinese Electronic Medical Records Based on RoBERTa-wwm Dynamic Fusion Model

导出

摘要【目的】解决中文电子病历实体识别中存在的一词多义、词识别不全等问题。【方法】采用深度学习模型RoBERTa-WWM-BiLSTM-CRF,改善中文电子病历的命名实体识别的效果并用4组实验进行对比,分析不同模型对中文电子病历实体识别的效果的影响。【结果】所提模型的实体识别效果F1值达到了0.8908。【局限】使用的数据集规模较小,部分科室实体识别效果较一般,如呼吸科F1值仅为0.8111。【结论】通过实验表明RoBERTa-WWM-BiLSTM-CRF模型更适用于中文电子病历命名实体识别任务,有效解决了中文电子病历命名实体识别中存在的一词多义和词识别不全的问题。 [Objective]This paper proposes an entity recognition model based on RoBERTa-wwm dynamic fusion,aiming to improve the entity identification of Chinese electronic medical records.[Methods]First,we merged the semantic representations generated by each Transformer layer of the pre-trained language model RoBERTa-wwm.Then,we input the bi-directional long short-term memory network and the conditional random field module to recognize the entities of the electronic medical records.[Results]We examined our new model with the dataset of“2017 National Knowledge Graph and Semantic Computing Conference(CCKS 2017)”and self-annotated electronic medical records.Their F1 values reached 94.08%and 90.08%,which were 0.23%and0.39%higher than the RoBERTa-wwm-BiLSTM-CRF model.[Limitations]The RoBERTa-wwm used in this paper completed the pre-training process with non-medical corpus.[Conclusions]The proposed method could improve the results of entity recognition tasks.

作者张芳丛秦秋莉姜勇庄润涛 Zhang Fangcong;Qin Qiuli;Jiang Yong;Zhuang Runtao(School of Economics and Management,Beijing Jiaotong University,Beijing 100044,China;National Clinical Medical Research Center for Nervous System Diseases,Beijing Tiantan Hospital Affiliated to Capital Medical University,Beijing 100050,China;Community Health Service Center,Beijing Jiaotong University,Beijing 100044,China)

机构地区北京交通大学经济管理学院首都医科大学附属北京天坛医院国家神经系统疾病临床医学研究中心北京交通大学社区卫生服务中心

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第2期242-250,共9页 Data Analysis and Knowledge Discovery

基金教育部人文社会科学规划项目(项目编号:18YJA870017) 吉林省社会科学基金项目(项目编号:2019B59) 吉林大学研究生创新基金项目(项目编号:101832020CX279)的研究成果之一。

关键词电子病历命名实体识别 RoBERTa-wwm 动态融合 Electronic Medical Record Named Entity Recognition RoBERTa-wwm Dynamic Fusion

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：135
2黄菡,王宏宇,王晓光.结合主动学习的条件随机场模型用于法律术语的自动识别[J].数据分析与知识发现,2019,3(6):66-74. 被引量：14
3冯静,李正武,张登云,邹俊志.基于隐马尔可夫模型的桥梁检测文本命名实体识别[J].交通世界,2020,0(8):32-33. 被引量：10
4晏雷,周兰江,张建安,周枫.融合多特征的老挝机构名实体识别方法[J].现代电子技术,2020,43(19):122-125. 被引量：3
5刘婧茹,宋阳,贾睿,张翼鹏,罗勇,马敬东.基于BiLSTM-CRF中文临床文本中受保护的健康信息识别[J].数据分析与知识发现,2020,4(10):124-133. 被引量：8
6赵丹丹,黄德根,孟佳娜,谷丰,张攀.多头注意力与字词融合的中文命名实体识别[J].计算机工程与应用,2022,58(7):142-149. 被引量：12
7廖开际,邹珂欣,席运江.一种在线医疗社区问答文本实体识别方法——基于卷积神经网络和双向长短期记忆神经网络[J].科技管理研究,2021,41(8):173-179. 被引量：4

二级参考文献69

1程志.对裁判文书改革与深化的研究[J].当代法学,2002,16(11):115-118. 被引量：4
2张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：65
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：36
5刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：150
7周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：111
8张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：19
9冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：24
10张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：78

共引文献175

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：8
3张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：11
4熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：8
5顾佼佼,翟一琛,姬嗣愚,宗富强.基于BERT和知识蒸馏的航空维修领域命名实体识别[J].电子测量技术,2023,46(3):19-24. 被引量：3
6李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：25
7高源.自然语言处理发展与应用概述[J].中国新通信,2019,21(2):117-118. 被引量：7
8马孟铖,艾斯卡尔.艾木都拉,吐尔地.托合提.基于条件随机场多特征融合的中文地名、机构名实体识别[J].现代计算机,2019,25(12):13-17. 被引量：5
9侯丽仙,李艳玲,李成城.面向任务口语理解研究现状综述[J].计算机工程与应用,2019,55(11):7-15. 被引量：8
10朱淑媛,罗军.基于本体的领域自动问答系统研究[J].计算机应用与软件,2019,36(8):98-105. 被引量：7

同被引文献234

1王平,陈亮,胡磊.人工智能+结构化报告赋能冠脉CT血管成像临床一体化[J].中国数字医学,2021,16(11):50-54. 被引量：6
2张卫东,张晓晓.中医古籍数字资源知识组织与可视化研究——以《金匮要略》为例[J].情报科学,2022,40(8):107-117. 被引量：1
3李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：4
4任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
5韦入铭,陈若愚,李晗,刘旭红.基于深度学习与文本计量的技术趋势分析[J].计算机科学,2022,49(S02):37-42. 被引量：2
6严驰腾,何利力.基于BERT的双通道神经网络模型文本情感分析研究[J].智能计算机与应用,2022,12(5):16-22. 被引量：3
7王兴,郑勇锋,严永兵,刘沿娟,张梦伊.基于OCR技术的票据识别算法研究[J].智能计算机与应用,2021,11(11):101-106. 被引量：6
8赵艳,邵炜,王晨,方祎伟,徐盛,许晓峰.基于多源知识智能服务的电子病历一体化建设研究[J].中国数字医学,2021,16(9):6-12. 被引量：3
9蒋寅.语象·物象·意象·意境[J].文学评论,2002(3):69-75. 被引量：149
10肖强,吴伟斌,陈联忠,蒲卫,王伟中,李小华,黄家驹.自由结构录入法在电子病历系统中的应用[J].解放军医院管理杂志,2005,12(3):222-222. 被引量：10

引证文献16

1姚蕾,蒋明峰,方贤,魏波,李杨.结合部首特征和BERT-Transformer-CRF的中文电子病历实体识别方法研究[J].软件工程,2022,25(12):30-36. 被引量：1
2盛羽,胡慧荣,王聪聪,杨晟艺.医学影像诊断报告的结构化研究[J].数据分析与知识发现,2022,6(10):46-56. 被引量：2
3廖列法,谢树松.基于注意力机制特征融合的中文命名实体识别[J].计算机工程,2023,49(4):256-262. 被引量：3
4段宇锋,贺国秀.面向中文医学文本命名实体识别的神经网络模块分解分析[J].数据分析与知识发现,2023,7(2):26-37. 被引量：1
5朱红,牛浩然,朱彤.基于字词融合与对抗训练的行业人物实体识别[J].计算机工程,2023,49(5):56-62. 被引量：2
6潘俊,李萌配,王贤明.应用深度学习的中文命名实体识别研究综述[J].数字图书馆论坛,2023,19(5):1-9. 被引量：1
7蒲攀,张越,刘勇,聂炎明,黄铝文.Transformer优化及其在苹果病虫命名实体识别中的应用[J].农业机械学报,2023,54(6):264-271. 被引量：1
8陈娜,孙艳秋,燕燕.结合注意力机制的BERT-BiGRU-CRF中文电子病历命名实体识别[J].小型微型计算机系统,2023,44(8):1680-1685. 被引量：1
9何梓源,张仰森,向尕,成琪昊.基于OAT架构的审计凭证数字化方法[J].计算机工程与设计,2023,44(10):3186-3192.
10丁浩,孔令圆,刘清,胡广伟.融合多重特征词嵌入的农业实体命名识别研究[J].现代情报,2023,43(11):135-145.

二级引证文献12

1段宇锋,贺国秀.面向中文医学文本命名实体识别的神经网络模块分解分析[J].数据分析与知识发现,2023,7(2):26-37. 被引量：1
2梁维中,王淑涵,王洪玉.基于BERT预训练模型的镁合金铸造缺陷命名实体识别[J].黑龙江科技大学学报,2023,33(2):191-195.
3张传洋,郭宇,庞宇飞,于文倩.数智化医疗信息利用与服务模式框架构建[J].图书情报工作,2023,67(13):49-58.
4杨长沛,廖列法.基于门控空洞卷积特征融合的中文命名实体识别[J].计算机工程,2023,49(8):85-95. 被引量：2
5刘安栋,彭琳,叶青,杜建强,程春雷,查青林.电子病历命名实体识别研究进展[J].计算机工程与应用,2023,59(21):39-51.
6许鑫,马文政,张浩,马新明,乔红波.基于融合对抗训练的农作物品种信息抽取方法[J].农业机械学报,2023,54(12):272-279.
7姚飞杨,刘晓静.基于RoBERTa-Effg-Adv的实体关系联合抽取方法[J].计算机技术与发展,2024,34(3):147-154.
8廖涛,吕玉成,张顺香.基于篇章级信息特征增强的中文突发事件检测[J].阜阳师范大学学报（自然科学版）,2024,41(1):1-7.
9刘陶,李锦,邱望仁.基于标题相似度聚类新中国陶瓷知识[J].景德镇陶瓷,2024,52(1):9-12.
10屠鑫,张伟,李继东,李美姣,龙相波.面向智能在线教学的英语时态习题自动分类研究[J].计算机科学,2024,51(4):353-358.

1张芳丛,秦秋莉,姜勇,庄润涛.基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究[J].数据分析与知识发现,2022,6(2):251-262. 被引量：19
2孙加存,刘科.高职智能控制技术专业校企“动态融合”课程体系构建与实施[J].职业技术,2022,21(2):79-84. 被引量：5
3本刊编辑部.医学名词术语使用规范[J].军事医学,2022,46(1):80-80.
4《中国社区医师》杂志编辑部.对医学名词规范使用的注意事项[J].中国社区医师,2022,38(9):110-110.
5马伟.原型范畴理论视域下阿拉伯语一词多义现象及教学路径研究[J].阿拉伯研究论丛,2021(2):147-165.

数据分析与知识发现

2022年第2期

浏览历史

内容加载中请稍等...

基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别被引量：16

参考文献7

二级参考文献69

共引文献175

同被引文献234

引证文献16

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别 被引量：16

参考文献7

二级参考文献69

共引文献175

同被引文献234

引证文献16

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别被引量：16