基于RoBERTa与字词融合的电子病历命名实体识别方法研究被引量：1

Research on named entity recognition method of electronic medical record based on RoBERTa and word fusion

下载PDF

导出

摘要为了提高所抽取电子病历文本中语义信息的准确性,提出基于RoBERTa与字词融合的电子病历命名实体识别算法.采用预训练模型RoBERTa得到充分考虑上下文信息的字向量;然后对文本进行分词处理,再通过Word2Vec得到词向量;最后将两者进行融合传入双向长短记忆神经网络BiLSTM中进行训练,经过条件随机场CRF进行预测输出.在电子病历数据集上进行的对比实验表明,在采用3个评价指标的情况下,文中算法均明显优于经典的电子病历命名实体识别方法. EMR(electronic medical recode)named entity recognition is an important means of medical information extraction.In order to improve the accuracy of semantic information in the extracted electronic medical record text,a named entity recognition algorithm based on RoBERTa(robustly optimized BERT pretraining approach)and word fusion is proposed.The algorithm first uses the pre-training model ROBERTa to get the word vector which takes full account of the context information;then the text is segmented,and then Word2Vec is used to get the word vector;finally,the two are fused and transmitted to the BiLSTM(bidirectional long short memory neural network)for training,and then the CRF(conditional random fields)is used to predict the output.The experimental results on EMR datasets show that the proposed algorithm is superior to the classical EMR named entity recognition method in the case of three evaluation indexes.

作者王卫东张志峰徐金慧杨习贝 WANG Weidong;ZHANG Zhifeng;XU Jinhui;YANG Xibei(School of Computer Science,Jiangsu University of Science and Technology,Zhenjiang 212100,China)

机构地区江苏科技大学计算机学院

出处《江苏科技大学学报（自然科学版）》 CAS 北大核心 2023年第2期47-52,共6页 Journal of Jiangsu University of Science and Technology:Natural Science Edition

基金国家自然科学基金资助项目(51609110,51779110) 江苏省自然科学基金资助项目(BK20191461) 江苏省六大人才高峰资助项目(KTHY-064)。

关键词电子病历命名实体识别预训练模型RoBERTa 双向长短记忆神经网络条件随机场字词融合 EMR named entity recognition pre-training model RoBERTa bidirectional long short memory neural network conditional randomfield word fusion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李伟康,李炜,吴云芳.深度学习中汉语字向量和词向量结合方式探究[J].中文信息学报,2017,31(6):140-146. 被引量：16
2葛照君,葛世龙,盛磊.基于HMM的脱机手写字符识别方法研究[J].江苏科技大学学报（自然科学版）,2008,22(6):57-61. 被引量：3
3向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37

二级参考文献9

1季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
2[1]Kavallieratos E,Antoniades N,Fakotakis N,et al.Extraction and recognition of handwritten alphanumeric characters from application forms[C]∥DSP97.Greece Santorini,1997:695-698.
3[2]Park,Lee.Off-line recognition of large-set handwritten characters with multiple hidden Markov models[J].Pattern Recognition,1996,29(2):231-244.
4[3]Rose R C,Paul D B.A hidden Markov model based keyword recognition system[C]∥ICASSP.USA NM Albuquerque,1990:129-132.
5[4]Burgess C J C,Ben J I,Denker J S,et al.Off line recognition of handwritten postal words using neural networks[J].International Journal of Pattern Recognition and Artificial Intelligence,1993,7(4):689-704.
6[5]Duda R,Hart P,Stork D.Pattern Classification[M].2th ed.New York:John Wiley ＆ Sons Inc,2001:3-15.
7[6]Papageorigiou C,Oren M,Poggio T.A general framework for object detection[C]∥International Conference on Computer Vision,India Bombay,1998:555-562.
8张仰森,徐波,曹元大.自然语言处理中的语言模型及其比较研究[J].广西师范大学学报（自然科学版）,2003,21(A01):16-24. 被引量：11
9庄明,老松杨,吴玲达.一种统计和词性相结合的命名实体发现方法[J].计算机应用,2004,24(1):22-24. 被引量：12

共引文献53

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
3杨延云,杜建强,聂斌,罗计根,贺佳.融合数据增强和注意力机制的中医实体及关系联合抽取[J].智能计算机与应用,2023,13(8):186-191.
4夏赟,李志蜀.基于统计的中文机构名自动识别[J].四川大学学报（自然科学版）,2009,46(3):613-617. 被引量：1
5刘智文.利用系统整合提高中文分词精度的方法研究[J].现代计算机,2009,15(10):7-10.
6韩普,姜杰.HMM在自然语言处理领域中的应用研究[J].计算机技术与发展,2010,20(2):245-248. 被引量：16
7唐旭日,陈小荷,许超,李斌.基于篇章的中文地名识别研究[J].中文信息学报,2010,24(2):24-32. 被引量：18
8唐旭日,陈小荷,张雪英.中文文本的地名解析方法研究[J].武汉大学学报（信息科学版）,2010,35(8):930-935. 被引量：41
9冯鲸华,古丽拉.阿东别克,玛依来.哈帕尔.基于N-gram语言模型的哈萨克文机构名识别[J].计算机工程与应用,2010,46(31):135-138. 被引量：2
10陈为,陈静.一种新的激光刻蚀字符的识别方法[J].青岛科技大学学报（自然科学版）,2010,31(5):533-535.

同被引文献8

1王晨,李春晓,杨郁青.基于电子病历后结构化技术的辅助诊疗应用研究[J].中国数字医学,2021,16(6):48-52. 被引量：13
2崔洁,陈德华,乐嘉锦.基于EMR的乳腺肿瘤知识图谱构建研究[J].计算机应用与软件,2017,34(12):122-126. 被引量：14
3王译,丁腊春,叶恩光.基于本体的孕产知识库构建及应用[J].医学信息学杂志,2018,39(6):53-55. 被引量：3
4黄梦醒,李梦龙,韩惠蕊.基于电子病历的实体识别和知识图谱构建的研究[J].计算机应用研究,2019,36(12):3735-3739. 被引量：30
5许思特,孙木.基于命名实体识别与Neo4j的中文电子病历知识图谱构建和应用[J].医学信息学杂志,2022,43(12):50-56. 被引量：6
6李革,张云锁,丁腊春,解红文,王译.基于图数据库的乳腺疾病知识图谱构建与应用[J].中国现代医生,2023,61(23):106-109. 被引量：1
7王诚文,饶高琦,荀恩东.基于结构检索的汉语介动搭配知识库构建[J].中文信息学报,2023,37(7):23-31. 被引量：1
8张建伟,刘瑾,杨海马,曾国辉,邢季,张锐.基于多特征信息融合自注意机制的中文命名实体识别方法[J].武汉大学学报（理学版）,2024,70(3):281-292. 被引量：1

引证文献1

1沈锦鹏,殷伟东,林枫,解红文,丁腊春,叶恩光.基于电子病历特征词的妇幼专科知识库建设与应用[J].中国数字医学,2024,19(9):72-76.

1姜会珍,焦雪莹,邹凌伟,许仕杰,朱卫国.基于融合模型的中文病历文本智能纠错研究[J].中国卫生信息管理杂志,2023,20(3):448-453.
2韩泓丞,林玉萍,郭钦钵,张栋,许美凤,朱龙飞,李小棉,冯丽丽,岳婕.面向多模态医学语料库的皮肤镜图像分类[J].西北大学学报（自然科学版）,2023,53(3):377-386.

江苏科技大学学报（自然科学版）

2023年第2期

浏览历史

内容加载中请稍等...

基于RoBERTa与字词融合的电子病历命名实体识别方法研究被引量：1

参考文献3

二级参考文献9

共引文献53

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于RoBERTa与字词融合的电子病历命名实体识别方法研究 被引量：1

参考文献3

二级参考文献9

共引文献53

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于RoBERTa与字词融合的电子病历命名实体识别方法研究被引量：1