基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别被引量：13

Chinese electronic medical record named entity recognition based on sentence-level Lattice-long short-term memory neural network

下载PDF

导出

摘要目的提出一种基于Re-entity新分词方法的条件随机场(CRF)模型,并与双向长短记忆神经网络(BiLSTM)-CRF和Lattice-长短记忆神经网络(LSTM)进行比较。方法比较了现有实体识别方法和模型后,针对2018年全国知识图谱与语义计算大会(CCKS2018)任务一“电子病历命名实体识别”,提出基于Re-entity的CRF、BiLSTM-CRF、Lattice-LSTM方法,并在不同语料库训练不同参数级别的字符向量集。分别将各方法引入神经网络模型中进行模型性能对比实验,最后分别基于句子级和篇级输入句长进行对比研究。结果CRF模型在最优特征工程的结果下引入Re-entity方法后性能得到提高,句子级的Lattice-LSTM模型在该任务上取得了89.75%的严格F1-measure,优于CCKS2018任务一的最高结果(89.25%)。结论基于Re-entity新分词方法的CRF模型可利用中文临床药物知识库有效提高电子病历中药物的识别率,Re-entity方法可改善数据预处理阶段分词导致的错误累加,Lattice结构可以更好地结合字符和词序列的潜在语义信息,同时句子级输入能有效提高神经网络模型的识别准确率。 Objective To propose a conditional random field(CRF)model based on the new word segmentation method Re-entity,and to compare with bi-directional long short-term memory neural network(BiLSTM)-CRF and Lattice-long short-term memory neural network(LSTM).Methods After analyzing the existing entity recognition methods,we proposed CRF method based on Re-entity,BiLSTM-CRF and Lattice-LSTM for the China Conference on Knowledge Graph and Semantic Computing in 2018(CCKS2018)task one:Chinese clinical named entity recognition,and trained character vector sets at different parameter levels based on different corpora.The comparative experiments on model performance were carried out in the different neural network models for each methods.Finally,the comparative study was carried out based on different input lengths such as the sentence level and the text level.Results Re-entity method can improve the performance of CRF model.Lattice-LSTM model based on sentence level achieved a strict F1-measure of 89.75%on this task,which was higher than the highest F1-measure(89.25%)on the task one of CCKS2018.Conclusion The CRF model based on Re-entity can effectively improve the recognition rate of traditional Chinese medicines in electronic medical records by using normalized Chinese clinical drug.Re-entity method can improve the error accumulation caused by word segmentation in data preprocessing.Lattice structure can better combine the latent semantic information of characters and word sequences.At the same time,sentence-level input can effectively improve the recognition accuracy of neural network models.

作者潘璀然王青华汤步洲姜磊黄勋王理 PAN Cui-ran;WANG Qing-hua;TANG Bu-zhou;JIANG Lei;HUANG Xun;WANG Li(Department of Medical Informatics,School of Medicine,Nantong University,Nantong 226001,Jiangsu,China;College of Computer Science and Technology,Harbin Institute of Technology,Shenzhen,Shenzhen 518055,Guangdong,China;Department of Rheumatology and Immunology,Changzheng Hospital,Naval Medical University (Second Military Medical University),Shanghai 200433,China;Department of Communication Engineering,School of Information Science and Technology,Nantong University,Nantong 226001,Jiangsu,China)

机构地区南通大学医学院医学信息学教研室哈尔滨工业大学(深圳)计算机科学与技术学院海军军医大学(第二军医大学)长征医院风湿免疫科南通大学信息科学技术学院通讯工程教研室

出处《第二军医大学学报》 CAS CSCD 北大核心 2019年第5期497-506,共10页 Academic Journal of Second Military Medical University

基金国家重点研发计划(2018YFC0116902) 国家自然科学基金(81873915) 江苏省研究生科研与实践创新计划项目(KYCX17-1932)~~

关键词计算机化病案系统中文电子病历实体识别条件随机场双向长短记忆神经网络点阵长短记忆神经网络 computed medical records systems electronic medical record entity identification conditional random field bi-directional long short-term memory neural network lattice-long short-term memory neural network

分类号 R37 [医药卫生—病原生物学]

引文网络
相关文献

参考文献8

1杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：126
2叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
3程健一,关毅,何彬.基于SVM和CRF双层分类器的英文电子病历去隐私化[J].智能计算机与应用,2016,6(6):17-19. 被引量：9
4张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：76
5张祥伟,李智.基于多特征融合的中文电子病历命名实体识别[J].软件导刊,2017,16(2):128-131. 被引量：14
6李洋,董红斌.基于CNN和BiLSTM网络特征融合的文本情感分析[J].计算机应用,2018,38(11):3075-3080. 被引量：113
7陶砾,杨朔,杨威.深度学习的模型搭建及过拟合问题的研究[J].计算机时代,2018(2):14-17. 被引量：21
8隋明爽,崔雷.结合多种特征的CRF模型用于化学物质–疾病命名实体识别[J].现代图书情报技术,2016(10):91-97. 被引量：9

二级参考文献168

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2林东,邵军力.医学诊疗领域通用专家系统设计与实现[J].自动化学报,1995,21(3):380-382. 被引量：6
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
4Doan A,Naughton JF,Ramakrishnan R,et al.Information extraction challenges in managing unstructured data[J].ACM SIGMOD Record,2008,37(4):14-20.
5Vlachos A,Gasperin C.Bootstrapping and evaluating named entity recognition in the biomedical domain[C]//Proceedings of the HLT-NAACL BioNLP Workshop on Linking Natural Language and Biology.New York:Association for Computational Linguistics Morristown,2006:138-145.
6Bundschus M,Dejori M,Stetter M,et al.Extraction of semantic biomedical relations from text using conditional random fields[J].BMC Bioinformatics,2008,9:207.
7Leaman R,Gonzalez GR.BANNER:An executable survey of advances in biomedical named entity recognition[C]//Proceedings of Pacific Symposium on Biocomputing.Hawaii:World Scientific Publishing Co.Pte.Ltd,2008:652-663.
8Leaman R,Miller C,Gonzalez G.Enabling recognition of diseases in biomedical text with machine learning:Corpus and benchmark[C]//Proceedingsof the 3rdInternational Symposium on Lagauges in Biology and Medicine.Seogwipo-si.LBM,2009:82-89.
9Tsai Tzong-ham,Chou Wen-Chi,Wu Shih-Hung,et al.Integrating Linguistic Knowledge into a Conditional Random Field Framework to Identify Biomedical Named Entities[J].Expert Systems with Applications,2006,30(1):117-128.
10Sun ChengJie,Guan Yi,Wang XiaoLong,et al.Biomedical named entities recognition using conditional random fields model[J].Lecture notes in computer science,2006,4223:1279-1288.

共引文献387

1席新,李波,王骁勇,胡云苹.面向电子病历的医学术语规范化系统设计及实现[J].中国数字医学,2021,16(12):65-68. 被引量：6
2姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
3梁飞.基于多分组注意力机制的恶意URL智能检测方法[J].信息网络安全,2020(S01):18-22. 被引量：2
4杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
5孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
6邢毅雪,朱永华,高海燕,周金,张克.基于注意力机制的远程监督实体关系抽取[J].上海大学学报（自然科学版）,2021,27(5):983-992. 被引量：5
7步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
8成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
9昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方.中文症状知识库的建立与分析[J].中文信息学报,2020,34(4):30-37. 被引量：9
10吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9

同被引文献96

1付秀,陈麒麟,李杰,付毅,包国峰.基于智能预问诊的全景多学科会诊平台的设计与应用[J].中国数字医学,2021,16(10):79-82. 被引量：7
2陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
3李丽双,袁光辉,刘晗喆.基于位置降噪和丰富语义的电子病历实体关系抽取[J].中文信息学报,2021,35(8):89-97. 被引量：5
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
5王浩畅,李钰,赵铁军.面向生物医学命名实体识别的多Agent元学习框架[J].计算机学报,2010,33(7):1256-1262. 被引量：6
6叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
7邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(6):196-198. 被引量：33
8杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：126
9钟志农,刘方驰,吴烨,伍江江.主动学习与自学习的中文命名实体识别[J].国防科技大学学报,2014,36(4):82-88. 被引量：15
10栗伟,赵大哲,李博,彭新茗,刘积仁.CRF与规则相结合的医学病历实体识别[J].计算机应用研究,2015,32(4):1082-1086. 被引量：40

引证文献13

1李纲,潘荣清,毛进,操玉杰.整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别[J].现代情报,2020,40(4):3-12. 被引量：28
2晏雷,周兰江,张建安,周枫.融合多特征的老挝机构名实体识别方法[J].现代电子技术,2020,43(19):122-125. 被引量：3
3刘婧茹,宋阳,贾睿,张翼鹏,罗勇,马敬东.基于BiLSTM-CRF中文临床文本中受保护的健康信息识别[J].数据分析与知识发现,2020,4(10):124-133. 被引量：10
4张旭,朱艳辉,梁文桐,詹飞.基于SoftLexicon的医疗实体识别模型[J].湖南工业大学学报,2021,35(5):77-84. 被引量：3
5李鸿飞,刘盼雨,魏勇.基于自注意力和Lattice-LSTM的军事命名实体识别[J].计算机工程与科学,2021,43(10):1848-1855. 被引量：3
6韩涛,黄海松,姚立国.面向航空发动机故障知识图谱构建的实体抽取[J].组合机床与自动化加工技术,2021(10):69-73. 被引量：6
7马文祥,廖涛,张顺香.基于BERT-BiGRU-CRF的电子简历命名实体识别[J].盐城工学院学报（自然科学版）,2022,35(3):41-47. 被引量：5
8陈雪松,朱鑫海,王浩畅.基于PMV-LSTM的中文医学命名实体识别[J].计算机工程与设计,2022,43(11):3257-3263. 被引量：3
9许山山,史涯晴.基于Bi-LSTM+CRF模型的航母情报实体识别方法应用[J].计算机时代,2023(1):30-34.
10杜晋华,尹浩,冯嵩.中文电子病历命名实体识别的研究与进展[J].电子学报,2022,50(12):3030-3053. 被引量：13

二级引证文献72

1赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
2屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
3周亮杰,马敬东.基于深度学习的患者安全事件的命名实体识别[J].中华医学图书情报杂志,2020,29(6):1-6.
4余传明,黄婷婷,林虹君,安璐.基于标签迁移和深度学习的跨语言实体抽取研究[J].现代情报,2020,40(12):3-16. 被引量：4
5武小平,张强,赵芳,焦琳.基于BERT的心血管医疗指南实体关系抽取方法[J].计算机应用,2021,41(1):145-149. 被引量：15
6廖开际,邹珂欣,席运江.一种在线医疗社区问答文本实体识别方法——基于卷积神经网络和双向长短期记忆神经网络[J].科技管理研究,2021,41(8):173-179. 被引量：4
7耿骞,邓斯予,靳健.融合词语义表示和新词发现的领域本体演化——以产品评论数据为例[J].图书情报工作,2021,65(8):85-96. 被引量：3
8魏小林,彭宇明,张铁军.基于BERT多层网络的医疗实体抽取模型研究[J].中国数字医学,2021,16(5):36-40.
9邢照野,刘晓群,刘雅军,孙佩杰.基于机器学习的文本自动归类系统算法研究[J].新一代信息技术,2021,4(12):24-31.
10张旭,朱艳辉,梁文桐,詹飞.基于SoftLexicon的医疗实体识别模型[J].湖南工业大学学报,2021,35(5):77-84. 被引量：3

1唐仕超,于观贞,姜磊.人工智能技术在基于电子病历研究中的应用与展望[J].第二军医大学学报,2018,39(8):928-934. 被引量：10
2艾小羊.快乐就是每日有所得[J].财富生活,2019,0(4X):5-7.
3周琼.教在数学之外[J].湖南教育（下旬）（C）,2019,0(6):45-45.
4蒋存锋,赵川.一种实体识别的后期处理优化算法[J].计算机应用与软件,2019,36(6):260-263. 被引量：1
5薛源.基于深度学习算法的中文分词的研究[J].计算机产品与流通,2019,0(5):200-200. 被引量：1
6覃琴.基于手机蓝牙与FPGA的多功能琴键设计[J].电子世界,2019,0(10):145-146.
7张若彬,刘嘉勇,何祥.基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J].四川大学学报（自然科学版）,2019,56(3):469-475. 被引量：16
8周彬彬,张宏军,张睿,冯蕴天,徐有为.面向实体标注的军事语料库建设[J].计算机科学,2019,46(B06):540-546. 被引量：7
9杨景刚,吴越,赵科,李洪涛,腾云,张国钢.基于最优特征向量分类的高压断路器机械状态识别方法[J].高压电器,2018,54(6):60-66. 被引量：7
10闫小川.一道向量题的解答思路分析[J].数理化学习（高中版）,2019(4):16-17.

第二军医大学学报

2019年第5期

浏览历史

内容加载中请稍等...

基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别被引量：13

参考文献8

二级参考文献168

共引文献387

同被引文献96

引证文献13

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别 被引量：13

参考文献8

二级参考文献168

共引文献387

同被引文献96

引证文献13

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别被引量：13