基于多通道自注意力机制的电子病历实体关系抽取被引量：33

Multi-Channel Self-Attention Mechanism for Relation Extraction in Clinical Records

下载PDF

导出

摘要电子病历是临床治疗过程中患者病情及治疗流程的重要载体之一,其中各类实体间关系包含了大量与患者健康相关的医学信息.因此,对电子病历文本的深度挖掘是获取医学知识、分析患者病情的有效手段之一.实体的高密度分布以及实体间关系的交叉互联为电子病历实体关系的抽取带来了极大挑战,应用于通识领域的实体关系抽取方法也因此受到极大的限制.针对这一文本差异性,本文提出一种基于多通道自注意力机制的"recurrent+transformer"神经网络架构,相比于主流的"recurrent+CNN"架构,该架构可强化模型对句级别语义特征的捕捉,提升对电子病历专有文本特点的学习能力,同时显著降低模型整体复杂度.此外,本文提出在该网络架构下的两种基于权重的辅助训练方法:带权学习的交叉熵损失函数以及基于权重的位置嵌入,前者用于缓解实体关系类别不均衡所造成的训练偏置问题,从而提升模型在真实分布数据中的普适性,同时可加速模型在参数空间的收敛速率;后者则用于进一步放大文本字符位置信息的重要性,以辅助提升transformer网络的训练效果.对比实验选用目前主流方法的6个模型作为基线,相继在2010i2b2/VA及SemEval 2013DDI医学语料中进行验证.相较于传统自注意力机制,多通道自注意力机制的引入在模型整体F1指标中最高实现10.67%的性能提升,在细粒度单项对比实验中,引入类别权重的损失函数在小类别样本中的F1值最高提升近23.55%. The electronic medical record is one of the important carrier for patient’s condition and treatment during the clinical treatment process.The relationship between various types of entities contains a large number of medical knowledge related to the information of the patient.Therefore,the deep mining of electronic medical records is one of the effective means to obtain medical knowledge and analyze the patient’s condition.The high-density distribution of entities and the cross-connection of relationships between entities pose great challenges for the relation extraction in electronic medical records.For that,the methods of relation extraction applied in the general fields are greatly limited.In view of the characteristics of that,this paper proposes a“recurrent+transformer”architecture with multi-channel self-attention mechanism to enrich the semantic features of the sentence level,thus improving the learning ability of the characteristics for electronic medical records and reducing model complexity.In addition,this paper also proposes two auxiliary training methods based on weight,which are weighted-based cross entropy loss function and weighted-based position embedding.The former is applied to avoid the problem of training bias caused by categories imbalance,thus improving the universality of the model in the real distribution and accelerating the convergence rate.The later enhances the importance of position information with each character,which helps improve the training effect of transformer network.We selected six models with the best performance in the two methods as the baselines,and verified them in the 2010 i2b2/VA and SemEval 2013 DDI medical corpus.Compared with the traditional self-attention mechanism,the highest performance improvement of 10.67%is achieved in the overall F1 score of the model with the multi-channel self-attention mechanism.In the fine-grained single-item comparison experiment,the weighted-based loss function increases the F1 value in the small category sample by nearly 23.55%.

作者宁尚明滕飞李天瑞 NING Shang-Ming;TENG Fei;LI Tian-Rui(School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756;Institute of Artificial Intelligence,Southwest Jiaotong University,Chengdu 611756)

机构地区西南交通大学信息科学与技术学院西南交通大学人工智能研究院

出处《计算机学报》 EI CSCD 北大核心 2020年第5期916-929,共14页 Chinese Journal of Computers

基金国家自然科学基金(61572407) 四川省科技计划(2017SZYZF0002)资助。

关键词关系抽取电子病历多通道自注意力 recurrent+transformer 语义特征 relation extraction electronic medical record multi-channel self-attention recurrent+transformer semantic features

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：126
2杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：105

二级参考文献139

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2林东,邵军力.医学诊疗领域通用专家系统设计与实现[J].自动化学报,1995,21(3):380-382. 被引量：6
3中华人民共和国卫生部.电子病历基本规范(试行)[Online],available:http://www.gov.cn/zwgk/2010-03/04/content_1547432.htm,December27,2013.
4Wasserman R C. Electronic medical records (EMRs), epi- demiology, and epistemology: reflections on EMRs and fu- ture pediatric clinical research. Academic Pediatrics, 2011, 11(4): 280-287.
5Uzuner O, Mailoa J, Ryan R, Sibanda T. Semantic relations for problem-oriented medical records. Artificial Intelligence in Medicine, 2010, 50(2): 63-73.
6Demner-Fushman D, Chapman W W, McDonald C J. What can natural language processing do for clinical decision sup- port? Journal of Bioxnedical Informatics, 2009, 42(5): 760- 772.
7Eysenbach G. Recent advances: consumer health informat- ics. British Medical Journal, 2000, 320(7251): 1713-1716.
8Sager N, Friedman C, Lyman M S. Review of Medical lan- guage processing: computer management of narrative data. Computational Linguistics, 1989, 15(3): 195-198.
9National Institutes of Health. Research Repositories, Databases, and the HIPAA Privacy Rule [Online], available: http: / / privacyruleandresearch.nih.gov / pdf/r esearch-r eposit- ories_final.pdf, December 27, 2013.
10Uzuner O, Luo Y, Szolovits P. Evaluating the state-of-the- art in automatic de-identification. Journal of the American Medical lnformatics Association, 2007, 14(5): 550-563.

共引文献208

1周永称,范少萍,晏归来,安新颖.精准医学文本语料库构建研究[J].医学信息学杂志,2019,40(12):41-47. 被引量：4
2席新,李波,王骁勇,胡云苹.面向电子病历的医学术语规范化系统设计及实现[J].中国数字医学,2021,16(12):65-68. 被引量：6
3姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
4赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
5孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
6邢毅雪,朱永华,高海燕,周金,张克.基于注意力机制的远程监督实体关系抽取[J].上海大学学报（自然科学版）,2021,27(5):983-992. 被引量：5
7昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：17
8吴婷,李明扬,孔芳.基于同义推理的篇章级实体上下位关系语料库构建[J].中文信息学报,2020(4):38-46. 被引量：1
9昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方.中文症状知识库的建立与分析[J].中文信息学报,2020,34(4):30-37. 被引量：9
10吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9

同被引文献244

1何慧,陈胜.改进预训练编码器U-Net模型的PET肿瘤自动分割[J].中国图象图形学报,2020,25(1):171-179. 被引量：5
2陈德彦,赵宏,张霞.专家视图与本体视图的语义映射方法[J].软件学报,2020(9):2855-2882. 被引量：7
3蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：59
4周俊,郑彭元,袁立存,戈为溪,梁静.基于改进CASREL的水稻施肥知识图谱信息抽取研究[J].农业机械学报,2022,53(11):314-322. 被引量：7
5李丽双,袁光辉,刘晗喆.基于位置降噪和丰富语义的电子病历实体关系抽取[J].中文信息学报,2021,35(8):89-97. 被引量：5
6张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：14
7刘琼,张豹.基于GBDT算法的锂电池剩余使用寿命预测[J].电子测量与仪器学报,2022,36(10):166-172. 被引量：6
8邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：39
9毛利锋,瞿海斌.一种基于决策树的乳腺癌计算机辅助诊断新方法[J].江南大学学报（自然科学版）,2004,3(3):227-229. 被引量：8
10李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95

引证文献33

1杨滔,龙木清.基于NBI与NICE分型的东莞市结直肠息肉病变数据库建立与医防融合应用研究[J].智慧健康,2022,8(5):89-91.
2张婷婷,让冉,张龙波,邢林林,蔡红珍.面向新兴产业的检验检测服务关系抽取[J].智能计算机与应用,2022,12(2):32-36. 被引量：1
3张翠,周茂杰,杨志清.融合句法依存树注意力的关系抽取研究[J].广东通信技术,2020,40(10):43-47. 被引量：1
4吴赛赛,周爱莲,谢能付,梁晓贺,汪汇涓,李小雨,陈桂鹏.基于深度学习的作物病虫害可视化知识图谱构建[J].农业工程学报,2020,36(24):177-185. 被引量：41
5吴宗友,白昆龙,杨林蕊,王仪琦,田英杰.电子病历文本挖掘研究综述[J].计算机研究与发展,2021,58(3):513-527. 被引量：42
6陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学学报,2021,23(7):1208-1220. 被引量：6
7张世豪,杜圣东,贾真,李天瑞.基于深度神经网络和自注意力机制的医学实体关系抽取[J].计算机科学,2021,48(10):77-84. 被引量：10
8吴赛赛,梁晓贺,谢能付,周爱莲,郝心宁.面向领域实体关系联合抽取的标注方法[J].计算机应用,2021,41(10):2858-2863. 被引量：8
9隗昊,周爱,张益嘉,陈飞,屈雯,鲁明羽.深度学习生物医学实体关系抽取研究综述[J].计算机工程与应用,2021,57(21):14-23. 被引量：3
10韩普,张伟,张展鹏,王宇欣,方浩宇.基于特征融合和多通道的突发公共卫生事件微博情感分析[J].数据分析与知识发现,2021,5(11):68-79. 被引量：18

二级引证文献176

1李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
2张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：12
3李四海,李燕.基于案例驱动的医学数据挖掘课程教学研究与实践[J].科教导刊,2023(14):108-111.
4孙静,钟经伟,李志强,邹光球,何晔,唐欣.医疗数据存储机制研究综述[J].价值工程,2021,40(11):248-250. 被引量：2
5任媛,于红,杨鹤,刘巨升,杨惠宁,孙哲涛,张思佳,刘明剑,孙华.融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别[J].农业工程学报,2021,37(10):135-141. 被引量：20
6尹思艺,庞晓燕,蔡秀军,林辉,乔凯,王可心,徐哲.基于自然语言处理的病历智能质控系统的研究与应用[J].中国医药科学,2021,11(16):1-4. 被引量：3
7杨鹤,于红,孙哲涛,刘巨升,杨惠宁,张思佳,孙华,姜鑫,于英囡.基于双重注意力机制的渔业标准实体关系抽取[J].农业工程学报,2021,37(14):204-212. 被引量：14
8王一钒,李博,史话,苗威,姜斌.古汉语实体关系联合抽取的标注方法[J].数据分析与知识发现,2021,5(9):63-74. 被引量：8
9中国研究型医院学会药物评价专业委员会,解放军药品不良反应监测中心,郭代红,于承暄.基于医院信息系统数据的临床用药风险自动监测评价专家共识[J].中国药物应用与监测,2021,18(5):277-287. 被引量：23
10赵辉,曹宇航,岳有军,王红君.基于改进DenseNet的田间杂草识别[J].农业工程学报,2021,37(18):136-142. 被引量：22

1黄成昆,储德平,杨曌,黄亚榕.基于扎根理论的乡村老年人闲暇教育参与行为影响因素研究[J].中国成人教育,2019,0(18):88-92. 被引量：3
2杨飞洪,张宇,覃露,李姣.中文电子病历的命名实体识别研究进展[J].中国数字医学,2020,15(2):9-12. 被引量：10
3王东,刘恒.贵州安顺传统村落空间分布特征及其影响因素探究[J].中国名城,2020,0(3):86-91. 被引量：3
4胡婧,刘伟,马凯.基于机器学习的高血压病历文本分类[J].科学技术与工程,2019,19(33):296-301. 被引量：9
5张耀月,靳赢.牙周病治疗的规范流程[J].中国实用乡村医生杂志,2020,27(4):11-14. 被引量：1
6曹春萍,关鹏举.基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J].计算机应用研究,2019,36(12):3748-3751. 被引量：16
7唐国强,高大启,阮彤,叶琪,王祺.融入语言模型和注意力机制的临床电子病历命名实体识别[J].计算机科学,2020,47(3):211-216. 被引量：26
8张军强,董卓元,盛飞,姚新宇,李晓婷,高永亮,李江涛,刘书瀚,孙义.长距离330 kV电缆护套交叉互联接地方式研究及回流缆优化布置方法[J].高压电器,2020,56(2):189-196. 被引量：19
9展鑫,王国伟,谭黎明,何武强,吴凯西,何英杰,刘锋,黄岚.双模晶粒氧化物弥散强化合金的强化模型及热稳定性[J].中国有色金属学报,2020,30(3):612-619. 被引量：1
10李振军,赵华.手机信令人口大数据在智慧国土空间规划的实践与探索[J].城乡规划,2020(1):107-112. 被引量：6

计算机学报

2020年第5期

浏览历史

内容加载中请稍等...

基于多通道自注意力机制的电子病历实体关系抽取被引量：33

参考文献2

二级参考文献139

共引文献208

同被引文献244

引证文献33

二级引证文献176

相关作者

相关机构

相关主题

浏览历史

基于多通道自注意力机制的电子病历实体关系抽取 被引量：33

参考文献2

二级参考文献139

共引文献208

同被引文献244

引证文献33

二级引证文献176

相关作者

相关机构

相关主题

浏览历史

基于多通道自注意力机制的电子病历实体关系抽取被引量：33