电子病历文本挖掘研究综述被引量：37

Review on Text Mining of Electronic Medical Record

下载PDF

导出

摘要电子病历是医院信息化发展的产物,其中包含了丰富的医疗信息和临床知识,是辅助临床决策和药物挖掘等的重要资源.因此,如何高效地挖掘大量电子病历数据中的信息是一个重要的研究课题.近些年来,随着计算机技术尤其是机器学习以及深度学习的蓬勃发展,对电子病历这一特殊领域数据的挖掘有了更高的要求.电子病历综述旨在通过对电子病历研究现状的分析来指导未来电子病历文本挖掘领域的发展.具体而言,综述首先介绍了电子病历数据的特点和电子病历的数据预处理的常用方法;然后总结了电子病历数据挖掘的4个典型任务(医学命名实体识别、关系抽取、文本分类和智能问诊),并且围绕典型任务介绍了常用的基本模型以及研究人员在任务上的部分探索;最后结合糖尿病和心脑血管疾病2类特定疾病,对电子病历的现有应用场景做了简单介绍. Electronic medical records(EMR),produced with the development of hospital informa-tionization and contained rich medical information and clinical knowledge,play important roles in guiding and assisting clinical decision-making and drug mining.Therefore,how to efficiently mine important information in a large amount of electronic medical records is an essential research topic.In recent years,with the vigorous development of computer technology,especially machine learning and deep learning,data mining in the special field of electronic medical records have been raised to a new height.This review aims to guide future development in the field of electronic medical record text mining by analyzing the current status of electronic medical record research.Specifically,this paper begins with an introduction to the characteristics of electronic medical record data and introduces how to preprocess electronic medical record data;then four typical tasks around electronic medical record data mining(medical named entity recognition,relationship extraction,text classification and smart interview)introduce popular model methods;finally,from the perspective of the application of electronic medical record data mining in characteristic diseases,two specific diseases of diabetes and cardio-cerebrovascular diseases are combined and a brief introduction to the existing application scenarios of electronic medical records is given.

作者吴宗友白昆龙杨林蕊王仪琦田英杰 Wu Zongyou;Bai Kunlong;Yang Linrui;Wang Yiqi;Tian Yingjie(School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100049;School of Computer Science and Technology,University of Chinese Academy of Sciences,Beijing 100049;Research Center on Fictitious Economy and Data Science,Chinese Academy of Sciences(University of Chinese Academy of Sciences),Beijing 100190;Key Laboratory of Big Data Mining and Knowledge Management,Chinese Academy of Sciences(University of Chinese Academy of Sciences),Beijing 100190;Sino-Danish College,University of Chinese Academy of Sciences,Beijing 100049)

机构地区中国科学院大学经济与管理学院中国科学院大学计算机与科学技术学院中国科学院虚拟经济与数据科学研究中心(中国科学院大学) 中国科学院大数据挖掘与知识管理重点实验室(中国科学院大学) 中国科学院大学中丹学院

出处《计算机研究与发展》 EI CSCD 北大核心 2021年第3期513-527,共15页 Journal of Computer Research and Development

基金国家自然科学基金项目(71731009,61472390) 中国科学院科技服务网络计划项目(KFJ-STS-ZDTP-060)。

关键词电子病历自然语言处理数据挖掘机器学习深度学习 electronic medical records natural language processing data mining machine learning deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1曲春燕,关毅,杨锦锋,赵永杰,刘雅欣.中文电子病历命名实体标注语料库构建[J].高技术通讯,2015,25(2):143-150. 被引量：19
2毛利锋,瞿海斌.一种基于决策树的乳腺癌计算机辅助诊断新方法[J].江南大学学报（自然科学版）,2004,3(3):227-229. 被引量：8
3杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：103
4翟菊叶,陈春燕,张钰,陈玉娥,刘玉文.基于CRF与规则相结合的中文电子病历命名实体识别研究[J].包头医学院学报,2017,33(11):124-125. 被引量：12
5张玉坤,刘茂福,胡慧君.基于联合神经网络模型的中文医疗实体分类与关系抽取[J].计算机工程与科学,2019,41(6):1110-1118. 被引量：14
6杨飞洪,张宇,覃露,李姣.中文电子病历的命名实体识别研究进展[J].中国数字医学,2020,15(2):9-12. 被引量：9
7吕愿愿,邓永莉,刘明亮,崔宇佳,陆起涌.利用实体与依存句法结构特征的病历短文本分类方法[J].中国医疗器械杂志,2016,40(4):245-249. 被引量：2
8宁尚明,滕飞,李天瑞.基于多通道自注意力机制的电子病历实体关系抽取[J].计算机学报,2020,43(5):916-929. 被引量：31
9苏嘉,何彬,吴昊,杨锦锋,关毅,姜京池,王焕政,于秋滨.基于中文电子病历的心血管疾病风险因素标注体系及语料库构建[J].自动化学报,2019,45(2):420-426. 被引量：14
10张聪品,方滔,刘昱良.基于LSTM-CRF命名实体识别技术的研究与应用[J].计算机技术与发展,2019,29(2):106-108. 被引量：25

二级参考文献61

1周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
2[3]CHRISTINE L TSIEN, ISAAC S KOHANE, NEIL MCLNTOSH. Multiple signal integration by decision tree induction to detect artifacts in the neonatal intensive care unit[J]. Artificial Intelligence in Medicine, 2000, 19: 189-202.
3[4]YOUNG MOON CHAE, SEUNG HEE HO. Data mining approach to policy analysis in a health insurance domain[J]. International Journal of Medical Informatics, 2001, 62: 103-111.
4[5]JIEWEI HAN,MICHELINE KAMBER.数据挖掘:概念与技术[M].范明译.北京:机械工业出版社,2001.
5[6]WILLIAM H WOLBERG, MANASARIAN O L. Multisurface method of pattern separation for medical diagnosis applied to breast cytology [J]. Proceedings of the National Academy of Sciences, 1990, 87: 9193-9196.
6[7]MANGASARIAN O L, SETIONO R, WOLBERG W H. Pattern recognition via linear programming: Theory and application to medical diagnosis[A]. Proceedings of the Workshop on Large-Scale Numerical Optimization[C]. Philadelphia: SIAM Publications, 1990. 22-31.
7Gu B.Recognizing nested named entities in GENIA corpus[C]∥Proceedings of the HLT-NAACL BioNLP Workshop on Linking Natural Language and Biology.Association for Computational Linguistics,2006:112-113.
8Tanabe L,Wilbur W J.A priority model for named entities[C]∥Proceedings of the Workshop on Linking Natural Language Processing and Biology:Towards Deeper Biological Literature Analysis.Association for Computational Linguistics,2006:33-40.
9Kim J D,Ohta T,Tsuruoka Y,et al.Introduction to the bio-entity recognition task at JNLPBA[C]∥Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications.Association for Computational Linguistics,2004:70-75.
10Leaman R,Miller C,Gonzalez G.Enabling recognition of diseases in biomedical text with machine learning:corpus and benchmark[C]∥Proceedings of the 2009Symposium on Languages in Biology and Medicine,2009.

共引文献219

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2杨滔,龙木清.基于NBI与NICE分型的东莞市结直肠息肉病变数据库建立与医防融合应用研究[J].智慧健康,2022,8(5):89-91.
3周永称,范少萍,晏归来,安新颖.精准医学文本语料库构建研究[J].医学信息学杂志,2019,40(12):41-47. 被引量：4
4赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
5李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622.
6杨涛,王迪,冯梦晗,黄宗海,段茹茜,卜鹏志,郭富强,温川飙.基于中医四诊、西医检验和生物信息的多类型传感器数据归一化分层处理架构的研究[J].世界科学技术-中医药现代化,2023,25(2):798-805. 被引量：1
7昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：16
8吴婷,李明扬,孔芳.基于同义推理的篇章级实体上下位关系语料库构建[J].中文信息学报,2020(4):38-46. 被引量：1
9曹若麟,杜渂.面向实体标注的公安警情领域语料库的构建[J].电信快报,2021(3):20-24. 被引量：2
10张婷婷,让冉,张龙波,邢林林,蔡红珍.面向新兴产业的检验检测服务关系抽取[J].智能计算机与应用,2022,12(2):32-36. 被引量：1

同被引文献403

1付秀,陈麒麟,李杰,付毅,包国峰.基于智能预问诊的全景多学科会诊平台的设计与应用[J].中国数字医学,2021,16(10):79-82. 被引量：6
2吴菊华,张烁,陶雷,姜顺军.基于神经网络的脑卒中风险预测模型研究[J].数据分析与知识发现,2019,3(12):70-75. 被引量：7
3李琴,裴平.银行系金融科技发展与商业银行经营效率——基于文本挖掘的实证检验[J].山西财经大学学报,2021,43(11):42-56. 被引量：27
4李丽双,袁光辉,刘晗喆.基于位置降噪和丰富语义的电子病历实体关系抽取[J].中文信息学报,2021,35(8):89-97. 被引量：5
5张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：12
6吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：8
7文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
8苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
9文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
10周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16

引证文献37

1李四海,李燕.基于案例驱动的医学数据挖掘课程教学研究与实践[J].科教导刊,2023(14):108-111.
2孙静,钟经伟,李志强,邹光球,何晔,唐欣.医疗数据存储机制研究综述[J].价值工程,2021,40(11):248-250. 被引量：2
3尹思艺,庞晓燕,蔡秀军,林辉,乔凯,王可心,徐哲.基于自然语言处理的病历智能质控系统的研究与应用[J].中国医药科学,2021,11(16):1-4. 被引量：2
4中国研究型医院学会药物评价专业委员会,解放军药品不良反应监测中心,郭代红,于承暄.基于医院信息系统数据的临床用药风险自动监测评价专家共识[J].中国药物应用与监测,2021,18(5):277-287. 被引量：20
5郝秀慧,方贤进,杨高明.基于词云和文章主题的校园综合新闻聚类[J].安徽理工大学学报（自然科学版）,2021,41(6):39-44.
6吴迪,赵玉凤.融合LDA和GloVe模型的病症文本聚类算法[J].河北工程大学学报（自然科学版）,2022,39(1):92-98. 被引量：1
7万歆,姚晴虹.基于后结构化电子病历的胰腺癌科研数据平台设计[J].医疗卫生装备,2022,43(5):38-43.
8洪高枫,黄杰,万健.融合医学本体知识的药物推荐算法[J].浙江科技学院学报,2022,34(3):233-241. 被引量：1
9马昂,于艳华,杨胜利,石川,李劼,蔡修秀.基于强化学习的知识图谱综述[J].计算机研究与发展,2022,59(8):1694-1722. 被引量：12
10卢京川,郭代红,高奥,伏安,李超,郭海丽,王天琳,石廷永.基于HIS数据的住院人群癫痫发作自动监测模块的建立与优化[J].中国药物应用与监测,2022,19(4):248-253. 被引量：2

二级引证文献67

1李小强,杨凯,代龙飞,夏炜豪,蔡正鑫.冷轧连退机组中央段自动控制系统开发[J].冶金自动化,2023,47(S01):121-124.
2李鹏,郭代红,郭海丽,伏安,赵安琪,高奥.基于FAERS数据库的5-羟色胺3受体拮抗剂相关心脏不良事件分析[J].中国临床药学杂志,2023,32(3):166-171. 被引量：1
3张博,郭代红,郭海丽,李伯妍,王嘉熙.14 287例住院患者注射用顺铂相关急性肾损伤的临床特征及影响因素[J].中国临床药学杂志,2022,31(2):93-97. 被引量：1
4靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384.
5赵巍,李中鹏.医院信息化背景下医疗数据的整合与应用[J].互联网周刊,2022(6):20-22. 被引量：4
6郭海丽,郭代红,高奥,张博,李伯妍,王嘉熙,石廷永.基于HIS数据的药源性心律失常自动监测模块规则建立与验证[J].中国药物应用与监测,2022,19(3):176-181. 被引量：4
7卢京川,郭代红,高奥,伏安,李超,郭海丽,王天琳,石廷永.基于HIS数据的住院人群癫痫发作自动监测模块的建立与优化[J].中国药物应用与监测,2022,19(4):248-253. 被引量：2
8付子仪,谢婷婷.维布妥昔单抗不良反应文献分析[J].中国药物应用与监测,2022,19(4):254-257. 被引量：1
9吴智妍,金卫,岳路,生慧.电子病历命名实体识别技术研究综述[J].计算机工程与应用,2022,58(21):13-29. 被引量：6
10孙静,唐欣.基于区块链的医疗数据系统设计[J].无线互联科技,2022,19(19):65-67. 被引量：1

1赵帅,陈安.罗伯特·科赫:“瘟疫的克星”[J].风流一代,2021(5):20-21.
2张宇,顾小琴,钟波,陈琳,陆定,王楠楠,徐亮,刘阳.行为改变交流(BCC)策略在疾病控制中的应用[J].中国健康教育,2020,36(12):1095-1098.
3何治琛,周琴,张文欣.先天性巨结肠根治术的编码分析[J].中国病案,2020,21(12):39-41.
4杨林,黄晓硕,王嘉阳,李姣.基于语义对齐的临床量表信息提取方法及其临床试验队列识别的应用研究[J].数据分析与知识发现,2020,4(12):33-44. 被引量：2
5张磊,牟梓君,宋虎杰,党举,成秋,杨杰,刘保延.基于频繁闭项集压缩方法的小儿脑瘫穴位配伍规律研究[J].世界科学技术-中医药现代化,2020,22(11):3966-3971. 被引量：1
6向思京.肠造口术在ICD-9-CM-3手术操作分类中的编码分析[J].中国病案,2020,21(12):41-43. 被引量：1

计算机研究与发展

2021年第3期

浏览历史

内容加载中请稍等...

电子病历文本挖掘研究综述被引量：37

参考文献11

二级参考文献61

共引文献219

同被引文献403

引证文献37

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

电子病历文本挖掘研究综述 被引量：37

参考文献11

二级参考文献61

共引文献219

同被引文献403

引证文献37

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

电子病历文本挖掘研究综述被引量：37