中文电子病历命名实体标注语料库构建被引量：19

The construction of annotated corpora of named entities for Chinese electronic medical records

下载PDF

导出

摘要针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。 In view of the current blank in semantical annotatxon ot nameo enuuz~ ul ~,,, （CEMRs）, a study on construction of annotated corpora for CEMRs＇ named entities was condueted. By reference to the definitions of named entity type and modification type of electronie medical records given by the US Informat- ics for Integrating Biology and the Bedside （I2B2） in 2010, an annotation specification for CEMRs was developed under the guidance of professional doctors; Based on the analysis of a large number of CEMRs, a complete scheme for annotation of CEMRs＇ named denties was proposed, and a large-scale annotated corpus for named entities of CEMRs was established by using the methods of pre-annotating and formal annotating. Its annotation consistency is over 92%. This annotated corpora can provide reliable data for named entity recognition for CEMRs and information extraction research, and it is very useful for medical knowledge mining.

作者曲春燕关毅杨锦锋赵永杰刘雅欣

机构地区哈尔滨工业大学计算机科学与技术学院哈尔滨医科大学附属第四医院哈尔滨医科大学附属第二医院

出处《高技术通讯》 CAS CSCD 北大核心 2015年第2期143-150,共8页 Chinese High Technology Letters

基金国家自然科学基金(60975077)资助项目

关键词中文电子病历(CEMR) 命名实体标注语料库标注规范标注一致性(IAA) Chinese electronic medical record（ CEMR）, named entity, annotated corpus, annotation specifi-cation, inter-annotator agreement （IAA）

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1中华人民共和国卫生部.电子病历基本规范(试行)http://www.mob.gov.cn/publimohyzs/s3585/201003/46174.htm:国家卫生计生委统计信息中心,2010.
2Wasserman R C. Electronic medical records (EMRs), epidemiology, and epistemology: reflections on EMRs and future pediatric clinical research. Academic Pediatrics, 2011,11 (4) :280-287.
3Pestian J P, Brew C, Matykiewicz P, et al. A shared task involving multi-label classification of clinical free text. In: Proceedings of the Workshop on BioNLP 2007: Biologi- cal, Translational, and Clinical Language Processing, Stroudsburg, USA, 2007. 97-104.
4Voorhees E, Tong R. Overview of the TREC 2011 medi- cal records track. In: Proceedings of the 20th Text RE- trieval Conference Proceedings, Montgomery, USA, 2011.
5Hersh W R, Voorhees E M. Overview of the TREC 2012 medical records track. In: Proceedings of the 21st Text REtrieval Conference Proceedings, Montgomery, USA, 2012.
6任彩玲.电子病历遭遇三大障碍[J].信息系统工程,2008,21(2):28-30. 被引量：7
7Xia F, Yetisgen-Yildiz M. Clinical corpus annotation: challenges and strategies. In: Proceedings of the Third Workshop on Building and Evaluating Resources for Bio- medical Text Mining (BioTxtM2012) in conjunction with the International Conference on Language Resources and Evaluation (LREC), Istanbul, Turkey, 2012.
8Uzuner O, Solti I, Xia F, et al. Community annotation experiment for ground truth generation for the i2b2 medi- cation challenge. Journal of the American Medical lnfor- matics Association, 2010, 17(5): 519-523.
9Uzuner O, South B R, Shen S D S. 2010 i2b2 / VA challenge on concepts , assertions , and relations in clini- cal text. Journal of the American MedicaE lnformatics As- sociation, 2011,18(5) :552-557.
10Bodenreider O. The unified medical language system ( UMLS ) : integrating biomedical terminology. Nucieic acids research ,2004,32( Database issue) :267-270.

二级参考文献138

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2林东,邵军力.医学诊疗领域通用专家系统设计与实现[J].自动化学报,1995,21(3):380-382. 被引量：6
3中华人民共和国卫生部.电子病历基本规范(试行)[Online],available:http://www.gov.cn/zwgk/2010-03/04/content_1547432.htm,December27,2013.
4Wasserman R C. Electronic medical records (EMRs), epi- demiology, and epistemology: reflections on EMRs and fu- ture pediatric clinical research. Academic Pediatrics, 2011, 11(4): 280-287.
5Uzuner O, Mailoa J, Ryan R, Sibanda T. Semantic relations for problem-oriented medical records. Artificial Intelligence in Medicine, 2010, 50(2): 63-73.
6Demner-Fushman D, Chapman W W, McDonald C J. What can natural language processing do for clinical decision sup- port? Journal of Bioxnedical Informatics, 2009, 42(5): 760- 772.
7Eysenbach G. Recent advances: consumer health informat- ics. British Medical Journal, 2000, 320(7251): 1713-1716.
8Sager N, Friedman C, Lyman M S. Review of Medical lan- guage processing: computer management of narrative data. Computational Linguistics, 1989, 15(3): 195-198.
9National Institutes of Health. Research Repositories, Databases, and the HIPAA Privacy Rule [Online], available: http: / / privacyruleandresearch.nih.gov / pdf/r esearch-r eposit- ories_final.pdf, December 27, 2013.
10Uzuner O, Luo Y, Szolovits P. Evaluating the state-of-the- art in automatic de-identification. Journal of the American Medical lnformatics Association, 2007, 14(5): 550-563.

共引文献131

1席新,李波,王骁勇,胡云苹.面向电子病历的医学术语规范化系统设计及实现[J].中国数字医学,2021,16(12):65-68. 被引量：6
2姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
4邢毅雪,朱永华,高海燕,周金,张克.基于注意力机制的远程监督实体关系抽取[J].上海大学学报（自然科学版）,2021,27(5):983-992. 被引量：5
5昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方.中文症状知识库的建立与分析[J].中文信息学报,2020,34(4):30-37. 被引量：9
6吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9
7孙沂振,沈云学,唐鹤云.电子病历概述[J].医学信息学杂志,2009,30(3):1-5. 被引量：25
8周拴龙.从中美电子病历标准的比较看中国电子病历标准的发展和完善[J].档案学通讯,2012(1):11-15. 被引量：14
9周杨.广州地区三甲医院电子病历建设及使用现状的调查与分析[J].中国医院管理,2012,32(1):67-69. 被引量：3
10高靖,杨惠祥,于俊乐,孙宝山.承德地区医院电子病历现状调查及分析[J].中国医疗设备,2013,28(2):67-69. 被引量：2

同被引文献243

1付秀,陈麒麟,李杰,付毅,包国峰.基于智能预问诊的全景多学科会诊平台的设计与应用[J].中国数字医学,2021,16(10):79-82. 被引量：7
2孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
3昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：17
4曹若麟,杜渂.面向实体标注的公安警情领域语料库的构建[J].电信快报,2021(3):20-24. 被引量：2
5周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
6毛利锋,瞿海斌.一种基于决策树的乳腺癌计算机辅助诊断新方法[J].江南大学学报（自然科学版）,2004,3(3):227-229. 被引量：8
7罗振声.清华大学TH大型通用汉语语料库系统的研制[J].清华大学学报（哲学社会科学版）,1996,11(1):94-98. 被引量：2
8高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
9JohnHalamka.电子病历与临床信息技术革命美国的现状及深远影响[J].中华医学杂志,2005,85(22):1513-1515. 被引量：37
10张姝,赵铁军,杨沐昀,李生.面向事件的多语平行语料库构建研究[J].计算机应用研究,2005,22(11):23-24. 被引量：4

引证文献19

1戴雪,蒋志鹏,关毅.基于中文电子病历的跨科室组块分析[J].计算机应用研究,2017,34(7):2084-2087. 被引量：3
2周亚娟,张蕾蕾.电子病历中护理记录缺陷的防范方式分析[J].中国社区医师,2018,34(14):183-183. 被引量：3
3毛雪芬.基于产品评论的情感标注一致性问题分析——以汽车评论文本和美妆评论文本为例[J].文教资料,2018(35):19-22.
4胡佳慧,方安,赵琬清,杨晨柳,任慧玲.面向知识发现的中文电子病历标注方法研究[J].数据分析与知识发现,2019,3(7):123-132. 被引量：13
5宓林晖,袁骏毅.基于CRF模型的临床医嘱信息实体识别方法应用研究[J].计算机应用与软件,2020,37(3):209-212. 被引量：5
6杨飞洪,张宇,覃露,李姣.中文电子病历的命名实体识别研究进展[J].中国数字医学,2020,15(2):9-12. 被引量：10
7刘宇鹏,栗冬冬.基于BLSTM-CNN-CRF的中文命名实体识别方法[J].哈尔滨理工大学学报,2020,25(1):115-120. 被引量：20
8贾全烨,张强,宋博川.一种基于循环神经网络的电网客服语音文本实体识别算法[J].供用电,2020,37(6):13-20. 被引量：7
9张志强,徐岩,黄艳群,王妮,杨正汉,陈卉,刘红蕾.中文影像学报告中的命名实体识别研究[J].北京生物医学工程,2020,39(6):609-614. 被引量：3
10吴宗友,白昆龙,杨林蕊,王仪琦,田英杰.电子病历文本挖掘研究综述[J].计算机研究与发展,2021,58(3):513-527. 被引量：42

二级引证文献174

1叶君武.农林英汉术语平行语料库的构建研究[J].现代英语,2024(7):82-84.
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
4李四海,李燕.基于案例驱动的医学数据挖掘课程教学研究与实践[J].科教导刊,2023(14):108-111.
5许行健.多语种军事综合语料库平台建设与应用[J].电声技术,2023,47(1):66-69.
6袁骏毅,汤钦华,马群圣.胸腺瘤结构化专病数据库构建研究[J].中国医疗设备,2019,34(2):113-115. 被引量：15
7谢寿姣.绩效管理在护理电子病历质控中的应用[J].电子技术与软件工程,2019(13):191-191. 被引量：2
8黄梦醒,李梦龙,韩惠蕊.基于电子病历的实体识别和知识图谱构建的研究[J].计算机应用研究,2019,36(12):3735-3739. 被引量：30
9李纲,潘荣清,毛进,操玉杰.整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别[J].现代情报,2020,40(4):3-12. 被引量：28
10刘勇,陈文生.电子病历术语规范化流程及临床辅助诊断系统设计[J].医学信息,2020,33(14):7-9. 被引量：2

1蒋志鹏,赵芳芳,关毅,杨锦锋.面向中文电子病历的词法语料标注研究[J].高技术通讯,2014,24(6):609-615. 被引量：9
2李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22(7):815-821. 被引量：23
3杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：106
4张爱军,王国才.一种基于ECMR的有序多重数字签名方案[J].信息系统工程,2010,23(9):115-115.
5姚源林,王树伟,徐睿峰,刘滨,桂林,陆勤,王晓龙.面向微博文本的情绪标注语料库构建[J].中文信息学报,2014,28(5):83-91. 被引量：17
6李茜.2010年美国老年人使用社交网站的比例增长显著[J].信息网络,2010(8):5-5.
72010年美国IIS市场将高达14亿美元[J].A&S（安全&自动化）,2010(9):36-36.
8李光辉,李仁.全台网信息安全保障体系初探[J].电脑知识与技术,2013,9(11X):7413-7415. 被引量：1
9即时提供专业医生世界医学讯息的网站[J].信息系统工程,2000(6):36-36.
10舒燕,吕学强.搜索引擎日志短语标注规范[J].中文信息学报,2013,27(2):47-51.

高技术通讯

2015年第2期

浏览历史

内容加载中请稍等...

中文电子病历命名实体标注语料库构建被引量：19

参考文献17

二级参考文献138

共引文献131

同被引文献243

引证文献19

二级引证文献174

相关作者

相关机构

相关主题

浏览历史

中文电子病历命名实体标注语料库构建 被引量：19

参考文献17

二级参考文献138

共引文献131

同被引文献243

引证文献19

二级引证文献174

相关作者

相关机构

相关主题

浏览历史

中文电子病历命名实体标注语料库构建被引量：19