中文病历文档术语提取和否定检出方法被引量：9

Term Extraction and Negation Detection Method in Chinese Clinical Document

下载PDF

导出

摘要利用生物医学术语系统中的词汇和概念,为存有大量珍贵信息的非结构化临床文档建立有效的索引,以便进行信息挖掘和利用,国际上相关研究已经开展多年,而基于中文病历文档概念索引的研究尚属空白。本研究将现有的中文版的国际疾病分类(ICD)集成到统一医学语言系统(UMLS)中,依据中文语言处理的特殊性,对中文电子病历文档进行统计分析,提出了一套中文病历文档术语提取和否定检出的方法,可用于建立中文病历文档的概念索引。术语提取阶段利用高灵敏的最大匹配法并结合通用分词技术来控制假阳性;而在概念否定意义检出部分,充分利用中文特点并基于现有中文处理技术提出了一种简化的子句模式匹配方法。选取了两组医疗文本数据集对算法进行了验证,术语提取算法的灵敏性分别为99.51%和100%,误检率分别为1.46%和1.66%。否定检出算法的阳性预测值均为100%,阴性预测值分别为100%和98.99%,除标点使用不规范等文书质量问题外,基本可以正确检出。 Narrative clinical documents contain a wealth of information for medical study.Indexing these documents using concepts in a biomedical terminology can improve information retrieval and mining in medical records.International studies in this domain have developed for several years,but the study based on Chinese clinical document remains a blank.After analyzing special character of Chinese medical language,this paper integrated Chinese version of International Classification of Disease（ICD） to the Unified Medical Language System（UMLS） terminology system and proposed a set of term extraction and negation detection method for Chinese clinical document which could be used to build concept-based index for documents.In the term extract phase the high-sensitivity Reverse Maximum Matching（RMM） method was used and a general Chinese word segmentation tool was used to decline false positive results.In negation detection phase,a simplified syntax pattern matching was proposed.Two algorithms were tested and evaluated in 2 clinical documents data sets.Term extract algorithm had a sensitivity of 99.51% and 100% while wrong detection rate 1.46% and 1.66%.Both negation detection algorithms had a positive predictive value of 100%,and negative predictive values of 100% and 98.99%.The negation detection algorithm could perfectly work except unusual punctuation used in clinical documents.

作者李昊旻李莹段会龙吕旭东

机构地区浙江大学生物医学工程与仪器科学学院生物医学工程教育部重点实验室

出处《中国生物医学工程学报》 CAS CSCD 北大核心 2008年第5期716-721,734,共7页 Chinese Journal of Biomedical Engineering

基金国家863项目(2006AA02Z348)

关键词医学语言处理术语提取否定检出 medical language processing term extract negation detection

分类号 R318 [医药卫生—生物医学工程]

引文网络
相关文献

参考文献19

1Van Mulligen EM, Stare H, Van Ginneken AM. Clinical data entry. [A]. In : Proceedings/ AMIA Annual Symposium [C]. Orland : Hanley&Belfus, 1998.81 - 85.
2Los RK, Van Ginneken AM, Van Der Lei J. OpenSDE: A strategy. for expressive and flexible structured data entry [J]. International Journal of Medical Informatics, 2005, 74:481 -490.
3Tange HJ. Consultation of medical narratives in the electronic medical record [J]. Methods of Informatlon in Medicine, 1999,38 (4 - 5) :289 - 293.
4Berg M, Langenberg C, Berg I, et al. Considerations for sociotechnical desgin: experiences with an electronic patient record in a clinical context [J]. International Journal of Medical Informatics, 1998,52(1-3):243 - 251.
5Salton G. Automatic Text Processing : The Transformation, Analysis, and Retrieval of Information by Computer [M]. Boston : Addison-Wesley Longman Publishing Co Inc, 1989.
6Aronson AR, Rindflesch TC, Browne AC. Exploiting a large thesaurus for information retrieval [ A]. In: Proceedings of RIAO [C]. New York: ACM, 1994. 197 - 216.
7NLM. Unified Medical Language System (UMLS) [S].
8Rindflesch TC, Aronson AR. Ambiguity resolution while mapping free text to the UMLS Metathesaurus [A]. In: Proceedings- The Annual Symposium on Computer Applications in Medical Care [C]. Washington: Heinley&Belfus, 1994. 240- 244.
9Elkin PL, Cimino JJ, Lowe HJ, et al. Mapping to MESH: the art of trapping MESH equivalence from within narrative text [ A ]. In : Proceedings- The Annual Symposium on Computer Applications in Medical Care [C]. Washington DC : IEEE CS Press, 1988. 185 - 190
10Wagner MM. An automatic indexing method for medical documents [A]. In: Proceedings - The Annual Symposium on Computer Applications in Medical Care [C]. New-York: McGraw-Hill 1991. 1011- 1017, 1018.

二级参考文献13

1黄昌宁.关于处理大规模真实文本的谈话[J].语言文字应用,1993(2):1-10. 被引量：25
2夸克等.英语语法大全[M].华东师范大学出版社,1988.
3白拴虎.汉语词性自动标注系统研究[D].清华大学计算机科学与技术系硕士学位论文,1992.
4Collins, M. and Brooks, J. Preposition phrase attachment through a backed-off model. In: Proceedings of the 3rd WVLC, Cambridge, MA, 1995.
5Schank, R., and Abelson, R. Scripts, Plans, Goals and Understanding: An Inquiry into Human Knowledge Structures. Hillsdale: Lawrence Erlbaum Associates, Publishers, 1977.
6Rich, Elaine. Artificial Intelligence. London: McGraw-Hill Book Company, 1983,295--344.
7In: Artificial Intelligence at MIT: Expending Frontiers, Vol.1. Winston, P. H., and Shellard, S.A. (eds.). Cambridge, Mass: MIT Press, 1990.
8Garside, R., Leech, G. and Sampson, G. (eds.). The Computational Analysis of English: A Corpus-Based Approach. London: Longman, 1989.
9吴栋.中文信息检索引擎中的若干技术.
10吴应良,韦岗,李海洲.一种基于N-gram模型和机器学习的汉语分词算法[J].电子与信息学报,2001,23(11):1148-1153. 被引量：23

共引文献37

1雒自清,张雪荣,苗传江.计算语言学——一门新兴的交叉学科[J].科学学研究,2003,21(z1):46-50. 被引量：5
2曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
3陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8
4许汉成.俄语功能语体定量分析中的几个核心问题[J].外语学刊,2004(6):30-36. 被引量：1
5王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2
6曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
7代建英,何中市.基于词性信息的汉语时间语词消歧算法[J].重庆大学学报（自然科学版）,2005,28(9):53-56.
8刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
9钱跃良,林守勋,刘群,刘宏.2005年度863计划中文信息处理与智能人机接口技术评测回顾[J].中文信息学报,2006,20(B03):1-6. 被引量：4
10赵正文,康耀红.统计语言模型在信息检索中的应用[J].计算机工程与应用,2006,42(36):158-161. 被引量：1

同被引文献63

1孔晓风,李莹,李昊旻,吕旭东.基于自然语言处理技术的消化科内窥镜检查报告的结构化[J].中国医疗器械杂志,2008,32(5):348-351. 被引量：6
2肖强,吴伟斌,陈联忠,蒲卫,王伟中,李小华,黄家驹.自由结构录入法在电子病历系统中的应用[J].解放军医院管理杂志,2005,12(3):222-222. 被引量：10
3徐一新,应峻,董建成.医学信息学的发展[J].中国医院管理,2006,26(3):30-32. 被引量：24
4顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：11
5Doan A, Naughton JF, Ramakrishnan R, et al. Information extraction challenges in managing unstructured data[J]. ACM SIGMOD Record, 2008, 37(4): 14-20.
6Erk K, Pado S. SHALMANESER-A Toolchain For Shallow Semantic Parsing[A]. In Proceedings of LREC[C], 2006, Genoa, Italy.
7Mykowiecka A, Marciniak M, et al. Rule-based information extraction from patients' clinical data[J]. Journal of Biomedical Informatics, 2009, 42: 923-936.
8Chang CH, Kayed M,et al. A Survey of Web Information Extraction System[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1411-1428.
9霍仲厚若病历书写示范[M].江苏:江苏科学技术出版社,2004.
10肖春,周建龙.生物医学领域中的文本信息抽取技术与系统综述[J].计算机应用研究,2007,24(9):1-7. 被引量：6

引证文献9

1陈莺莺,叶枫.信息提取技术在电子病历中的应用[J].中国医疗器械杂志,2011,35(1):39-41. 被引量：2
2苏韶生,余元龙,程敏婷,张淑娟,缪一雄,林玉卿,邹雨珊.半结构化病历文档信息抽取应用[J].中国数字医学,2012,7(9):102-104. 被引量：5
3张远鹏,董建成,钱旦敏,蒋葵,陈亚兰,王理.中文电子病历中否定术语检出方法研究[J].生物医学工程学杂志,2015,32(1):82-85.
4张远鹏,王理,董建成.基于规则和词共现的中文电子病历否定检出[J].计算机应用与软件,2015,32(3):50-52.
5葛彩霞,张寅升,陈维红,段会龙,李昊旻.药物不良反应知识库的建设以及统计分析[J].中国医院药学杂志,2015,35(9):765-769. 被引量：10
6李汝君,张俊,张晓民,桂小庆.健康领域Web信息抽取[J].计算机应用,2016,36(1):163-170. 被引量：6
7陈德华,刘茜茜,乐嘉锦,潘乔,朱立峰.病理镜检文本数据的结构化处理方法[J].计算机与现代化,2016(4):1-6. 被引量：2
8唐凡,伍星.否定信息识别研究综述[J].计算机工程与应用,2017,53(12):1-8. 被引量：2
9陆鹏,刘金星.具有自学习能力的电子病历后结构化技术研究[J].世界最新医学信息文摘,2018,18(73):192-193. 被引量：2

二级引证文献29

1王晨,李春晓,杨郁青.基于电子病历后结构化技术的辅助诊疗应用研究[J].中国数字医学,2021,16(6):48-52. 被引量：13
2叶枫,周钧.基于本体的临床案例知识库研究与实践[J].中国医疗器械杂志,2012,36(3):188-191. 被引量：2
3孙娜.自然语言文本中否定性信息智能抽取仿真[J].计算机仿真,2018,35(12):276-279. 被引量：2
4陈世梅,伍星,唐凡.基于BiLSTM-CRF模型的汉语否定信息识别[J].中文信息学报,2018,32(11):55-61. 被引量：3
5姜梦稚,黄黎明,徐珂,李先锋.基于XML技术的临床药历设计与实现[J].中国数字医学,2014,9(12):81-83. 被引量：1
6丘金珠.多种西药合用的不良反应与临床合理用药探讨[J].中国医学工程,2016,24(5):138-139. 被引量：14
7宋波,杨艳利,冯云霞.基于关联规则Apriori算法的心肺性职业病病情分析及预测[J].中国数字医学,2017,12(4):68-70. 被引量：2
8刘勇.探讨药事管理对药剂科管理质量的影响[J].中国医药指南,2017,15(10):293-294. 被引量：8
9程楠.一种基于大数据技术快速处理医疗文本的方法[J].中国数字医学,2017,12(9):45-46. 被引量：2
10臧昊,吴响,俞啸,赵强.面向半结构化电子病历的隐私数据发布系统设计[J].自动化技术与应用,2017,36(10):144-146.

1蒋云华,王金良.肠球菌耐万古霉素的机理及其检出方法[J].国外医学（临床生物化学与检验学分册）,1999,20(6):276-278. 被引量：6
2于彤,贾李蓉,刘静,杨硕,董燕,朱玲.中医药学语言系统研究综述[J].中国中医药图书情报杂志,2015,39(6):56-60. 被引量：9
3杨纪成.自动分析心电监护仪的QRS复合波检出方法[J].生物医学工程学杂志,1991,8(1):61-65. 被引量：3
4李昊旻,段会龙,吕旭东,李莹.医学语言处理技术及应用[J].中国数字医学,2008,3(11):11-13. 被引量：5
5杜鑫淼,王茂筠,周华,冯玉麟,俞云松.亚胺培南耐药铜绿假单胞菌氨基糖苷类修饰酶基因型研究[J].中国呼吸与危重监护杂志,2012,11(3):242-245. 被引量：1
6廖卫,王华,王瑞红,宋予娟.分离自老年患者的肠杆菌对碳青霉烯类药物的耐药性[J].现代预防医学,2015,42(4):764-765. 被引量：5
7肖庆忠,苏丹虹,江洁华,钟南山.广州地区3500株革兰阴性杆菌TEM和SHV型超广谱β内酰胺酶基因分型研究[J].中华检验医学杂志,2005,28(10):1010-1014. 被引量：19
8彭红波,陈衍,张铭,葛煦,蔡宏伟,韩晟.用Lucene引擎构建非结构化电子病历检索系统[J].医疗卫生装备,2013,34(7):43-45. 被引量：1
9周海亮.什么时候开始都不晚[J].保健与生活,2014(3):52-52.
10夏旭,方平.WWW网络生物医学信息资源搜索引擎的比较研究[J].医学信息（医学与计算机应用）,2001,14(1):7-8. 被引量：15

中国生物医学工程学报

2008年第5期

浏览历史

内容加载中请稍等...

中文病历文档术语提取和否定检出方法被引量：9

参考文献19

二级参考文献13

共引文献37

同被引文献63

引证文献9

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

中文病历文档术语提取和否定检出方法 被引量：9

参考文献19

二级参考文献13

共引文献37

同被引文献63

引证文献9

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

中文病历文档术语提取和否定检出方法被引量：9