在线医疗文本中的实体识别研究被引量：16

Entity Recognition Research in Online Medical Texts

下载PDF

导出

摘要针对在线医疗文本,设计考虑医疗领域特性的识别特征,并在自建数据集上进行实体识别实验。针对常见的5类疾病:胃炎、肺癌、哮喘、高血压和糖尿病,采用近年来较先进的机器学习模型条件随机场,进行训练和测试,抽取目标实体包括疾病、症状、药品、治疗方法和检查5类。通过采用逐一添加特征的实验方式,验证所提特征的有效性,取得总体上81.26%的准确率和60.18%的召回率,随后对识别特征给出进一步分析。 The authors design recognition features with the consideration of medical field characteristic for the online medical text, and the experiment of the entity recognition is carried out on the self-built data set. Concerned about five common diseases： gastritis, lung cancer, asthma, hypertension and diabetes. In the experiment, an advanced machine learning model Conditional Random Field is used for training and testing. The target entities include five kinds： disease, symptoms, drugs, treatment methods and check. The effectiveness of the proposed features is verified by using the experimental method, and the accuracy of the total 81.26% is obtained and the recall rate is 60.18%. Subsequently, the further analysis is given for the recognition features.

作者苏娅刘杰黄亚楼

机构地区南开大学计算机与控制工程学院(软件学院)

出处《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心 2016年第1期1-9,共9页 Acta Scientiarum Naturalium Universitatis Pekinensis

基金天津市科技支撑项目(13ZCZDGX01098) 天津市自然科学基金(14JCQNJC00600) 中国民航信息技术科研基地开放课题(CAAC-ITRB-201303)资助

关键词实体识别数据挖掘条件随机场医疗信息 named entity recognition data mining conditional random field medical information

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1黄丹.网络医疗对医疗服务理念的挑战[J].中药研究与信息,2005,7(9):31-32. 被引量：4
2Grishman R, Sundheim B. Message Understanding Conference-6: a.brief history // COLING. Copen- hagen, 1996, 96:466-471.
3Doddington G R, Mitchell A, Przybocki M A, et al. The automatic content extraction (ACE) program- tasks, data, and evaluation // LREC. Lisbon, 2004: 837-840.
4胡双,陆涛,胡建华.文本挖掘技术在药物研究中的应用[J].医学信息学杂志,2013,34(8):49-53. 被引量：9
5杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：121
6DiSantostefano J. International classification of diseases 10th revision (ICD-10). The Journal for Nurse Practitioners, 2009, 5(1): 56-57.
7Lindberg D A, Humphreys B L, McCray A T. The unified medical language system. Methods of Infor- mation in Medicine, 1993, 32(4): 281-291.
8McDonald C J, Overhage J M, Tierney W M, et al. The regenstrief medical record system: a quarter century experience. International Journal of Medical Informatics, 1999, 54(3): 225-253.
9Kraus S, Blake C, West S L. Information extraction from medical notes //Medinfo 2007. Brisbane, 2007: 1-2.
10郑强,刘齐军,王正华,朱云平.生物医学命名实体识别的研究与进展[J].计算机应用研究,2010,27(3):811-815. 被引量：25

二级参考文献225

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
2林东,邵军力.医学诊疗领域通用专家系统设计与实现[J].自动化学报,1995,21(3):380-382. 被引量：6
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：150
4Burr Settles. Biomedical named entity recognition using conditional random fields and rich feature sets[C]//Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications. Geneva, Switzerland ; COLING, 2004 : 104 -- 107.
5Hieuxuan. FlexCRFs, flexible conditional random fields [EB/OL]. http,//www, jaist, ae. jp. html.
6中国科学院计算技术研究所.汉语词法分析工具ICT-CLAS[EB/0L].http://www.nlp.org.cn/.
7Zhang Leo Maximum entropy modeling toolkit for python and C+ + [EB/OL]. 2007-07. http:Hhomepages, inf. ed. ac. uk/s0450736/maxent_toolkit, html.
8Chang Chihchung, Lin Chihjen. LIBSVM -- a library for support vector machines[EB/OL], http://www, csie.ntu. edu. tw/-cjlin/libsvm.
9TANABE L, WILBUR W J. A priority model for named entities [ C ]//Proc of Human Language Technology Conference. Morristown : Association for Computational Linguistics, 2006 : 33-40.
10GU Bao-hua. Recognizing nested named entities in GENIA corpus [ C ]//Proc of Human Language Technology Conference. Morristown : Association for Computational Linguistics, 2006 : 112-113.

共引文献210

1席新,李波,王骁勇,胡云苹.面向电子病历的医学术语规范化系统设计及实现[J].中国数字医学,2021,16(12):65-68. 被引量：6
2姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：2
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：2
4肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：24
5邢毅雪,朱永华,高海燕,周金,张克.基于注意力机制的远程监督实体关系抽取[J].上海大学学报（自然科学版）,2021,27(5):983-992. 被引量：5
6昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方.中文症状知识库的建立与分析[J].中文信息学报,2020,34(4):30-37. 被引量：9
7吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：8
8刘龙航,赵铁军.融合知识的中文医疗实体识别模型[J].智能计算机与应用,2021,11(3):94-97.
9叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
10陈阳,赵跃华,程显毅.基于用字共现频率统计的外国译名自动识别[J].计算机工程与设计,2012,33(1):362-366. 被引量：1

同被引文献108

1岳晓菲,薛镭.中医医学知识图谱在家庭医生服务体系中的应用研究[J].医学信息学杂志,2019,40(12):54-57. 被引量：3
2於时才,梁治钢,李海龙.基于免疫遗传算法的移动机器人路径规划[J].微计算机信息,2008,24(2):257-259. 被引量：5
3车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
4孙勤红,朱颖文.正则表达式在计算机类教材知识点提取的应用[J].计算机与现代化,2009(7):110-112. 被引量：4
5肖伟平,何宏.基于遗传算法的数据挖掘方法及应用[J].湖南科技大学学报（自然科学版）,2009,24(3):82-86. 被引量：7
6郑强,刘齐军,王正华,朱云平.生物医学命名实体识别的研究与进展[J].计算机应用研究,2010,27(3):811-815. 被引量：25
7谢铭,吴产乐.用户信息保护下的学习资源知识点自动提取[J].计算机科学,2011,38(3):203-205. 被引量：2
8叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
9翟晓波,何志高,方芳,鲍思蔚,徐婷,文传民.“围手术期抗菌药物监控系统”的临床应用[J].中国药师,2012,15(10):1458-1460. 被引量：3
10王昊奋,张金康,程小军.中文开放链接医疗数据的构建[J].中国数字医学,2013,8(4):5-8. 被引量：8

引证文献16

1王一敏,梁治钢.基于免疫遗传算法的抗菌药物数据挖掘[J].计算机系统应用,2017,26(3):156-161. 被引量：6
2翟菊叶,陈春燕,张钰,陈玉娥,刘玉文.基于CRF与规则相结合的中文电子病历命名实体识别研究[J].包头医学院学报,2017,33(11):124-125. 被引量：12
3周海华,曹春萍.基于BLSTM-CRF的领域知识点实体识别技术[J].软件,2019,40(2):1-5.
4陈德鑫,占袁圆,杨兵,谢亚霓.基于CNN-BiLSTM模型的在线医疗实体抽取研究[J].图书情报工作,2019,63(12):105-113. 被引量：14
5关鹏举,曹春萍.基于BLSTM的临床文本实体关系抽取[J].软件,2019,40(5):159-162. 被引量：2
6曹春萍,关鹏举.基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J].计算机应用研究,2019,36(12):3748-3751. 被引量：15
7张明淘,韩普.医疗实体识别研究进展[J].计算机技术与发展,2020,30(4):57-62. 被引量：2
8郑文婕,张敬谊,李静,佘盼.医疗语义众包标注平台设计和应用研究[J].医学信息学杂志,2020,41(7):49-52. 被引量：2
9廖开际,黄琼影,席运江.在线医疗社区问答文本的知识图谱构建研究[J].情报科学,2021,39(3):51-59. 被引量：15
10翟姗姗,胡畔,潘英增,郑路.融合知识图谱与用户病情画像的在线医疗社区场景化信息推荐研究[J].情报科学,2021,39(5):97-105. 被引量：24

二级引证文献111

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2杨涛,王迪,冯梦晗,黄宗海,段茹茜,卜鹏志,郭富强,温川飙.基于中医四诊、西医检验和生物信息的多类型传感器数据归一化分层处理架构的研究[J].世界科学技术-中医药现代化,2023,25(2):798-805.
3熊回香,黄晓捷,肖兵,王妞妞.在线学术资源中基于时序知识图谱的学者推荐研究[J].情报科学,2022,40(8):3-10.
4高燕,查先进,严亚兰.移动社交媒体智能推荐信息阅读影响机理研究[J].国家图书馆学刊,2022,31(4):58-74. 被引量：3
5卓烨烨,庄旭心,蔡德.基于HIS的机器学习临床决策支持系统在抗菌药物管理中的应用[J].中国数字医学,2021,16(9):84-89. 被引量：4
6刘怀东.谈现代企业职工培训的新思路[J].企业之友,2000(2):28-29.
7程树东,胡鹰.基于BI-LSTM-CRF模型的限定领域知识库问答系统[J].计算机与现代化,2018(7):53-57. 被引量：3
8彭建升.基于群体智能算法的微生物发酵模拟仿真[J].莆田学院学报,2018,25(5):66-69.
9梁治钢,王一敏.深度学习在电子病历抗菌药物使用方法分类中的应用[J].计算机系统应用,2019,28(8):71-77. 被引量：4
10秦娅,申国伟,余红星.基于Hadoop的大规模网络安全实体识别方法[J].智能系统学报,2019,14(5):1017-1025. 被引量：12

1王鹏远,姬东鸿.基于多标签CRF的疾病名称抽取[J].计算机应用研究,2017,34(1):118-122. 被引量：10
2许华,刘茂福,姜丽,顾进广.基于语言规则的病症菌实体抽取[J].武汉大学学报（理学版）,2015,61(2):151-155. 被引量：8
3高云全.一种动态的Web服务组合及其实现[J].科技广场,2008(10):26-29. 被引量：1
4周扬,李青.飞机故障知识的本体建模及语义检索[J].计算机工程与应用,2011,47(16):12-15. 被引量：16
5赵俊峰,谢冰,张路,杨芙清.一种支持领域特性的Web服务组装方法[J].计算机学报,2005,28(4):731-738. 被引量：52
6高云全.一种基于领域本体的语义Web服务动态组合方法[J].软件导刊,2008,7(12):147-149.
7高云全.一种基于语义的Web服务动态组合及其实现[J].计算机技术与发展,2009,19(6):65-68. 被引量：1
8徐晓飞,刘志中,王忠杰,闵寻优,刘睿霖,王海芳.S-ABC——面向服务领域的人工蜂群算法范型[J].计算机学报,2015,38(11):2301-2317. 被引量：11
9彭鑫,赵文耘,肖君.基于本体的构件描述和检索[J].南京大学学报（自然科学版）,2005,41(z1):470-476. 被引量：3
10黄罡,王千祥,曹东刚,梅宏.PKUAS:一种面向领域的构件运行支撑平台[J].电子学报,2002,30(12A):1938-1942. 被引量：43

北京大学学报（自然科学版）

2016年第1期

浏览历史

内容加载中请稍等...

在线医疗文本中的实体识别研究被引量：16

参考文献22

二级参考文献225

共引文献210

同被引文献108

引证文献16

二级引证文献111

相关作者

相关机构

相关主题

浏览历史

在线医疗文本中的实体识别研究 被引量：16

参考文献22

二级参考文献225

共引文献210

同被引文献108

引证文献16

二级引证文献111

相关作者

相关机构

相关主题

浏览历史

在线医疗文本中的实体识别研究被引量：16