融入词性的医疗命名实体识别研究

Identifying Medical Named Entities with Word Information

导出

摘要【目的】针对命名实体边界识别困难问题,融入词信息以改进在线问诊记录中临床关键特征的识别与推断。【方法】基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置“软”嵌入,利用说话者角色嵌入引入对话文本信息。同时,引入加权多分类交叉熵解决实体类别不均衡问题。【结果】在春雨医生互联网在线问诊记录上开展实证研究,本文模型在命名实体识别任务上的F_(1)值为74.35%,相比直接利用MacBERT模型提高近2个百分点。【局限】未设计专门对中文分词的模型。【结论】与直接利用MacBERT模型建模相比,融入词信息等更多维度特征能有效提升模型的识别能力。 [Objective]This paper utilizes the word information to identify and infer the key clinical features in online consultation records and address the difficulty in recognizing the boundaries of named entities.[Methods]First,we constructed a new model based on MacBERT and conditional random fields.Then,we embedded the word position and part of speech as the dialogue text information by the speaker role embedding.Finally,we used the weighted multi-class cross-entropy to solve the problem of entity category imbalance.[Results]We conducted an empirical study with online consultation records from Chunyu Doctor.The F_(1) value of the proposed model in the named entity recognition task was 74.35%,which was nearly 2% higher than directly using the MacBERT model.[Limitations]We did not design a specific model for Chinese word segmentation.[Conclusions]Our new model with more dimensional features can effectively improve its ability to recognize key features of clinical findings.

作者本妍妍庞雪芹 Ben Yanyan;Pang Xueqin(School of Mathematics and Statistics,Huazhong University of Science and Technology,Wuhan 430074,China;Archives of Wuhan University of Science and Technology,Wuhan 430081,China)

机构地区华中科技大学数学与统计学院武汉科技大学档案馆

出处《数据分析与知识发现》 CSCD 北大核心 2023年第5期123-132,共10页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目(项目编号:11971185)的研究成果之一。

关键词中文命名实体识别在线医疗问诊词信息融入 MacBERT 加权交叉熵 Chinese Named Entity Recognition Online Medical Consultation Word Information Embedding MacBERT Weighted Cross Entropy

分类号 TP393 [自动化与计算机技术—计算机应用技术] G250 [文化科学—图书馆学]

引文网络
相关文献

参考文献13

1张厚昌,刘成良.融合嵌入字词特征的中文医疗命名实体识别[J].中华医学图书情报杂志,2021,30(9):42-49. 被引量：5
2何涛,陈剑,闻英友.基于BERT-CRF模型的电子病历实体识别研究[J].计算机与数字工程,2022,50(3):639-643. 被引量：5
3朱岩,张利,王煜.基于RoBERTa-WWM的中文电子病历命名实体识别[J].计算机与现代化,2021(2):51-55. 被引量：9
4曾青霞,熊旺平,杜建强,聂斌,郭荣传.结合自注意力的BiLSTM-CRF的电子病历命名实体识别[J].计算机应用与软件,2021,38(3):159-162. 被引量：17
5沈宙锋,苏前敏,郭晶磊.基于XLNet-BiLSTM的中文电子病历命名实体识别方法[J].智能计算机与应用,2021,11(8):97-102. 被引量：6
6唐国强,高大启,阮彤,叶琪,王祺.融入语言模型和注意力机制的临床电子病历命名实体识别[J].计算机科学,2020,47(3):211-216. 被引量：25
7罗凌,杨志豪,宋雅文,李楠,林鸿飞.基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究[J].计算机学报,2020,43(10):1943-1957. 被引量：44
8李博,康晓东,张华丽,王亚鸽,陈亚媛,白放.采用Transformer-CRF的中文电子病历命名实体识别[J].计算机工程与应用,2020,56(5):153-159. 被引量：36
9潘璀然,王青华,汤步洲,姜磊,黄勋,王理.基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别[J].第二军医大学学报,2019,40(5):497-506. 被引量：13
10赵鸿阳.基于深度学习的电子病历命名实体识别的研究与实现[J].软件,2019,40(8):208-211. 被引量：7

二级参考文献74

1黄丹.网络医疗对医疗服务理念的挑战[J].中药研究与信息,2005,7(9):31-32. 被引量：4
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：153
3周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
4Grishman R, Sundheim B. Message Understanding Conference-6: a.brief history // COLING. Copen- hagen, 1996, 96:466-471.
5Doddington G R, Mitchell A, Przybocki M A, et al. The automatic content extraction (ACE) program- tasks, data, and evaluation // LREC. Lisbon, 2004: 837-840.
6DiSantostefano J. International classification of diseases 10th revision (ICD-10). The Journal for Nurse Practitioners, 2009, 5(1): 56-57.
7Lindberg D A, Humphreys B L, McCray A T. The unified medical language system. Methods of Infor- mation in Medicine, 1993, 32(4): 281-291.
8McDonald C J, Overhage J M, Tierney W M, et al. The regenstrief medical record system: a quarter century experience. International Journal of Medical Informatics, 1999, 54(3): 225-253.
9Kraus S, Blake C, West S L. Information extraction from medical notes //Medinfo 2007. Brisbane, 2007: 1-2.
10Sondhi P, Gupta M, Zhai C X, et al. Shallow information extraction from medical forum data // Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics. Beijing, 2010:1158-1166.

共引文献183

1赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
2贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
3陈明,刘蓉,熊回香.基于医疗知识图谱的智能问答系统研究[J].情报科学,2023,41(12):118-126.
4刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：9
5张硕,赵卓峰,刘晨.基于图卷积网络的产业领域科技服务资源命名实体识别[J].计算机与数字工程,2023,51(1):20-27.
6刘怀东.谈现代企业职工培训的新思路[J].企业之友,2000(2):28-29.
7王一敏,梁治钢.基于免疫遗传算法的抗菌药物数据挖掘[J].计算机系统应用,2017,26(3):156-161. 被引量：6
8翟菊叶,陈春燕,张钰,陈玉娥,刘玉文.基于CRF与规则相结合的中文电子病历命名实体识别研究[J].包头医学院学报,2017,33(11):124-125. 被引量：12
9王学锋,杨若鹏,朱巍.基于深度学习的军事命名实体识别方法[J].装甲兵工程学院学报,2018,32(4):94-98. 被引量：22
10高甦,金佩,张德政.基于深度学习的中医典籍命名实体识别研究[J].情报工程,2019,5(1):113-123. 被引量：27

1祁鹏年,廖雨伦,覃飙.基于深度学习的中文命名实体识别研究综述[J].小型微型计算机系统,2023,44(9):1857-1868. 被引量：4
2范文东,金薇.古建筑BIM模型创建技术初探[J].佛山陶瓷,2023,33(8):80-82.
3胡叮叮,张琛,王之原.基于预训练模型的命名实体识别研究[J].现代信息科技,2023,7(15):78-82.
4雒萌,张圣微,霍雨,刘志强,韩永婷.融合全卷积网络与条件随机场的高光谱语义分割[J].遥感信息,2023,38(3):69-76. 被引量：1
5陈娜,孙艳秋,燕燕.结合注意力机制的BERT-BiGRU-CRF中文电子病历命名实体识别[J].小型微型计算机系统,2023,44(8):1680-1685. 被引量：5
6冯川,徐晔,钦斌,李伟,范晓,蔡金华,何玲.儿科影像学移动互联网远程教学的现状和对策[J].中华医学教育探索杂志,2023,22(7):979-982.
7袁里驰.基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法[J].小型微型计算机系统,2023,44(9):1906-1911. 被引量：2
8袁金兰.小学语文朗读教学策略研究[J].江西教育,2023(26):60-61.
9杨雪梅.认识天意与感通天命——评林安梧与谢文郁的《中庸》解读思路[J].黄冈师范学院学报,2023,43(4):63-69.
10吴宛蔓,贾旭,谷浩,陈美龄,龚垚,沈柏宇,李朗.慢性高眼压青光眼食蟹猴巩膜及筛板生物力学特性的变化[J].眼科新进展,2023,43(9):686-691.

数据分析与知识发现

2023年第5期

浏览历史

内容加载中请稍等...

融入词性的医疗命名实体识别研究

参考文献13

二级参考文献74

共引文献183

相关作者

相关机构

相关主题

浏览历史