基于RoBERTa-WWM模型的中文电子病历命名实体识别研究

Research on named entity recognition of Chinese electronic medical records

下载PDF

导出

摘要在应对中文电子病历文本分析时,面临着一词多义、识别不完整等挑战。为此,构建了RoBERTa-WWM模型与BiLSTM-CRF模块相结合的深度学习框架。首先,将经过预训练的RoBERTa-WWM语言模型与Transformer层产生的语义特征进行深度融合,以捕获文本的复杂语境信息。接着,将融合后的语义表示输入至BiLSTM以及CRF模块,进一步细化了实体的辨识范围与准确性。最后,在CCKS2019数据集上进行了实证分析,F1值高达82.94%。这一数据有力地证实了RoBERTa-WWM-BiLSTM-CRF模型在中文电子病历命名实体的识别工作上的优越性能。 When dealing with the text analysis of Chinesc electronic medical records,we are faced with the challenges of polysemy and incomplete recognition.Therefore,a deep learning framework combining RoBERTa-WWM model and BiLSTM-CRF module is constructed.First,the pre-trained RoBERTa-WWM language model is dceply integrated with the semantic features generated by the Transformer layer to capture complex contextual information of the text.Then,the fusion semantic representation is input into BiLSTM and CRF modules to further refine the identification range and accuracy of entities.Finally,an cmpirical analysis was carried out on the CCKS2019 datasect,and the value was as high as 82.94%.This data strongly confirms the superior performance of RoBERTa-WWM-BiLSTM-CRF model in the recognition of named entities in Chinese electronic medical records.

作者刘慧敏黄霞熊菲王国庆 LIU Huimin;HUANG Xia;XIONG Fei;WANG Guoqing(Haiyuan College,Kunming Medical University,Kunming 650000,China)

机构地区昆明医科大学海源学院

出处《长江信息通信》 2024年第3期7-9,共3页 Changjiang Information & Communications

基金昆明医科大学海源学院科学研究基金项目《基于自然语言处理技术的中文命名实体识别研究》(项目编号:2022HY014)。

关键词 RoBERTa-WWM模型中文电子病历实体识别 RoBERTa-WWM model Chinese electronic medical records cntity recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1钟志农,刘方驰,吴烨,伍江江.主动学习与自学习的中文命名实体识别[J].国防科技大学学报,2014,36(4):82-88. 被引量：15
2刘慧敏,熊菲,王国庆.基于RoBERTa-BiLSTM-CRF的简历实体识别[J].电脑知识与技术,2023,19(4):14-17. 被引量：2
3张芳丛,秦秋莉,姜勇,庄润涛.基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究[J].数据分析与知识发现,2022,6(2):251-262. 被引量：26
4张芳丛,秦秋莉,姜勇,庄润涛.基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别[J].数据分析与知识发现,2022,6(2):242-250. 被引量：24
5郭瑞,张欢欢.基于RoBERTa和对抗训练的中文医疗命名实体识别[J].华东理工大学学报（自然科学版）,2023,49(1):144-152. 被引量：6

二级参考文献28

1ShahshahaniB,LandgrebeD.Theeffectofunlabeledsamplesinreducingthesmallsamplesizeproblem andmitigatingthehughesphenomenon[J].IEEETransactionsonGeoscienceandRemoteSensing,1994,32(5):1087-1095.
2Chapelle O, SchlkopfB, Zieneds A. Semisupervisedlearning[M].Cambridge:TheMITPress,2006.
3Blum A,MitchellT.Combininglabeledandunlabeleddatawithcotraining[C]//ProceedingsoftheEleventhAnnualConferenceonComputationalLearningTheory.New York,NY:ACM,1998:92-100.
4PiseNN,KulkarniP.Asurveyofsemisupervisedlearningmethods[C]//InternationalConference on ComputationalIntelligenceandSecurity.Washington,DC:IEEEComputerSociety,2008:30-34.
5LiM, ZhouZ H.Improvecomputeraideddiagnosiswithmachinelearningtechniquesusingundiagnosedsamples[J].IEEETransactionsonSystems,ManandCybernetics,2007,37(6):1088-1098.
6ZhangML,ZhouZH.CoTRADE:confidentcoTrainingwithdataediting[J].IEEE TransactionsonSystemsManandCyberneticsPartB(Cybernetics),2007,7(3):753-760.
7BlumA,ChawlaS.Learningfromlabeledandunlabeleddatausinggraphmincuts[C]//Proceedingsofthe18thInternationalConferenceonMachineLearning.SanFrancisco,CA:MorganKaufmannPublishers,2001:19-26.
8ZhuX,GhahramaniZ,LaffertyJ.Semisupervisedlearningusinggaussianfieldsandharmonicfunctions[C]//Proceedingsofthe20thInternationalConferenceonMachineLearning,Washington,DC,2003:912-919.
9EngelsonSP,DaganI.Minimizingmanualannotationcostinsupervisedtrainingfromcorpora[C]//Proceedingsofthe34thAnnual Meeting of the Association for ComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics,1996:319-326.
10NgaiG,YarowskyD.Rulewritingorannotation:Costefficientresourceusageforbasenounphrasechunking[C]//Proceedingsofthe38thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics,2000:117-125.

共引文献63

1姚元杰,龚毅光,刘佳,陈嫚丽.基于多粒度信息融合的气象知识命名实体识别[J].计算机与数字工程,2023,51(1):186-193.
2娄亮,周安民.基于主动学习CRF的信息安全领域命名实体识别研究[J].通信与信息技术,2016(1):61-63. 被引量：1
3邓松,陈辉.面向医学领域实体关联检索的深网数据源选择[J].计算机工程与应用,2016,52(10):135-140. 被引量：1
4王红斌,沈强,线岩团.融合迁移学习的中文命名实体识别[J].小型微型计算机系统,2017,38(2):346-351. 被引量：24
5张帆,王敏.基于深度学习的医疗命名实体识别[J].计算技术与自动化,2017,36(1):123-127. 被引量：20
6加日拉.买买提热衣木.TensorFlow在人名识别中的应用前景[J].数字技术与应用,2017,35(12):215-216. 被引量：1
7汝承森,唐晋韬,谢松县,李莎莎,王挺.关系抽取中远监督错误标注消除[J].国防科技大学学报,2018,40(3):148-152. 被引量：1
8赵尔平,党红恩,刘炜.西藏智慧畜牧业领域大数据融合:概念、架构与技术[J].软件导刊,2018,17(7):1-4. 被引量：7
9谢俊,严馨,王若兰,周枫,李思远.基于Tri-training的柬埔寨语组织机构名识别[J].软件导刊,2018,17(5):127-131. 被引量：1
10张艺品,关贝,吕荫润,王翀,吴炳潮,王永吉,毕诗旋.深度学习基础上的中医实体抽取方法研究[J].医学信息学杂志,2019,40(2):58-63. 被引量：15

1王茹,刘大明,张健.Wear-YOLO:变电站电力人员安全装备检测方法研究[J].计算机工程与应用,2024,60(9):111-121. 被引量：1
2王露露,陈军华.基于Word2Vec和决策树的故障定位技术[J].上海师范大学学报（自然科学版中英文）,2024,53(2):223-227. 被引量：1
3杨维,王飞.认知语言学视角下“hot”的义项分析[J].现代语言学,2024,12(4):307-312.
4刘成山,李普国,汪圳.一种以科研团队为服务对象的科研人员推荐模型[J].数据分析与知识发现,2024,8(3):132-142.
5秦伦明,凌雪海,邹钰洁,龚杨洋,边后琴,王悉.基于SF-Unet的高分辨率耕地遥感影像分割[J].无线电工程,2024,54(5):1197-1204.
6王彤,王春山,李久熙,朱华吉,缪祎晟,吴华瑞.基于RoFormer预训练模型的指针网络农业病害命名实体识别[J].智慧农业（中英文）,2024,6(2):85-94.
7陈浩淼,陈军华.基于深度学习的教材德目教育文本分类方法[J].上海师范大学学报（自然科学版中英文）,2024,53(2):172-180.
8梁松林,林伟,王珏,杨庆.面向后渗透攻击行为的网络恶意流量检测研究[J].计算机工程,2024,50(5):128-138. 被引量：1
9吴海鹏,钱育蓉,冷洪勇.基于双向注意力机制的多模态关系抽取[J].计算机工程,2024,50(4):160-167.

长江信息通信

2024年第3期

浏览历史

内容加载中请稍等...

基于RoBERTa-WWM模型的中文电子病历命名实体识别研究

参考文献5

二级参考文献28

共引文献63

相关作者

相关机构

相关主题

浏览历史