基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究被引量：47

Chinese Clinical Named Entity Recognition Based on Stroke ELMo and Multi-Task Learning

下载PDF

导出

摘要近年来,电子病历文本数据不断增长,这为医学研究提供了丰富的知识来源.结合领域需求,采用有效的文本挖掘技术从电子病历文本中自动快速、准确地获取医疗知识,将对医疗健康领域的研究产生极大的推动作用.中文临床电子病历命名实体识别作为中文医学信息抽取的基本任务,已经受到了广泛关注.目前大多数中文电子病历实体识别工作都是在传统通用的文本表示向量基础上,通过特征工程来提升模型在医疗领域上的性能,缺乏适合中文生物医学特定领域的预训练表示向量.此外,目前现存的中文电子病历标注数据十分稀缺,标注电子病历实体需要具备专业的医学背景知识,且耗时耗力.针对这些问题,本文提出了一种基于笔画ELMo和多任务学习的中文电子病历实体识别方法.首先以笔画序列为输入对ELMo表示学习方法进行改进,利用海量无标注的中文生物医学文本学习上下文相关且包含汉字内部结构信息的笔画ELMo向量,然后构建基于多任务学习的神经网络模型来充分利用现存数据提升模型性能.此外,本文还系统地比较了实体识别常用额外特征(包括词向量、词典和部首特征)以及主流神经网络模型(包括CNN、BiLSTM、CNN-CRF和BiLSTM-CRF模型)在中文电子病历实体识别任务上的性能.实验结果表明,在该任务上BiLSTM-CRF模型获得了比其它模型更好的结果,常用额外特征中词典特征最为有效.相比其它现存方法,本文提出的基于笔画ELMo和多任务学习的神经网络模型在CCKS17和CCKS18 CNER数据集上都获得了更好的结果,F值分别为91.75%和90.05%. In recent years,the number of electronic medical record text has grown substantially,which provides a rich source of knowledge for medical research.According to the medical domain demand,effective text mining technology can obtain medical related information from the massive electronic medical records efficiently and accurately,which will greatly promote the research in the medical health field.Chinese Clinical Named Entity Recognition(CNER)is a fundamental task for Chinese medical information extraction,which has received much attention.However,most of the existing Chinese CNER works are based on traditional text representation embeddings(i.e.,context-independent representation for each word)and depend on effective feature engineering to improve the performance of models in the medical field.There is less related work in Chinese biomedical pretrained text embeddings.In addition,the existing Chinese CNER dataset size is small,and medical entity annotation requires medical background knowledge,which is time-consuming and labor-intensive.To address the problems,this paper proposes a Chinese CNER method based on stroke ELMo and multi-task learning.Firstly,a stroke ELMo(Embeddings from Language Models)model is proposed to obtain Chinese pretrained text representation.The ELMo method is improved by taking the stroke sequence as input.It is a context-dependent representation method and can learn rich structure information of the Chinese characters from the large Chinese biomedical text corpus.To learn high quality Chinese biomedical text representations,the massive Chinese medical abstracts were downloaded from the CNKI website.Then these abstracts and the Chinese electronic medical record texts provided by the China Conference on Knowledge Graph and Semantic Computing(CCKS)challenge were used to train the stroke ELMo embeddings.The experimental results show that stroke ELMo embeddings achieve the better performance than the traditional word2 vec embeddings.When the concatenation of the word2 vec and stroke ELMo embeddings as input is fed into the model,the model obtains the best performance.Secondly,we explored the effect of multi-task learning on the Chinese CNER task.The single task model,fully-shared multi-task learning model and shared-private multi-task learning model are compared on the CCKS17 and CCKS18 data sets.The experimental results show that the shared-private multi-task learning model achieves the best F-score.It can utilize the correlation of the tasks to improve the model performance and make full use of the existing datasets.We also tested the performance of the multi-task learning model on the different sizes training data sets.The sharedprivate multi-task learning model trained on only 60% of the training data can achieve better performances than the single task model trained on the complete training data on the CCKS17 and CCKS18 CNER datasets.Moreover,the effects of common NER features(i.e.,word embedding,dictionary and radical features)and neural network models(i.e.,CNN,BiLSTM,CNN-CRF and BiLSTM-CRF models)were investigated for the Chinese CNER task.The experimental results show that the BiLSTM-CRF model outperforms the other models.Among other features,the dictionary feature is most effective.Finally,compared with other existing methods,our neural network model based on stroke ELMo and multi-task learning achieves better performances on the CCKS17 and CCKS18 CNER datasets(the F-scores of 91.75% and 90.05%,respectively).

作者罗凌杨志豪宋雅文李楠林鸿飞 LUO Ling;YANG Zhi-Hao;SONG Ya-Wen;LI Nan;LIN Hong-Fei(School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024)

机构地区大连理工大学计算机科学与技术学院

出处《计算机学报》 EI CSCD 北大核心 2020年第10期1943-1957,共15页 Chinese Journal of Computers

基金十三五国家重点研发计划项目(2016YFC0901900)资助.

关键词笔画ELMo 多任务学习神经网络实体识别中文电子病历 stroke ELMo multi-task learning neural networks named entity recognition Chinese electronic medical records

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘冰洋,伍大勇,刘欣然,程学旗.融合全局词语边界特征的中文命名实体识别方法[J].中文信息学报,2017,31(2):86-91. 被引量：6
2张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：76

二级参考文献3

1赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：50
2陈钰枫,宗成庆,苏克毅.汉英双语命名实体识别与对齐的交互式方法[J].计算机学报,2011,34(9):1688-1696. 被引量：17
3邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(6):196-198. 被引量：33

共引文献78

1步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
2成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
3王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
4刘重来.论卢作孚“乡村现代化”思想[J].西南师范大学学报（人文社会科学版）,2000,26(2):134-139. 被引量：6
5高巍,万廷彬.甜菜碱对商品产蛋鸡生产性能的影响[J].中国禽业导刊,2000,17(6):16-17. 被引量：1
6王路路,艾山.吾买尔,买合木提.买买提,卡哈尔江.阿比的热西提,吐尔根.依布拉音.基于CRF和半监督学习的维吾尔文命名实体识别[J].中文信息学报,2018,32(11):16-26. 被引量：13
7帕丽旦.木合塔尔,吾守尔.斯拉木,买买提阿依甫.基于混合模型的维吾尔文词性标注方法[J].计算机仿真,2019,36(1):268-273. 被引量：6
8孙安,于英香,罗永刚,王祺.序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例[J].图书情报工作,2018,62(11):103-111. 被引量：9
9买买提阿依甫,吾守尔.斯拉木,帕丽旦.木合塔尔,杨文忠.基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J].计算机工程,2018,44(8):230-236. 被引量：23
10赵东玥,杜永萍,石崇德.基于BLSTM的科技文献术语抽取方法[J].情报工程,2018,4(1):67-74. 被引量：9

同被引文献359

1付秀,陈麒麟,李杰,付毅,包国峰.基于智能预问诊的全景多学科会诊平台的设计与应用[J].中国数字医学,2021,16(10):79-82. 被引量：7
2陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
3李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
4蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：60
5秦汉忠,于重重,姜伟杰,赵霞.基于多头注意力和BiLSTM改进DAM模型的中文问答匹配方法[J].中文信息学报,2021,35(11):118-126. 被引量：3
6李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
7任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
8张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：12
9成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
10刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：25

引证文献47

1陈明,刘蓉,熊回香.基于医疗知识图谱的智能问答系统研究[J].情报科学,2023,41(12):118-126. 被引量：1
2王卫红,吕红燕,曹玉辉,霍峥.基于BERT的混合神经网络实体识别方法[J].计算机技术与发展,2021,31(8):100-105. 被引量：1
3余俊康.多任务学习的中文电子病历命名实体识别研究[J].软件导刊,2021,20(11):42-46. 被引量：4
4崔丽平,古丽拉·阿东别克,王智悦.基于有向图模型的旅游领域命名实体识别[J].计算机工程,2022,48(2):306-313. 被引量：5
5江千军,桂前进,王磊,徐瑞翔,王京景,麦立,许水清.命名实体识别技术研究进展综述[J].电力信息与通信技术,2022,20(2):15-24. 被引量：11
6陈启,刘德喜,万常选,刘喜平,鲍力平.增强语义表示的中文金融评价要素抽取[J].小型微型计算机系统,2022,43(2):254-262. 被引量：1
7李攀锋,陈樱珏,钟泠韵,林锋.基于多粒度认知的命名实体识别方法[J].四川大学学报（自然科学版）,2022,59(2):58-64. 被引量：1
8李梦蝶,张平,李功利,姜伟,李科,蔡培强.中文医学命名实体识别算法研究[J].医学信息学杂志,2022,43(3):45-51. 被引量：1
9余传明,林虹君,张贞港.基于多任务深度学习的实体和事件联合抽取模型[J].数据分析与知识发现,2022,6(2):117-128. 被引量：9
10李军怀,陈苗苗,王怀军,崔颖安,张爱华.基于ALBERT-BGRU-CRF的中文命名实体识别方法[J].计算机工程,2022,48(6):89-94. 被引量：12

二级引证文献91

1陈明,刘蓉,熊回香.基于医疗知识图谱的智能问答系统研究[J].情报科学,2023,41(12):118-126. 被引量：1
2朱军,党沛,江忆言,李维炼,谢亚坤.联合大语言模型和知识图谱的轨道交通特色GIS专业课程体系优化[J].测绘通报,2023(S02):23-28.
3孙媛媛,申喜凤,李美婷,南嘉乐,张维宁,高东平.基于BERT的医患对话实体阴阳性自动标注研究[J].中国数字医学,2022,17(3):34-38. 被引量：2
4徐春,李胜楠.融合BERT-WWM和指针网络的旅游知识图谱构建研究[J].计算机工程与应用,2022,58(12):280-288. 被引量：8
5王得强,吴军,关立文.结合知识图谱的行业知识库构建方法研究[J].制造技术与机床,2022(8):74-80. 被引量：4
6杜新宇,吴俊杰.基于改进的长短期记忆网络模型的电商评论关键词提取[J].信息记录材料,2022,23(8):156-158.
7谢雨希,杨江平,孙知建,李逸源,胡欣.雷达装备故障原因知识图谱构建研究[J].现代防御技术,2022,50(5):114-121. 被引量：3
8门鼎,陈亮.基于改进Seq2Seq-Attention模型的文本摘要生成方法[J].电子设计工程,2022,30(23):6-10. 被引量：2
9张汝佳,代璐,郭鹏,王邦.基于分割注意力与边界感知的中文嵌套命名实体识别算法[J].计算机科学,2023,50(1):213-220. 被引量：3
10刘航冶,富铁楠,杨勇.互联网开源文本情报智能分析技术综述[J].情报杂志,2023,42(2):12-16. 被引量：2

1著作权使用声明[J].医学理论与实践,2020,33(15):2547-2547.
2著作权使用声明[J].医学理论与实践,2020,33(13):2071-2071.
3李根.写好想象画面,感受自然之美——《交流平台》读写结合教学设计[J].教育视界,2020(20):10-11.
4程小恩,温川飙.基于病历数据的中医临床能力数字化评价体系研究[J].辽宁中医杂志,2019,46(12):2541-2544. 被引量：3
5李施施,张岭,姬萌霞,周易尔,徐维海,舒静.卵巢储备功能评估指标与维生素D的相关性分析[J].预防医学,2020,32(8):828-831. 被引量：6
6著作权使用声明[J].医学理论与实践,2020,33(17):2821-2821.
7陆怡.泛戏剧化教学:“教育戏剧”融入小学语文叙事性文本教学的新路径[J].教师,2020(21):22-23.
8魏宏.把握教材编排特点提升学生语文素养[J].小学教学参考,2020(28):38-39.
9荣雯雯,汪刚,朱其立.基于人工智能的病历后结构化专病数据库在临床研究中的价值探讨[J].上海交通大学学报（医学版）,2020,40(7):995-1000. 被引量：21
10王强.体验式阅读路线探索[J].小学教学参考,2020(30):8-8.

计算机学报

2020年第10期

浏览历史

内容加载中请稍等...

基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究被引量：47

参考文献2

二级参考文献3

共引文献78

同被引文献359

引证文献47

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究 被引量：47

参考文献2

二级参考文献3

共引文献78

同被引文献359

引证文献47

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究被引量：47