基于多任务和迁移学习的中文医学文献实体识别研究被引量：2

Recognizing Chinese Medical Literature Entities Based on Multi-Task and Transfer Learning

导出

摘要【目的】利用迁移学习和多任务学习解决中文医学文献实体识别冷启动和边界定位难的问题,进一步提高识别准确性。【方法】提出一种基于迁移学习和多任务学习的中文医学文献实体识别方法,构建混合深度学习BERT-BiLSTM-IDCNN-CRF的医学文献实体识别模型,通过实例迁移、模型迁移和特征迁移丰富医学语义特征,利用多任务学习构建粗粒度三分类任务以辅助实体识别任务有效利用实体边界信息,最后引入自注意力机制和Highway网络捕获全局重要信息并优化深层网络训练,提出TLMT-BBIC-HS模型。【结果】TLMT-BBIC-HS模型在中文糖尿病医学文献数据集上F1值达92.98%,较基准模型BERT-BiLSTM-CRF和BERT-IDCNN-CRF分别提高15.99个百分点和16.44个百分点。【局限】未验证模型的领域适应性。【结论】TLMT-BBIC-HS模型可实现医学知识的迁移共享,更适用于中文医学文献实体识别任务,可为医疗健康信息抽取、知识图谱和问答系统构建提供有效支持。 [Objective]This paper uses transfer learning and multi-task learning to solve the problems of cold start and boundary in Chinese medical literature entity recognition,and further improve the recognition accuracy.[Methods]Firstly,we constructed a hybrid deep learning BERT-BiLSTM-IDCNN-CRF medical literature entity recognition model.Secondly,based on transfer learning,the medical semantic features were enriched through instance,model and feature transfer.Thirdly,we constructed a coarse-grained three-classification task through multi-task learning to assist the main task in utilizing the entity boundary information effectively.Finally,we introduced the self-attention mechanism and highway network to capture global information,optimize deep network training and establish the TLMT-BBIC-HS model.[Results]The model had an F1 value of 92.98%on the Chinese diabetes medical literature dataset,which is 15.99%and 16.44%higher than the benchmark models BERT-BiLSTM-CRF and BERT-IDCNN-CRF.[Limitations]The domain suitability of this model needs to be verified.[Conclusions]The TLMT-BBIC-HS model can transfer and share medical knowledge,which is more suitable for Chinese medical Literature entity recognition.It could effectively extract medical information and construct knowledge graphs and question answering systems.

作者韩普顾亮叶东宇陈文祺 Han Pu;Gu Liang;Ye Dongyu;Chen Wenqi(School of Management,Nanjing University of Posts&Telecommunications,Nanjing 210003,China;Jiangsu Provincial Key Laboratory of Data Engineering and Knowledge Service,Nanjing 210023,China)

机构地区南京邮电大学管理学院江苏省数据工程与知识服务重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第9期136-145,共10页 Data Analysis and Knowledge Discovery

基金国家社会科学基金项目(项目编号:22BTQ096)的研究成果之一。

关键词医学文献实体识别多任务学习迁移学习注意力机制 Highway网络 Medical Literature Entity Extraction Multi-Task Learning Transfer Learning Attention Mechanism Highway Network

分类号 G350 [文化科学—情报学] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1赵旸,张智雄,刘欢,丁良萍.基于BERT模型的中文医学文献分类研究[J].数据分析与知识发现,2020,4(8):41-49. 被引量：29
2李跃艳,王昊,邓三鸿,陈艳.面向事件本体的医学文本语义关联化研究[J].情报学报,2022,41(5):497-511. 被引量：5
3吕江海,杜军平,周南,薛哲.基于膨胀卷积迭代与注意力机制的实体名识别方法[J].计算机工程,2021,47(1):58-65. 被引量：4
4熊欣,王昊,邓三鸿.面向方志知识图谱的术语抽取模型迁移学习研究[J].情报理论与实践,2021,44(4):176-184. 被引量：10
5韩普,张展鹏,张伟.基于多任务学习和多态语义特征的中文疾病名称归一化研究[J].情报学报,2021,40(11):1234-1244. 被引量：5
6王东波,刘畅,朱子赫,刘江峰,胡昊天,沈思,李斌.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(6):30-43. 被引量：49
7何春辉,王梦贤,何小波.基于双层Bi-LSTM-CRF模型的糖尿病领域命名实体识别[J].邵阳学院学报（自然科学版）,2020,17(1):21-26. 被引量：6

二级参考文献73

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2王寅.事件域认知模型及其解释力[J].现代外语,2005,28(1):17-26. 被引量：148
3陈宁昱,周雅倩,黄萱菁,吴立德.利用未标注语料改进实体名识别性能[J].中文信息学报,2005,19(2):7-11. 被引量：3
4陈康,武港山.基于Ontology的信息检索技术研究[J].中文信息学报,2005,19(2):51-57. 被引量：29
5王浩畅,赵铁军.基于SVM的生物医学命名实体的识别[J].哈尔滨工程大学学报,2006,27(B07):570-574. 被引量：18
6白小明,邱桃荣.基于SVM和KNN算法的科技文献自动分类研究[J].微计算机信息,2006(12X):275-276. 被引量：10
7张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：83
8汤庸,林鹭贤,罗烨敏,潘炎.基于自动问答系统的信息检索技术研究进展[J].计算机应用,2008,28(11):2745-2748. 被引量：10
9岑志坚.地方志文献的特征、价值及开发[J].科技情报开发与经济,2009,19(4):87-89. 被引量：9
10刘宗田,黄美丽,周文,仲兆满,付剑锋,单建芳,智慧来.面向事件的本体研究[J].计算机科学,2009,36(11):189-192. 被引量：100

共引文献97

1屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：6
2化柏林,陈丹蕾,汪大锟.数据中台在科技情报中的应用[J].情报学进展,2022(1):265-314.
3黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
4张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
5李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
6赵婉婷,黄浩宸,秦新祚,郭昫,宋珏娴.中西医结合卒中知识图谱的构建与应用的研究进展[J].北京医学,2023,45(2):143-146. 被引量：1
7张智雄,刘欢,于改红.构建基于科技文献知识的人工智能引擎[J].农业图书情报学报,2021,33(1):16-29. 被引量：30
8刘爽,谭楠楠,杨辉.辽代历史文化资源知识图谱构建研究[J].大连民族大学学报,2021,23(1):73-80. 被引量：2
9施国良,陈宇奇.文本增强与预训练语言模型在网络问政留言分类中的集成对比研究[J].图书情报工作,2021,65(13):96-107. 被引量：10
10何春辉,郭博譞.基于知识图谱和语义相似度的岗位匹配与排序方法[J].湖南城市学院学报（自然科学版）,2021,30(5):59-63. 被引量：2

同被引文献45

1叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：11
2成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,18(1):20-26. 被引量：37
3李湘东,徐朋,黄莉,沈祥兴.基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J].图书情报知识,2010,27(4):71-76. 被引量：7
4王昊,严明,苏新宁.基于机器学习的中文书目自动分类研究[J].中国图书馆学报,2010,36(6):28-39. 被引量：37
5周丽红,刘勘.基于关联规则的科技文献分类研究[J].图书情报工作,2012,56(4):12-16. 被引量：9
6杨敏,谷俊.基于SVM的中文书目自动分类及应用研究[J].图书情报工作,2012,56(9):114-119. 被引量：17
7王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：9
8苏燕,徐萍,孔亮亮,王玥,于建荣.基于MeSH的生物医学分类主题词表重构探索——以干细胞研究文献为例[J].图书馆杂志,2015,34(3):47-52. 被引量：4
9邓三鸿,傅余洋子,王昊.基于LSTM模型的中文图书多标签分类研究[J].数据分析与知识发现,2017,1(7):52-60. 被引量：27
10李湘东,阮涛.内容相近类目实现自动分类时相关分类技术的比较研究——以《中图法》E271和E712.51为例[J].图书馆杂志,2018,37(6):11-21. 被引量：5

引证文献2

1陈帅朴,钱宇星,钱志强,刘政昊,张志剑.多重特征关联和图注意力网络融合的文献分类方法研究——以中文医学文献为例[J].情报学报,2024,43(4):470-490.
2盛萱妍,邵清.ABS-HDL:基于BIASRU的中文医学命名实体识别模型[J].建模与仿真,2024,13(4):4075-4089.

1赵旸,张智雄,刘欢.基于层次分类法的中文医学文献分类研究[J].图书馆学研究,2021(21):49-55. 被引量：8
2范智渊,何璇,梁品,吕晶,康雁.中文医学文献的实体关系提取研究及在糖尿病医学文献中的应用[J].生物医学工程学杂志,2021,38(3):563-573. 被引量：6
3闫云飞,孙鹏,张杰勇,马钰棠,赵亮.基于领域BERT模型的服务文本分类方法[J].空军工程大学学报,2023,24(1):103-111. 被引量：2
4罗利.计算机辅助翻译软件在医学文献英译中的可行性研究[J].小说月刊（下半月）,2020(8):0189-0191.
5熊亮,秦小林,刘欣.基于非局域注意力和多任务学习的胸部X线片肺实质分割方法[J].生物医学工程学杂志,2023,40(5):912-919.
6吴福培,谢晓扬,黄耿楠,吴涛,李昇平.基于Anchors设计和模型迁移的钢轨内部伤损检测方法[J].铁道学报,2023,45(10):112-119. 被引量：1
7李莉,赵鑫,石可欣,苏仁嘉,任振康.结合特征对齐与实例迁移的跨项目缺陷预测[J].计算机应用研究,2023,40(10):3091-3099.
8王柳迪,马伟锋,孙晓勇,王雨晨,毛思佳.基于双输入和BiLSTM-MHSA的评论文本方面情感分类方法[J].浙江科技学院学报,2023,35(5):412-420.
9张会云,黄鹤鸣.面向网络舆情分析的多任务学习策略时间卷积网络[J].计算机工程,2023,49(10):89-96. 被引量：1
10梁冬,张程,史骁,谭文婷,吕存驰,赵晓芳.基于对比学习增强句子语义的事件检测方法[J].高技术通讯,2023,33(7):669-682.

数据分析与知识发现

2023年第9期

浏览历史

内容加载中请稍等...

基于多任务和迁移学习的中文医学文献实体识别研究被引量：2

参考文献7

二级参考文献73

共引文献97

同被引文献45

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于多任务和迁移学习的中文医学文献实体识别研究 被引量：2

参考文献7

二级参考文献73

共引文献97

同被引文献45

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于多任务和迁移学习的中文医学文献实体识别研究被引量：2