基于两阶段迁移学习的多标签分类模型研究被引量：5

A Multi-Label Classification Model with Two-Stage Transfer Learning

导出

摘要【目的】构建一个基于两阶段迁移学习的多标签分类模型,以解决现有模型中多标签数据采样困难与跨领域迁移学习共性特征较少的问题。【方法】提出"通用领域-目标领域单标签数据-多标签数据"的两阶段迁移学习模型,首先在通用领域上训练,之后迁移到使用上采样方法均衡后的目标领域单标签数据进行微调,最后迁移到多标签数据,实现多标签分类。【结果】以医学文献图像标注为例,实证结果表明:所提模型对于图像多标签分类和文本多标签分类任务均有较好效果,F1值在一阶段迁移学习模型的基础上提升超过50%。【局限】如何根据不同任务优选基础模型和采样方法还有待研究。【结论】本研究可供存在数据集受限的领域大数据标注、检索与利用等研究借鉴。 [Objective]This paper proposes a multi-label classification model,aiming to improve data sampling and add common characteristics of the existing models.[Methods]We constructed a two-stage migration learning model of"common domain-single tag data in the target domain-multiple tag data".Then,we trained this model in the general and the target fields,as well as fine-tuned it with the single label data balanced with the oversampling method.Finally,we migrated the model to multi-label data and generated multi-label classification.[Results]We examined the new model with image annotations from medical literature.On multi-label classification tasks for images and texts,the F1 score was improved by more than 50%compared to the one-stage transfer learning model.[Limitations]More research is needed to choose better basic model and sampling method for different tasks.[Conclusions]This proposed method coud be used in annotation,retrieval and utilization of big data sets with constraints.

作者陆泉何超陈静田敏刘婷 Lu Quan;He Chao;Chen Jing;Tian Min;Liu Ting(Center for Studies of Information Resources,Wuhan University,Wuhan 430072,China;Big Data Research Institute,Wuhan University,Wuhan 430072,China;School of Information Management,Central China Normal University,Wuhan 430079,China)

机构地区武汉大学信息资源研究中心武汉大学大数据研究院华中师范大学信息管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第7期91-100,共10页 Data Analysis and Knowledge Discovery

基金国家自然科学基金创新研究群体项目(项目编号:71921002) 武汉大学国家保密学院2020年度建设项目的研究成果之一。

关键词多标签分类迁移学习数据均衡化 BERT模型 ResNet模型 Multi-Label Classification Transfer Learning Data Equalization BERT Model ResNet Model

分类号 G203 [文化科学—传播学]

引文网络
相关文献

参考文献8

1庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：466
2赵清华,张艺豪,马建芬,段倩倩.改进SMOTE的非平衡数据集分类算法研究[J].计算机工程与应用,2018,54(18):168-173. 被引量：27
3崔巍,贾晓琳,樊帅帅,朱晓燕.一种新的不均衡关联分类算法[J].计算机科学,2020,47(S01):488-493. 被引量：7
4程磊,吴晓富,张索非.数据集类别不平衡性对迁移学习的影响分析[J].信号处理,2020,36(1):110-117. 被引量：3
5于玉海,林鸿飞,孟佳娜,郭海,赵哲焕.跨模态多标签生物医学图像分类建模识别[J].中国图象图形学报,2018,23(6):917-927. 被引量：12
6李思豪,陈福才,黄瑞阳.一种多标签随机均衡采样算法[J].计算机应用研究,2017,34(10):2929-2932. 被引量：1
7陈健美,宋顺林,朱玉全,宋余庆,陈耿,程鹏,桂长青.一种基于贝叶斯和神经网络的医学图像组合分类方法[J].计算机科学,2008,35(3):244-246. 被引量：7
8孙君顶,李琳.基于BP神经网络的医学图像分类[J].计算机系统应用,2012,21(3):160-162. 被引量：12

二级参考文献102

1黄雪梅,唐治德,赵一凡,舒志强.BP网络研究及其在肺癌诊断系统中的应用[J].重庆大学学报（自然科学版）,2005,28(1):42-44. 被引量：6
2朱玉全,宋余庆,杨鹤标,陈健美.基于频繁模式树的关联分类规则挖掘算法[J].江苏大学学报（自然科学版）,2006,27(3):262-265. 被引量：2
3宋余庆,谢从华,朱玉全,李存华,陈健美,王立军.基于近似密度函数的医学图像聚类分析研究[J].计算机研究与发展,2006,43(11):1947-1952. 被引量：16
4吴洪兴,彭宇,彭喜元.适用于不平衡样本数据处理的支持向量机方法[J].电子学报,2006,34(B12):2395-2398. 被引量：17
5杨治明,王晓蓉,彭军,陈应祖.BP人工神经网络在图像分割中的应用[J].计算机科学,2007,34(3):234-236. 被引量：46
6Merouani H, McCall J, McKenzie I. Classification of GRF texture in Mammograms through discriminant Analysis 7th International Symposium on Signal Processing and Its Applications, 2003, 673-676.
7Heikkila M, Pietilaiinen M, Schmid C. Description of interest regions with local binary patterns. Pattern Recognition, 2009, 42(3):425-436.
8Antonie M L, Zaiane O R, Coman A. Application of data mining techniques for medical image classification [C]. In: Proc. of Second Int'l Workshop on Multimedia Data Mining in Conjunction with Seventh ACM SIGKDD, San Francisco, USA, 2001.94-101
9Zhang X P, Desai M D. Wavelet Based Automatic Thresholding for Image Segmentation [C]. In: Proc. of the ICIP'97 conference, Santa Barbara, CA, 1997. 26-29
10Brazokovic D, Neskovic M. Mammogram Screening Using Multiresolution based Image Segmentation [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2001,7 (6) : 1437-1460

共引文献526

1康文杰,田苗,林岚,孙珅,吴水才.深度卷积生成对抗网络对神经影像通用数据特征的学习[J].智慧健康,2020(31):1-4. 被引量：2
2张政,严哲,顾汉明.基于残差网络与迁移学习的断层自动识别[J].石油地球物理勘探,2020(5):950-956. 被引量：23
3陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
4吴锐帆,代海洋,杨坦,江颖,蔡志杰.直肠癌淋巴结转移的智能诊断研究[J].数学建模及其应用,2019,8(4):30-37. 被引量：2
5刘世晶,刘阳春,钱程,郑浩君,周捷,张成林.基于CycleGAN和注意力增强迁移学习的小样本鱼类识别[J].农业机械学报,2023,54(S01):296-302. 被引量：3
6张璐,黄琳,李备备,陈鑫,段青玲.基于多尺度融合与无锚点YOLO v3的鱼群计数方法[J].农业机械学报,2021,52(S01):237-244. 被引量：16
7张红洋,田瑞盟.基于SOLO分类理论的科学思维学业质量评价[J].湖南中学物理,2021(2):1-4. 被引量：1
8林峰,郭鹏,刘旭斌.基于叶片表面污垢预处理与CNN的风电机组叶片表面损伤识别[J].动力工程学报,2020(12):975-981. 被引量：5
9颜宏文,陈金鑫.基于改进YOLOv3的绝缘子串定位与状态识别方法[J].高电压技术,2020,46(2):423-432. 被引量：76
10何卫东,申佳红.基于SLE学习评价系统的深度学习初探[J].教育科学论坛,2020(22):75-77.

同被引文献54

1王嫄,徐涛,王世龙,周宇博,史艳翠.层级标签语义引导的极限多标签文本分类策略[J].中文信息学报,2021,35(10):110-118. 被引量：1
2杨帆,叶潇,曹存根,邵志清.基于场合和角色的情绪知识获取与分析[J].计算机工程,2006,32(15):197-199. 被引量：3
3赵悦阳,杨华.向SCI源期刊投稿及其注意事项[J].医学信息学杂志,2008,29(5):78-80. 被引量：7
4杨华.科学引文索引收录麻醉学期刊分析[J].医学信息学杂志,2009,30(8):54-57. 被引量：4
5王昊,叶鹏,邓三鸿.机器学习在中文期刊论文自动分类研究中的应用[J].现代图书情报技术,2014(3):80-87. 被引量：30
6邹聪.SCI收录的病理学期刊的文献计量分析及投稿选刊策略[J].科技情报开发与经济,2014,24(24):116-120. 被引量：3
7姚海燕,田杰,罗志宏.SCI-E收录皮肤病学期刊计量分析及选刊投稿建议[J].重庆医学,2015,44(16):2239-2241. 被引量：3
8刘兴帮,陆伟,孟睿.基于多标签分类的引文全局功能识别研究[J].数字图书馆论坛,2016(3):2-9. 被引量：4
9贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：70
10王晓瑜.基于SCI-E数据库收录风湿免疫学期刊的计量分析及论文选刊投稿策略研究[J].科技与出版,2016(9):128-131. 被引量：3

引证文献5

1吴德平,时翔,王晓东.基于BERT模型的安全生产事故多标签文本分类[J].武汉工程大学学报,2021,43(5):586-590. 被引量：6
2屈刚,肖林朋,张亮.面向电网调控微场景智能搜索的调控本体标签体系构建[J].上海交通大学学报,2021,55(S02):92-97. 被引量：2
3李琳娜,刘志辉,陆泉.2021年第六届知识服务与情报工程学术交流会议纪要[J].图书情报知识,2022,39(2):153-160.
4张思阳,魏苏波,孙争艳,张顺香,朱广丽,吴厚月.基于多标签Seq2Seq模型的情绪-原因对提取模型[J].数据分析与知识发现,2023,7(2):86-96.
5江天明,郑国杰,王晴,曹高辉.面向投稿选刊的学术论文多标签分类研究[J].现代情报,2024,44(1):48-56.

二级引证文献8

1赵法森,刘飞翔,李泽荃,李靖.基于BiLSTM+Attention模型的煤矿事故隐患自动分类研究[J].煤炭科学技术,2022,50(S02):210-217. 被引量：1
2李征,林中湘,闫占胜.建筑施工安全生产事故隐患的排查与治理[J].工程建设与设计,2022(9):249-251. 被引量：1
3夏盛海,金宇,杨攀,黄宇.基于大数据分析技术的电网智能调控分析方法[J].电力大数据,2022,25(3):51-58. 被引量：6
4王仁超,张毅伟,毛三军.水电工程施工安全隐患文本智能分类与知识挖掘[J].水力发电学报,2022,41(11):96-106. 被引量：14
5秦建翔,杨波.基于深度学习的电网智能调控系统优化设计[J].集成电路应用,2022,39(10):98-99. 被引量：3
6昌磊,王依伦,陈艳平.基于Bert模型的文本多分类应用研究[J].电脑知识与技术,2023,19(4):40-41.
7支港,钟学燕,王欣,何山,石佳.基于Transformer的序列生成多标签文本分类[J].山西大学学报（自然科学版）,2023,46(1):10-19. 被引量：2
8沈海伦.NLP和知识图谱技术在钢铁电商用户分类场景的应用[J].宝钢技术,2023(5):56-60. 被引量：1

1肖惠杰.高校图书馆培育职业农民信息素养探讨[J].农村经济与科技,2021,32(7):308-310.
2王子蘅,王振杰,聂志喜,张远帆.声速剖面EOF重构的实测数据采样深度研究[J].海洋科学,2021,45(6):126-134. 被引量：2
3陈启丽,黄冠和,王元卓,张琨,杜则尧.一种融合注意力机制的自适应实体识别方法[J].中文信息学报,2021,35(6):55-62.
4曲新亮,李达,杜洋.新冠疫情下输液泵远程校准系统的研制[J].中国医疗设备,2021,36(8):110-114. 被引量：2
5佟欣,邹自明,白曦,钟佳,胡泽骏,李斌.喉区极光的机器识别[J].空间科学学报,2021,41(4):654-666. 被引量：1
6杨静波,张斌弛,郝超.工程教育认证视角下“信息检索”课程初探[J].中国多媒体与网络教学学报（电子版）,2020(28):237-239.
7王莹玮,张超.基于近红外的氧化铝灼减在线监测技术研究[J].铝镁通讯,2021(2):11-13.
8李强,高懋芳,方莹.农业大数据信息平台构建方法初探[J].农业大数据学报,2021,3(2):24-30. 被引量：7

数据分析与知识发现

2021年第7期

浏览历史

内容加载中请稍等...

基于两阶段迁移学习的多标签分类模型研究被引量：5

参考文献8

二级参考文献102

共引文献526

同被引文献54

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于两阶段迁移学习的多标签分类模型研究 被引量：5

参考文献8

二级参考文献102

共引文献526

同被引文献54

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于两阶段迁移学习的多标签分类模型研究被引量：5