一种全面的少标签样本情形下的知识蒸馏方法

Data Analysis and Knowledge Discovery Knowledge Distillation with Few Labeled Samples

导出

摘要【目的】针对在自然语言处理中有标签样本稀缺和高性能的大规模参数量模型训练成本高的问题,本文在有标签样本不足情况下,通过知识蒸馏方法,提升在高性能大参数量模型指导下的小参数量模型性能。【方法】通过噪声提纯方法,从无标签数据中获取有价值的数据并赋予其伪标签,增加有标签样本数量;并在传统蒸馏模型基础上增加知识回顾机制和助教模型,实现从大参数量模型到小参数量模型的全面的知识迁移。【结果】在IMDB、AG_NEWS、Yahoo!Answers数据集的文本分类和情感分析任务上,使用原数据集规模的5%作为有标签数据,准确率表现与使用全部数据训练的传统蒸馏模型分别仅相差1.45%、2.75%、7.28%。【局限】仅针对自然语言处理中的文本分类以及情感分析任务进行实验研究,后续可进一步扩大任务覆盖面。【结论】本文所提方法在少量有标签样本的情形下,实现了较好的蒸馏效果,使得小参数量模型的性能得到显著提升。 [Objective]This paper uses the knowledge distillation method to improve the performance of a smallparameter model guided by the high-performance large-parameter model with insufficient labeled samples.It tries to address the issue of sample scarcity and reduce the cost of large-parameter models with high performance in natural language processing.[Methods]First,we used noise purification to obtain valuable data from an unlabeled corpus.Then,we added pseudo labels and increased the number of labeled samples.Meanwhile,we added the knowledge review mechanism and teaching assistant model to the traditional distillation model to realize comprehensive knowledge transfer from the large-parameter model to the small-parameter model.[Results]We conducted text classification and sentiment analysis tasks with the proposed model on IMDB,AG_NEWS,and Yahoo!Answers datasets.With only 5% of the original data labeled,the new model’s accuracy rate was only 1.45%,2.75%,and 7.28% less than the traditional distillation model trained with original data.[Limitations]We only examined the new model with text classification and sentiment analysis tasks in natural language processing,which need to be expanded in the future.[Conclusions]The proposed method could achieve a better distillation effect and improve the performance of the small-parameter model.

作者刘彤任欣儒尹金辉倪维健 Liu Tong;Ren Xinru;Yin Jinhui;Ni Weijian(College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China)

机构地区山东科技大学计算机科学与工程学院

出处《数据分析与知识发现》 EI CSCD 北大核心 2024年第1期104-113,共10页 Data Analysis and Knowledge Discovery

基金山东省自然科学基金项目(项目编号:ZR2022MF319) 山东科技大学青年教师教学拔尖人才培养项目(项目编号:BJ20211110)和山东科技大学专业学位研究生教学案例库建设项目的研究成果之一。

关键词知识蒸馏半监督学习少标签样本文本分类 Knowledge Distillation Semi-Supervised Learning Few Labeled Samples Text Classification

分类号 G250 [文化科学—图书馆学] TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘彤,刘琛,倪维健.多层次数据增强的半监督中文情感分析方法[J].数据分析与知识发现,2021,5(5):51-58. 被引量：8

共引文献7

1杨秀璋,武帅,张苗,李娜,于小民,范郁锋.基于TextCNN和Attention的微博舆情事件情感分析[J].信息技术与信息化,2021(7):41-46. 被引量：13
2刘赛红,黄馨锋,余意.新型农业经营主体生产性消费金融风险识别——基于文本挖掘及问卷调查研究[J].系统工程,2022,40(1):121-132.
3刘兴丽,范俊杰,马海群.面向小样本命名实体识别的数据增强算法改进策略研究[J].数据分析与知识发现,2022,6(10):128-141. 被引量：3
4夏占杰,张贝克,高东.基于数据增强的HSE检查纪要命名实体识别[J].中国安全科学学报,2022,32(12):53-62. 被引量：1
5周红照.形式语义知识驱动的中文伪情感句智能识别模型[J].外国语,2023,46(3):13-20.
6李牧南,王良,赖华鹏.基于深度学习的我国科技政策属性识别[J].科研管理,2024,45(2):1-11.
7江亿平,张婷,夏争鸣,李玉花,张兆同.融合边缘采样和Tri-training的用户评论情感分析方法[J].数据分析与知识发现,2024,8(5):102-112.

1邓彪,鄢治国,芦涛,谭强俊,朱彤.自动化、信息化技术在白酒蒸馏环节的应用现状[J].酿酒科技,2023(4):53-57.
2叶发茂,王孟瑶,吴坤霖,张任高,孟祥龙.一种基于Transformer的场景分类方法[J].测绘科学,2023,48(10):98-106.
3叶芃,张茁,吴赟.中国电影国际传播报告:基于IMDb在线评论数据的实证分析[J].电影文学,2024(2):12-19.
4YANG SHUANGSHUANG.Combining Medical Care with Elderly Care[J].China Today,2024,73(3):28-30.
5做题家的故事[J].看世界,2024(3):90-91.
6阿诺·施瓦辛格——风靡世界的动作片巨星[J].网上出版,1997(2):41-43.
7杨健豪,曾碧卿,邓会敏,裴枫华,姚博文.基于多任务和自注意力机制的文本微情感分析研究[J].计算机与数字工程,2023,51(12):2863-2866.
8章涛.基于三维重建的视景仿真系统设计与实现[J].信息与电脑,2023,35(23):103-105.
9邢汉,熊光亚,刘林兴,霍瑞.一种分布式PLC边缘计算系统及数据通信方法[J].水电与抽水蓄能,2024,10(1):78-83.
10林珍珍.“物质的分离与提纯”项目式教学设计与实践——以“泔水的回收利用”为例[J].中学教学参考,2024(2):73-77.

数据分析与知识发现

2024年第1期

浏览历史

内容加载中请稍等...

一种全面的少标签样本情形下的知识蒸馏方法

参考文献1

共引文献7

相关作者

相关机构

相关主题

浏览历史