面向自然语言理解的多教师BERT模型蒸馏研究

Multi-teacher distillation BERT model in NLU tasks

下载PDF

导出

摘要知识蒸馏是一种常用于解决BERT等深度预训练模型规模大、推断慢等问题的模型压缩方案。采用“多教师蒸馏”的方法,可以进一步提高学生模型的表现,而传统的对教师模型中间层采用的“一对一”强制指定的策略会导致大部分的中间特征被舍弃。提出了一种“单层对多层”的映射方式,解决了知识蒸馏时中间层无法对齐的问题,帮助学生模型掌握教师模型中间层中的语法、指代等知识。在GLUE中的若干数据集的实验表明,学生模型在保留了教师模型平均推断准确率的93.9%的同时,只占用了教师模型平均参数规模的41.5%。 Knowledge distillation is a model compression scheme commonly used to solve the problems of large scale and slow inference of BERT constant depth pre-training model.The method of"multi-teacher distillation"can further improve the performance of the student model,while the traditional"one-to-one"mapping method mandatory assignment strategy for the middle layer of the teacher model will lead to the abandonment of most of the middle features.The"one-to-many"mapping method is proposed to solve the problem that the middle layer cannot be aligned during knowledge distillation,and help students master the grammar,reference and other knowledge in the middle layer of the teacher model.Experiments on several data sets in GLUE show that the student model retains 93.9%of the average inference accuracy of the teacher model,while only accounting for 41.5%of the average parameter size of the teacher model.

作者石佳来郭卫斌 SHI Jiaai;GUO Weibin(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

机构地区华东理工大学信息科学与工程学院

出处《大数据》 2024年第3期119-132,共14页 Big Data Research

基金国家自然科学基金项目(No.62076094)。

关键词深度预训练模型 BERT 多教师蒸馏自然语言理解 deep pre-training model BERT multi-teacher distillation nature language understanding

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1任欢,王旭光.注意力机制综述[J].计算机应用,2021,41(S01):1-6. 被引量：110
2李爱黎,张子帅,林荫,王秋菊,杨建安,孟炜程,张岩峰.基于社交网络大数据的民众情感监测研究[J].大数据,2022,8(6):105-126. 被引量：3
3韩立帆,季紫荆,陈子睿,王鑫.数字人文视域下面向历史古籍的信息抽取方法研究[J].大数据,2022,8(6):26-39. 被引量：5
4杨秋勇,彭泽武,苏华权,邓伟民,张焕明,李梦诗.基于Bi-LSTM-CRF的中文电力实体识别[J].信息技术,2021,45(9):45-50. 被引量：16
5叶榕,邵剑飞,张小为,邵建龙.基于BERT-CNN的新闻文本分类的知识蒸馏方法研究[J].电子技术应用,2023,49(1):8-13. 被引量：8

二级参考文献37

1熊德兰,程菊明,田胜利.基于HowNet的句子褒贬倾向性研究[J].计算机工程与应用,2008,44(22):143-145. 被引量：31
2张妮,徐文尚,王文文.人工智能技术发展及应用研究综述[J].煤矿机械,2009,30(2):4-7. 被引量：85
3孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：623
4李忠俊.基于话题检测与聚类的内部舆情监测系统[J].计算机科学,2012,39(12):237-240. 被引量：8
5刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930. 被引量：291
6潘明慧,牛耘.基于多线索混合词典的微博情绪识别[J].计算机技术与发展,2014,24(9):28-32. 被引量：7
7杨艳霞.基于分类的微博情感分析算法研究及实现[J].计算机与数字工程,2017,45(2):197-200. 被引量：6
8敦欣卉,张云秋,杨铠西.基于微博的细粒度情感分析[J].数据分析与知识发现,2017,1(7):61-72. 被引量：28
9王鑫,吴际,刘超,杨海燕,杜艳丽,牛文生.基于LSTM循环神经网络的故障时间序列预测[J].北京航空航天大学学报,2018,44(4):772-784. 被引量：340
10刘梓权,王慧芳.基于知识图谱技术的电力设备缺陷记录检索方法[J].电力系统自动化,2018,42(14):158-164. 被引量：97

共引文献137

1张宸嘉,朱磊,陈璞,俞璐.基于注意力机制的通信辐射源个体识别方法[J].通信技术,2021,54(7):1594-1600. 被引量：1
2张宸嘉,朱磊,俞璐.卷积神经网络中的注意力机制综述[J].计算机工程与应用,2021,57(20):64-72. 被引量：109
3耿浩,孙佳华,李艺,魏永长.基于BiGRU-Attention网络的新型冠状病毒肺炎疫情预测[J].武汉科技大学学报,2022,45(1):75-80. 被引量：7
4张万玉,肖锋,张文娟,邹品荣,王晨阳.基于池化的双维度视觉注意力模型[J].西安工业大学学报,2021,41(6):673-683. 被引量：1
5王曦廷,卢涛.中医药认知计算:概念、框架与路径[J].中华中医药杂志,2022,37(1):35-40. 被引量：6
6刘文婷,卢新明.基于计算机视觉的Transformer研究进展[J].计算机工程与应用,2022,58(6):1-16. 被引量：63
7王欣,孟天宇,周俊曦.基于注意力与LSTM的航空发动机剩余寿命预测[J].科学技术与工程,2022,22(7):2784-2792. 被引量：19
8俞海亮,彭冬亮,谷雨.结合双层多头自注意力和BiLSTM-CRF的军事武器实体识别[J].无线电工程,2022,52(5):775-782. 被引量：5
9袁单飞,陈慈发,董方敏.基于多尺度分割的图像识别残差网络研究[J].计算机工程,2022,48(5):258-262. 被引量：5
10遆宝中,李庚银,武昭原,王剑晓,周明,李瑞连.基于循环扩张机制的ConvGRU-Transformer短期电力负荷预测方法[J].华北电力大学学报（自然科学版）,2022,49(3):34-43. 被引量：9

1杨玺,陈爽,彭子睿,高镇,王安龙.基于k-Medoids聚类和深度学习的分布式短期负荷预测[J].微型电脑应用,2024,40(1):80-83.
2宋宣易.基于CiteSpace的模型平均研究热点与趋势分析[J].中国信息界,2024(2):38-41.
3贾康,刘媛媛,范文义.应用全极化合成孔径雷达数据构建多变量估算森林地上生物量模型[J].东北林业大学学报,2024,52(1):61-66. 被引量：1
4黄开诱,田立丰,杨瑞,丁浩,姜婷.超声速变马赫数风洞流场参数线性变化验证[J].航空工程进展,2024,15(1):69-78. 被引量：1
5陈春霞,王玲,李洋洋,王贤钧.基于YOLOv5的消防机器人火焰检测研究[J].机械,2024,51(4):67-73.
6马成英,叶名辰,潘玉琴,黄将仑,郑宗波,严浩.基于XML的异构数据信息交换技术分析[J].电子技术（上海）,2024,53(2):44-45. 被引量：1

大数据

2024年第3期

浏览历史

内容加载中请稍等...

面向自然语言理解的多教师BERT模型蒸馏研究

参考文献5

二级参考文献37

共引文献137

相关作者

相关机构

相关主题

浏览历史