摘要
随着Transformer模型的改进与发展,模型的参数数量显著增加,使得Transformer模型及其衍生模型需要消耗大量的计算资源和存储资源。文章提出一种基于知识蒸馏的新的Transformer模型轻量化方法:使用预训练好的BERT模型(Bidirectional Encoder Representation from Transformers)作为教师模型,设计学生模型卷积神经网络(Convolutional Neural Network,CNN),加入注意力机制的循环神经网络(Recurrent Neural Network,RNN)和全连接神经网络(Full Connect Neu-ral Network,DNN),并采用logits和matching logits两种蒸馏方法,实现模型的轻量化。实验结果表明,当将BERT模型蒸馏给CNN时,参数数量减少93.46%,运行速度提升30余倍,在小规模数据集上准确率仅下降0.70%;当将BERT蒸馏给加入注意力机制的RNN时,参数数量减少了93.38%,速度提升100余倍,模型准确率轻微下降;当将DNN作为学生模型时,参数数量减少了93.77%,速度提升了200余倍,在大规模数据集上,准确率仅下降0.02%。
出处
《电脑知识与技术》
2024年第4期25-28,共4页
Computer Knowledge and Technology