期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

面向Transformer模型的轻量化方法研究

下载PDF

导出

摘要随着Transformer模型的改进与发展,模型的参数数量显著增加,使得Transformer模型及其衍生模型需要消耗大量的计算资源和存储资源。文章提出一种基于知识蒸馏的新的Transformer模型轻量化方法:使用预训练好的BERT模型(Bidirectional Encoder Representation from Transformers)作为教师模型,设计学生模型卷积神经网络(Convolutional Neural Network,CNN),加入注意力机制的循环神经网络(Recurrent Neural Network,RNN)和全连接神经网络(Full Connect Neu-ral Network,DNN),并采用logits和matching logits两种蒸馏方法,实现模型的轻量化。实验结果表明,当将BERT模型蒸馏给CNN时,参数数量减少93.46%,运行速度提升30余倍,在小规模数据集上准确率仅下降0.70%;当将BERT蒸馏给加入注意力机制的RNN时,参数数量减少了93.38%,速度提升100余倍,模型准确率轻微下降;当将DNN作为学生模型时,参数数量减少了93.77%,速度提升了200余倍,在大规模数据集上,准确率仅下降0.02%。

作者徐慧超徐海文刘丽娜

机构地区黑龙江财经学院苏州大学

出处《电脑知识与技术》 2024年第4期25-28,共4页 Computer Knowledge and Technology

关键词深度学习 Transformer模型注意力机制轻量化方法知识蒸馏

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1刘欢,张智雄,王宇飞.BERT模型的主要优化改进方法研究综述[J].数据分析与知识发现,2021,5(1):3-15. 被引量：35
2邵仁荣,刘宇昂,张伟,王骏.深度学习中知识蒸馏研究综述[J].计算机学报,2022,45(8):1638-1673. 被引量：29
3潘瑞东,孔维健,齐洁.基于预训练模型与知识蒸馏的法律判决预测算法[J].控制与决策,2022,37(1):67-76. 被引量：9
4王淼,丁德锐.SmBERT(SmallerBert):一种更小更快的文本分类模型[J].智能计算机与应用,2023,13(1):129-135. 被引量：2
5叶榕,邵剑飞,张小为,邵建龙.基于BERT-CNN的新闻文本分类的知识蒸馏方法研究[J].电子技术应用,2023,49(1):8-13. 被引量：8

二级参考文献6

1成科扬,王宁,师文喜,詹永照.深度学习可解释性研究进展[J].计算机研究与发展,2020,57(6):1208-1217. 被引量：68
2化盈盈,张岱墀,葛仕明.深度学习模型可解释性的研究进展[J].信息安全学报,2020,5(3):1-12. 被引量：42
3QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：154
4张小为,邵剑飞.基于改进的BERT-CNN 模型的新闻文本分类研究[J].电视技术,2021,45(7):146-150. 被引量：11
5刘宗林,张梅山,甄冉冉,公佐权,余南,付国宏.融入罪名关键词的法律判决预测多任务学习模型[J].清华大学学报（自然科学版）,2019,59(7):497-504. 被引量：25
6王文广,陈运文,蔡华,曾彦能,杨慧宇.基于混合深度神经网络模型的司法文书智能化处理[J].清华大学学报（自然科学版）,2019,59(7):505-511. 被引量：20

共引文献76

1李欣儒,贺超城,黄茜,吴江.多层信任视角下的共享服务平台用户预定行为研究[J].知识管理论坛,2023(2):140-154. 被引量：2
2徐维军,付志能,李茂昌,张卫国.基于新闻文本挖掘的股指期货高频预测研究[J].系统科学与数学,2021,41(7):1856-1875. 被引量：2
3邢丽萍,靳红梅,李洪安,李占利.利用多尺度分析推进牙齿图像识别的研究综述[J].微纳电子与智能制造,2022,4(4):34-49.
4刘艳红.生成式人工智能的三大安全风险及法律规制——以ChatGPT为例[J].东方法学,2023(4):29-43. 被引量：145
5时伟,刘怀兴,程振宇,顾文冠.一体化应急应战体系能力评估关键指标提取技术框架研究[J].信息工程大学学报,2021,22(2):246-252. 被引量：2
6张萌萌,梁艳红.补充语义信息的多特征融合模糊文本分类[J].信息技术与信息化,2021(6):45-47. 被引量：1
7张玉洁,白如江,刘明月,于纯良.融合语义联想和BERT的图情领域SAO短文本分类研究[J].图书情报工作,2021,65(16):118-129. 被引量：11
8刘渊晨,王昊,高亚琪.在线音乐歌单播放量预测及影响因素分析[J].数据分析与知识发现,2021,5(8):100-112. 被引量：2
9赵梓博,王昊,邓三鸿,张海潮.文本语义化表示对其识别准确率的影响研究--以中华美食本体库构建为例[J].情报理论与实践,2021,44(10):8-17. 被引量：1
10张笑,孙素芬,魏清凤,罗长寿.基于BERT多特征融合的番茄问答模型研究[J].信息与电脑,2021,33(17):69-73.

1张增明.房屋建筑施工中地下防水技术的改进与发展[J].产品可靠性报告,2024(1):138-140.
2刘江峰,王希羽,张君冬,孔玲,裴雷,王东波.领域文献深层语义特征视角下的期刊新兴研究主题发现[J].情报理论与实践,2024,47(3):177-187. 被引量：3
3邸士睿,王帅,刘鑫,朱红平.6,6'-二溴-1,1'-联-2-萘酚的偶联合成与手性拆分——对一个有机化学综合实验的改进与发展[J].大学化学,2024,39(1):287-293.
4郑柯菁,胡婷婷.陕西地方戏曲音乐元素在筝曲《姜女泪》中的运用[J].戏剧之家,2024(7):46-48.
5张瑞辰,秦婉亭.基于鲁棒亚像素卷积神经网络的DEM超分辨率重建[J].智能安全,2023,2(4):1-13.

电脑知识与技术

2024年第4期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部