基于知识蒸馏的短文本分类方法被引量：1

Short Text Classification Method Based on Knowledge Distillation

下载PDF

导出

摘要近年来,随着深度学习技术在自然语言处理任务中的广泛应用,语言模型规模越来越大。然而,大规模模型推理速度慢、资源消耗成本高,难以在工业上进行应用,小规模模型又难以达到大规模模型效果。因此提出一种基于教师—学生框架的知识蒸馏模型,以预训练模型BERT作为教师模型,以长短时记忆网络(BiLSTM)等小模型作为学生模型,通过教师指导学生学习的方式将教师模型学习到的知识迁移至学生模型中。实验结果表明,蒸馏模型将运算推理时间缩短至教师模型的1/725,将学生模型短文本分类准确率提升3.16%。 In recent years,with the extensive application of deep learning technology in natural language processing tasks,language models have developed in an increasingly largescale.However,large-scale models have slow reasoning and high resource consumption costs,and are difficult to apply in industry.It is difficult to directly train small-scale models to achieve the effect of large-scale models.To address these issues,this paper proposes a knowledge distillation model based on the teacher-student framework,using the pre-training model BERT as the teacher model,and the long-short-term memory network is used as a student model,and the knowledge learned by the teacher model is transferred to the student model by the teacher guiding the student to learn.The experimental results show that the distillation model shortens the calculation and inference time to 1/725 times of the original teacher model,and improves the accuracy of the short text classification of the student model by 3.16%.

作者孙红黄瓯严 SUN Hong;HUANG Ou-yan(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《软件导刊》 2021年第6期23-27,共5页 Software Guide

基金国家自然科学基金项目(61472256,61170277,61703277) 沪江基金项目(C14002)。

关键词知识蒸馏文本分类双向模型自然语言处理 knowledge distillation text classification bidirectional model natural language processing

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1廖胜兰,吉建民,俞畅,陈小平.基于BERT模型与知识蒸馏的意图分类方法[J].计算机工程,2021,47(5):73-79. 被引量：10

二级参考文献1

1俞畅,欧阳昱,张波,刘辉舟.基于对抗式生成网络的电力用户意图文本生成[J].信息技术与网络安全,2019,38(11):67-72. 被引量：4

共引文献9

1郭子晨,李昆阳,娄嘉鹏.基于深度学习的多通道多任务学习判决预测模型[J].北京电子科技学院学报,2022,30(4):105-114.
2施国良,陈宇奇.文本增强与预训练语言模型在网络问政留言分类中的集成对比研究[J].图书情报工作,2021,65(13):96-107. 被引量：10
3高永兵,黎预璇,高军甜,马占飞.基于用户意图的微博文本生成技术研究[J].计算机工程,2022,48(1):119-126. 被引量：4
4罗孝波,林佳瑜,梁祖红,王漳.针对低频词进行改进的中文短文本分类方法[J].计算机应用研究,2022,39(2):468-473. 被引量：3
5王士浩,王中卿,李寿山,周国栋.基于知识蒸馏与模型集成的事件论元抽取方法[J].计算机工程,2022,48(7):97-103. 被引量：1
6李晓峰,马静,周琰.基于增强语义模型的货品名分类算法[J].计算机与现代化,2023(3):71-78.
7高子雄,蒋盛益,欧炎镁,禤镇宇.基于多任务蒸馏的意图识别和槽位填充[J].陕西师范大学学报（自然科学版）,2024,52(3):96-104.
8张德驰,万卫兵.掩码语言增强表示的对比学习微调和应用[J].计算机工程与应用,2024,60(17):129-138.
9杜潇鉴,吕卫东,孙钰华.基于多教师知识蒸馏的新闻文本分类方法[J].计算机科学与应用,2023,13(8):1515-1526.

同被引文献10

1李善,谭继文,俞昆,文妍.KPCA-GRNN网络在数控机床复合故障诊断中的应用[J].煤矿机械,2016,37(3):152-154. 被引量：6
2文妍,谭继文,李善.基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J].中国科技论文,2016,11(4):464-469. 被引量：3
3鄢小安,贾民平.基于改进奇异谱分解的形态学解调方法及其在滚动轴承故障诊断中的应用[J].机械工程学报,2017,53(7):104-112. 被引量：37
4辛梅.神经网络训练算法在数控机床故障诊断中的应用[J].自动化技术与应用,2020,39(2):13-17. 被引量：10
5谢胜龙,张为民,鲁玉军,张文欣,朱俊江,任国营.基于一维卷积神经网络的房颤智能诊断方法研究[J].计量学报,2020,41(5):620-626. 被引量：8
6李正官,韩天杰,王超群,郭保苏.基于VGG-19卷积神经网络的刀具磨损监测方法[J].机械设计与制造工程,2020,49(6):93-97. 被引量：7
7戴稳,张超勇,孟磊磊,薛燕社,肖鹏飞,尹勇.采用深度学习的铣刀磨损状态预测模型[J].中国机械工程,2020,31(17):2071-2078. 被引量：28
8倪建功,李娟,邓立苗,韩仲志.基于知识蒸馏的胡萝卜外观品质等级智能检测[J].农业工程学报,2020,36(18):181-187. 被引量：12
9陈维兴,崔朝臣,李小菁,赵卉.基于多种小波变换的一维卷积循环神经网络的风电机组轴承故障诊断[J].计量学报,2021,42(5):615-622. 被引量：22
10邢婷婷,关阳,孙登云,孟宗,樊凤杰.基于FSDPC_Otsu算法的滚动轴承故障研究[J].计量学报,2021,42(11):1466-1471. 被引量：10

引证文献1

1张煜莹,陆艺,赵静.基于增量学习的数控机床故障诊断系统[J].计量学报,2022,43(11):1456-1463. 被引量：5

二级引证文献5

1张新文,周苗苗,李金辉.基于谱图小波阈值的机床主轴振动数字信号降噪研究[J].制造技术与机床,2023(10):164-168. 被引量：2
2罗卫东.基于改进蚁群算法的数控机床故障诊断方法[J].设备管理与维修,2023(19):35-37.
3曹巍巍.数控机床的故障诊断与维护分析[J].造纸装备及材料,2023,52(11):55-57. 被引量：1
4王家亮,王景成,李继超.基于增量学习树模型的带钢精轧宽度预测[J].锻压技术,2024,49(2):152-160.
5徐玲艳,陆艺,赵静.基于边云协同的数控机床故障诊断联邦学习研究[J].计量学报,2024,45(6):873-880.

1郑林.探源与拓展--从一道例题的教学看学生数学素养的提升[J].初中数学教与学,2021(2):30-32.
2屈莉莉,程杨阳,汪心怡.基于PLS-SEM方法分析海洋科技创新与海洋经济发展的协同效应[J].统计与管理,2021,36(5):109-115. 被引量：4
3陈明珠.疫情下基于教师共同体的大学英语混合式教学实践——以电子科技大学中山学院为例[J].西部素质教育,2021,7(11):13-15.
4黄跃涛,李秀琴.第二个思考:物理备课组建设的策略——基于教师核心素养研究视角[J].中学物理,2021,39(9):13-16. 被引量：2
5秦丹峰,尹相辉,龚学余.基于改进YOLOv4-Tiny算法的移动端实时司机违章行为检测[J].计算机科学与应用,2021,11(5):1291-1300. 被引量：3
6林永峰,沈彦,李禹汉,陈桦.基于择时的多因子选股模型[J].信息技术与标准化,2021(6):44-50. 被引量：1
7王昭君,王蕾蕾.教师同事冲突关系之调适——基于教师职业道德视角[J].学园,2021,14(1):59-61.
8杨晨.YOLOv4算法改进及其在雾天交通事故识别中的应用[J].科学技术创新,2021(17):3-7. 被引量：1
9郭德侠,曲绍卫.大学工科教师技能性知识获得的三条进路--基于教师专业发展的视角[J].北京科技大学学报（社会科学版）,2021,37(3):227-232. 被引量：4
10石隽锋,李济洪,王瑞波.一种改进的GloVe词向量表示学习方法[J].中文信息学报,2021,35(4):16-22. 被引量：6

软件导刊

2021年第6期

浏览历史

内容加载中请稍等...

基于知识蒸馏的短文本分类方法被引量：1

参考文献1

二级参考文献1

共引文献9

同被引文献10

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于知识蒸馏的短文本分类方法 被引量：1

参考文献1

二级参考文献1

共引文献9

同被引文献10

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于知识蒸馏的短文本分类方法被引量：1