基于提示方法与知识蒸馏方法的口语语音识别模型构建

Construction of Spoken Language Recognition Models Based on Prompt Methods and Knowledge Distillation Methods

下载PDF

导出

摘要提示方法是利用预训练语言模型的一种有效技术,只需要少量的示例就可以使用语言模型进行一个新的自然语言任务。文章提出了一种新的基于提示方法和知识蒸馏方法的语音识别模型(SpokenPrompt-KD模型)。该模型利用Wav2Vec模型将语音转化为预训练语言模型可识别的文本嵌入形式,从而将语言模型的小样本学习能力拓展到语音识别领域,同时通过知识蒸馏方法将教师语言模型中的知识传递给学生语音模型,以提高模型在语音理解任务上的准确性。实验结果表明,在100 h的数据集上进行预训练后,模型在分类任务上的准确率可以达到88.4%,证明了这种小样本学习能力的模型在语音识别领域是可行的、有效的。 Prompt method is an effective approach for using pre-trained language models.It requires only a small number of examples to perform a new natural language task.This article presents a novel speech recognition model,which is called SpokenPrompt-KD and based on prompting and knowledge distillation methods.This model utilizes the Wav2Vec model to convert speech into a text embedding format recognizable by pre-trained language models,thereby extends the language model's few-shot learning capabilities into the realm of speech recognition.Simultaneously,it employs knowledge distillation methods to transfer knowledge from a teacher language model to a student speech model,aiming to enhance the model's accuracy in speech understanding tasks.The experimental results indicate that after pre-training on a 100-hour dataset,the model achieves an accuracy of 88.4%in classification tasks.The experiments demonstrate the feasibility and effectiveness of this model with few-shot learning capabilities in the field of speech recognition.

作者郭嘉彭太乐 GUO Jia;PENG Taile(School of Computer Science and Technology,Huaibei Normal University,Huaibei 235065 China)

机构地区淮北师范大学计算机科学与技术学院

出处《西华大学学报（自然科学版）》 CAS 2023年第6期59-67,共9页 Journal of Xihua University:Natural Science Edition

基金国家自然科学基金项目(61976101) 安徽省高校自然科学研究项目(KJ2017A843)。

关键词自然语言处理提示方法语音识别模型知识蒸馏 natural language processing prompt method speech recognition model knowledge distillation

分类号 TP391.42 [自动化与计算机技术—计算机应用技术] TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：121

共引文献120

1王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
2邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
3余同瑞,金冉,韩晓臻,李家辉,郁婷.自然语言处理预训练模型的研究综述[J].计算机工程与应用,2020,56(23):12-22. 被引量：41
4郝超,裘杭萍,孙毅,张超然.多标签文本分类研究进展[J].计算机工程与应用,2021,57(10):48-56. 被引量：23
5邱石贵,章化奥,段湘煜,张民.神经机器翻译的词级别正则化[J].厦门大学学报（自然科学版）,2021,60(4):662-669.
6王涛,刘超辉,郑青青,黄嘉曦.基于单向Transformer和孪生网络的多轮任务型对话技术[J].计算机工程,2021,47(7):55-58.
7陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学学报,2021,23(7):1208-1220. 被引量：5
8杨修远,彭韬,杨亮,林鸿飞.基于知识蒸馏的自适应多领域情感分析[J].山东大学学报（工学版）,2021,51(3):15-21. 被引量：1
9陈德光,马金林,马自萍,周洁.自然语言处理预训练技术综述[J].计算机科学与探索,2021,15(8):1359-1389. 被引量：28
10吴恪涵,张雪英,叶鹏,怀安,张航.基于BERT-BiLSTM-CRF的中文地址解析方法[J].地理与地理信息科学,2021,37(4):10-15. 被引量：5

1王彦博(文/图).短视频加字幕,绘影极速完成[J].电脑知识与技术（精华本）,2022(2):56-58.
2万譞,焦军丽,夏明贵.基于人工智能的虚拟数字人在广播电视工程中的应用[J].电视技术,2023,47(7):172-174. 被引量：2
3刘晗.记忆实践路径下的数字记忆建构[J].社会科学文摘,2023(9):66-68.
4刘甜甜.立德树人视角下高校发展型资助体系的路径研究[J].时代人物,2023(27):0128-0130.
5陶珊.高职院校发展型资助育人模式的实践与思考——江苏食品药品职业技术学院学生资助工作案例分析[J].品位·经典,2023(16):116-118.
6肖峰.生成式人工智能与知识生产新形态——关于三阶知识生产的探析[J].学术研究,2023(10):50-57. 被引量：2
7孙吉胜,石毅.“理解当代中国”系列教材使用与高素质外语人才培养[J].外语教育研究前沿,2023,6(3):23-28. 被引量：2
8田慧芬.基于大数据的高职院校家庭经济困难学生精准资助机制[J].中国新通信,2023,25(15):27-29.

西华大学学报（自然科学版）

2023年第6期

浏览历史

内容加载中请稍等...

基于提示方法与知识蒸馏方法的口语语音识别模型构建

参考文献1

共引文献120

相关作者

相关机构

相关主题

浏览历史