基于迁移学习的小样本语言语音识别研究

Research on Small Sample Language Speech Recognition Based on Transfer Learning

下载PDF

导出

摘要本文提出了面向小样本语言的语音识别迁移学习方法,探讨该方法的实现与效果。为了克服目前小样本语言语音识别常见数据样本不足、数据质量过低、词典缺乏等问题,立足迁移学习算法思想,提出迭代性语言模型构建方法,旨在提高语音识别模型的识别性能。迭代性语言模型构建方法包括对普通话发音词典和文本语料进行特殊方言化处理,并加以可迭代训练流程规范化处理,从语言学角度构建西南官话独有文本语料,语言模型成功提高了预测率。对比实验结果表明,迁移学习模型在普通话和西南官话数据集上均表现出较好的字错率,最终西南官话语音识别结果字错率低于14.4%,在AISHELL-1普通话公共数据集上的字错率为5.50%,为目前同期模型最优识别结果,实现了从普通话到西南官话的知识迁移。 The paper proposes a transfer learning approach for small sample language speech recognition and investigates its implementation and effectiveness.In order to overcoming challenges such as insufficient data samples,low data quality,and the absence of suitable dictionaries in small sample language speech recognition,the research is grounded in the principles of transfer learning algorithms and introduces a method involving specialized dialectal processing of Mandarin pronunciation dictionaries and text corpora.The approach follows an iterative training process,which results in the creation of unique text corpora tailored specifically to Southwest Mandarin from a linguistic perspective.The language model demonstrates a significant improvement in prediction accuracy.The results of comparative experiments reveal that the transfer learning model performs well in terms of character error rates on both Mandarin and Southwest Mandarin datasets.Ultimately,the character error rate for Southwestern Mandarin speech recognition results falls below 14.4%,reaching 5.50%on the AISHELL-1 Mandarin public dataset.This accomplishment stood as the best recognition result among models of the same period,showcasing the successful transfer of knowledge from Mandarin to Southwest Mandarin.

作者赵泽彬兰亮姜丹王大亮 ZHAO Zebin;LAN Liang;JIANG Dan;WANG Daliang(School of Information Engineering,Beijing Institute of Graphic Communication,Beijing 102600,China;Science and Technology Innovation Department,Sichuan Branch,China Telecom Corporation Limited,Chengdu 610041,China;AI Innovation Center,Datang(Beijing)Technology Co.,LTD.,Beijing 100192,China)

机构地区北京印刷学院信息工程学院中国电信股份有限公司四川分公司科技创新部数据堂(北京)科技股份有限公司AI创新中心

出处《北京印刷学院学报》 2024年第6期27-34,共8页 Journal of Beijing Institute of Graphic Communication

基金北京市自然基金项目-北京市教委科技计划重点项目(KZ202010015021) 专业学位研究生联合培养基地建设-电子信息(21090223001) 北京印刷学院博士启动金(27170123036)研究成果。

关键词语音识别神经网络迁移学习小样本方言 ASR neural network transfer learning small sample dialect

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1周岷,周及徐.从明代《蜀语》词汇看四川方言的变迁[J].语文研究,2016(3):23-26. 被引量：6

二级参考文献12

1甄尚灵,张一舟.《蜀语》词语的记录方式[J].方言,1992(1):23-30. 被引量：13
2李实.蜀语[M].黄仁寿,等,校注.成都:巴蜀书社,1990.
3又,中国人民大学报刊复印资料《语言文字学》2013年第5期).
4清·张娘《烬余录》,胡传淮注,中国文史出版社,2010.
5周及徐《四川青衣江地区方言的语音特征及其历史形成》(《语言历史论丛》(第八辑),巴蜀书社,2015).
6何婉.成都话音系词汇调查研究[M].成都:四川大学出版社,2013.
7四川方言音系编写组.四川方言音系[J].四川大学学报:社会科学版,1960(3).
8张一舟.《蜀语》音注材料分析[J].语言研究.1994(增刊).
9周及徐.四川青衣江地区方言的语音特征及其历史形成[C]//语言历史论丛:第八辑.成都:巴蜀书社,2015.
10周及徐.从语音特征看四川重庆“湖广话”的来源——成渝方言与湖北官话代表点音系特点比较[J].四川师范大学学报（社会科学版）,2012,39(3):94-101. 被引量：16

共引文献5

1周及徐,周岷.岷江嘉陵江流域方言的语音特征和分区[J].语言历史论丛,2023(1):1-48.
2王俊丹,周及徐.晚清四川宣讲小说《保命金丹》与《孝逆报》中的方言词及其语音特征[J].语言历史论丛,2021(1):191-203.
3陆文美,周及徐.通俗宣讲小说《孝逆报》所反映的晚清南充地区方言特征[J].语言历史论丛,2020(2):196-208.
4周及徐.传播与演变——明代以来四川方言形成概述[J].语言历史论丛,2020(1). 被引量：1
5史光辉.从词汇比较看明清以来黔北方言的变迁[J].语言研究,2020,40(3):1-8. 被引量：1

1张媛媛,于洪波.数字教材高质量发展的价值意蕴与建设理路[J].教育科学,2023,39(6):52-58. 被引量：3
2杨镇希,罗浩轩,陈和强.数字赋能县域城乡融合发展的实践现状、困境检视及路径探析[J].湖北经济学院学报（人文社会科学版）,2024,21(4):4-10. 被引量：1
3王超,孙喁喁,徐飞,马媛媛,文雯,汪露.结合CNN和BiGRU的双通道短文本意图识别算法[J].计算机系统应用,2024,33(5):136-143.
4陈培浩,许再佳.从方言化到化方言——现代汉语文学语言观察之一[J].四川文学,2023(1):185-196.
5章梦琪,李珩.语境理论在初中英语语法教学中的应用研究[J].小说月刊（下半月）,2024(6):230-232.
6徐敏,汪语桐,刘靖北.新质生产力视域下新时代统一战线工作的效能提升与图景拓展[J].统一战线学研究,2024,8(3):1-12. 被引量：1
7刘宁.新词"X+媛"的贬义化现象[J].文学教育,2022(26):136-138.
8温欣.青年直播带货的劳动过程及其空间生产[J].人文杂志,2024(4):75-86. 被引量：2
9范敏.基于Selenium的Web智能测试研究[J].电脑与信息技术,2024,32(3):119-121. 被引量：1
10黄艳红,侯怡,徐珺.基于人工智能的双高院校“双师型”教师素质评价体系探析[J].广东职业技术教育与研究,2023(12):71-75.

北京印刷学院学报

2024年第6期

浏览历史

内容加载中请稍等...

基于迁移学习的小样本语言语音识别研究

参考文献1

二级参考文献12

共引文献5

相关作者

相关机构

相关主题

浏览历史