语音识别中说话人自适应方法研究综述被引量：8

Survey of Speaker Adaptation Methods in Speech Recognition

下载PDF

导出

摘要语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分。近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术。然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题。因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向。相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题。首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向。 Speech is one of the ways of human-computer interaction, and speech recognition technology is an important part of artificial intelligence. In recent years, the application of neural network technology in the field of speech recognition has developed rapidly, and it has become the mainstream acoustic modeling technology in the field of speech recognition. However, there is a difference between target speaker ’ s voice and training data in the test conditions, which leads to the problem of model incompatibility. Therefore, the speaker adaptation(SA) method is to solve the mismatch problem caused by the speaker difference, and the research on the speaker adaptation method has become a popular direction in the field of speech recognition. Compared with the speaker adaptation method in the traditional speech recognition system, the self-adaptation in the speech recognition system using neural network has the characteristics of huge model parameters and relatively small amount of data. Therefore, the speaker adaptation method in the neural network-based speech recognition system becomes a challenge. Firstly, this paper reviews the development history of the speaker adaptation method and the various problems encountered in the research of the neural network-based speaker adaptation method. Secondly, the speaker adaptation method is divided into the speaker adaptation method based on feature domain and the speaker adaptation method based on model domain. It also introduces the corresponding principles and improvement methods, and finally points out the problems that still exist in the speaker adaptation method in speech recognition and the future development direction.

作者朱方圆马志强陈艳张晓旭王洪彬宝财吉拉呼 ZHU Fangyuan;MA Zhiqiang;CHEN Yan;ZHANG Xiaoxu;WANG Hongbin;BAO Caijilahu(College of Data Science and Application,Inner Mongolia University of Technology,Hohhot 010080,China;Inner Mongolia Autonomous Region Engineering&Technology Research Centre of Big Data Based Software Service,Inner Mongolia University of Technology,Hohhot 010080,China)

机构地区内蒙古工业大学数据科学与应用学院内蒙古工业大学内蒙古自治区基于大数据的软件服务工程技术研究中心

出处《计算机科学与探索》 CSCD 北大核心 2021年第12期2241-2255,共15页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金(61762070,61862048) 内蒙古自治区自然科学基金(2019MS06004) 内蒙古自治区科技重大专项(2019ZD015) 内蒙古自治区关键技术攻关计划项目(2019GG273) 内蒙古自治区科技成果转化专项资金(2020CG0073)。

关键词语音识别说话人自适应(SA) 神经网络 speech recognition speaker adaptation(SA) neural network

分类号 TN912.34 [电子电信—通信与信息系统] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1古典,李辉.基于深度神经网络的说话人自适应方法研究[J].信息技术与网络安全,2018,37(4):60-64. 被引量：1
2金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205. 被引量：12

二级参考文献1

1方昕,李辉,刘青松.利用i-vectors构建区分性话者模型的话者确认[J].小型微型计算机系统,2014,35(3):685-688. 被引量：3

共引文献11

1冀瑞国.神经网络在语音识别中的应用[J].电子技术与软件工程,2019(3):249-249. 被引量：4
2贾艳洁,陈曦,于洁琼,王连明.基于特征语谱图和自适应聚类SOM的快速说话人识别[J].科学技术与工程,2019,19(15):211-218. 被引量：6
3李侠,唐高峰.基于语音识别的英语声学检测系统研究[J].自动化技术与应用,2019,38(12):110-112. 被引量：2
4刘娟宏,胡彧,黄鹤宇.端到端的深度卷积神经网络语音识别[J].计算机应用与软件,2020,37(4):192-196. 被引量：31
5谢淑林.试析面向市场需求的平面设计PhotoShop创新之路[J].电脑编程技巧与维护,2020(5):152-153. 被引量：1
6刘虹,袁三男.基于多尺度残差深度卷积神经网络的语音识别[J].计算机应用与软件,2020,37(11):275-279. 被引量：11
7崔阳,刘长红.基于PIFA的语音识别系统评测平台[J].计算机科学,2020,47(S02):638-641. 被引量：5
8陈立,朱丙丽.基于多尺度与改进注意力机制的序列到序列模型[J].计算机应用与软件,2020,37(12):140-144.
9赵小芬,张开生.基于三层结构优化卷积神经网络的语音识别[J].石河子大学学报（自然科学版）,2022,40(1):127-132. 被引量：5
10张开生,赵小芬.复杂环境下基于自适应深度神经网络的鲁棒语音识别[J].计算机工程与科学,2022,44(6):1105-1113. 被引量：10

同被引文献55

1姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
2朱艺,刘卿,王力华.基于语音识别的“抢单式”超声报告集中录入平台构建与实施[J].中国数字医学,2021,16(8):32-35. 被引量：2
3王燕,亓祥惠,段亚西.基于核函数与马氏距离的FCM图像分割算法[J].计算机应用研究,2020,37(2):611-614. 被引量：15
4赵正平.GaN微电子学的新进展(续)[J].半导体技术,2020,0(2):89-98. 被引量：1
5刘爱琴.一种有效的聋人语言与思维形成的方法——格式化语言教学方法[J].中国特殊教育,2009(3):29-32. 被引量：5
6刘爱琴.一种新的聋校课堂教学用语——大屏幕语言[J].中国特殊教育,2005(5):30-34. 被引量：8
7奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
8单煜翔,陈谐,史永哲,刘加.基于扩展N元文法模型的快速语言模型预测算法[J].自动化学报,2012,38(10):1618-1626. 被引量：6
9胡小林,马红梅.可用语音控制的多功能医用护理床的设计[J].医疗卫生装备,2015,36(6):25-28. 被引量：10
10戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,32(2):221-231. 被引量：71

引证文献8

1刘志强,马志强,张晓旭,宝财吉拉呼,谢秀兰,朱方圆.IMUT-MC:一个针对蒙古语语音识别的语音语料库[J].中国科学数据（中英文网络版）,2022,7(2):71-83. 被引量：2
2胡健,龚克,毛伊敏,陈志刚,陈亮.基于Im2col的并行深度卷积神经网络优化算法[J].计算机应用研究,2022,39(10):2950-2956. 被引量：9
3张添添,王婧.基于At-LSTM模型的音/视频双流语音识别算法仿真[J].计算机仿真,2023,40(1):251-254. 被引量：3
4郝文睿,张沛,孙震,徐金建,计虹.智能语音技术与门诊多系统深度融合建设实践[J].医疗卫生装备,2023,44(4):83-87. 被引量：3
5张皓然,张涛,万书芹,蒋颖丹,苏小波.基于FPGA的语音预处理系统[J].电子设计工程,2023,31(14):182-186.
6刘爱琴,郑显玲,李科.实时屏幕语言:聋校课堂教学用语新发展[J].现代特殊教育,2023(19):14-18. 被引量：1
7康新晨,董雪燕,姚登峰,钟经华.构音障碍说话人自适应研究进展及展望[J].计算机科学,2024,51(8):11-19.
8许哲,章浩伟,刘颖.基于深度学习的脑电信号自动睡眠分期研究进展[J].应用数学进展,2023,12(1):21-28.

二级引证文献18

1李叶,毛伊敏,陈志刚.基于Winograd卷积的并行深度卷积神经网络优化算法[J].信息与控制,2023,52(4):466-482. 被引量：3
2程燕,王磊,赵晓永.根因分析研究综述[J].计算机应用研究,2023,40(4):961-966. 被引量：2
3邓雪阳,邓达平,苏万靖.基于并行深度卷积神经网络的舰船通信异常数据检测研究[J].舰船科学技术,2023,45(15):119-122. 被引量：1
4张丽群,薛世峰.基于ELM的控制器算法在机器人触觉识别和语音交互中的应用[J].自动化与仪器仪表,2023(12):161-164. 被引量：1
5王晓丹,谢先明,李活.基于改进DFSMN模型的语音交互服务系统设计[J].自动化与仪器仪表,2024(1):150-154.
6甄兆博,张晖.语音文本对齐技术构建蒙古语语音识别语料库研究[J].中央民族大学学报（自然科学版）,2024,33(1):12-19.
7张国明.基于图卷积神经网络的大规模软件定义网络流量预测模型[J].微电子学与计算机,2024,41(4):96-103.
8叶惠仙.应用于人脸识别的多任务卷积神经网络性能优化[J].中原工学院学报,2024,35(1):8-13.
9郭凯丽,王建英.非平稳强噪声环境中的音频信号端点检测系统[J].现代电子技术,2024,47(10):18-22.
10张梦娇,王增,姚巡,郑兵,郑涛,毕永东,李红霞,石锐.基于医院信息系统的患者服务功能优化研究[J].中国卫生质量管理,2024,31(5).

1陈勇,金曼莉,朱凯欣,刘焕淋,陈东.结合空间域与变换域特征提取的盲立体图像质量评价[J].电子与信息学报,2021,43(10):2958-2966. 被引量：6
2吴丽华,龙海侠,冯建平.智能机器的认知学习机理及计算模型研究[J].电子技术与软件工程,2021(21):106-109. 被引量：4
3卓凡,陈凯,刘宪国.DFSMN语音识别技术在智能安全帽上的应用研究[J].中国高新科技,2021(20):48-50. 被引量：2
4冯萍,钱阳,李国梁,刘笑涵.融合图神经网络的深度学习电影推荐系统设计与实现[J].白城师范学院学报,2021,35(5):49-56. 被引量：3
5郭珮瑶,蒲志远,马展.多相机系统:成像增强及应用[J].激光与光电子学进展,2021,58(18):276-296. 被引量：1
6陈硕,钟汇才,李勇周,王师峥,杨建刚.基于多尺度特征多对抗网络的雾天图像识别[J].中国图象图形学报,2021,26(11):2680-2690. 被引量：2
7吴则诚,飞龙,张晖,王海波.基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法[J].信号处理,2021,37(10):1825-1834. 被引量：1
8胡渝民,宋飞,汪忠.广义布里渊区与非厄米能带理论[J].物理学报,2021,70(23):72-93. 被引量：4

计算机科学与探索

2021年第12期

浏览历史

内容加载中请稍等...

语音识别中说话人自适应方法研究综述被引量：8

参考文献2

二级参考文献1

共引文献11

同被引文献55

引证文献8

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

语音识别中说话人自适应方法研究综述 被引量：8

参考文献2

二级参考文献1

共引文献11

同被引文献55

引证文献8

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

语音识别中说话人自适应方法研究综述被引量：8