构音障碍说话人自适应研究进展及展望

Advancements and Prospects in Dysarthria Speaker Adaptation

下载PDF

导出

摘要自动化语音识别工具让构音障碍者和正常人的沟通变得顺畅,因此,近年来构音障碍语音识别成为了一项热门研究。构音障碍语音识别的研究包括:收集构音障碍者和正常人的发音数据,对构音障碍者和正常人的语音进行声学特征表示,利用机器学习模型比较和识别发音的内容并定位出差异性,以帮助构音障碍者改善发音。然而,由于收集构音障碍者的大量语音数据非常困难,且构音障碍者存在发音的强变异性,导致通用语音识别模型的效果往往不佳。为了解决这一问题,许多研究提出将说话人自适应方法引入构音障碍语音识别。对大量相关文献进行调研发现,当前此类研究主要围绕特征域和模型域对构音障碍语音进行分析。文中重点分析特征变换和辅助特征如何解决语音特征的差异性表示,以及声学模型的线性变换、微调声学模型参数和基于数据选择的域自适应方法如何提高模型识别的准确率。最后总结出构音障碍说话人自适应研究当前遇到的问题,并指出未来的研究可以从语音变异性的分析、多特征多模态数据的融合以及基于小数量的自适应方法的角度,提升构音障碍语音识别模型的有效性。 Automatic speech recognition tools make communication between dysarthria and normal individuals smoother,therefore,dysarthric speech recognition has become a hot research topic in recent years.The research on dysarthric speech recognition includes:collecting pronunciation data from dysarthria and normal individuals,representing acoustic features of dysarthria speech and normal speech,comparing and recognizing the content of pronunciation by machine learning model,and locating differences,so as to help dysarthria to improve their pronunciation.However,due to the significant difficulties in collecting a large amount of speech data from dysarthria,and the strong variability of their pronunciation,the performance of universal speech recognition models is often poor.To address this issue,many studies have proposed to introduce speaker adaptation methods into dysarthric speech recognition.Through extensive research on relevant literature,it has been found that current research mainly focuses on analyzing dysarthria speech in the feature domain and model domain.This paper focuses on analyzing how feature transformation and auxiliary features solve the differential representation of speech features,how linear transformation of acoustic models,fine-tuning of acoustic model parameters,and domain adaptation methods based on data selection improve the accuracy of model recognition.Finally,the current problems encountered in the research of dysarthria speaker adaptation are summarized,and it is pointed out that future research can improve the effectiveness of dysarthric speech recognition models from the perspectives of analyzing speech variability,fusing multi-feature and multi-modal data,and using a small number of speaker adaptation methods.

作者康新晨董雪燕姚登峰钟经华 KANG Xinchen;DONG Xueyan;YAO Dengfeng;ZHONG Jinghua(Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China;Lab of Computational Linguistics,School of Humanities,Tsinghua University,Beijing 100084,China;Center for Psychology and Cognitive Science,Tsinghua University,Beijing 100084,China)

机构地区北京联合大学北京市信息服务工程重点实验室清华大学人文学院计算语言学实验室清华大学心理学与认知科学研究中心

出处《计算机科学》 CSCD 北大核心 2024年第8期11-19,共9页 Computer Science

基金北京市自然科学基金(4202028) 国家语言文字工作委员会项目(YB145-25) 国家自然科学基金(62036001) 国家社会科学基金(21BYY106,21&ZD292) 2019年度北京市教育委员会科技一般项目(KM201911417005)。

关键词构音障碍说话人自适应辅助特征变换微调域自适应 Dysarthria Speaker adaptation Auxiliary features Transformation Fine-tuning Domain adaptation

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1朱方圆,马志强,陈艳,张晓旭,王洪彬,宝财吉拉呼.语音识别中说话人自适应方法研究综述[J].计算机科学与探索,2021,15(12):2241-2255. 被引量：8
2段淑斐,王俊芹,DINGAM Camille,张雪英,孙颖.基于发音空间特征的构音障碍患者的病情分级[J].复旦学报（自然科学版）,2021,60(3):288-296. 被引量：3
3赵建星,薛珮芸,白静,师晨康,袁博,师同同.一种用于构音障碍语音识别的多尺度特征提取算法[J].生物医学工程学杂志,2023,40(1):44-50. 被引量：1
4梁正友,黎雨星,孙宇,姚强.基于多特征组合的构音障碍语音识别[J].计算机工程与设计,2022,43(2):567-572. 被引量：6

二级参考文献9

1程小伟,王健,曾庆宁,谢先明,龙超.噪声环境下稳健的说话人识别特征研究[J].声学技术,2017,36(5):479-483. 被引量：7
2金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件,2018,35(2):200-205. 被引量：12
3王晴,白静,薛珮芸,张雪英,冯沛.听障学生和健听学生鼻韵母声学及运动学的分析研究[J].生物医学工程学杂志,2018,35(2):198-205. 被引量：5
4古典,李辉.基于深度神经网络的说话人自适应方法研究[J].信息技术与网络安全,2018,37(4):60-64. 被引量：1
5李东,张雪英,段淑斐,闫密密.结合语音融合特征和随机森林的构音障碍识别[J].西安电子科技大学学报,2018,45(3):149-155. 被引量：8
6何怡,庞子建,李胜利.运动性构音障碍的发声空气动力学检查及疗效[J].中国康复理论与实践,2018,24(10):1187-1194. 被引量：6
7郑纯军,王春立,贾宁.语音任务下声学特征提取综述[J].计算机科学,2020,47(5):110-119. 被引量：12
8张涛,蒋培培,张亚娟,曹玉阳.基于时频混合域局部统计的帕金森病语音障碍分析方法研究[J].生物医学工程学杂志,2021,38(1):21-29. 被引量：4
9梁正友,黎雨星,孙宇,姚强.基于多特征组合的构音障碍语音识别[J].计算机工程与设计,2022,43(2):567-572. 被引量：6

共引文献13

1刘志强,马志强,张晓旭,宝财吉拉呼,谢秀兰,朱方圆.IMUT-MC:一个针对蒙古语语音识别的语音语料库[J].中国科学数据（中英文网络版）,2022,7(2):71-83. 被引量：2
2胡健,龚克,毛伊敏,陈志刚,陈亮.基于Im2col的并行深度卷积神经网络优化算法[J].计算机应用研究,2022,39(10):2950-2956. 被引量：9
3韦添元,杜晓霞.卒中后构音障碍康复评估及治疗的研究进展[J].中华老年医学杂志,2022,41(12):1518-1524.
4李海烽,张雪英,段淑斐,贾海蓉,李良琦.基于DKU-JNU-EMA数据库发音特征的方言识别[J].复旦学报（自然科学版）,2023,62(1):37-45. 被引量：1
5张添添,王婧.基于At-LSTM模型的音/视频双流语音识别算法仿真[J].计算机仿真,2023,40(1):251-254. 被引量：3
6赵建星,薛珮芸,白静,师晨康,袁博,师同同.一种用于构音障碍语音识别的多尺度特征提取算法[J].生物医学工程学杂志,2023,40(1):44-50. 被引量：1
7郝文睿,张沛,孙震,徐金建,计虹.智能语音技术与门诊多系统深度融合建设实践[J].医疗卫生装备,2023,44(4):83-87. 被引量：1
8黄弋石.沪语语音识别合成数学建模[J].数字技术与应用,2023,41(5):58-60.
9张皓然,张涛,万书芹,蒋颖丹,苏小波.基于FPGA的语音预处理系统[J].电子设计工程,2023,31(14):182-186.
10刘爱琴,郑显玲,李科.实时屏幕语言:聋校课堂教学用语新发展[J].现代特殊教育,2023(19):14-18. 被引量：1

1罗晓晖,方彧.老年金融消费者权益保护研究进展及展望[J].征信,2024,42(6):75-81.
2黎耀奇,邓巧巧.旅游污名:研究进展及展望[J].复印报刊资料（旅游管理）,2023(5):100-109.
3周长霖,王春阳,陈赓,刘明杰.雷达主瓣反干扰研究进展及展望[J].信息对抗技术,2024,3(4):1-16.
4王璐,金之钧,吕泽宇,苏宇通.地下储氢研究进展及展望[J].地球科学,2024,49(6):2044-2057. 被引量：1
5赵龙涛,聂贝,李子牧,马军民,常磊.金银花采收机械的研究进展及展望[J].林业机械与木工设备,2024,52(7):10-14.
6陈福,刘佳卿,夏韦美,陈兆民,续芯如,刘鸿凯.隔热保温涂料研究进展及展望[J].玻璃,2024,51(6):15-19.
7蔡梦阳,夏晴,章慧慧,袁红.经远端桡动脉路径在冠心病诊疗中的研究进展及展望[J].中国介入心脏病学杂志,2024,32(7):390-395.
8王娟,齐克奇,王少鑫,高瑞弘,李磐,杨然,刘河山,罗子人.面向空间引力波探测的激光干涉技术研究进展及展望[J].中国科学：物理学、力学、天文学,2024,54(7):105-123.
9吴超,方小婷,石鑫鑫,周鑫,罗超,达娃卓嘎,郑顺林.马铃薯块茎低温糖化研究进展及展望[J].中国马铃薯,2024,38(2):168-175.
10刘超帆,林慧颖,邓露,严丽.城乡一体化视域下国内城市边缘区研究进展及展望[J].科技和产业,2024,24(14):34-41.

计算机科学

2024年第8期

浏览历史

内容加载中请稍等...

构音障碍说话人自适应研究进展及展望

参考文献4

二级参考文献9

共引文献13

相关作者

相关机构

相关主题

浏览历史