改进粒子滤波跟踪的视听双模态语音识别仿真

Simulation of Audiovisual Bimodal Speech Recognition Based on Improved Particle Filter Tracking

下载PDF

导出

摘要噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态语音特征信息,构建transformer语音识别模型,将提取的特征信息输入到模型内实施并行训练,实现视听双模态语音的有效识别。实验结果表明,通过对上述方法开展信噪比测试、识别性能测试,验证了上述方法的可行性高、可靠性强。 In noisy environments,audio-visual speech is not easily recognized.To improve speech recognition performance,an improved particle filter tracking audio-visual bimodal speech recognition method is proposed.Firstly,spectral subtraction was adopted to remove noise data,thus completing the noising removal of audiovisual dual-modal speech.Based on the correlation between human speech and lip movement information,an improved particle filter tracking method was adopted to extract audiovisual dual-modal speech feature information,and then a transformer speech recognition model was constructed.Finally,the extracted information was input into the model for parallel training,thus achieving the effective recognition for audiovisual dual-modal speech.The experimental results show that the proposed method show high feasibility and strong reliability after the signal-to-noise ratio test and recognition performance test.

作者岳莉李柯景赵剑 YUE Li;LI Ke-jing;ZHAO Jian(College of Computer Science and Technology,Changchun University,Changchun Jilin 130022,China)

机构地区长春大学计算机科学技术学院

出处《计算机仿真》 2024年第9期213-216,345,共5页 Computer Simulation

基金吉林省教育厅科研项目(JJKH20220600KJ)。

关键词语音识别模型谱减法去噪处理识别训练 Speech recognition model Spectral subtraction Noise removal Identification training

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1王兰馨,王卫亚,程鑫.结合Bi-LSTM-CNN的语音文本双模态情感识别模型[J].计算机工程与应用,2022,58(4):192-197. 被引量：18
2陈珂,谢博,朱兴统.基于情感词典和Transformer模型的情感分析算法研究[J].南京邮电大学学报（自然科学版）,2020,40(1):55-62. 被引量：14
3陈杰,马静,李晓峰,郭小宇.基于DR-Transformer模型的多模态情感识别研究[J].情报科学,2022,40(3):117-125. 被引量：9
4王颇,白静,薛珮芸.融合发音动作特征和声学特征的病理语音检测[J].计算机工程与设计,2021,42(3):776-781. 被引量：4
5艾佳琪,左毅,刘君霞,贺培超,李铁山,陈俊龙.基于余弦相似度的动态语音特征提取算法[J].计算机应用研究,2020,37(S02):147-149. 被引量：12
6陈哲怀,郑文露,游永彬,钱彦旻,俞凯.标签同步解码算法及其在语音识别中的应用[J].计算机学报,2019,42(7):1511-1523. 被引量：10
7王一鸣,陈恳,萨阿卜杜萨拉木·艾海提拉木.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别[J].电信科学,2019,35(12):79-89. 被引量：3
8董德壮,万生鹏,尹玺,熊新中,谭超.基于双路发送的可见光语音视频混合传输[J].光通信技术,2020,44(12):25-28. 被引量：2
9陈聪,贺杰,陈佳.混合连接时间/注意力机制端到端语音识别[J].控制工程,2021,28(3):585-591. 被引量：6
10刘元,匡文凯,苏盛,李彬.基于双通道能量差的环网柜局放信号消噪方法[J].仪器仪表学报,2021,42(2):218-227. 被引量：6

二级参考文献103

1戴蓓倩,郁正庆,戴任飞,张劲松,王长富,司虎.基于话者分类和HMM的话者自适应语音识别[J].中国科学技术大学学报,1996,26(2):147-153. 被引量：2
2胡国永,陈长缨,陈振强.白光LED照明光源用作室内无线通信研究[J].光通信技术,2006,30(7):46-48. 被引量：54
3张鑫琪,冯海泓,徐海东.改进的最小均方误差语音增强算法的研究[J].声学技术,2008,27(2):230-234. 被引量：6
4杨欣,费树岷,陈丽娟.基于类矩阵和特征融合的加权自适应人脸识别[J].中国图象图形学报,2008,13(5):930-936. 被引量：4
5武鹏鹏,赵刚,邹明.基于多窗谱估计的改进谱减法[J].现代电子技术,2008,31(12):150-152. 被引量：20
6CAO Wenming,HE Tiancheng.The Multi-Weight Neuron with Geometry Algorithm and Its Application[J].Chinese Journal of Electronics,2008,17(2):261-264. 被引量：4
7张震,王化清.语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008,44(22):54-55. 被引量：29
8张伟,李霞明.帧同步电路的VerilogHDL设计[J].微计算机信息,2008,24(36):246-247. 被引量：6
9陈为真,汪秉文,胡晓娅.多因子预测模型在连续梁桥中的应用[J].重庆大学学报（自然科学版）,2009,32(3):353-356. 被引量：3
10李进,罗义平,刘海华,高智勇.基于改进零空间法的人脸识别研究[J].计算机工程,2009,35(9):198-200. 被引量：7

共引文献110

1王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
2崔琳,王芷悦.基于LFBank与FBank混合特征的声纹识别研究[J].计算机科学,2022,49(S02):621-625. 被引量：5
3张道杰,张馨文.语音编码在自动化互动模型中的应用研究[J].电力系统保护与控制,2020,48(12):147-153. 被引量：1
4王连心,谢雁鸣.激活数据学视角下的中成药精准机制研究思考[J].中国中药杂志,2020,45(14):3331-3335. 被引量：11
5周红锴.基于单片机控制的孤立词语音自动识别系统设计[J].现代电子技术,2020,43(18):64-66. 被引量：3
6崔阳,刘长红.基于PIFA的语音识别系统评测平台[J].计算机科学,2020,47(S02):638-641. 被引量：5
7乔元健.基于人工智能的机器人音乐类型识别[J].变频器世界,2020(10):71-74.
8赵国柱,董贤伟,马丽生.一种基于隐马尔可夫风险评估模型的数据快速疏散策略[J].滁州学院学报,2020,22(5):30-36. 被引量：1
9陈涛,安俊秀.基于特征融合的微博短文本情感分类研究[J].数据与计算发展前沿,2020,2(6):21-29. 被引量：6
10徐冬冬,蒋志翔.基于HOPE-CTC的端到端语音识别[J].计算机工程与设计,2021,42(2):462-467. 被引量：3

1刘云翔,张可欣.双模态跨语料库语音情感识别[J].应用技术学报,2024,24(1):77-84.
2柏东辉,吴建杰.基于GPS差分定位的变电站电磁干扰位置识别[J].电子设计工程,2024,32(20):40-43.
3刘旭阳,申丹,吴艳超,朱宜东.基于小波变换的变压器局放故障检测技术[J].电气技术与经济,2024(9):135-137.
4徐松,万涛,李欣,吴俊杰,查方林,魏加强,蔡宇峰,刘奕奕.基于声学检测技术的刀片储能锂电池热失控行为研究[J].湖南电力,2024,44(5):17-23.
5徐中,王继承,刘东林,曾春,麻浩军.基于累积KL散度和改进粒子滤波的滚动轴承剩余使用寿命预测[J].机械制造与自动化,2024,53(5):183-190.
6张倩,徐鹤勇.基于改进粒子滤波的风电系统并网侧谐波估计[J].电力电子技术,2024,58(9):40-44.
7宋东亚,武林俊.多定频干扰下准随机跳频信号检测仿真[J].计算机仿真,2024,41(1):522-526.
8张楠,陈媛媛,陈鑫钰,侯懿桃.基于LMD改进特征提取的三路病理语音识别[J].电子测量技术,2024,47(12):140-147.
9郑直,李显泽,张华钦,王志军,刘伟民.一种采用SVD-Reformer的高精度滚动轴承故障诊断方法[J].制造业自动化,2024,46(9):33-41.
10刘逸伦,宣鹏华,李岩松,冉沅昌,王其伟.光学电流传感消抖卡尔曼本征信号高精度提取方法研究[J].光子学报,2024,53(9):68-80.

计算机仿真

2024年第9期

浏览历史

内容加载中请稍等...

改进粒子滤波跟踪的视听双模态语音识别仿真

参考文献16

二级参考文献103

共引文献110

相关作者

相关机构

相关主题

浏览历史