-
题名基于卷积神经网络特征提取的病理语音识别
- 1
-
-
作者
姜羽菲
石宇
何若男
陈益
曹辉
-
机构
陕西师范大学物理学与信息技术学院
-
出处
《电子设计工程》
2024年第20期26-30,共5页
-
基金
国家自然科学基金(12374440)。
-
文摘
针对传统病理语音识别效率低的问题,提出了一种利用卷积神经网络语音特征的病理语音识别方法,实现了特征的自动提取。从原始语音信号中提取梅尔语谱图特征,并对原始图像进行数据增强。基于迁移学习的思想,对Alex Net网络进行微调和训练,并将图像输入到训练好的卷积神经网络中提取语句级特征,输出时由时域金字塔匹配进行统一降维,得到相同长度的语音特征。使用神经网络和支持向量机分类器分别对提取好的语音特征进行分类,以完成病理语音识别。实验结果表明,神经网络能够很好地提取复杂和抽象的特征,避免了前期复杂繁琐的数据处理和数据分析工作,同时与传统特征提取方法相比准确率有所提高。
-
关键词
病理语音识别
梅尔谱图
卷积神经网络
时域金字塔匹配
-
Keywords
pathological speech recognition
Merle spectral map
convolutional neural network
time domain pyramid matching
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名基于LMD改进特征提取的三路病理语音识别
- 2
-
-
作者
张楠
陈媛媛
陈鑫钰
侯懿桃
-
机构
中北大学信息与通信工程学院
-
出处
《电子测量技术》
2024年第12期140-147,共8页
-
基金
山西省基础研究计划项目(202203021221103)资助。
-
文摘
针对发音障碍患者发音不够清晰准确,导致病理语音识别率低的问题,提出一种基于LMD改进的Gammatone滤波器组图谱特征提取算法进行三路病理语音识别,首先,该算法采用LMD分解语音信号,对分解后的各语音分量做短时傅里叶变换后进行频率合成,提取滤波器组特征及其一阶、二阶差分特征,构成能获取病理语音有效局部特征的LMD-GFbank图谱特征;其次,为了进一步优化网络模型在训练过程中遗漏掉部分有效特征信息,提出一种三路病理语音识别模型;最后,结合语音特征信息进行病理语音识别模型训练和测试。实验结果表明,LMD-GFbank图谱特征在三路病理语音识别模型上的识别率达到了93.36%,优于传统MFCC、GFCC、Fbank特征的语音识别效果,验证了所提算法及识别模型能提升病理语音识别准确率。
-
关键词
发音障碍
局部均值分解
病理语音识别
特征提取
-
Keywords
pronunciation disorders
local mean decomposition
pathological speech recognition
feature extraction
-
分类号
TN912.34
[电子电信—通信与信息系统]
R741
[医药卫生—神经病学与精神病学]
-