基于声学状态似然值得分模型及监督状态模型的语音识别特征融合算法被引量：4

Speech feature fusion algorithm based on acoustic state likelihood and supervised state modelling

导出

摘要语音识别GMM-HMM (Gaussian mixture modelhidden Markov model)在使用最大似然状态序列(most likely state sequence,MLSS)准则得到观测量的最佳状态序列时,只考虑了具有语音帧最大似然值的状态信息,而忽略了其他次优状态对当前帧的影响,造成信息的丢失,从而降低了系统识别率。为更好地利用声学状态的似然值信息,该文提出了声学状态似然值得分模型和监督状态模型,并基于以上模型得到了状态似然聚类特征(state likelihood cluster feature,SLCF)、监督状态特征(supervised state feature,SSF)。这2种特征反映了MFCC (Mel frequency cepstrum coefficient)声学特征关于HMM状态的一种信息。实验表明,将SLCF、SSF分别与MFCC融合,新的特征可提高语音识别效果。融合了SLCF、SSF后,与GMMHMM只使用MFCC相比,孤立字识别系统的总错误率分别相对下降了6.10%、9.66%,连续语音识别系统的总错误率分别相对下降了2.53%、11.05%。 A Gaussian mixture model-hidden Markov model(GMM-HMM)for speech recognition uses the most likely state sequence(MLSS)criterion to get the best state series of observations.Since the MLSS search algorithm only considers the maximum likelihood state of speech frame,the effects of other suboptimal states are neglected and some important information is lost,which reduces the system recognition rate.Acoustic state likelihood modelling and supervised state modelling are used here to better utilize the acoustic state likelihood information.A state likelihood cluster feature and a supervised state feature are used to calculate the state likelihood of the acoustic feature Mel frequency cepstrum coefficient(MFCC).Tests show that these three features improve the speech recognition accuracy.The state likelihood cluster and supervised state feature reduce the relative error rate by 6.10%and 9.66%for isolated word recognition compared to GMM-HMM using only MFCC and by 2.53%and 11.05%for continuous speech recognition.

作者肖熙徐晨 XIAO Xi;XU Chen(Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)

机构地区清华大学电子工程系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2019年第6期476-481,共6页 Journal of Tsinghua University(Science and Technology)

关键词监督状态特征声学特征聚类状态似然聚类特征 supervised state feature acoustic feature clustering state likelihood cluster feature

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1欧智坚,王作英.从线性预测HMM到一种新的语音识别的混合模型[J].电子学报,2002,30(9):1313-1316. 被引量：3

二级参考文献1

1王作英.基于段长分布的HMM语音识别模型.第二届全国汉字语音识别会议[M].庐山,1989..

共引文献2

1刘震,王厚军,龙兵,张治国.一种基于加权隐马尔可夫的自回归状态预测模型[J].电子学报,2009,37(10):2113-2118. 被引量：14
2汪永涛.利用SVM的聚类算法在时间序列信号识别中的应用[J].微电子学与计算机,2012,29(3):182-184. 被引量：1

同被引文献23

1李晔,张仁智,崔慧娟,唐昆.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报（自然科学版）,2005,45(10):1397-1400. 被引量：37
2刘华平,李昕,郑宇,徐柏龄,姜宁.一种改进的自适应子带谱熵语音端点检测方法[J].系统仿真学报,2008,20(5):1366-1371. 被引量：26
3吴应中,朱华勇,李杰.基于n元语法模型的领域语音指令识别[J].微计算机信息,2009,25(14):234-236. 被引量：1
4尚永爽,许爱强,吴忠德.基于SOFM神经网络和HMM的动调陀螺仪故障预测方法研究[J].机械科学与技术,2012,31(10):1711-1715. 被引量：7
5王永鑫,贾珈,张雨辰,蔡莲红.基于HMM语音合成的语调控制[J].清华大学学报（自然科学版）,2013,53(6):781-786. 被引量：5
6张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3):36-43. 被引量：29
7晁浩,刘志中,薛霄.汉语语音识别中融合发音信息的随机段模型研究[J].计算机应用研究,2015,32(4):1087-1090. 被引量：1
8张文林,牛铜,屈丹,李弼程,裴喜龙.基于声学特征空间非线性流形结构的语音识别声学模型[J].自动化学报,2015,41(5):1024-1033. 被引量：9
9吴新忠,夏令祥,张旭,周成.基于谱熵梅尔积的语音端点检测方法[J].北京邮电大学学报,2019,42(2):83-89. 被引量：15
10王丰华,王邵菁,陈颂,袁国刚,张君.基于改进MFCC和VQ的变压器声纹识别模型[J].中国电机工程学报,2017,37(5):1535-1542. 被引量：84

引证文献4

1邓鑫,王岩松,杨超,郭辉.基于融合特征的汽车鸣笛声识别方法[J].智能计算机与应用,2021,11(12):197-200. 被引量：1
2李侠,唐高峰.基于语音识别的英语声学检测系统研究[J].自动化技术与应用,2019,38(12):110-112. 被引量：2
3王琼,旷文珍,许丽.基于改进的N-gram模型和知识库的文本查错算法[J].计算机应用与软件,2021,38(10):310-315. 被引量：9
4杨佳睿,冯早,朱雪峰.变工况下管道堵塞识别的声纹模型研究[J].机械科学与技术,2023,42(6):914-922. 被引量：1

二级引证文献13

1马孝威,李标.基于云边协同的带式输送机故障诊断技术[J].工矿自动化,2024,50(S01):119-121.
2张云翔,李智诚.面向电力行业的热词语音识别技术[J].现代计算机,2020,26(22):14-17. 被引量：3
3徐秋平,任玲,樊玺炫,王义华.语音识别技术在轨道交通AFC系统中的应用研究[J].现代城市轨道交通,2022(4):31-35. 被引量：1
4贺嘉,张琳,何道良.AI智慧云呼系统建设[J].江西通信科技,2022(2):1-4.
5田野,张晓灿,汤跃忠.基于多分类器融合决策的车辆鸣笛声识别方法[J].电声技术,2022,46(7):85-87. 被引量：1
6薛莲,姚新文,郑启明,王小敏.高铁列控车载设备故障知识图谱构建方法研究[J].铁道科学与工程学报,2023,20(1):34-43. 被引量：8
7王梦贤,何春辉.融合MacBERT和Kenlm的中文纠错方法[J].现代计算机,2022,28(23):70-73.
8张昕煜.基于语音感知的英语口语发音自动校准系统[J].自动化技术与应用,2023,42(5):44-47. 被引量：1
9余波,张立为.基于智能家居语音识别多样化结果的意图分类方法[J].数字技术与应用,2023,41(11):137-139. 被引量：1
10董宗然,闻柏智,朱毅.一种新型高效全文检索引擎的设计[J].软件工程,2024,27(2):44-48.

1杨小静,邓曙立,曹小琴.基于无障碍设计理念的老年助行产品设计研究[J].工业设计,2019(3):66-67. 被引量：6
2张春亮,陈铭.基于拆解难度和模糊聚类的泛化报废汽车拆解成本预测[J].中国机械工程,2019,30(7):840-845. 被引量：6
3白璐,衣姝颖,李天平.基于深度学习的车牌识别技术研究[J].山东师范大学学报（自然科学版）,2018,33(4):438-442. 被引量：8
4何建华.探究中学英语教学质量的优化[J].教学管理与教育研究,2019,4(7):54-55.
5龙小强,苏跃江,余畅,吴德馨.基于卡口车牌识别数据的车辆出行分析[J].交通运输系统工程与信息,2019,19(2):66-72. 被引量：14
6樊仲欣,王兴,苗春生.基于连通距离和连通强度的BIRCH改进算法[J].计算机应用,2019,39(4):1027-1031. 被引量：7
7唐文杰.成果导向的英语语音课程教学改革探析[J].湖南第一师范学院学报,2019,19(1):11-15. 被引量：4
8李滨.“百年未有之大变局”:世界向何处去[J].学术前沿,2019(7):39-47. 被引量：14
9程鹏,柳林,刘晓,许传新,郭慧.基于多维特征聚类和用户评分的景点推荐算法[J].计算机工程与设计,2019,40(5):1322-1327. 被引量：5
10孙红,陈锁.一种聚类隐马尔可夫模型的时空轨迹预测算法[J].小型微型计算机系统,2019,40(3):472-476. 被引量：19

清华大学学报（自然科学版）

2019年第6期

浏览历史

内容加载中请稍等...

基于声学状态似然值得分模型及监督状态模型的语音识别特征融合算法被引量：4

参考文献1

二级参考文献1

共引文献2

同被引文献23

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于声学状态似然值得分模型及监督状态模型的语音识别特征融合算法 被引量：4

参考文献1

二级参考文献1

共引文献2

同被引文献23

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于声学状态似然值得分模型及监督状态模型的语音识别特征融合算法被引量：4