一种改进的基于Viterbi的语音切分算法被引量：4

An Improved Speech Segmentation Algorithm based on Viterbi

下载PDF

导出

摘要主要针对文本提示型说话人识别中语音切分高精确度要求的问题，在利用Viterbi算法的语音切分基础上，提出了向后平滑搜索多帧能量极小值的语音切分方法。该算法首先对0—9的每个数字建立模型，然后利用Viterbi算法对随机数字串进行切分得到初始切分点，最后利用搜索多帧能量极小值的方法更新原始切分点。实验表明，相比于传统的切分算法，在误差范围小于20ms之内，改进算法的切分准确率由82．1％提高到88％。 An improved algorithm for speech segmentation is proposed to improve the segmentation accuracy in text-prompted speaker recognition. This method, based on Viterbi algorithm, implements speech segmentation by backward smooth searching of minimum frame energy. Firstly, the models for numbers from 0 to 9 are trained individually, then the segmentation points are acquired by using Viterbi algorithm to seg- ment a series of random numbers, and finally the segmentation points are updated by smooth searching of minimum frame energy. Experimental results show that this proposed algorithm could achieve an improvement of from 82.1% to 88% in segmentation accuracy within the error range of 20ms, as compared with the traditional algorithm.

作者李欢欢王金明尹海明徐志军孔磊张开礼

机构地区解放军理工大学通信工程学院西安通信学院信息服务系

出处《通信技术》 2015年第9期1027-1031,共5页 Communications Technology

基金中兴通讯产学研合作研究项目(No.CON1307160001)~~

关键词语音切分 VITERBI 多帧能量极小值 speech segmentation Viterbi minimum frame energy

分类号 TN912 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献9

1何致远,胡起秀,徐光.说话人识别中语音切分算法的研究[J].计算机工程与应用,2003,39(6):55-58. 被引量：4
2梁维谦,原道德,丁玉国.大词表孤立词语音识别的快速搜索算法[J].清华大学学报（自然科学版）,2011,51(1):101-104. 被引量：1
3张辉,杜利民.汉语连续语音识别中不同基元声学模型的复合[J].电子与信息学报,2006,28(11):2045-2049. 被引量：7
4Tryfou G, Pellin M, Omologo M. Time-Frequency Reas- signed Cepstral Coefficients for Phone-Level Speech Seg- mentation [ C ]. 2014 Proceedings of the 22nd European Signal Processing Conference. 2014:2060-2064.
5Stolcke A, Ryant N, Mitra V, YUAN Jia-hong. Highly Accurate Phonetic Segmentation Using Boundary Correc- tion Models and System Fusion[ C ]. 2014 IEEE Interna- tional Conference on Acoustics, Speech and Signal Processing. 2014:5552-5556.
6吕伟辰,洪青阳,王胜等.基于Viterbi-GMM的文本提示型说话人识别系统[C].第十二届全国人机语音通讯学术会议,2013.
7Iosif Mporas, Alexandros Lazaridis, Todor Ganchev, Ni- kos Fakotakis. Using Hybrid HMM-based Speech Seg- mentation to Improve Synthetic Speech Quality [ C ]. In Proceedings of the 13th Pan-Hellenic Conference on Informatics, PCI 2009 : 118-122.
8胡克,康世胤,郝军.中文HMM参数化语音合成系统构建[J].通信技术,2012,45(8):101-103. 被引量：2
9Sainath, Tara N, Kanevsky, Dimitri, et, al. Broad Pho- netic Class Recognition in a Hidden Markov Model Frame Work Using Extended Baum Welch Transformations [ C ]. 2007 IEEE Workshop on Automatic Speech Recognition and Understanding, 2007 :pp. 305-311.

二级参考文献27

1张东滨,杜利民.语音识别的自适应束剪枝方法[J].电声技术,2004,28(8):41-45. 被引量：4
2黄昆.嵌入式,语音识别技术新趋向[J].中国计算机用户,2006(45):46-46. 被引量：1
3Forney G D. The Viterbi algorithm [J]. Proceedings of the IEEE, 1973, 61(3) : 268-278.
4Rabiner L R, Juang B H. Fundamentals of Speech Recognition [M]. Boston, M A: Prentice Hall, 1999.
5Huang X D, Acero A, Hon H, et al. Spoken Language Processing: A Guide to Theory, Algorithm and System Development [M]. New Jersey: Prentice Hall, 2001.
6Rabiner L R. A tutorial on hidden Markov models and selected applications in speech recognition [J]. Proceedings of the IEEE, 1989, 77(2): 257-286.
7Wu G D, Lin C T. Word boundary detection with mel-scale frequency bank in noisy environment [J].IEEE Trans Speech and Audio Proc, 2000, 8(5) : 541 - 554.
8董倩.鲁棒语音识别技术的研究[D].长春:吉林大学,2007.
9Fiscus J G.A post-processing system to yield reduced word error rates:Recogniser Output Voting Error Reduction(ROVER).Proceedings of IEEE ASRUWorkshop:Santa Barbara,1997:347-352.
10Yan Y H,et al..A dynamic cross-reference pruning strategy for multiple feature fusion at decoder run time.In Proc.EUROSPEECH'03 Geneva,2003.

共引文献10

1林帆,徐明星.一种改进的基于时域参数的语音切分算法[J].计算机科学,2006,33(4):164-167. 被引量：3
2袁里驰.基于改进的隐马尔科夫模型的语音识别方法[J].中南大学学报（自然科学版）,2008,39(6):1303-1308. 被引量：19
3陈彩云,魏胜非.柴油机尾气处理中的湿度检测融合算法[J].东北师大学报（自然科学版）,2009,41(4):82-85. 被引量：2
4邵健,赵庆卫,颜永红.基于鼻韵尾分离的汉语声韵母识别模型[J].声学学报,2010,35(5):587-592. 被引量：3
5袁里驰.Improved hidden Markov model for speech recognition and POS tagging[J].Journal of Central South University,2012,19(2):511-516. 被引量：4
6高飞,杨杉,肖治华.基于数据融合和HM Ms的风险评估方法[J].信息安全与通信保密,2013,11(1):70-74.
7晁浩,杨占磊,刘文举.汉语语音识别中基于音节的声学模型改进算法[J].计算机应用,2013,33(6):1742-1745. 被引量：1
8邓力,梁向东.基于DFT的嵌入式普通话语音快速识别[J].实验室研究与探索,2017,36(6):128-132. 被引量：3
9曹冠彬,张二华,王凯龙.连续汉语语音切分技术研究[J].计算机与数字工程,2019,47(7):1667-1671. 被引量：3
10王宇琛,张二华.汉语连续语音切分技术研究[J].计算机与数字工程,2020,48(8):1864-1869.

同被引文献27

1林帆,徐明星.一种改进的基于时域参数的语音切分算法[J].计算机科学,2006,33(4):164-167. 被引量：3
2段淑斐.一种利用多参数进行实时语音边界检测与音节分割算法[J].太原理工大学学报,2009,40(5):487-489. 被引量：1
3潘峰,丁娜娜,吕鹏,申军伟.基于分形维的语音去噪与音节分割[J].计算机工程与应用,2011,47(14):131-133. 被引量：2
4张继勇,sp.cs.tsinghua.edu.cn,郑方,sp.cs.tsinghua.edu.cn,杜术,sp.cs.tsinghua.edu.cn,宋战江,sp.cs.tsinghua.edu.cn,徐明星,sp.cs.tsinghua.edu.cn.连续汉语语音识别中基于归并的音节切分自动机[J].软件学报,1999,10(11):1212-1215. 被引量：10
5阿依木尼萨.胡甫尔,艾斯卡尔.艾木都拉.面向语音合成的维吾尔语音素自动切分算法研究[J].计算机应用与软件,2011,28(9):18-21. 被引量：4
6张永锋,杨影,肖莹莹.基于主成分分析的汉语连续语音切分算法[J].应用声学,2011,30(5):366-369. 被引量：3
7张金溪,李永宏,单广荣,李照耀,江静.面向语音合成的藏语单音素与三音素自动切分算法研究[J].计算机应用研究,2013,30(11):3272-3275. 被引量：5
8张怡,胡晓东.苗汉语音节结构对比分析[J].赤峰学院学报（哲学社会科学版）,2014,35(4):196-197. 被引量：1
9鲁远耀,周妮,肖珂,叶青.强噪声环境下改进的语音端点检测算法[J].计算机应用,2014,34(5):1386-1390. 被引量：25
10王帆,郑方,吴文虎.基于多尺度分形维数的汉语语音声韵切分[J].清华大学学报（自然科学版）,2002,42(1):68-71. 被引量：14

引证文献4

1曹冠彬,张二华,王凯龙.连续汉语语音切分技术研究[J].计算机与数字工程,2019,47(7):1667-1671. 被引量：3
2杨健,李振鹏,苏鹏.语音分割与端点检测研究综述[J].计算机应用,2020,40(1):1-7. 被引量：9
3李琦,张二华.连续汉语语音的自动切分研究[J].计算机与数字工程,2023,51(4):959-964.
4冯夫健,吴磊,谭棉,蔡姗,张学文,王林.苗语语音音节自适应切分算法[J].科学技术与工程,2024,24(14):5863-5871.

二级引证文献11

1高桥,张二华.基于基音周期轨迹的连续汉语语音切分技术研究[J].计算机与数字工程,2023,51(1):163-167.
2卓嘎.基于Praat的藏语连续语音参数提取仿真和分析[J].电子技术与软件工程,2019,0(20):53-56. 被引量：1
3秦颢,刘军,张宸.大豆碰撞声信号的预处理方法研究[J].科学技术创新,2020(29):11-13.
4袁骏毅,潘常青,沈晓冬,岑星星,宓林晖.智能语音识别在医技检查报告中的应用研究[J].中国医学装备,2020,17(11):98-101. 被引量：8
5宓林晖,袁骏毅,潘常青,沈晓冬.基于智能语音识别技术的医技报告交互系统的设计与应用[J].中国医疗设备,2021,36(2):92-95. 被引量：17
6占善华,张永平.一种公共法律服务智能语音数据管理系统的设计[J].电子技术与软件工程,2021(1):190-191.
7张巧花,张纯.圆形阵列无线传感器的鸟鸣声检测方法[J].应用声学,2022,41(3):381-387. 被引量：1
8张永强,于洪昌,周万珍,满梦华.人体静电电位信号数据对齐方法研究[J].河北工业科技,2023,40(1):43-51.
9李琦,张二华.连续汉语语音的自动切分研究[J].计算机与数字工程,2023,51(4):959-964.
10景辉,王心雨,阎志远,戴琳琳.智能服务机器人在铁路客运站应用场景的设计与实现[J].铁道运输与经济,2024,46(1):51-58.

1何致远,胡起秀,徐光祐.两级决策的开集说话人辨认方法[J].清华大学学报（自然科学版）,2003,43(4):516-520. 被引量：12
2林帆,徐明星.一种改进的基于时域参数的语音切分算法[J].计算机科学,2006,33(4):164-167. 被引量：3
3何致远,胡起秀,徐光.说话人识别中语音切分算法的研究[J].计算机工程与应用,2003,39(6):55-58. 被引量：4
4张文军,谢剑英,李聪.基于贝叶斯方法的鲁棒语音切分[J].数据采集与处理,2002,17(3):260-264. 被引量：2
5张宝奇,张连海,屈丹.基于听觉事件检测的汉语语音声韵切分[J].声学学报,2010,35(6):701-707. 被引量：7
6南思武[J].科技新时代,2003(11):60-60.
7丁金忠,黄焱,李浩.基于粒子滤波的OFDM盲信道估计方法[J].计算机应用研究,2012,29(9):3376-3378. 被引量：2
8Artist 5000系列通话面板[J].世界广播电视,2009,23(8):137-137.
9王欣.模拟电子技术课程的教与学[J].电子游戏软件,2012(9):25-25.
10木合塔尔.沙地克,布合力齐姑丽.瓦斯力,李晓.基于维吾尔语单词清、浊音组成结构特征的连续语音单词切分算法[J].西北师范大学学报（自然科学版）,2013,49(4):34-37. 被引量：3

通信技术

2015年第9期

浏览历史

内容加载中请稍等...

一种改进的基于Viterbi的语音切分算法被引量：4

参考文献9

二级参考文献27

共引文献10

同被引文献27

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种改进的基于Viterbi的语音切分算法 被引量：4

参考文献9

二级参考文献27

共引文献10

同被引文献27

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种改进的基于Viterbi的语音切分算法被引量：4