基于音节时间长度高斯拟合的汉语音节切分方法被引量：5

Chinese speech segmentation method based on Gauss distribution of time spans of syllables

下载PDF

导出

摘要研究汉语自然语音音节切分方法具有明显现实意义,比较准确的自然语音切分方法可以代替人工对一些拥有参照文本的语音进行标注。然而至今为止并没有完全准确的汉语语音音节切分方法。依据相同发音环境下汉语语音音节时间长度服从某种高斯分布和相邻语音音节之间存在短时能量波谷两个假设,提出了基于音节时间长度高斯拟合的汉语音节切分方法。对算法进行分析,根据初步切分短时能量波谷分散到各分语音段的特性,提出了简化算法,有效降低了该音节切分方法的时间复杂度。实验结果表明,音节切分准确度(与人工标注切分时间距离平方的均值)达到小数点后3位,在台式机Matlab环境下运算时间均不超过1 s,可以达到应用要求。 So far away,there is no accurate method for Chinese natural speech segmentation of syllables,which is meaningful in labeling speech with reference text instead of people. According to two hypotheses that time spans of Chinese syllables under the same pronunciation obey Gauss distribution and short-time energy valley exists between two adjacent syllables,Chinese speech segmentation method based on Gauss distribution of time spans of syllables was proposed. A simplified method based on distribution of energy valleys was given,which effectively reduced the time complexity of this speech segmentation method. The experimental results show that segmentation accuracy（ mean square value of time spans between artificial labels and labels created by this method） achieve 10- 3and computing times are less than 1 s in Matlab of PC.

作者张扬赵晓群王缔罡

机构地区同济大学电子与信息工程学院

出处《计算机应用》 CSCD 北大核心 2016年第5期1410-1414,1420,共6页 journal of Computer Applications

关键词汉语自然语音音节切分时间长度波谷高斯分布 Chinese natural speech speech segmentation time span valley Gauss distribution

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1TOLEDANO D T, GOMEZ L A H, GRANDE L V. Automatic phonetic segmentation[J]. IEEE Transactions on Speech and Audio Processing, 2003, 11(6):617-625.
2WU Y J, KAWAI H, NI J, et al. Discriminative training and explicit duration modeling for HMM-based automatic segmentation[J]. Speech Communication, 2005, 47(3):397-410.
3van HEMERT J P. Automatic segmentation of speech[J]. IEEE Transactions on Signal Processing, 1991, 39(4):1008-1012.
4CHOU F C, TSENG C Y, LEE L S. A set of corpus-based text-to-speech synthesis technologies for Mandarin Chinese[J]. IEEE Transactions on Speech and Audio Processing, 2002, 10(7):481-494.
5DU S S. Research on robust automatic segmentation of dialectal speech[D]. Beijing:University of Chinese Academy of Sciences, 2006:15-26.
6HE K J. An automatic labeling system for broadcast news[D]. Beijing:Beijing University of Posts and Telecommunications, 2010:22-47.
7HAN H. Research and realization of the automatic syllable marking algorithm for Chinese continuous speech[D]. Harbin:Harbin Institute of Technology, 2008:21-44.
8LEE K S. MLP-based phone boundary refining for a TTS database[J]. IEEE Transactions on Audio, Speech and Language Processing, 2006, 14(3):981-989.
9BROGNAUX S, DRUGMAN T. HMM-based speech segmentation:improvements of fully automatic approaches[J]. IEEE Transactions on Audio, Speech and Language Processing, 2016, 24(1):5-15.
10廖文辉,刘炎.数据分析与SAS实验[M].北京:经济科学出版社,2010.

二级参考文献15

1蔡莲红,崔丹丹,蔡锐.汉语普通话语音合成语料库TH-CoSS的建设和分析[J].中文信息学报,2007,21(2):94-99. 被引量：12
2汤胜良,张士礼,张志平,吴玺宏,迟惠生.基于新闻联播语料库的语音合成系统//第八届全国人机语音通讯学术会议.北京,2005.
3王天庆,李爱军.连续汉语语音识别语料库的设计//第6届全国现代语音学学术会议.天津,2003.
4李爱军,殷治纲,王茂林,徐波,宗成庆.口语对话语音语料库CADCC和其语音研究//第5届现代语音学学术会议文集.北京,2001.
5Tao Jianhua, Yu Jian, Kang Yongguo. An expressive mandarin speech eorpus//Proceedings of the International Committee for the Co-ordination and Standardization of Speech Databases and Assessment Techniques. Bali Island, Indonesia, 2005.
6Wu Tian, Yang Yingchun, Wu Zhaohui, Li Dongdong. 2006 MASC: A speech corpus in mandarin for emotion analysis and affective speaker recognition//Proceedings of 2006 IEEE Odyssey--The Speaker and Language Recognition Workshop. San Juan, Puerto Rico, 2006.
7Chou Fu-Chiang, Tseng Chiu-Yu, Lee Lin-Shan. A set of corpus-based text-to-speech synthesis technologies for mandarin Chinese. IEEE Transactions on Speech and Audio Processing, 2002, 10(7): 481-494.
8Chou F C, Tseng C Y, Lee L S. Selection of waveform units for corpus-based mandarin speech synthesis based on decision trees and prosodic modification costs//Proceedings of the Eurospeech. Budapest, Hungary, 1999.
9Wang H C, Seide F, Tseng C Y, Lee L S. MAT-2000- Design, collection, and validation of a mandarin 2000-speaker telephone speech database//Proceedings of the 6th International Conference on Spoken Language Processing. Beijing, 2000.
10Tseng Chiu-Yu, Cheng Yun-Ching, Chang Chun-Hsiang. Siniea COSPRO and toolkit--Corpora and platform of mandarin Chinese fluent speech//Proceedings of the Oriental COCOSDA 2005. Jakarta, Indonesia, 2005.

共引文献12

1张小燕,宿建军,薛化建,王磊.维吾尔语语音识别语料库中的OOV研究[J].计算机工程与设计,2012,33(2):772-776. 被引量：4
2加雄伟,邢建兵,李朝霞.短信业务与语音信箱业务的融合方案探讨[J].信息通信技术,2012,6(6):40-44.
3王大鹏.车载语音导航系统的语音语料库构建探究[J].电子测试,2013(4):4-6.
4姚廷富,尚兴慧,吴宗显.两因素等重复试验的数据分析及其SAS程序实现[J].贵阳学院学报（自然科学版）,2013,8(3):1-4. 被引量：1
5林小平,鲁青,郭伟,邓杰航,王超.一种SmartFusion FPGA的快速语音合成系统设计[J].广东工业大学学报,2014,31(2):43-48. 被引量：3
6才让卓玛,李永明,才智杰.藏语语音合成单元选择[J].软件学报,2015,26(6):1409-1420. 被引量：5
7莫仕勋,杨富淋,黄智博,李裕进.基于TTS引擎的厂站中央信号系统动态模拟仿真[J].实验室研究与探索,2015,34(5):83-85.
8翁省辉,陈韦澔,陈匡林.基于Leap Motion手语翻译器的设计与实现[J].现代电子技术,2015,38(24):114-117. 被引量：8
9张斌,全昌勤,任福继.语音合成方法和发展综述[J].小型微型计算机系统,2016,37(1):186-192. 被引量：28
10才让卓玛,才智杰.基于语料库的藏语语音合成单元选择算法[J].中文信息学报,2017,31(5):59-63. 被引量：2

同被引文献28

1金学成,汪增福.基于线性预测残差倒谱的基音周期检测[J].模式识别与人工智能,2008,21(1):104-110. 被引量：6
2党晓妍,魏旋,崔慧娟,唐昆.声码器清浊音判决算法优化[J].清华大学学报（自然科学版）,2008,48(7):1119-1122. 被引量：6
3陈君华.俄汉元音对比的新尝试[J].中国俄语教学,1997,0(1):55-57. 被引量：2
4段淑斐.一种利用多参数进行实时语音边界检测与音节分割算法[J].太原理工大学学报,2009,40(5):487-489. 被引量：1
5徐来娣.俄语音节理论研究与俄语音节切分优化方案[J].中国俄语教学,2009,28(4):69-72. 被引量：6
6张利平,冯宏伟,王艳.基于元音检测的汉语连续语音端点检测方法[J].计算机工程与应用,2010,46(27):114-116. 被引量：3
7潘峰,丁娜娜,吕鹏,申军伟.基于分形维的语音去噪与音节分割[J].计算机工程与应用,2011,47(14):131-133. 被引量：2
8张继勇,sp.cs.tsinghua.edu.cn,郑方,sp.cs.tsinghua.edu.cn,杜术,sp.cs.tsinghua.edu.cn,宋战江,sp.cs.tsinghua.edu.cn,徐明星,sp.cs.tsinghua.edu.cn.连续汉语语音识别中基于归并的音节切分自动机[J].软件学报,1999,10(11):1212-1215. 被引量：10
9赵芳丽.基于praat软件的俄语读音分析[J].计算机工程与应用,2012,48(11):133-136. 被引量：3
10鲁远耀,周妮,肖珂,叶青.强噪声环境下改进的语音端点检测算法[J].计算机应用,2014,34(5):1386-1390. 被引量：24

引证文献5

1张扬,赵晓群,王缔罡.基于时频二维能量特征的汉语音节切分方法[J].计算机应用,2016,36(11):3222-3228. 被引量：5
2王彤,易绵竹.基于元音检测的俄语语音音节端点检测[J].郑州大学学报（理学版）,2017,49(4):34-39.
3杨健,李振鹏,苏鹏.语音分割与端点检测研究综述[J].计算机应用,2020,40(1):1-7. 被引量：8
4李琦,张二华.连续汉语语音的自动切分研究[J].计算机与数字工程,2023,51(4):959-964.
5杨静.基于三维时空域的音符信号切分识别方法研究[J].科技通报,2019,35(9):119-122. 被引量：1

二级引证文献14

1王彤,易绵竹.基于元音检测的俄语语音音节端点检测[J].郑州大学学报（理学版）,2017,49(4):34-39.
2卓嘎,边巴旺堆.一种藏语连续语音声学特征参数提取算法研究[J].通信技术,2019,52(8):1865-1870. 被引量：2
3杨健,李振鹏,苏鹏.语音分割与端点检测研究综述[J].计算机应用,2020,40(1):1-7. 被引量：8
4赵至柔,邵玉斌,龙华,唐传林.基于能零比与峰谷点的汉语语音音节分割算法[J].电子测量技术,2020,43(6):174-178. 被引量：4
5秦颢,刘军,张宸.大豆碰撞声信号的预处理方法研究[J].科学技术创新,2020(29):11-13.
6王宇琛,张二华.汉语连续语音切分技术研究[J].计算机与数字工程,2020,48(8):1864-1869.
7袁骏毅,潘常青,沈晓冬,岑星星,宓林晖.智能语音识别在医技检查报告中的应用研究[J].中国医学装备,2020,17(11):98-101. 被引量：7
8宓林晖,袁骏毅,潘常青,沈晓冬.基于智能语音识别技术的医技报告交互系统的设计与应用[J].中国医疗设备,2021,36(2):92-95. 被引量：16
9占善华,张永平.一种公共法律服务智能语音数据管理系统的设计[J].电子技术与软件工程,2021(1):190-191.
10任瑞.基于音频特征的音乐音符智能切分识别方法[J].信息技术,2021,45(12):31-36. 被引量：2

1张扬,赵晓群,王缔罡.基于时频二维能量特征的汉语音节切分方法[J].计算机应用,2016,36(11):3222-3228. 被引量：5
2普建涛,王悦,陈文广,董士海.多通道用户界面原型系统Free VoiceCAD[J].计算机研究与发展,2003,40(9):1382-1388. 被引量：3
3恒超.拼音输入法从入门到精通——紫光华宇拼音v6全程图解教程(续)[J].电脑爱好者（普及版）,2008,0(3):34-37.
4荀恩东,蔡萌,李生,赵铁军.TDPSOLA文语转换技术和建立汉语音节单元库的研究[J].计算机科学,1998,25(6):66-69. 被引量：1
5滕虹,刘江,孙百瑜,贺东光.基于能量的汉语语音音节自动划分方法的研究[J].哈尔滨理工大学学报,1999,4(6):1-4.
6伊力亚尔.基于2-gram语言模型的哈萨克文语料库校对研究[J].伊犁师范学院学报（自然科学版）,2010,4(3):50-53. 被引量：1
7王兵,何世红.PC机扬声器发出汉语语音的方法[J].微电子学与计算机,1994,11(2):28-30.
8汤霖,黄建中,尹俊勋.基于语音知识的音节切分[J].中文信息学报,2010,24(4):91-95. 被引量：4
9陈军.微软拼音输入法2003技巧图解[J].电脑爱好者,2006,0(21):59-59.
10刘政怡,樊庆林,吴建国,李炜.基于输入法的通用存储结构[J].计算机工程与设计,2008,29(17):4554-4558.

计算机应用

2016年第5期

浏览历史

内容加载中请稍等...

基于音节时间长度高斯拟合的汉语音节切分方法被引量：5

参考文献13

二级参考文献15

共引文献12

同被引文献28

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于音节时间长度高斯拟合的汉语音节切分方法 被引量：5

参考文献13

二级参考文献15

共引文献12

同被引文献28

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于音节时间长度高斯拟合的汉语音节切分方法被引量：5