基于熵函数的耳语音声韵分割法被引量：34

Entropy-based initial/final segmentation for Chinese whiskered speech

导出

摘要耳语音声韵分割是耳语音识别和转换的前期工作。由于耳语发音不同于正常音,一般用于正常音的声韵分割法对耳语音不再适用。通过分析耳语音的发音及声学特点,利用宽带语谱图的声韵变化规律,提出了适用于耳语音的信息熵端点检测法,以及相对熵、音长和谱重心相结合的声韵分割法。并对两组信噪比为2-10 dB的380个汉语单音节耳语音进行声韵分割,女声的正确率为87.9％,男声的正确率为90.3％,高于频域法、聚类法和谱平坦度声韵分割法。实验表明,相对熵法可做为耳语音识别和转换的预处理,它改善了汉语耳语音转换为正常音的音质。 The Initial/Final(IF) segmentation of whispered speech is the pre-processing in the whispered speech recognition and the reconstruction of normal speech from whisper. However, because the whispered initials and finals are all unvoiced, it is difficult to segment them by the methods used in the normal speech. With tile characteristics analysis of Chinese whispered speech, a new segmentation method is proposed. The speech endpoint is detected by the entropy function, and the initial/final boundary is obtained by the decision of the initial duration, the symmetric relative entropy and the normalized spectral center of gravity. The correct segmentation rates are 87.9% for the female data and 90.3% for the male data in the test with 380 Chinese whispered syllables at 2-10 dB SNR. It is more accuracy than the frequency domain method, the clustering method and the spectral flatness method. As shown in the experiments, this algorithm can be used as pre-processing in the whispered speech recognition and the conversion. It gives the reconstructed speech a more natural quality.

作者栗学丽丁慧徐柏龄

机构地区南京大学声学所近代声学国家重点实验室

出处《声学学报》 EI CSCD 北大核心 2005年第1期69-75,共7页 Acta Acustica

基金国家自然科学基金资助项目(60272037)

关键词语音识别声韵汉语发音单音节音长转换端点检测音质平坦度

分类号 O421 [理学—声学]

引文网络
相关文献

参考文献13

1齐士钤张家禄.汉语普通话辅音音长分析[J].声学学报,1982,(1):8-13.
2曹剑芬.现代语音基础知识[M].北京:人民教育出版社,1990..
3朱维彬,张家.汉语语音资料库的语音学标记及人工切分[J].声学学报,1999,24(3):225-235. 被引量：11
4陈韬,李昌立,莫福源.汉语孤立字全音节实时识别系统[J].声学学报,1993,18(3):161-171. 被引量：4
5潘凌云,孙达传,吴美朝.语音识别中基于语谱图的语音音素分割方法[J].杭州大学学报（自然科学版）,1995,22(1):42-46. 被引量：7
6丁慧,栗学丽,徐柏龄.基于听觉模型的耳语音的声韵切分[J].应用声学,2004,23(2):20-25. 被引量：8
7Taisuke Itoh, Kazuya Takeda and Fumitada Itakura.Acoustic analysis and recognition of whispered speech. In:Proc. ICASSP, Orlando, Florida, USA, 2002:389-392.
8Robert W. Morris, Mark A. Clements. Reconstruction of speech from whispers. Medical Engineering ~ Physics,2002; 24(8): 515-520.
9Higashikawa M, Nakai K, Sakakura A, Takahashi H. Perceived pitch of whispered vowels-relationship with formant frequencies: a preliminary study. Journal of Voice,1996; 10(2): 155-158.
10Izmirli O. Using a spectral flatness based feature for audio segmentation and retrieval. In: Proc. International Symposium on Music Information Retrieval, Plymouth, USA,2000:100-101.

二级参考文献18

1赵鹤呜,周旭东.一种新的听觉感知模型[J].电子科学学刊,1994,16(5):513-517. 被引量：4
2秦勇.汉语超大词汇语音识别系统的研究与实现.中国科学院声学研究所博士论文[M].,1996..
3Fant G 张家lu等（译）.言语科学与言语技术[M].北京:商务印书馆,1994..
4陈韬，1990年
5陈永彬，语言信号处理，1990年
6吴宗济，实验语音学概要，1989年
7张家禄，J Chin Lingustics，1982年，10卷，190页
8张家禄，心理学报，1981年，1卷，76页
9初敏.高清晰度高自然度汉语文语转换系统的研究.中国科学院声学研究所博士论文[M].,1995..
10Zhu Weibin，Proc CJSLP’97，1997年，67页

共引文献42

1吴治国,刘玉宇,王作英.基于段长分布的HMM的资源受限语音识别系统[J].计算机应用,2003,23(z2):316-318.
2范金武.汉语辅音实验研究述评[J].文教资料,2007(34):203-205.
3冉启斌,石锋.普通话单音节中爆发音的VOT分析[J].南开语言学刊,2007(2):21-31. 被引量：16
4田昊,张道行.人工耳蜗的言语编码方案与汉语声母语谱特点[J].中国听力语言康复科学杂志,2005,34(1):25-27. 被引量：4
5周秋原.语音失误的音位学性质与对策[J].孝感学院学报,2005,25(2):37-39.
6马毛朋.陕西西安方言单字音声调声学实验研究[J].延安大学学报（社会科学版）,2005,27(4):110-112. 被引量：7
7王连军,张保轩.一种快速提取基音周期的新方法[J].山东电子,1995(2):20-21. 被引量：1
8刘映杰,马义德,刘悦,袁敏,段磊.连续汉语音流中声韵母切分研究[J].甘肃科学学报,2005,17(3):90-93. 被引量：1
9张家騄.汉语普通话区别特征系统[J].声学学报,2005,30(6):506-514. 被引量：26
10彭圆,王晟,王科俊,李雪耀,林良骥,林正青,王建文.感知线性预测在水下目标分类中的应用研究[J].声学学报,2006,31(2):146-150. 被引量：16

同被引文献292

1刘红星,戴蓓蒨,陆伟.基于共振峰谐波能量的语音端点检测[J].清华大学学报（自然科学版）,2008,48(S1):754-759. 被引量：11
2李胜利,陈秀兰,文华轩.中孕期胎儿各种唇腭裂的产前超声诊断思维方法[J].中华医学超声杂志（电子版）,2013,10(4):258-262. 被引量：11
3杨顺安.五度字调模型在合成汉语语音中的应用[J].方言,1987,9(2):142-147. 被引量：4
4汤霖,尹俊勋,粟志昂,赖国庭.基于两级BP模型的普通话声调识别系统[J].计算机工程与应用,2004,40(25):96-99. 被引量：8
5陈韬,李昌立,莫福源.汉语孤立字全音节实时识别系统[J].声学学报,1993,18(3):161-171. 被引量：4
6黄海.扬声器非线性特性的Hilbert-Huang变换分析[J].浙江大学学报（工学版）,2005,39(3):385-391. 被引量：7
7邝航宇,张军,韦岗.一种基于检测元音的孤立词端点检测算法[J].电声技术,2005,29(3):40-43. 被引量：5
8陈振标,徐波.基于子带能量特征的最优化语音端点检测算法研究[J].声学学报,2005,30(2):171-176. 被引量：22
9王志明,蔡莲红,艾海舟.基于数据驱动方法的汉语文本-可视语音合成(英文)[J].软件学报,2005,16(6):1054-1063. 被引量：16
10杨莉莉,李燕,徐柏龄.汉语耳语音库的建立与听觉实验研究[J].南京大学学报（自然科学版）,2005,41(3):311-317. 被引量：13

引证文献34

1茹婷婷,谢湘.耳语音数据库的设计与采集[J].清华大学学报（自然科学版）,2008,48(S1):725-729. 被引量：2
2LIXueli,XUBoling.Tone features in whispered Chinese[J].Progress in Natural Science:Materials International,2005,15(3):285-288. 被引量：5
3杨莉莉,李燕,徐柏龄.汉语耳语音库的建立与听觉实验研究[J].南京大学学报（自然科学版）,2005,41(3):311-317. 被引量：13
4林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：22
5樊星,卢晶,徐柏龄.汉语耳语音转换为正常音的研究[J].电声技术,2005,29(12):44-47. 被引量：11
6杨莉莉,林玮,徐柏龄.汉语耳语音孤立字识别研究[J].应用声学,2006,25(3):187-192. 被引量：8
7国雁萌,付强,颜永红.复杂噪声环境中的语音端点检测[J].声学学报,2006,31(6):549-554. 被引量：16
8王欢良,韩纪庆,李海峰.基于特征似然度加权和维数缩减的Robust语音端点检测[J].声学学报,2007,32(1):62-68. 被引量：7
9GUO Yanmeng FU Qiang YAN Yonghong.Speech endpoint detection in real noise environments[J].Chinese Journal of Acoustics,2007,26(1):39-48. 被引量：5
10钱博,李燕萍,唐振民,徐利敏.基于频域能量分布分析的自适应元音帧提取算法[J].电子学报,2007,35(2):279-282. 被引量：7

二级引证文献149

1高桥,张二华.基于基音周期轨迹的连续汉语语音切分技术研究[J].计算机与数字工程,2023,51(1):163-167.
2茹婷婷,谢湘.耳语音数据库的设计与采集[J].清华大学学报（自然科学版）,2008,48(S1):725-729. 被引量：2
3林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：22
4LIN Wei YANG Lili XU Boling.A new frequency scale of Chinese whispered speech in the application of speaker identification[J].Progress in Natural Science:Materials International,2006,16(10):1072-1078. 被引量：5
5徐敏,赵鹤鸣,陈雪勤,潘欣裕.基于OSF的汉语耳语音的端点检测[J].苏州大学学报（工科版）,2007,27(3):1-4. 被引量：1
6孙静,陶智,顾济华,赵鹤鸣.基于AD神经网络的耳语音增强的研究[J].计算机工程与应用,2007,43(29):242-244. 被引量：2
7荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
8刘辉,杨俊安,许学忠.基于MFCC参数和HMM的低空目标声识别方法研究[J].弹箭与制导学报,2007,27(5):217-219. 被引量：20
9孙静,陶智,顾济华,赵鹤鸣.基于LMS自适应滤波的耳语音增强的研究[J].通信技术,2007,40(12):394-396. 被引量：7
10潘欣裕,赵鹤鸣,陈雪勤,徐敏.基于EMD拟合特征的耳语音端点检测[J].电子与信息学报,2008,30(2):362-366. 被引量：6

1张延平,陈锡先,蔡长年.一种新的全汉语单音节语音识别算法[J].信号处理,1992,8(3):143-151.
2曹洪.一种新型汉语单音节识别方法[J].清华大学学报（自然科学版）,1990,30(4):87-92.
3赵春霞,徐近霈.一种汉语单音节基音提取与声调识别方法[J].应用声学,1990,9(3):31-37. 被引量：3
4谈雪丹,顾济华,赵鹤鸣,陶智,沈圆圆.基于HHT瞬时能频值的含噪耳语音声韵分割[J].通信技术,2010,43(6):207-209. 被引量：1
5樊星,卢晶,徐柏龄.汉语耳语音转换为正常音的研究[J].电声技术,2005,29(12):44-47. 被引量：11
6声韵：数字化[J].世界广播电视,2010,24(11):42-42.
7马晓毅,毛德行.一种汉语单音节粗分类方法[J].电子计算机与外部设备,1997,21(3):2-4.
8吴霁,侯伯亨.利用声韵过渡段特征的说话人识别实验及系统设计[J].西安电子科技大学学报,1993,20(3):10-17.
9韩德亮,于凤芹.一种对汉语孤立字词进行声韵分割的时频方法[J].计算机工程与应用,2012,48(16):153-156.
10王振东,黄鹤鸣.藏语单音节的语音端点检测[J].山东工业技术,2015(10):260-261. 被引量：1

声学学报

2005年第1期

浏览历史

内容加载中请稍等...

基于熵函数的耳语音声韵分割法被引量：34

参考文献13

二级参考文献18

共引文献42

同被引文献292

引证文献34

二级引证文献149

相关作者

相关机构

相关主题

浏览历史

基于熵函数的耳语音声韵分割法 被引量：34

参考文献13

二级参考文献18

共引文献42

同被引文献292

引证文献34

二级引证文献149

相关作者

相关机构

相关主题

浏览历史

基于熵函数的耳语音声韵分割法被引量：34