汉语耳语音库的建立与听觉实验研究被引量：13

The Establishment of a Chinese Whisper Database and Perceptual Experiment

下载PDF

导出

摘要　耳语音的识别和转换是个全新的课题,可应用于公共场合下的通讯和公安司法工作的某些特殊需要等方面.首先建立了一个包含1172个字和98个近音词的单人女声的汉语耳语音库.通过对两个听觉测试实验数据的统计分析,研究了人耳对汉语耳语音字和近音词声调的辨认率特征,得出人耳对孤立字四个声调的辨认率由高到低的排序为三声>四声>二声>一声.同时也得出人耳对词声调的辨认能力比字要强得多.幅值包络和音长这两个特征参量能够反映出汉语耳语音声调的特性,基于此参数对汉语耳语音字进行声调识别实验,其声调识别率已达到了人耳的平均辨认率,为连续耳语音声调识别研究打下了基础. <Abstrcat>Whispering is a special way of speaking to communicate message lowly or privately. The whispered speech recognition and the reconstruction of normal speech from whisper are needed for some specific purposes, such as the private speech communication by mobile phone in public or the speech processing for police or of military use. However, few research has been conducted in these fields and many problems remain unsolved. In this paper, a Chinese whisper database in preparation for future work on whispered speech processing is introduced. The database consists of 1 172 characters and 98 closed-tone words from a female. Based on this database two auditory perceptual tests were conducted to investigate the tonal identification features of single characters and closed-tone words in Chinese whispered speech. From the experimental results the following conclusions can be drawn: (1) Tone 3 has the highest human perception accuracy, followed by tone 4 and tone 2, and tone 1 is the hardest to identify. (2) Women have better auditory perception than men as far as whispered speech is concerned. (3) The accuracy of identifying the tones is decided largely by the duration of sound. For tone 2 and tone 3, the longer the duration is, the more accurate the identification will be. On the contrary, for the fourth tone, the shorter the duration is, the more accurate the identification will be. (4) For human ears, it is easier to distinguish Chinese words of similar pronunciation with variation of the first character than to distinguish those with variation of the last character. (5) The human perception of words in whispered speech is more efficient than that of single characters. Because there is no fundamental frequency in the whispered speech, other features should be found to represent the tones. It is conjectured that the amplitude contour and duration can be used as the tone feature parameters in the Chinese whispered tone recognition. Another experiment is designed to validate this. The results show that the average tone recognition rates of characters by computer are at the same level as that of human perception. This forms the foundation for future tone study of continuous whispered speech.

作者杨莉莉李燕徐柏龄

机构地区南京大学声学所近代声学国家重点实验室

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2005年第3期311-317,共7页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金项目(60272037 60340420325)

关键词耳语音声调辨认率幅值包络音长声调识别 whisper ,tone, human perception, amplitude contour,duration,tone recognition

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1黄金才,陈文伟,赵侠,黄宏斌,张维明,邓苏.基于高维空间划分的神经网络分类学习模型[J].南京大学学报（自然科学版）,2003,39(2):194-204. 被引量：3
2栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
3栗学丽,徐柏龄.混响声场中语音识别方法研究[J].南京大学学报（自然科学版）,2003,39(4):525-531. 被引量：9
4沙丹青,栗学丽,徐柏龄.耳语音声调特征的研究[J].电声技术,2003,27(11):4-7. 被引量：21
5于华.耳语不利于声嘶治疗与嗓音恢复[J].中央民族大学学报（自然科学版）,1996,5(2):69-72. 被引量：5

二级参考文献27

1陈韬,李昌立,莫福源.汉语孤立字全音节实时识别系统[J].声学学报,1993,18(3):161-171. 被引量：4
2潘凌云,孙达传,吴美朝.语音识别中基于语谱图的语音音素分割方法[J].杭州大学学报（自然科学版）,1995,22(1):42-46. 被引量：7
3张铃,吴福朝,张钹,韩玫.多层前馈神经网络的学习和综合算法[J].软件学报,1995,6(7):440-448. 被引量：33
4齐士钤张家禄.汉语普通话辅音音长分析[J].声学学报,1982,(1):8-13.
5曹剑芬.现代语音基础知识[M].北京:人民教育出版社,1990..
6徐秉铮张百灵等.神经网络理论与应用[M].广州:华南理工大学出版社,1995..
7Taisuke Itoh, Kazuya Takeda, Fumitada Itakura. Acoustic Analysis and Recognition of Whispered Speech[J]. ICASSP,2002: 389-392.
8Robert W. Morris, Mark A. Clements. Reconstruction of Speech from Whispers [J]. Medical Engineering & Physics, 200'2,24: 515-520.
9Qian-Jie Fu,Fan-Gang Zeng. Identification of Temporal Envelope Cues in Chinese Tone Recognition [J]. Asia Pacific Journal of Speech, Language and Hearing,2000,(5) :45-57.
10Man Gao. Tones in Whispered Chinese:Articulatory and PerceptualCues. [Master], University of Victoria,2002.

共引文献57

1李晗菲,冯燕,孟亚茹,彭刚.能量包络和音长对普通话声调感知的影响[J].中国语音学报,2019(1):49-59. 被引量：1
2茹婷婷,谢湘.耳语音数据库的设计与采集[J].清华大学学报（自然科学版）,2008,48(S1):725-729. 被引量：2
3LIXueli,XUBoling.Tone features in whispered Chinese[J].Progress in Natural Science:Materials International,2005,15(3):285-288. 被引量：5
4林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：22
5宋益丹.汉语声调实验研究回望[J].语文研究,2006(1):41-45. 被引量：17
6樊星,卢晶,徐柏龄.汉语耳语音转换为正常音的研究[J].电声技术,2005,29(12):44-47. 被引量：11
7杨莉莉,林玮,徐柏龄.汉语耳语音孤立字识别研究[J].应用声学,2006,25(3):187-192. 被引量：8
8孙冰,宫宁生,朱梧槚.基于覆盖的神经网络集成在语音识别中的应用[J].南京大学学报（自然科学版）,2006,42(3):331-336. 被引量：3
9国雁萌,付强,颜永红.复杂噪声环境中的语音端点检测[J].声学学报,2006,31(6):549-554. 被引量：16
10王欢良,韩纪庆,李海峰.基于特征似然度加权和维数缩减的Robust语音端点检测[J].声学学报,2007,32(1):62-68. 被引量：7

同被引文献134

1栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
2韦岗,陆以勤,欧阳景正.混沌、分形理论与语音信号处理[J].电子学报,1996,24(1):34-39. 被引量：33
3周洁,赵力,邹采荣.情感语音合成的研究[J].电声技术,2005,29(10):57-59. 被引量：10
4林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：22
5樊星,卢晶,徐柏龄.汉语耳语音转换为正常音的研究[J].电声技术,2005,29(12):44-47. 被引量：11
6杨莉莉,林玮,徐柏龄.汉语耳语音孤立字识别研究[J].应用声学,2006,25(3):187-192. 被引量：8
7韩纪庆,邵艳秋.基于语音信号的情感处理研究进展[J].电声技术,2006,30(5):58-62. 被引量：11
8LIN Wei YANG Lili XU Boling.A new frequency scale of Chinese whispered speech in the application of speaker identification[J].Progress in Natural Science:Materials International,2006,16(10):1072-1078. 被引量：5
9寇晓丽,刘三阳.基于模拟退火的粒子群算法求解约束优化问题[J].吉林大学学报（工学版）,2007,37(1):136-140. 被引量：28
10董滨,赵庆卫,颜永红.基于共振峰模式的汉语普通话中韵母发音水平客观测试方法的研究[J].声学学报,2007,32(2):122-128. 被引量：16

引证文献13

1茹婷婷,谢湘.耳语音数据库的设计与采集[J].清华大学学报（自然科学版）,2008,48(S1):725-729. 被引量：2
2林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报（自然科学版）,2006,42(1):54-62. 被引量：22
3荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
4潘欣裕,赵鹤鸣,陈雪勤,徐敏.基于EMD拟合特征的耳语音端点检测[J].电子与信息学报,2008,30(2):362-366. 被引量：6
5荣薇,陶智,顾济华,赵鹤鸣.基于概率神经网络的汉语耳语音识别系统[J].计算机工程与应用,2008,44(17):148-150. 被引量：3
6赵艳,赵力,邹采荣.耳语音的语音处理研究综述[J].声学技术,2008,27(4):562-569. 被引量：4
7金赟,赵艳,黄程韦,赵力.耳语音情感数据库的设计与建立[J].声学技术,2010,29(1):63-68. 被引量：8
8蒋庆斌,包永强,王浩,赵力.基于改进GMM的耳语语音情感识别方法研究[J].计算机应用与软件,2012,29(11):73-74. 被引量：3
9黄程韦,金赟,包永强,余华,赵力.嵌入马尔可夫网络的多尺度判决融合耳语音情感识别[J].信号处理,2013,29(1):98-106. 被引量：4
10杨彦,王浩,赵力.基于改进混合蛙跳算法及SVM的耳语情感语音识别方法的DSP实现[J].电子器件,2012,35(6):699-703.

二级引证文献66

1徐敏,赵鹤鸣,陈雪勤,潘欣裕.基于OSF的汉语耳语音的端点检测[J].苏州大学学报（工科版）,2007,27(3):1-4. 被引量：1
2荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
3刘辉,杨俊安,许学忠.基于MFCC参数和HMM的低空目标声识别方法研究[J].弹箭与制导学报,2007,27(5):217-219. 被引量：20
4王蓁蓁,邢汉承,张志政,倪庆剑.模拟人类发散思维的测度值马尔可夫理论模型[J].南京大学学报（自然科学版）,2008,44(2):148-156. 被引量：1
5荣薇,陶智,顾济华,赵鹤鸣.基于概率神经网络的汉语耳语音识别系统[J].计算机工程与应用,2008,44(17):148-150. 被引量：3
6赵艳,赵力,邹采荣.耳语音的语音处理研究综述[J].声学技术,2008,27(4):562-569. 被引量：4
7李志忠,滕光辉.基于改进MFCC的家禽发声特征提取方法[J].农业工程学报,2008,24(11):202-205. 被引量：24
8刘建,鲁五一.基于频率掩蔽滤波的MFCC特征参数提取算法[J].仪器仪表用户,2009,16(2):120-122.
9陆伟,戴蓓蒨,李辉,刘青松.MFCC中的基音频率信息对说话人识别系统性能的影响[J].中国科学技术大学学报,2009,39(8):859-863. 被引量：11
10丁国梁.基于修正MFCC的耳语说话人识别方法[J].苏州大学学报（工科版）,2009,29(4):59-64.

1荣薇,陶智,顾济华,赵鹤鸣.基于概率神经网络的汉语耳语音识别系统[J].计算机工程与应用,2008,44(17):148-150. 被引量：3
2王岚生,胡葵铭.用先进视讯技术实现高效快捷的司法工作——北京市法院电视会议系统[J].数据通信,2002(2):42-43.
3王岚生,胡葵铭.用先进视频技术实现高效快捷的司法工作[J].计算机网络世界,2002,11(7):75-76.
4感文.电话铃响三声[J].中国西部科技,2005(01B):48-48.
5杨莉莉,林玮,徐柏龄.汉语耳语音孤立字识别研究[J].应用声学,2006,25(3):187-192. 被引量：8
6黄泽镇,杨行峻.普通话孤立字四声的一种模式识别方法[J].声学学报,1990,15(1):36-43. 被引量：7
7沙丹青,栗学丽,徐柏龄.耳语音声调特征的研究[J].电声技术,2003,27(11):4-7. 被引量：21
8荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
9董桂官,沈勇.基于耳语频谱比较的话者识别方法[J].电声技术,2011,35(4):51-52. 被引量：1
10李聪,徐洪青,常梅.基于混叠滤波方式的假目标干扰效果研究[J].航天电子对抗,2015,31(6):54-58.

南京大学学报（自然科学版）

2005年第3期

浏览历史

内容加载中请稍等...

汉语耳语音库的建立与听觉实验研究被引量：13

参考文献5

二级参考文献27

共引文献57

同被引文献134

引证文献13

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

汉语耳语音库的建立与听觉实验研究 被引量：13

参考文献5

二级参考文献27

共引文献57

同被引文献134

引证文献13

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

汉语耳语音库的建立与听觉实验研究被引量：13