基于自适应阈值与基频检测的自发性口语音频分割算法

SPONTANEOUS ORAL SPEAKING AUDIO SEGMENTATION ALGORITHM BASED ON ADAPTIVE THRESHOLD AND PITCH DETECTION

下载PDF

导出

摘要为了去除自发性口语音频中静音和噪音段的干扰,提高语音识别率和解码识别效率,提出一种音频能量自适应阈值计算方法。针对实时自动口语评测应用,设计了能量阈值自适应系数,该方法将根据能量阈值自适应系数动态地给每个考生的个人单次所有考试音频计算匹配一个能量阈值,以避免阈值选择和硬门限判决造成的误检。在基于自适应能量阀值的音频切分后,加入了基频检测步骤,以判别切分后所得音频段是否为噪声,从而最终分离出纯净的口语音频部分。实验结果表明,该算法能有效准确地切分音频,且鲁棒性较强。 We present an audio energy adaptive threshold calculation method in order to remove the interference of silent and noisy segments in spontaneous oral speaking audio and to improve speech recognition rate and decoding efficiency.Aiming at the application of real-time automatic oral speaking evaluation,we design the energy threshold adaptive coefficient.This method will dynamically calculate and match an energy threshold to all personal single examining audios for every examinee based on the energy threshold adaptive coefficient in order to avoid the detection errors due to threshold selection and hard threshold judging.The pitch detection procedure is added after the audio segmentation based on adaptive energy threshold for estimating whether the segmented audio segments are noises,so that the pure audio components of oral speaking are separated finally.Experimental results show that the proposed algorithm can effectively segment audio,and is quite robust as well.

作者廖伟袁纵横

机构地区桂林电子科技大学电子工程与自动化学院

出处《计算机应用与软件》 CSCD 2015年第4期133-136,159,共5页 Computer Applications and Software

基金贵州省科技厅贵州民族学院科技联合基金(黔科合J字LKM[2011]10号) 贵州省科技厅项目(黔科合字[2009]2126号)

关键词自发性口语评测自适应性音频切分基频检测 Spontaneous oral speaking evaluation Adaptivity Audio segmentation Pitch detection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Xie Shasha, Evanini K, Zechner K. Exploring content features for auto- mated speech scoring[ J ]. Proceedings of the NAACL-HLT, Montreal, 2012:103 -111.
2Franco H, Neumeyer L, Yoon Kim, et al. Automatic Pronuneiation Sco- ring for Language Instruction [ C ]. IEEE International Conference on A- coustics, Speech, and Signal Processing, 1997,2 : 1471 - 1474.
3张一彬,周杰,边肇祺,张大鹏.一种新的基于分类的音频流分割方法[J].电子学报,2006,34(4):612-617. 被引量：10
4张玉珍,夏肇霖,王建宇,戴跃伟.基于音频和文本融合的广告单元分割[J].南京理工大学学报,2012,36(3):396-401. 被引量：3
5生龙,张洪斌.二型模糊系统在音频信号分类中的应用[J].电子科技大学学报,2013,42(3):436-441. 被引量：2
6王恩成,苏腾芳,袁开国,伍淳华,王玉庆.哼唱检索中联合音高与能量的音符切分算法[J].计算机工程,2012,38(9):4-7. 被引量：3
7郑玉婷,张文俊,韩彪.一种适用于非特定哼唱方式的起音点检测算法[J].计算机工程,2012,38(10):250-252. 被引量：1
8吕国云,蒋冬梅,蒋晓悦,赵荣椿,侯云舒,孙阿利,H.Sahli,W.Verhelst.基于动态贝叶斯网络的音视频连续语音识别和音素切分[J].计算机应用,2007,27(7):1670-1673. 被引量：2
9郑继明,张萍.基于小波变换的音频分割[J].计算机工程与应用,2011,47(7):139-142. 被引量：2
10刘秉权,徐帅,李相前.双阈值的特定英语音频句子边界检测[J].哈尔滨工业大学学报,2010,42(2):259-263. 被引量：2

二级参考文献78

1彭培华,曲波,陈荣胜.基于支持向量机的小波域视频字幕检测与提取[J].华南理工大学学报（自然科学版）,2004,32(z1):63-66. 被引量：4
2程文刚,须德,郎丛妍.一种有效的视频场景检测方法[J].中国图象图形学报（A辑）,2004,9(8):984-990. 被引量：6
3张东波,王耀南.FCM聚类算法和粗糙集在医疗图像分割中的应用[J].仪器仪表学报,2006,27(12):1683-1687. 被引量：32
4吕萍,颜永红.广播新闻语料识别中的自动分段和分类算法[J].电子与信息学报,2006,28(12):2292-2295. 被引量：2
5张亮,朱振峰,赵耀,卢汉清.基于镜头的鲁棒视频广告检测[J].智能系统学报,2007,2(2):83-88. 被引量：6
6赵亚琴,周献中,何新.一种层次的电影视频摘要生成方法[J].中国图象图形学报,2007,12(8):1412-1417. 被引量：5
7SHRIBERG E, STOLCKE A. Prosody-based automatic segmentation of speech into sentences and topics [ J ]. Speech Communication, 2000, 32(1/2) : 127 - 154.
8SHRIBERG E, STOLCKE A, BARON D. Can prosody aid the automatic processing of multi-party.jneetings? evidence from predicting punctuation, disfluencies, and overlapping speech [ C]//Proc ISCA Tutorial and Research Workshop on Prosody in Speech Recognition and Understanding. [s. n. ] : [s. l. ], 2002:139 -146.
9ZECHNER K. Automatic generation of concise summaries of spoken dialogues in unrestricted domains [ C ]// Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2001 : 199 -207.
10PFEtFFER S. Pause concepts for audio segmentation at different semantic levels [ C ]//Proceedings of the Ninth ACM International Conference on Multimedia. New York: ACM, 2001 : 187 - 193.

共引文献17

1王志明,周序生.基于定长窗分层检测的音频分割算法[J].中小企业管理与科技,2009(21):296-297.
2王志明,张瑞杰,李弼程.基于分层熵检测的音频分割算法[J].科学技术与工程,2009,9(17):5012-5016. 被引量：1
3王志明,周序生.基于定长窗分层检测的音频分割算法[J].计算机仿真,2009,26(9):350-354. 被引量：1
4王志明.一种有效的音频分割算法[J].湖南理工学院学报（自然科学版）,2009,22(3):37-40. 被引量：3
5张瑞杰,李弼程,屈丹.基于可信度变化趋势的音频分割算法[J].计算机工程,2010,36(8):177-179. 被引量：3
6李昌莲,余小清,许雪琼,万旺根.低信噪比环境下基于PR的音频分割[J].计算机仿真,2010,27(6):354-357.
7蒋盛益,李霞,李碧,王连喜.音乐情感自动分析研究[J].计算机工程与设计,2010,31(18):4112-4115. 被引量：8
8冯宏伟,薛蕾.基于HMM和新型前馈型神经网络的语音识别研究[J].计算机工程与设计,2010,31(24):5324-5327. 被引量：6
9芮瑞,鲍长春.基于非线性动力学的乐器分类方法[J].电子学报,2012,40(7):1481-1488. 被引量：2
10黄强,吴一波,何飞,纪震.基于衰减因子的虚拟环绕系统听音区扩大方法[J].电子学报,2012,40(11):2342-2345.

1杨帅,宋刚.对含噪语音进行基频检测的方法[J].计算机工程与应用,2009,45(31):128-129.
2刘秉权,徐帅,李相前.双阈值的特定英语音频句子边界检测[J].哈尔滨工业大学学报,2010,42(2):259-263. 被引量：2
3宋阳,王岚.一种自发性口语评测文本语义相似度评分特征提取方法[J].集成技术,2013,2(1):29-34.
4张晓朋.基于声卡的新型虚拟钢琴调音仪设计[J].电子科技,2016,29(11):86-89.
5云知声和暴风魔镜合作语音+VR技术引领在线教育革新[J].电脑与电信,2015,0(8):16-17.
6李萍.2013年高考英语模拟试题(一)[J].山西教育（招生考试）,2013(5):58-68.
7华烨.2013年高考英语模拟试题(二)[J].山西教育（招生考试）,2013(5):69-78.
8陈艳丽.2013年高考英语模拟试题(三)[J].山西教育（招生考试）,2013(5):79-88.
9洪源,殷丹丹.浅谈智能语音技术在自适应语控智能会议室中的应用与价值[J].智能建筑,2016(12):35-36. 被引量：4
10梁敏,张科,张文峦.基于快速Level Set的红外图像分割方法[J].计算机应用,2007,27(1):163-165.

计算机应用与软件

2015年第4期

浏览历史

内容加载中请稍等...

基于自适应阈值与基频检测的自发性口语音频分割算法

参考文献11

二级参考文献78

共引文献17

相关作者

相关机构

相关主题

浏览历史