基于二维非负矩阵分解的1kb/s WI语音编码算法被引量：3

1kb/s Waveform Interpolative Speech Coding Based on Two-Dimensional Nonnegative Matrix Factorization

下载PDF

导出

摘要本文针对波形内插(WI)语音编码模型和参数量化等技术进行了研究,并最终提出了一种基于二维非负矩阵分解的1kb/s波形内插(2DNMF-WI)语音编码算法.文中采用二维非负矩阵分解(2D-NMF)方法来分解语音特征波形(CW),该分解方法在行和列两个方向上同时压缩CW幅度谱矩阵的维数,使得CW幅度谱矩阵降维后得到的编码矩阵维数较小,易于量化.此外,在甚低速率语音编码中,由于没有足够的比特数来描述编码参数,往往很难得到高质量的合成语音.本算法采用两帧联合编码、帧间后向预测三级矢量量化、离散余弦变换(DCT)和分裂式矩阵量化等技术来降低编码速率和改善音质.非正式主观听觉测试显示,1kb/s 2DNMF-WI编码器合成语音的质量稍差于2kb/s的NMF-WI语音编码算法. This paper is focused on the model of waveform interpolation（WI） and its parameters quantization,then a waveform interpolation speech coding algorithm based on two-dimensional nonnegative matrix factorization at 1kb/s is presented.This method makes the dimensions of CW magnitude matrix much lower in columns and rows,so it is convenient for quantizing the coding matrix.In addition,speech coders at very low bit rates can hardly get good performance,for there are no sufficient bits to express these coding parameters.Then two-frame joint,inter-frame backward prediction three-stage vector quantization,discrete cosine transform（DCT） and split matrix quantization techniques are promoted in this paper,in order to reduce the speech coding bit rates as well as to improve the quality of the speech.The results of informal subjective listening test show that the performance of 1kb/s 2DNMF-WI coder is a little worse than that of 2kb/s NMF-WI coder.

作者薛二娟鲍长春李如玮

机构地区北京工业大学电子信息与控制工程学院语音与音频信号处理研究室

出处《电子学报》 EI CAS CSCD 北大核心 2010年第7期1574-1579,共6页 Acta Electronica Sinica

基金北京市教委科技发展计划(No.KM200710005001) 国家自然科学基金(No.60372063) 北京市自然科学基金(No.4042009) 北京市属高校人才强教计划

关键词语音编码波形内插特征波形二维非负矩阵分解两帧联合 speech coding waveform interpolation characteristic waveform two-dimensional nonnegative matrix factorization two-frame joint

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献21

1鲍长春.数字语音编码原理[M].西安:西安电子科技大学出版社,2007.
2W B Kleijn,Haagen J.Waveform Interpolation for Coding and Synthesis.Speech coding and Synthesis[M].Holland:Elsevier Science,1995.175-207.
3W B Kleijn,J Haagen.Transformation and decomposition of the speech signal for coding[J].IEEE signal processing letters,1994,1 (9):136-139.
4N R Chong,I S Burnett,J F Chicharo.Use of pitch synchor wavelet transform as a new decomposition method for WI[A].Proceeding of IEEE International Conferance on Acoustics,Speech,Signal Processing[C].Seattle,Wash,USA:IEEE,1998.513-516.
5J Lukasiak,I S Burnett.Scalable decomposition of speech waveforms[A].2002 IEEE Speech Coding Workshop Proceedings[C].Tsukuba City,Ibaraki,Japan:IEEE,2002.135-137.
6王贵平,鲍长春,张鹏.基于奇异值分解的低速率波形内插语音编码算法[J].电子学报,2006,34(1):135-140. 被引量：13
7张鹏,鲍长春.基于SVD的低复杂度语音特征波形分解方法[J].信号处理,2005,21(z1):160-163. 被引量：2
8张鹏,鲍长春,郭莉莉.基于非负矩阵分解的2kb/s波形内插语音编码算法[J].电子学报,2008,36(4):632-638. 被引量：5
9Peng Zhang,Changchun BAO.A novel 2kb/s waveform interpolation speech coder based on non-negative matrix factorization[A].Interspeech[C].Antwerp,Belgium:ICSA,2007.1661-1664.
10D D Lee,H S Seung.Learning the parts of objects by nonnegative matrix factorization[J].Nature,1999,401:788 -791.

二级参考文献79

1张鹏,鲍长春.基于SVD的低复杂度语音特征波形分解方法[J].信号处理,2005,21(z1):160-163. 被引量：2
2邹霞,陈亮,张雄伟.高质量鲁棒600BPS甚低速率语音编码算法[J].信号处理,2003,19(z1):109-112. 被引量：4
3李靓,鲍长春.波形内插语音编码器中快渐变波形幅度的量化[J].信号处理,2004,20(6):545-547. 被引量：1
4王贵平,鲍长春,张鹏.基于奇异值分解的低速率波形内插语音编码算法[J].电子学报,2006,34(1):135-140. 被引量：13
5齐峰岩,鲍长春.波形内插语音编码中特征波形表达和对齐快速算法[J].北京工业大学学报,2006,32(6):514-519. 被引量：3
6罗亚飞,鲍长春.基于DCT分带谱熵与信号分解的高精度基音检测算法[J].电子学报,2007,35(1):13-22. 被引量：5
7BAO Changchun LI Jing QI Fengyan.High Quality Waveform Coding at Interpolaton Speech 2kb/s[J].Chinese Journal of Electronics,2007,16(2):257-262. 被引量：1
8马尽文.有限混合体模型上的自动模型选择:一种崭新的数据建模方式(英文)[J].工程数学学报,2007,24(4):571-584. 被引量：1
9[2]KLEIJN W.B, HAAGEN J. A Speech Coder Based on Decomposition of Characteristic Waveforms. Proc. IEEE Int.Conf. On Acoustics, Speech, Signal Processing. vo1.1,1995: pp.508～511
10[6]GUIPING WANG, CHANGCHUN BAO. Low Complexity Decomposition for the Characteristic Waveform of Speech Signal[J]. ISCSLP2004, Hong Kong. 2004. pp. 145-149.

共引文献68

1肖强,陈亮.改进的能量参数预测多级矢量量化算法[J].军事通信技术,2010,31(2):11-14.
2陈凤,刘宏伟,杜兰,保铮.基于特征谱散布特征的低分辨雷达目标分类方法[J].中国科学：信息科学,2010,40(4):624-636. 被引量：18
3崔化超,赵安邦,周彬,孙坤平,崔岩,李桂娟.水下双工语音通信系统的设计与实现[J].声学技术,2013,32(5):400-405. 被引量：1
4范睿,鲍长春,李锐.基于ACELP的嵌入式语音编码算法[J].通信学报,2007,28(10):48-54. 被引量：5
5徐明,陈知困,黄云森.基于FFT-ACF和候选值估计的基音周期提取方法[J].深圳大学学报（理工版）,2007,24(4):388-392. 被引量：2
6戚银城,张巍,苑津莎.超低速率MELP语音编码算法研究[J].声学技术,2007,26(6):1196-1200. 被引量：6
7张鹏,鲍长春,郭莉莉.基于非负矩阵分解的2kb/s波形内插语音编码算法[J].电子学报,2008,36(4):632-638. 被引量：5
8杜广超,杨凯,王胜涛.语音编码和图像编码比较研究[J].兵工自动化,2008,27(7):72-74. 被引量：1
9赵学智,叶邦彦.SVD和小波变换的信号处理效果相似性及其机理分析[J].电子学报,2008,36(8):1582-1589. 被引量：54
10时磊,尚秋峰,李健宇.语音压缩编码技术研究进展[J].声学技术,2008,27(4):553-556. 被引量：6

同被引文献48

1高兴斌,刘永坦.ISAR目标象的特征提取和特征选择[J].哈尔滨工业大学学报,1994,26(5):77-81. 被引量：6
2许人灿,刘朝军,黄小红,陈曾平.基于超分辨ISAR成像的空中目标自动识别[J].系统工程与电子技术,2006,28(1):46-48. 被引量：10
3高宏娟,潘晨.基于（2D）^2NMF及其改进算法的人脸识别[J].计算机应用,2007,27(7):1660-1662. 被引量：7
4鲍长春.数字语音编码原理[M].西安:西安电子科技大学出版社,2007.
5Toumi A,Hoeltzener B,Khenchaf A. Using watersheds segmentation on ISAR image for automatic target recognition[A].Lyon,France:IEEE,2007.285-290.
6Lin Bo,Yan Fengxia,Zhu Jubo. Feature extraction of 2D radar profile via double-sides 2DPCA for target recognition[A].Tianjin,China:IEEE,2009.1-5.
7Lee D D,Seung H S. Learning the parts of objects by non-negative matrix factorization[J].{H}NATURE,1999,(6755):788-791.
8Lin Chinjen. Projected gradient methods for non-negative matrix factorization[J].{H}Neural Computation,2007,(10):2756-2779.
9Zhang Daoqiang,Chen Songcan,Zhou Zhihua. Two-di-mensional non-negative matrix factorization for face representation and recognition[A].Beijing,China：Springer,2005.350-363.
10Kim K T,Seo D K,Kim H T. Efficient classification of ISAR images[J].{H}IEEE Transactions on Antennas and Propagation,2005,(05):1611-1621.

引证文献3

1王芳,盛卫星,马晓峰,王昊.基于B(2D)~2PGNMF的ISAR像目标识别[J].南京理工大学学报,2013,37(6):863-868. 被引量：2
2黄羿博,张秋余,袁占亭,杨仲平.融合MFCC和LPCC的语音感知哈希算法[J].华中科技大学学报（自然科学版）,2015,43(2):124-128. 被引量：15
3李晓明,鲍长春,贾懋珅.基于信号规整和稀疏变换的语音与音频分层编码方法[J].电子学报,2015,43(7):1286-1293.

二级引证文献17

1杨虹,张雅声,尹灿斌.空间目标的ISAR成像及轮廓特征提取[J].北京航空航天大学学报,2019,45(9):1765-1776. 被引量：3
2陶佰睿,郭琴,苗凤娟,李青龙.基于自适应Mel滤波器组的MFCC特征提取的SOC设计[J].郑州大学学报（工学版）,2016,37(3):11-15. 被引量：3
3张苏楠,王芳,阎高伟,田建艳,张振华.基于隐马尔科夫模型的猪只状态自动识别技术[J].黑龙江畜牧兽医,2016(11):97-99. 被引量：4
4张秋余,胡文进,乔思斌,张涛.基于LP-MMSE的高效语音感知哈希认证算法[J].华中科技大学学报（自然科学版）,2016,44(12):127-132. 被引量：1
5董胡.基于嵌入式语音识别的家用服务机器人控制系统[J].微型电脑应用,2017,33(4):15-19. 被引量：4
6张秋余,乔思斌,张涛,黄羿博.基于能零比的多格式音频感知哈希认证算法[J].华中科技大学学报（自然科学版）,2017,45(9):33-38. 被引量：2
7张秋余,张涛,吴东方,葛子贤.基于伪谐波模型的强鲁棒语音认证算法[J].华中科技大学学报（自然科学版）,2018,46(3):58-64.
8郝雯超,冯月芹,李春光,陈义.基于嵌入式平台的实用语音识别研究[J].电子器件,2018,41(1):110-114. 被引量：6
9黄英来,任田丽,赵鹏.VMD与PSO的乐器声音识别[J].哈尔滨理工大学学报,2018,23(2):6-11. 被引量：4
10周萍,沈昊,郑凯鹏.基于MFCC与GFCC混合特征参数的说话人识别[J].应用科学学报,2019,37(1):24-32. 被引量：42

1张焱,汤宝平,刘自然,陈仁祥.时频表示特征约简的旋转机械故障特征提取方法[J].振动工程学报,2015,28(1):156-163. 被引量：4
2李艳莉,田晓.基于积谱矩阵局部二值模式的欺骗干扰识别[J].电讯技术,2015,55(4):441-446. 被引量：7
3胡海波,任立伟,刘柏森.多种噪声环境下语音检测算法[J].黑龙江工程学院学报,2012,26(3):36-39.
4丛键,张知易.一种600bps极低速率语音编码算法[J].电子与信息学报,2007,29(2):429-433. 被引量：6
5张鹏,鲍长春.基于SVD的低复杂度语音特征波形分解方法[J].信号处理,2005,21(z1):160-163. 被引量：2
6王贵平,鲍长春,李靓.语音特征波形的分解与量化[J].电声技术,2005,29(1):50-54. 被引量：1
7崔慧娟,李晔,彭坦,王童,唐昆.0．6kb／s声码器能量参数的高效量化[J].清华大学学报（自然科学版）,2008,48(1):36-38. 被引量：3
8商晓燕,张雄伟,林龙,于坚.基于数据压缩的LSP参数高效量化算法[J].军事通信技术,2008(4):25-28.
9李文杰,杨涛,梅艳莹.基于协方差矩阵降维稀疏表示的二维波达方向估计[J].计算机应用,2016,36(8):2197-2201.
10李军林,崔慧娟,唐昆.极低速率语音编码中LSP参数的高效量化算法[J].清华大学学报（自然科学版）,2004,44(10):1422-1425. 被引量：4

电子学报

2010年第7期

浏览历史

内容加载中请稍等...

基于二维非负矩阵分解的1kb/s WI语音编码算法被引量：3

参考文献21

二级参考文献79

共引文献68

同被引文献48

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于二维非负矩阵分解的1kb/s WI语音编码算法 被引量：3

参考文献21

二级参考文献79

共引文献68

同被引文献48

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于二维非负矩阵分解的1kb/s WI语音编码算法被引量：3