基于信号规整和稀疏变换的语音与音频分层编码方法被引量：1

The Layered Coding of Speech and Audio Signals Based on Signal Warp and Sparse Transform

下载PDF

导出

摘要基于语音和音频信号的固有周期性特征,本文构建了一种适合语音和音频信号的统一分析/合成模型,并分别在24kbps和32kbps码率下,实现了对宽带语音和音频信号的高质量分层编码.首先,本文将具有时变周期的输入信号规整为具有固定周期的信号,并对规整后的周期信号构建规整矩阵;其次,对规整矩阵的行和列分别进行调制叠接变换(MLT)和离散余弦变换(DCT),完成规整矩阵的稀疏化;最后,利用分带量化和矢量哈夫曼编码完成稀疏矩阵元素的量化和编码.主客观测试结果表明,本文所提方法的语音、音频及其混合信号的编码质量均优于同等速率下的ITU-T G.722.1和AMR-WB编码器. Based on the periodic characteristics of speech and audio,a layered coding method by using uniform analysis and synthesis model is proposed in this paper. The constructed coder can perform equally well on speech and audio at the bit rates of 24 kbps and 32 kbps. First,the input signal which has time-varying period is warped into a constant period signal.Second,a sparse representation of the warped signal is achieved by applying the MLT and DCT on the warped matrix derived from the warped signal. Finally,the sub-band quantization and Huffman coding are applied on the transform coefficients. Both the objective PESQ / PEAQ results and the subjective A / B listening tests showthat the proposed coder outperforms the ITU-T G. 722. 1 and AMR-WB codec.

作者李晓明鲍长春贾懋珅

机构地区北京工业大学电子信息与控制工程学院语音与音频信号处理研究室

出处《电子学报》 EI CAS CSCD 北大核心 2015年第7期1286-1293,共8页 Acta Electronica Sinica

基金国家自然科学基金(No.61072089 No.61201197) 北京市教委科技计划面上项目(No.KM201310005008) 教育部博士学科点专项科研基金新教师基金(No.20121103120017) 北京工业大学第12届研究生科技基金(No.ykj-2013-9563)

关键词语音编码音频编码信号规整稀疏变换 speech coding audio coding signal warping sparse transform

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献23

1鲍长春.数字语音编码原理[M].西安:西安电子科技大学出版社,2007.
2Xiao-ming Li,Chang-chun Bao,W Bastiaan Kleijn.Speech coding based on pitch synchrony and two-stage transformation[A].Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP2013)[C].Vancouver,Canada:IEEE,2013.8159-8163.
3Takehiro Moriya.Technologies forspeech and audio coding[A].Proceedings of the IEEE International Symposium on Consumer Electronics[C].Kyoto,Japan:IEEE,2009.148-149.
4ITU-T G.729.1.An 8-32 kb/s Scalable Wideband Coder Bit-stream Interoperable with G.729[S].2006-05.
5贾懋珅,鲍长春.一种符合ITU-T指标要求的嵌入式立体声语音频编码方法[J].电子学报,2009,37(10):2291-2297. 被引量：2
6ITU-T G.718.Frame Error Robust Narrowband and Wideband Embedded Variable Bit-rate Coding of Speech and Audio from 8-32 kb/s[S].2008.
73GPP.TS 26.290 V6.3.0.Extended Adaptive Multi-Rate-Wideband(AMR-WB+)Codec[S].2005-6.
8H Malvar.Lapped transforms for efficient transform/subband coding[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1990,38(6):969-978.
9N Ahmed,T Natarajan,K R Rao.Discretecosine transform[J].IEEE Transactions on Computers,1974,C-23(1):90-93.
10刘靖宇,鲍长春,李如玮.基于离散余弦变换的波形内插语音编码算法[J].电子学报,2009,37(7):1599-1605. 被引量：4

二级参考文献54

1王贵平,鲍长春.低速率WI语音编码器中LP残差信号的SVD分解及量化[J].信号处理,2005,21(z1):156-159. 被引量：1
2张鹏,鲍长春.基于SVD的低复杂度语音特征波形分解方法[J].信号处理,2005,21(z1):160-163. 被引量：2
3贾懋珅,鲍长春,李锐,朱恒,刘泽新,范睿,李海婷.基于ACELP和TCX的嵌入式宽带语音编码器[J].清华大学学报（自然科学版）,2008,48(S1):741-747. 被引量：4
4宾清原,李双田.一种基于MELP的高质量的0.6Kb/s语音编码算法[J].电声技术,2004,28(10):36-40. 被引量：6
5朱娜娜,鲍长春,李靓.一种新的2kbit/s波形内插语音编码器[J].通信学报,2004,25(11):70-76. 被引量：2
6李靓,鲍长春,王贵平.波形内插语音编码技术回顾与展望[J].通信学报,2005,26(1):95-103. 被引量：2
7王贵平,鲍长春,李靓.语音特征波形的分解与量化[J].电声技术,2005,29(1):50-54. 被引量：1
8王贵平,鲍长春,张鹏.基于奇异值分解的低速率波形内插语音编码算法[J].电子学报,2006,34(1):135-140. 被引量：13
9李海婷,范睿,朱恒,刘泽新,鲍长春,贾懋珅,李锐.最新的ITU-T嵌入式变速率语音编码关键技术[J].电声技术,2006,30(11):50-55. 被引量：9
10罗亚飞,鲍长春.基于DCT分带谱熵与信号分解的高精度基音检测算法[J].电子学报,2007,35(1):13-22. 被引量：5

共引文献48

1王芳,盛卫星,马晓峰,王昊.基于B(2D)~2PGNMF的ISAR像目标识别[J].南京理工大学学报,2013,37(6):863-868. 被引量：2
2范睿,鲍长春,李锐.基于ACELP的嵌入式语音编码算法[J].通信学报,2007,28(10):48-54. 被引量：5
3侯红芳,张太镒.多带激励语音编码的实现[J].现代电子技术,2009,32(7):163-166.
4刘张宇,鲍长春,邱建伟,徐昊.3GPP AMR-NB与ITU-T G.729A语音编码标准技术的对比研究[J].电声技术,2009,33(4):56-61. 被引量：2
5邱建伟,鲍长春,徐昊,刘张宇.基于CELP编码模型的参数转码技术[J].电声技术,2009,33(4):66-71. 被引量：1
6武淑红,张刚,赵哲峰.具有后向基音检测的8Kbit/s LD-aCELP语音编码[J].计算机工程与应用,2009,45(17):119-121. 被引量：1
7刘越,朱良学,李国汉.基于ACELP的基音周期预测算法模块设计[J].电声技术,2009,33(7):57-59.
8刘靖宇,鲍长春,李如玮.基于离散余弦变换的波形内插语音编码算法[J].电子学报,2009,37(7):1599-1605. 被引量：4
9马庆利,季新生,杨于村.低速语音编码中的预测分类分裂矢量量化技术[J].计算机应用研究,2009,26(10):3700-3702. 被引量：3
10贾懋珅,鲍长春.一种符合ITU-T指标要求的嵌入式立体声语音频编码方法[J].电子学报,2009,37(10):2291-2297. 被引量：2

同被引文献9

1杨超,孙云,黄隽逸,徐向旭,孙保良.音频信号高维矢量编码算法研究[J].现代电子技术,2019,42(15):43-46. 被引量：2
2张怡宁,何洪波,王闰强.热门数字音频预测技术综述[J].数据与计算发展前沿,2021,3(4):81-92. 被引量：2
3侯洪峰.数字音频技术在广播电视工程的应用[J].家电维修,2023(9):44-47. 被引量：11
4许斌,胡潇.三维声关键技术与标准[J].广播电视信息,2023,30(12):59-62. 被引量：4
5韩慕佳.数字音频技术在广播电视工程中的运用策略[J].中国新通信,2023,25(21):96-98. 被引量：19
6潘立麒.传统广播音频编码传输监测系统的快速故障定位策略设计[J].广播与电视技术,2024,51(3):146-149. 被引量：2
7王云涛.数字音频技术在广播电视技术工程中的应用[J].卫星电视与宽带多媒体,2024(7):28-30. 被引量：4
8化小莹.数字音频信号处理中采样率对音质的影响分析[J].集成电路应用,2024,41(6):46-47. 被引量：2
9罗浩,夏伟峰,张涛.广播电视工程中数字音频技术的实践与探讨[J].卫星电视与宽带多媒体,2024(14):19-21. 被引量：5

引证文献1

1白艳.数字广播中音频编码技术的性能评估与应用研究[J].电声技术,2024,48(10):147-150.

1赵翠,周遥,毛鑫萍,马永阳.基于线性预测的自适应语音压缩感知[J].杭州电子科技大学学报（自然科学版）,2012,32(4):13-16. 被引量：1
2赵彦孟,宋建新.一种基于压缩感知全变差算法的图像去噪方法[J].电视技术,2014,38(5):5-8. 被引量：6
3Watts,L,刁龙.用于16kb／s语音编码的矢量ADPCM分析／合成构型[J].南邮科技译丛,1991(2):1-6.
4刘榕和.一个实用化的语音分析/合成系统的设计[J].计算机应用研究,1991,8(2):45-51.
5李咏梅,聂金慧.压缩感知理论及其应用[J].中国科技博览,2013(33):620-622.
6高广春,尚丽娜,熊凯,张翠,赵胜颖.冗余字典在压缩感知中的应用研究[J].电路与系统学报,2012,17(6):107-110. 被引量：3
7徐皓波,于凤芹.基于改进循环观测的线性预测语音压缩感知[J].计算机工程,2014,40(11):278-281.
8任艳田,严普强.正弦式语音分析/合成系统的计算机实现和初步评价[J].应用声学,1990,9(3):28-31.
9家棋,小路(图).MIT SL—Matrix90喇叭线[J].视听前线,2014(2):30-32.
10周小平,方勇,汪敏.MIMO-OFDM快衰落信道的稀疏自适应感知估计[J].信号处理,2010,26(12):1833-1839. 被引量：7

电子学报

2015年第7期

浏览历史

内容加载中请稍等...

基于信号规整和稀疏变换的语音与音频分层编码方法被引量：1

参考文献23

二级参考文献54

共引文献48

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于信号规整和稀疏变换的语音与音频分层编码方法 被引量：1

参考文献23

二级参考文献54

共引文献48

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于信号规整和稀疏变换的语音与音频分层编码方法被引量：1