一种增量式学习的语音字典构造方法被引量：1

An Incremental Learning Approach in Voice Compression via Sparse Dictionary Learning

下载PDF

导出

摘要爆炸式增长的语音数据为存储与传输带来极大困难,现有方法难以实时应对海量语音频域数据.因此本文提出一种增量式学习的语音字典构造方法,该方法先将语音时域信号经短时傅里叶变换处理后转换为各窗频谱幅值,再将高维空间向量投影到低维空间,并以字典中的少数基向量线性拟合当前窗向量.进而通过存储基向量的标识和拟合系数完成对当前窗向量的存储,把无法拟合的窗向量经处理后加入字典,实现增量式学习.解压过程依据用户请求将字典中指定条目经线性拟合实现.实验结果表明,本方法能大幅度压缩语音频谱包络,适用于受带宽限制下实时高采样率的流式语音数据,与同类算法相比,在保证还原质量的情况下,能对信号的存储空间以及传输带宽进行大幅度的压缩. The explosive growth of audio streams brings difficulties in storage and transmission; however, many methods could not give high compression ratio while keeping the quality. In order to solve this problem, the proposed method compresses amplitude spectrum of voice by constructing a dynamic sparse voice dictionary based on incremental learning. It calculates amplitude envelopes spectrums via Short-Time Fourier Transform（STFT）firstly, and then it uses a dictionary to fit each envelope by projecting high dimensional vectors to several 2 D planes. In addition, it minimizes the number of dictionary items and therefore can store the parameters of linear interpolation instead of spectrums. Otherwise, if the fitting step above fails, it will store this window of spectrum directly. By using dictionary and parameters of linear interpolation, it can reconstruct the spectrum efficiently in decompressing process. The results of experiments show that comparing with other methods, the proposed method gives high compression ratio as well as better accuracy in decompressing, and adapt to live voice stream encoding with high sampling rate.

作者滕少华宋欢霍颖翔张巍 Teng Shao-hua;Song Huan;Huo Ying-xiang;Zhang Wei(School of Computers, Guangdong University of Technology, Guangzhou, 510006, China)

机构地区广东工业大学计算机学院

出处《广东工业大学学报》 CAS 2018年第3期29-36,共8页 Journal of Guangdong University of Technology

基金国家自然科学基金资助项目(61402118 61673123 61603100 61702110) 广东省科技计划项目(2015B090901016 2016B010108007) 广东省教育厅项目(粤教高函[2018]1号粤教高函[2015]113号粤教高函[2014]97号) 广州市科技计划项目(201604020145 2016201604030034 201508010067 201604046017)

关键词语音压缩语音解压实时处理流式数据增量学习稀疏字典学习 voice compression voice decompression real-time processing streaming data incremental learning sparse dictionary learning

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1孙林慧,杨震.基于数据驱动字典和稀疏表示的语音增强[J].信号处理,2011,27(12):1793-1800. 被引量：14
2李轶南,张雄伟,曾理,黄建军.改进的稀疏字典学习单通道语音增强算法[J].信号处理,2014,30(1):44-50. 被引量：12
3叶向荣,刘怡俊,陈云华,熊炯涛.基于L_(1/2)自适应稀疏正则化的图像重建算法[J].广东工业大学学报,2017,34(6):43-48. 被引量：1
4杨婷,滕少华.改进的贝叶斯分类方法在电信客户流失中的研究与应用[J].广东工业大学学报,2015,32(3):67-72. 被引量：6

二级参考文献46

1邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007,34(2):204-206. 被引量：43
2Benesty J,Makino S,Chen J.Speech enhancement[M].Berlin,Germany:Springer,2005.
3Hao J C,Attias H,Nagarajan S,Lee T W,Sejnowski T J.Speech enhancement,gain,and noise spectrum adaptation using approximate bayesian estimation[J].IEEE Transactions on Audio,Speech,and Language Processing,2009,17(1):24-37.
4Yoshioka T,Nakatani T,Okuno H G.Noisy speech enhancement based on prior knowledge about spectral envelope and harmonic structure[A].2010 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)[C],2010:4270-4273.
5Tantibundhit C,Pernkopf F,Kubin G.Joint time-frequency segmentation algorithm for transient speech decomposition and speech enhancement[J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(6):1417-1428.
6Mallat S,Zhang Z.Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41:3397-3415.
7Gowreesunker B V,Tewfik A H.Learning sparse representation using iterative subspace identification[J].IEEE Transactions on Signal Processing,2010,58 (6):3055-3065.
8Aharon M,Elad M,Bruckstein A.K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54(11):4311-4322.
9Donoho D,Johnstone I M.Ideal spatial adaptation by wavelet shrinkage[J].Biomet rika,1994,81(3):425-455.
10Chen S S,Donoho D L,and Saunders M A.Atomic decomposition by basis pursuit[J].SIAM Review,2001,43(1):129-159.

共引文献26

1叶蕾,杨震,孙林慧,郭海燕.行阶梯观测矩阵下语音压缩感知观测序列的Volterra+Wiener模型研究[J].信号处理,2013,29(7):816-822. 被引量：3
2李轶南,张雄伟,曾理,黄建军.改进的稀疏字典学习单通道语音增强算法[J].信号处理,2014,30(1):44-50. 被引量：12
3胡永刚,张雄伟,邹霞,张立伟,郑云飞.贝叶斯非负矩阵分解语音增强的优化算法[J].解放军理工大学学报（自然科学版）,2015,16(1):1-6. 被引量：2
4杨爱萍,田玉针,何宇清,董翠翠.基于改进K-SVD和非局部正则化的图像去噪[J].计算机工程,2015,41(5):249-253. 被引量：10
5崔晓.自训练过完备字典和稀疏表示的语音增强[J].现代电子技术,2015,38(13):56-58. 被引量：3
6靳立燕,陈莉,樊泰亭,高晶.基于奇异谱分析和维纳滤波的语音去噪算法[J].计算机应用,2015,35(8):2336-2340. 被引量：12
7胡永刚,张雄伟,邹霞,闵刚,郑云飞,李莉,石佳佳.改进的非负矩阵分解语音增强算法[J].信号处理,2015,31(9):1117-1123. 被引量：7
8陆真,裴东兴.基于连续小波阈值函数的语音增强技术[J].山西电子技术,2016(1):40-42. 被引量：1
9周伟栋,杨震,于云.改进的正交匹配追踪语音增强算法[J].信号处理,2016,32(3):287-295. 被引量：8
10赵红玉,李小勇,何军政.压缩感知应用于透地无线通信初探[J].内蒙古科技与经济,2016(11):110-111.

同被引文献2

1滕少华,卢东略,霍颖翔,张巍.基于正交投影的降维分类方法研究[J].广东工业大学学报,2017,34(3):1-7. 被引量：5
2滕少华,郑明,刘冬宁.面向音乐推荐的全变差图非负矩阵分解方法[J].计算机应用研究,2018,35(4):1010-1013. 被引量：6

引证文献1

1滕少华,冯镇业,滕璐瑶,房小兆.联合低秩表示与图嵌入的无监督特征选择[J].广东工业大学学报,2019,36(5):7-13. 被引量：1

二级引证文献1

1张巍,张圳彬.联合图嵌入与特征加权的无监督特征选择[J].广东工业大学学报,2021,38(5):16-23. 被引量：2

1朱顺涛,卢先领.基于半监督极限学习机的增量式定位算法[J].传感技术学报,2017,30(10):1554-1559. 被引量：3
2徐晓红.谈高考试题中“向量投影”知识的运用[J].数学教学通讯,2017(24):17-18.
3张江龙,黄祥林.基于多模态字典学习的微视频场所类别识别[J].中国传媒大学学报（自然科学版）,2017,24(4):34-39.
4胡晶晶,王冉,詹伶俐,王元庆.基于增量式深度神经网络的图像分类系统[J].电子器件,2018,41(1):72-78. 被引量：2
5魏安龙.“平面向量的数量积”(第2课时)教学设计[J].中学数学教学参考,2017,0(11X):22-24.
6李正,胡贤良,梁克维,虞钉钉.一类用于肺结节检测的深度学习加速方法[J].高校应用数学学报（A辑）,2018,33(2):127-139.
7陈章才.胶印网点扩大测算与分析[J].印刷杂志,2017(7):36-39.
8查选,王旭,倪巍,刘仁平,郭英杰,钮心忻,郑康锋.区块链技术的一致性和容量的研究与发展及在物联网中的应用[J].物联网学报,2017,1(1):21-33. 被引量：9
9沈晨,张旻.基于字典学习的图像稀疏去噪算法[J].探测与控制学报,2018,40(2):128-134. 被引量：5
10蒋久松,熊富强,毛文奇,张超峰.智能语音识别方法在电力移动作业平台中的应用[J].自动化应用,2017(11):124-127. 被引量：4

广东工业大学学报

2018年第3期

浏览历史

内容加载中请稍等...

一种增量式学习的语音字典构造方法被引量：1

参考文献4

二级参考文献46

共引文献26

同被引文献2

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种增量式学习的语音字典构造方法 被引量：1

参考文献4

二级参考文献46

共引文献26

同被引文献2

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种增量式学习的语音字典构造方法被引量：1