基于WGAN的音频关键词识别研究被引量：2

Research on Audio Keywords Recognition Based on Wasserstein Generative Adversarial Network

下载PDF

导出

摘要基于语音识别的关键词识别方法增大了关键词识别工作量,降低了识别效率,还使得识别准确率受语音识别和文字查找办法影响,并对无文字语言不适用。针对此问题,提出将Wasserstein生成式对抗网络(WGAN)应用于语音关键词识别中,利用生成器输出的生成序列分析语音中有无关键词。为了获取语音中关键词的位置信息,该文为WGAN网络定义了一个定位损失函数,以此保证生成的掩码序列可以精确定位出关键词的位置。在四川话、普通话和粤语三门语言的数据集上进行实验,结果表明该技术可以识别无文字语言的关键词,相比于模板匹配方法其识别速度有显著提升。 The keyword recognition method based on speech recognition increases the workload of keyword recognition,reduces the recognition efficiency and makes the accuracy affected by speech recognition and text search methods,which is not applicable to language without words.To solve this problem,the Wasserstein generative adversarial network(WGAN)is applied to speech keyword recognition,and the generated sequence output by generator is used to analyze whether there are keywords in speech.In order to obtain the position information of the keywords in speech,we define a positioning loss function for the WGAN to ensure that the generated mask sequence can accurately locate the position of the keywords.Results on datasets of three languages,Sichuan dialect,Mandarin and Cantonese,show that the proposed method can recognize keywords in languages without characters,and the recognition speed is significantly improved compared with the template matching method.

作者李全兵文钊田艳梅詹茂豪余秦勇杨辉 LI Quan-bing;WEN Zhao;TIAN Yan-mei;ZHAN Mao-hao;YU Qin-yong;YANG Hui(China Electronic Technology Cyber Security Co.,Ltd.,Chengdu 610041,China;Big Data Application on Improving Government Governance Capabilities National Engineering Laboratory,Guiyang 550022,China;CETC Big Data Research Institute Co.,Ltd.,Guiyang 550022,China;School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu 610054,China)

机构地区中国电子科技网络信息安全有限公司提升政府治理能力大数据应用技术国家工程实验室中电科大数据研究院有限公司电子科技大学信息与软件工程学院

出处《计算机技术与发展》 2021年第8期26-32,共7页 Computer Technology and Development

基金四川省重大科技专项项目(2017GZDZX0002)。

关键词语音识别音频关键词识别深度学习 Wasserstein生成式对抗网络关键词定位 speech recognition audio spoken keyword detection deep learning Wasserstein generative adversarial network(WGAN) keyword targeting

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1朱国腾,孙伟.基于模板匹配的快速语音关键词检出方法[J].计算机应用,2013,33(11):3138-3140. 被引量：5
2侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：81
3王山海,景新幸,杨海燕.基于深度学习神经网络的孤立词语音识别的研究[J].计算机应用研究,2015,32(8):2289-2291. 被引量：58
4黄光许,田垚,康健,刘加,夏善红.低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统[J].计算机应用研究,2017,34(2):392-396. 被引量：22

二级参考文献32

1陈国良,韩文廷.人工神经网络理论研究进展[J].电子学报,1996,24(2):70-75. 被引量：20
2孙宁,孙劲光,孙宇.基于神经网络的语音识别技术研究[J].计算机与数字工程,2006,34(3):58-61. 被引量：9
3屈丹,王波.VolP语音处理与识别[M].北京:国防工业出版社,2010:5-6.
4KESHET J, GRANGIER D, BENGIO S. Discriminative keyword spotting[ EB/OL]. [ 2013- 03- 20]. http://eprints, pascal-network. org/archive/OOOO3299/O2/KeshetGrBe07, pdf.
5ROSE R C, PAUL D B. A hidden Markov model based keyword recognition system [ C]/! ICASSP'90: Proceedings of the 1990 In- ternational Conference on Acoustics, Speech, and Signal Process- ing. Albuquerque: Albuquerque Convention Center, 1990:129 - 132.
6BARAKAT M S, RITZ C H, STIRLING D A. Keyword spotting based on the analysis of template matching distances [ C]//ICSPCS 2011: Proceedings of the 5th International Conference on Signal Pro- cessing and Communication Systems. New York: 1EEE Communica- tions Society, 2011, 1 -6.
7SAKOE H, CHIBA S. Dynamic programming algorithm optimization for spoken word recognition [ J] IEEE Transactions on Acoustics Speech and Signal Processing, 1978, 26(1): 43 -49.
8BARAKAT M S, RITZ C H, STIRLING D A . Detecting offensive user video blogs: an adaptive keyword spotting approach [ C]// ICALIP 2012: Proceedings of the 2012 International Conference on Audio, Language and Image Processing. Washington, DC: IEEE Computer Society, 2012, 419 - 425.
9GAROFOLO J S, LAMEL L F. TIMIT acoustic-phonetic continuous speech corpus, 2013[ EB/OL]. [ 2013-03-21]. http://www, ldc. up- enn. edu/Catalog.
10POWERS D M W. Evaluation: from precision, recall and F-factor to ROC, informedness, markedness & correlation[ J]. Journal of Ma- chine Learning Technologies, 2011, 2(1): 37-63.

共引文献156

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：11
2朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
3杨秀芳,陈卓,王驰.基于隐Markov模型的齿轮箱故障识别方法研究[J].电子测量与仪器学报,2020,32(11):115-123. 被引量：6
4李明节,陶洪铸,许洪强,刘金波,张强,张伟.电网调控领域人工智能技术框架与应用展望[J].电网技术,2020,44(2):393-400. 被引量：78
5易雪蓉,黄巍,胡迪,蒋怡.基于HMM的声调语音模型研究[J].武汉工程大学学报,2018,40(6):691-695. 被引量：2
6庞永春,孙子文,王尧.基于手机触摸屏传感器多点触摸身份认证算法[J].计算机应用,2015,35(6):1780-1784. 被引量：9
7秦晓慧,侯霞,赵雪.一种融合语义角色和依存句法的实体关系抽取算法[J].北京信息科技大学学报（自然科学版）,2019,34(1):64-67. 被引量：4
8王雷,姜久雷.基于改进的模板匹配的设计模式自动识别[J].计算机工程与设计,2016,37(9):2429-2434. 被引量：5
9周东青,王玉冰,王星,程相东,肖吉阳.基于深度限制波尔兹曼机的辐射源信号识别[J].国防科技大学学报,2016,38(6):136-141. 被引量：31
10林舒都,邵曦.基于i-vector和深度学习的说话人识别[J].计算机技术与发展,2017,27(6):66-71. 被引量：10

同被引文献16

1路青起,白燕燕.基于双门限两级判决的语音端点检测方法[J].电子科技,2012,25(1):13-15. 被引量：37
2朱淑琴,赵瑛.DTW语音识别算法研究与分析[J].微计算机信息,2012,28(5):150-151. 被引量：13
3朱国腾,孙伟.基于模板匹配的快速语音关键词检出方法[J].计算机应用,2013,33(11):3138-3140. 被引量：5
4赵力,钱向民,邹采荣,吴镇扬.语音信号中的情感识别研究[J].软件学报,2001,12(7):1050-1055. 被引量：56
5陈炜亮,孙晓.基于MFCCG-PCA的语音情感识别[J].北京大学学报（自然科学版）,2015,51(2):269-274. 被引量：16
6张朝龙,何怡刚,杜博伦,张兰芳,江善和.基于深度学习的电力变压器智能故障诊断方法[J].电子测量与仪器学报,2020,32(1):81-89. 被引量：59
7陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[J].工程科学学报,2020,42(5):557-569. 被引量：28
8赵永强,饶元,董世鹏,张君毅.深度学习目标检测方法综述[J].中国图象图形学报,2020,25(4):629-654. 被引量：221
9杨杨,詹德川,姜远,熊辉.可靠多模态学习综述[J].软件学报,2021,32(4):1067-1081. 被引量：13
10张百川,赵佰亭.结合批归一化的轻量化卷积神经网络分类算法[J].哈尔滨商业大学学报（自然科学版）,2021,37(3):300-306. 被引量：8

引证文献2

1陈立鹏,陈小龙,宋诗凡,陈桢衍.基于多模态语义识别的语音识别报警系统[J].科学技术创新,2022(2):89-92. 被引量：1
2徐为立,袁和刚,任凯,董越,麦晓庆.基于对抗神经网络的小样本生成技术[J].电子测试,2022,36(18):64-65.

二级引证文献1

1徐端倪,胡智林.基于多模态融合的心理测试仪自动评估系统检测研究[J].自动化与仪器仪表,2022(9):156-160. 被引量：4

1吴峰,李蓉,王广.光电半自动闭塞传输典型故障查找方法及故障案例分析[J].大陆桥视野,2020(10):83-84.
2朱棋旭.爸爸的“锤子”[J].全国优秀作文选（初中）,2021(1):76-76.

计算机技术与发展

2021年第8期

浏览历史

内容加载中请稍等...

基于WGAN的音频关键词识别研究被引量：2

参考文献4

二级参考文献32

共引文献156

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于WGAN的音频关键词识别研究 被引量：2

参考文献4

二级参考文献32

共引文献156

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于WGAN的音频关键词识别研究被引量：2