-
题名基于WGAN的音频关键词识别研究
被引量:2
- 1
-
-
作者
李全兵
文钊
田艳梅
詹茂豪
余秦勇
杨辉
-
机构
中国电子科技网络信息安全有限公司
提升政府治理能力大数据应用技术国家工程实验室
中电科大数据研究院有限公司
电子科技大学信息与软件工程学院
-
出处
《计算机技术与发展》
2021年第8期26-32,共7页
-
基金
四川省重大科技专项项目(2017GZDZX0002)。
-
文摘
基于语音识别的关键词识别方法增大了关键词识别工作量,降低了识别效率,还使得识别准确率受语音识别和文字查找办法影响,并对无文字语言不适用。针对此问题,提出将Wasserstein生成式对抗网络(WGAN)应用于语音关键词识别中,利用生成器输出的生成序列分析语音中有无关键词。为了获取语音中关键词的位置信息,该文为WGAN网络定义了一个定位损失函数,以此保证生成的掩码序列可以精确定位出关键词的位置。在四川话、普通话和粤语三门语言的数据集上进行实验,结果表明该技术可以识别无文字语言的关键词,相比于模板匹配方法其识别速度有显著提升。
-
关键词
语音识别
音频关键词识别
深度学习
Wasserstein生成式对抗网络
关键词定位
-
Keywords
speech recognition
audio spoken keyword detection
deep learning
Wasserstein generative adversarial network(WGAN)
keyword targeting
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-