期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于WGAN的音频关键词识别研究 被引量:2
1
作者 李全兵 文钊 +3 位作者 田艳梅 詹茂豪 余秦勇 杨辉 《计算机技术与发展》 2021年第8期26-32,共7页
基于语音识别的关键词识别方法增大了关键词识别工作量,降低了识别效率,还使得识别准确率受语音识别和文字查找办法影响,并对无文字语言不适用。针对此问题,提出将Wasserstein生成式对抗网络(WGAN)应用于语音关键词识别中,利用生成器输... 基于语音识别的关键词识别方法增大了关键词识别工作量,降低了识别效率,还使得识别准确率受语音识别和文字查找办法影响,并对无文字语言不适用。针对此问题,提出将Wasserstein生成式对抗网络(WGAN)应用于语音关键词识别中,利用生成器输出的生成序列分析语音中有无关键词。为了获取语音中关键词的位置信息,该文为WGAN网络定义了一个定位损失函数,以此保证生成的掩码序列可以精确定位出关键词的位置。在四川话、普通话和粤语三门语言的数据集上进行实验,结果表明该技术可以识别无文字语言的关键词,相比于模板匹配方法其识别速度有显著提升。 展开更多
关键词 语音识别 音频关键词识别 深度学习 Wasserstein生成式对抗网络 关键词定位
下载PDF
基于音频内容的篮球比赛精彩镜头检测
2
作者 曾春艳 窦维蓓 《电视技术》 北大核心 2010年第11期90-93,共4页
提出了基于音频内容的篮球比赛精彩镜头检测系统。由音频关键词检测和精彩镜头检测2个子系统组成。第1个子系统采用二叉树结构的多级支持向量机(SVM)分类器及SEFC-FDR方法检测5个关键词。第2个子系统提出事件的二级转换模型。对3场总时... 提出了基于音频内容的篮球比赛精彩镜头检测系统。由音频关键词检测和精彩镜头检测2个子系统组成。第1个子系统采用二叉树结构的多级支持向量机(SVM)分类器及SEFC-FDR方法检测5个关键词。第2个子系统提出事件的二级转换模型。对3场总时长约319 min的NBA比赛进行测试,得分的平均准确率和回检率分别为64.89%和86.21%,犯规分别为64.60%和66.86%。 展开更多
关键词 音频关键词 精彩镜头检测 SVM 二级转换模型
下载PDF
篮球比赛视频节目中短管哨声检测方法
3
作者 曾春艳 窦维蓓 《电声技术》 2010年第9期53-56,共4页
提出了一种检测篮球比赛视频中重要音频关键词(短管哨声)的方法。通过分析短管哨声的频谱分布特性提出一种二级检测方法:首先提取特定子带能量峰指数特征,并采用门限决策方法获得关键词候选集;第二级再结合梅尔频率倒谱系数和支持向量... 提出了一种检测篮球比赛视频中重要音频关键词(短管哨声)的方法。通过分析短管哨声的频谱分布特性提出一种二级检测方法:首先提取特定子带能量峰指数特征,并采用门限决策方法获得关键词候选集;第二级再结合梅尔频率倒谱系数和支持向量机得到最终的关键词检测结果。选取时长为1378s的NBA篮球比赛音频片段作为测试序列,验证了本方法具有正确率和检出率分别为95.45%和91.3%的性能。 展开更多
关键词 音频关键词 子带能量峰指数 二级检测 短管哨声
下载PDF
多功能会堂扩声系统的设计 被引量:6
4
作者 何德康 李宇红 高琨琦 《电声技术》 2017年第2期9-17,共9页
阐述了通过计算机仿真辅助设计、数字网络技术等现代科技手段,实现多功能会堂扩声系统的优化设计。采用EASE软件对厅堂的建声及扬声器的布局进行了系统设计。通过在系统中采用Dante数字音频网络,实现了10个会议室以及多功能会堂之间的... 阐述了通过计算机仿真辅助设计、数字网络技术等现代科技手段,实现多功能会堂扩声系统的优化设计。采用EASE软件对厅堂的建声及扬声器的布局进行了系统设计。通过在系统中采用Dante数字音频网络,实现了10个会议室以及多功能会堂之间的互联互通以及多功能会堂内应用场景的自由切换,提升了中央控制系统的综合应用功能,实现了复杂系统的简易的控制。系统测量结果达到了设计的要求。 展开更多
关键词 关键词:数字音频传输 Dante建声设计 计算机辅助设计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部