期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于多视角融合稀疏表示的恐怖视频识别 被引量:7
1
作者 丁昕苗 李兵 +2 位作者 胡卫明 郭文 王振翀 《电子学报》 EI CAS CSCD 北大核心 2014年第2期301-305,共5页
现有的基于多示例学习的恐怖视频识别算法都是假设示例间是相互独立的,而忽略了恐怖视频中存在的上下文信息和示例包的统计特性.因此,本文提出了一种多视角融合稀疏表示模型.该模型分别从集合视角、上下文视角以及统计特性视角三个不同... 现有的基于多示例学习的恐怖视频识别算法都是假设示例间是相互独立的,而忽略了恐怖视频中存在的上下文信息和示例包的统计特性.因此,本文提出了一种多视角融合稀疏表示模型.该模型分别从集合视角、上下文视角以及统计特性视角三个不同的视角来看待一个视频片段,并利用联合稀疏表示框架将三个不同视角融合到一个分类框架中,用来进行恐怖视频的识别.在恐怖视频库上的实验结果验证了算法在恐怖视频识别中比现有的其它算法有更好的性能和稳定性. 展开更多
关键词 恐怖视频 稀疏表示 多视角 核函数
下载PDF
基于迁移学习的噪声鲁棒语音识别声学建模 被引量:5
2
作者 易江燕 陶建华 +1 位作者 刘斌 温正棋 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第1期55-60,共6页
为了提高噪声环境下语音识别系统的鲁棒性,提出了一种基于迁移学习的声学建模方法。该方法用干净语音的声学模型(老师模型)指导带噪语音的声学模型(学生模型)进行训练。学生模型在训练过程中,尽量使其逼近老师模型的后验概率分布。... 为了提高噪声环境下语音识别系统的鲁棒性,提出了一种基于迁移学习的声学建模方法。该方法用干净语音的声学模型(老师模型)指导带噪语音的声学模型(学生模型)进行训练。学生模型在训练过程中,尽量使其逼近老师模型的后验概率分布。学生模型和老师模型间的后验概率分布差异通过相对熵(KL divergence)加以最小化。CHiME-2数据集上的实验结果表明,该方法的平均词错率(WER)比基线的绝对下降了7.29%,比CHiME-2竞赛第一名的绝对下降了3.92%。 展开更多
关键词 鲁棒语音识别 声学模型 神经网络 迁移学习
原文传递
基于静音时长和文本特征融合的韵律边界自动标注 被引量:2
3
作者 傅睿博 陶建华 +1 位作者 李雅 温正棋 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第1期61-66,74,共7页
韵律边界标注对于语料库建设和语音合成有着至关重要的作用,而自动韵律标注可以克服人工标注中耗时、不一致的缺点。仿照人工标注流程,该文运用循环神经网络分别对文本和音频两个通道训练子模型,对子模型的输出采用模型融合的方法,从而... 韵律边界标注对于语料库建设和语音合成有着至关重要的作用,而自动韵律标注可以克服人工标注中耗时、不一致的缺点。仿照人工标注流程,该文运用循环神经网络分别对文本和音频两个通道训练子模型,对子模型的输出采用模型融合的方法,从而获得最优标注。以词为单位提取了静音时长,与传统以帧为单位的声学特征相比更具有明确的物理意义,与韵律边界的联系更加紧密。实验结果表明:相比传统声学特征,该文所采用的静音时长特征使自动韵律标注的性能有所提高;相比直接特征层面的方法,决策融合方法更好地结合了声学和文本的特征,进一步提高了标注的性能。 展开更多
关键词 韵律边界标注 决策融合 静音时长 语料库构建 语音合成
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部