期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于特征空间轨迹信息的语音关键词检测方法
1
作者 田颖慧 贺前华 +2 位作者 郑若伟 危卓 李艳雄 《电子学报》 EI CAS CSCD 北大核心 2023年第10期2915-2924,共10页
当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于“词是由更小语言单元(音节、音素)的结构化组成,以... 当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于“词是由更小语言单元(音节、音素)的结构化组成,以及语言单元声学特征具有稳定性(统计意义)”的事实,结合物理几何空间定位的原理,构建语音关键词的特征空间表达、时序信息表达和局部区分信息知识.语音关键词检测时,依据语音段的特征空间轨迹信息分层次进行判决,实现了模式信息与统计信息的综合应用.其中语音特征空间是利用丰富的无标注语音样本构建音频特征空间的标识子表达,而语音关键词的特征空间轨迹信息利用少量关键词语音样本构建.多个实验结果表明,本文算法在低资源时(100个样本以下),相比HMM和CRNN有显著优势,10个训练样本时,相比HMM,FRR绝对下降了20.5%,FAR绝对下降了8.7 FP/h;而在训练样本量较充分(300个样本及以上)时,与CRNN有大致相当的性能. 展开更多
关键词 语音关键词检测 音频特征空间 特征空间轨迹信息 低资源
下载PDF
基于端到端建模的低资源连续语音关键词识别系统
2
作者 陈芒 《现代传输》 2023年第4期60-66,共7页
语音关键词识别具有广阔的市场应用需求。在嵌入式领域,由于嵌入式设备资源有限,应用场景复杂多变,对语音关键词识别系统提出了资源占用少,低功耗,响应快,系统鲁棒性好等更高要求。本文设计实现的低资源连续语音关键词识别系统基于端到... 语音关键词识别具有广阔的市场应用需求。在嵌入式领域,由于嵌入式设备资源有限,应用场景复杂多变,对语音关键词识别系统提出了资源占用少,低功耗,响应快,系统鲁棒性好等更高要求。本文设计实现的低资源连续语音关键词识别系统基于端到端声学建模,采用知识蒸馏、模型量化、模型剪枝的方法将模型占用资源压缩到了36.8K字节,系统运行资源占用约133K字节。本文提出的连续语音关键词解码算法相比于传统的孤立词解码算法,噪声环境下的召回绝对提升6.88%。系统在主频120M,内存256K字节的BK3288低功耗SOC平台上进行20个关键词的识别测试,达到安静环境下召回率96.86%,噪声环境召回率74.81%,虚警0.2次/小时的识别性能。 展开更多
关键词 低资源 语音关键词识别 模型压缩 令牌传递
下载PDF
基于音素后验概率的样例语音关键词检测方法 被引量:3
3
作者 张卫强 宋贝利 +1 位作者 蔡猛 刘加 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2015年第9期757-760,共4页
低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音... 低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音关键词检测方法.采用无监督高斯混合模型(GMM)和中、英文DNN音素模型得出的输入特征构建互补的子系统,并在SWS2013多语种数据集上进行实验.结果表明:相对于基线系统,分数层面的多语种、多系统融合能够有效地提升语音关键词检测系统的性能. 展开更多
关键词 样例查询 语音关键词检测 DNN输出层特征 动态时间规整
下载PDF
语音关键词识别系统声学模型构建综述 被引量:9
4
作者 赵晓群 张扬 《燕山大学学报》 CAS 北大核心 2017年第6期471-481,共11页
语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,... 语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。 展开更多
关键词 语音关键词识别 动态时间规整 隐马尔科夫 深度神经网络 循环神经网络
下载PDF
基于深度神经网络的资源匮乏语言语音关键词检索 被引量:5
5
作者 张伟涛 米吉提·阿不里米提 +1 位作者 郑方 艾斯卡尔·艾木都拉 《现代电子技术》 2022年第11期68-72,共5页
资源匮乏语言语音信息检索研究比汉语、英语等大语言进展缓慢,需要大量预处理工作。神经网络模型在低资源环境下的高效建模能力给低资源语言信息处理工作带来便利。文中以维⁃哈等低资源语言为基础,通过一系列预处理过程获得了这些语言... 资源匮乏语言语音信息检索研究比汉语、英语等大语言进展缓慢,需要大量预处理工作。神经网络模型在低资源环境下的高效建模能力给低资源语言信息处理工作带来便利。文中以维⁃哈等低资源语言为基础,通过一系列预处理过程获得了这些语言的语音及文本资源,再利用高斯混合隐马尔可夫模型GMM⁃HMM、深度神经网络隐马尔可夫模型DNN⁃HMM等完成了关键词检索实验。实验结果表明,三音素下的DNN⁃HMM模型比GMM⁃HMM模型检索性能要好。维吾尔语的ATWV达到了0.368,MTWV达到了0.491,检索结果准确率达到了89.36%;哈萨克语的ATWV达到了0.382,MTWV达到了0.421,检索结果准确率达到了82.15%。 展开更多
关键词 语音关键词检索 维吾尔语 哈萨克语 深度神经网络 检索流程 声学模型
下载PDF
基于特征空间轨迹匹配方式的语音关键词检测法 被引量:2
6
作者 吴旭辉 吴亚栋 《计算机工程与应用》 CSCD 北大核心 2003年第36期83-86,共4页
语音关键词识别是近年来颇受重视的一个研究领域,文章基于特征空间轨迹的时间规整化原理,提出了一种高性能的关键词检测法,并探讨了轨迹等分长度对该算法检测性能的影响。实验结果表明,基于特征空间轨迹匹配方式的关键词检测法的检测性... 语音关键词识别是近年来颇受重视的一个研究领域,文章基于特征空间轨迹的时间规整化原理,提出了一种高性能的关键词检测法,并探讨了轨迹等分长度对该算法检测性能的影响。实验结果表明,基于特征空间轨迹匹配方式的关键词检测法的检测性能接近于人工检测,具有一定的实用性。 展开更多
关键词 动态匹配 语音识别 模式匹配 特征空间轨迹 语音关键词检测法 匹配方式
下载PDF
基于深度神经网络的维语语音关键词检索 被引量:3
7
作者 张伟涛 米吉提·阿不里米提 +1 位作者 郑方 艾斯卡尔·艾木都拉 《计算机时代》 2021年第11期21-24,29,共5页
语音识别中的一个重要的分支就是关键词检索。虽然在英语上的关键词检索已经成熟,但是低资源的语音,比如维语的语音关键词检索研究缓慢,仍需要更深入的研究。文章在维吾尔语语数据集thuyg20上,先在GMM-HMM(Gaussian Mixture Model Hidde... 语音识别中的一个重要的分支就是关键词检索。虽然在英语上的关键词检索已经成熟,但是低资源的语音,比如维语的语音关键词检索研究缓慢,仍需要更深入的研究。文章在维吾尔语语数据集thuyg20上,先在GMM-HMM(Gaussian Mixture Model Hidden Markov Model)声学模型,DNN-HMM(Hidden Markov Model Deep Neural Network)声学模型,LSTM-HMM(Long Short-term Memory Hidden Markov Model)声学模型解码产生的网格lattice上捕捉关键词,将DNN-HMM和LSTM-HMM解码产生的网格进行融合,再在融合的网格lattice上进行关键词检索。实验结果表明,融合后的结果在准确率和召回率方面要优于DNN-HMM和LSTM-HMM模型的检索性能。 展开更多
关键词 维吾尔语 低资源 语音关键词检索 深度神经网络
下载PDF
采用语义一致性编码网络的跨模态语音关键词检索 被引量:2
8
作者 齐梅 刘则芬 +1 位作者 樊浩 李升 《宜宾学院学报》 2022年第12期6-13,共8页
针对跨模态的语音-文本检索框架中的语义特征判别性不足问题,为了缩小语音和文本之间的异质性语义差距,提升检索精度,提出采用语义一致性编码神经网络(Semantics-Consistent Coding Network,SCCN)的跨模态语音关键词检索方法:分别利用... 针对跨模态的语音-文本检索框架中的语义特征判别性不足问题,为了缩小语音和文本之间的异质性语义差距,提升检索精度,提出采用语义一致性编码神经网络(Semantics-Consistent Coding Network,SCCN)的跨模态语音关键词检索方法:分别利用梅尔倒谱系数特征(Mel-frequency cepstrum,MFCC)提取语音特征、利用BERT提取文本特征,搭建深度卷积神经网络,联合双重损失(语义一致性损失和检索损失)函数构造语义编码网络模型,提取语音和文本的共享特征获得一致性语义特征表达,同时考虑语音关键词检索任务的实时性需求,最后将检索任务视为多分类任务,通过余弦距离计算语义向量之间的距离,快速匹配检索结果.在公共数据集上的实验测试,取得了超过基线方法7%的精度,验证了SCCN方法有效性. 展开更多
关键词 语义一致性特征 编码网络 语音关键词 跨模态检索 双重损失函数
下载PDF
低资源语言的无监督语音关键词检测技术综述 被引量:3
9
作者 杨鹏 谢磊 张艳宁 《中国图象图形学报》 CSCD 北大核心 2015年第2期211-218,共8页
目的低资源(low-resource)语言的无监督的关键词检测技术近年来引起了广泛的研究兴趣。低资源语言由于缺乏足够的标注数据及相关的专家知识,使得传统的基于大词汇量语音识别系统的关键词检测技术无法使用。近年来,研究者试图寻找一种无... 目的低资源(low-resource)语言的无监督的关键词检测技术近年来引起了广泛的研究兴趣。低资源语言由于缺乏足够的标注数据及相关的专家知识,使得传统的基于大词汇量语音识别系统的关键词检测技术无法使用。近年来,研究者试图寻找一种无监督的技术来完成针对低资源语言的语音关键词检测。方法首先阐述了该技术目前面临的问题与挑战,然后介绍了该技术使用的主流的基于动态时间规整的算法框架,并从特征表示、模板匹配方法、效率提升等几个重要方面介绍了近几年来主要的研究成果,最后介绍了该任务常用的系统评价标准及目前所能达到的水平,讨论了未来可能的研究方向。结果该任务的研究目前取得了很多成果,但仍处于实验室阶段,多系统融合策略导致系统庞大,而且目前还没有好的进行索引的方法,导致检测时间过长,对于低资源语音的关键词检测技术,还有很多研究工作要做。结论期望通过对目前低资源语言的无监督的关键词检测技术做出一个全面的综述,从而给研究者的工作带来便利。 展开更多
关键词 语音关键词检测 低资源 动态时间规整
原文传递
基于网格的语音关键词检索算法改进 被引量:2
10
作者 肖熙 王竞千 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第5期508-513,共6页
针对多候选汉语音节网格语音关键词检索任务,在Gauss混合模型以及多候选识别算法方面进行了研究改进。首先探讨了Gauss混合模型的不同简化策略并用实验进行了验证,证明了全协方差矩阵在识别性能上的优越性;随后对经典的多候选令牌传递... 针对多候选汉语音节网格语音关键词检索任务,在Gauss混合模型以及多候选识别算法方面进行了研究改进。首先探讨了Gauss混合模型的不同简化策略并用实验进行了验证,证明了全协方差矩阵在识别性能上的优越性;随后对经典的多候选令牌传递算法做出了针对汉语特点的改进。实验表明这2方面的研究不仅提高了以音节作为输出的语音识别引擎的单候选识别效果,也大幅提高了多候选的识别性能。最后搭建了一个基于多候选网格的语音关键词检索系统,在该系统中验证了上述改进的效果。 展开更多
关键词 语音关键词检索 多候选网格 Gauss混合模型 CUDA 三音子模型
原文传递
基于DTW的语音关键词检出 被引量:11
11
作者 侯靖勇 谢磊 +8 位作者 杨鹏 肖雄 梁祥智 徐海华 王磊 吕航 马斌 CHNG EngSiong 李海洲 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第1期18-23,共6页
针对少资源语言的语音关键词检出技术受到了广泛关注。该文在基于动态时间规整(dynamic time warping,DTW)的关键词检出框架下,提出了基于音素边界的局部匹配策略,用以解决基于样例的语音关键词检出任务中的近似查询问题。在QUESST 201... 针对少资源语言的语音关键词检出技术受到了广泛关注。该文在基于动态时间规整(dynamic time warping,DTW)的关键词检出框架下,提出了基于音素边界的局部匹配策略,用以解决基于样例的语音关键词检出任务中的近似查询问题。在QUESST 2014评测数据上采用多种特征进行了实验验证。实验结果显示:基于音素边界的局部匹配策略不仅在近似查询T2和T3任务上的检出效果明显提升,在精确查询T1任务上也获得了有效提升。随后的系统融合实验表明,该策略能够大幅提升融合系统的性能。 展开更多
关键词 语音关键词检出 少资源语言 动态时间规整 局部匹配
原文传递
基于音节拼接的关键词识别系统 被引量:1
12
作者 石峰 秦敏 李治柱 《计算机工程》 CAS CSCD 北大核心 2004年第9期157-158,共2页
针对不确定的汉语语音关键词识别系统,为每个关键词分别建立模型是非常烦琐的,采用音节作为次词具有很好的灵活性。通过同传统的关键词识别系统作比较后发现用音节作为次词的系统具有相当高的识别率,其运算效率也非常高。
关键词 隐含马尔可夫模型 关键词识别 次词 音节拼接 汉语语音关键词识别系统
下载PDF
关键词检出技术在家庭语音智能控制系统中的应用
13
作者 于拾全 景新幸 刘志国 《电子工程师》 2005年第2期46-48,54,共4页
由于大词汇量连续语音识别技术仍不够成熟 ,目前市场上仍然没有出现真正的家庭语音智能控制系统。通过对关键词检出技术的特点及系统组成的分析 ,给出了一种基于采用关键词检出技术的语音识别子系统构建的家庭语音智能控制系统的组建方... 由于大词汇量连续语音识别技术仍不够成熟 ,目前市场上仍然没有出现真正的家庭语音智能控制系统。通过对关键词检出技术的特点及系统组成的分析 ,给出了一种基于采用关键词检出技术的语音识别子系统构建的家庭语音智能控制系统的组建方案。这种方案以较成熟的小词汇量关键词检出技术为基础 ,把系统处理的对象从孤立词扩展到连续语音 ,使语音控制系统更加符合人的自然语音习惯 ,同时避开了语义识别的难题 ,采用关键词分类 ,存储发送指令和目标控制器相结合的方法实现对目标的准确控制 ,并且易于实现。 展开更多
关键词 语音识别 关键词检出 家庭语音智能控制 填充废料模型
下载PDF
基于双向长短时记忆和卷积Transformer的声学词嵌入模型
14
作者 高芸芸 赵腊生 张强 《计算机应用》 CSCD 北大核心 2024年第1期123-128,共6页
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-L... 示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。 展开更多
关键词 卷积神经网络 声学词嵌入 语音信息 示例查询语音关键词检测 循环神经网络
下载PDF
新型多模态人性化语音交互系统 被引量:2
15
作者 韩超 刘加 《电声技术》 2009年第8期78-80,85,共4页
面向服务机器人的语音交互需求,研究了一种新型的多模态人性化语音交互系统。该系统采用了连续语音流的关键词检测技术、说话人识别技术、基于传声器阵列语音定位技术和对话管理技术,能进行和谐的人机语音交互。多模态人性化语音交互系... 面向服务机器人的语音交互需求,研究了一种新型的多模态人性化语音交互系统。该系统采用了连续语音流的关键词检测技术、说话人识别技术、基于传声器阵列语音定位技术和对话管理技术,能进行和谐的人机语音交互。多模态人性化语音交互系统通过这些技术综合利用使系统能知道"谁"在什么"时候"什么"地点"发出什么"指令"。基于人性化语音交互系统,机器人根据语音知道特定服务对象的需求,提供特定服务。 展开更多
关键词 语音关键词识别 说话人识别 传声器阵列 对话管理系统
下载PDF
基于多模态语义识别的语音识别报警系统 被引量:1
16
作者 陈立鹏 陈小龙 +1 位作者 宋诗凡 陈桢衍 《科学技术创新》 2022年第2期89-92,共4页
现阶段家教平台众多,大学生家教由于价格便宜,性价比高受到了一些家长的青睐,但是大学生家教还未形成规范的体系,在上课期间可能发生意外情况却无法报警或及时告知能帮助他们的人,针对这一现象,本文提出一种基于多模态语义分析的语音识... 现阶段家教平台众多,大学生家教由于价格便宜,性价比高受到了一些家长的青睐,但是大学生家教还未形成规范的体系,在上课期间可能发生意外情况却无法报警或及时告知能帮助他们的人,针对这一现象,本文提出一种基于多模态语义分析的语音识别报警系统。 展开更多
关键词 多模态 语音情感分析 语音关键词识别 家教课堂 报警系统
下载PDF
汉语语音识别中语言模型的并行优化 被引量:1
17
作者 金玮 孙甲松 《电声技术》 2010年第8期49-52,共4页
研究了汉语语音识别中语言模型的并行优化问题,在已有汉语语音识别有调拼音模型和多核体系结构的基础上,对其算法进行了并行优化,并优化了查询机制和前后向算法。试验表明,该方法取得了很好的效果,识别速度有了很大改进。
关键词 关键词语音识别 N元有调拼音文法模型 并行优化
下载PDF
基于语音存在概率的噪声功率谱估计改进算法 被引量:2
18
作者 庞亮 刘双东 《电声技术》 2017年第2期39-43,共5页
噪声功率谱估计是语音增强算法中的关键技术之一。针对在非平稳噪声环境下噪声功率谱估计不够准确的问题,采用了基于后验语音存在概率的噪声功率谱估计算法,并对其中的语音存在概率估计算法进行了改进。利用语音信号的短时平稳性,在时... 噪声功率谱估计是语音增强算法中的关键技术之一。针对在非平稳噪声环境下噪声功率谱估计不够准确的问题,采用了基于后验语音存在概率的噪声功率谱估计算法,并对其中的语音存在概率估计算法进行了改进。利用语音信号的短时平稳性,在时域和频域上利用相邻帧和相邻频点的相关性估计当前帧的语音存在概率。仿真结果表明,该算法与原始算法及改进的最小值控制递归平均噪声估计(IMCRA)算法相比,能够有效提升非稳态噪声环境下噪声功率谱估计准确度和语音增强效果。 展开更多
关键词 关键词:后验语音存在概率 噪声功率谱估计 语音增强 信噪比估计
下载PDF
基于增益函数的线性预测语音增强算法的研究
19
作者 沈锁金 魏静 +1 位作者 金珊珊 高颖 《电声技术》 2017年第2期58-60,65,共4页
增益函数估计的精确度直接决定了语音增强算法的性能,并且增益函数的估计依赖于先验信噪比估计算法。DD(Decision Directed)算法具有较低的计算复杂度和有效抑制音乐噪声的优点,是最常用的先验信噪比估计算法,但是DD算法具有语音失真严... 增益函数估计的精确度直接决定了语音增强算法的性能,并且增益函数的估计依赖于先验信噪比估计算法。DD(Decision Directed)算法具有较低的计算复杂度和有效抑制音乐噪声的优点,是最常用的先验信噪比估计算法,但是DD算法具有语音失真严重的缺点。介绍了DD算法、MDD(Modified method)算法和线性预测增益函数算法,理论分析了各自性能的优缺点,并进行了实验验证。实验结果显示,增益函数的线性预测方法可以取得较好的语音增强性能。 展开更多
关键词 关键词:语音增强 增益函数 语音失真 线性预测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部