期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7,343
篇文章
<
1
2
…
250
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向自动语音识别系统的对抗样本生成方法
1
作者
于振华
苏玉璠
+1 位作者
叶鸥
丛旭亚
《计算机科学与探索》
北大核心
2025年第1期253-263,共11页
通过对系统进行对抗攻击可以检测系统漏洞,进而提高系统鲁棒性。然而,对抗攻击前往往需要系统的参数信息,这使得攻击条件受限。为此,结合一种新的量子粒子群优化算法,提出一种黑盒有目标对抗攻击方法。该方法通过在原始样本中添加微小噪...
通过对系统进行对抗攻击可以检测系统漏洞,进而提高系统鲁棒性。然而,对抗攻击前往往需要系统的参数信息,这使得攻击条件受限。为此,结合一种新的量子粒子群优化算法,提出一种黑盒有目标对抗攻击方法。该方法通过在原始样本中添加微小噪声,构造差异化粒子群,作为初始对抗样本种群;基于记忆搜索的领域重分布策略得到当前种群的全局最优粒子,从而生成初始对抗样本;融入扩维和自适应权重位置更新,使得种群更接近目标;根据对抗样本与目标语句的编辑距离,继续优化初始对抗样本,生成最终对抗样本。为了验证方法的攻击效果,在GoogleSpeech、LibriSpeech以及CommonVoice数据集上,对语音识别模型DeepSpeech进行实验,将目标语句设置为不同场景中的常见语音指令。实验结果表明,提出的方法在三个数据集上成功率都优于对比方法,其中在Common Voice数据集上的成功率比对比方法提升了10个百分点。同时,召集志愿者对生成的对抗样本噪声强度进行主观评估,其中82.4%的对抗样本被志愿者判断为没有噪声或噪声很小。
展开更多
关键词
对抗攻击
语音
识
别
黑盒攻击
样本生成
量子粒子群算法
梯度评估方法
下载PDF
职称材料
多模态特征的越南语语音识别文本标点恢复
被引量:
1
2
作者
赖华
孙童
+3 位作者
王文君
余正涛
高盛祥
董凌
《计算机应用》
CSCD
北大核心
2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南...
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。
展开更多
关键词
语音
识
别
标点恢复
越南语
BERT
多模态
下载PDF
职称材料
构音障碍语音识别算法研究综述
被引量:
1
3
作者
宋伟
张杨豪
《计算机工程与应用》
CSCD
北大核心
2024年第11期62-74,共13页
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音...
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。
展开更多
关键词
构音障碍
语音
识
别
深度学习
人工智能
下载PDF
职称材料
基于小波散射变换和MFCC的双特征语音情感识别融合算法
被引量:
1
4
作者
应娜
吴顺朋
+1 位作者
杨萌
邹雨鉴
《电信科学》
北大核心
2024年第5期62-72,共11页
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首...
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首先获取语音信号的小波散射特征和梅尔频率倒谱系数的相关特征;然后按尺度维度扩展小波散射特征,利用支持向量机得到情感识别的后验概率并获得排列熵,并使用排列熵对后验概率进行加权;最后采用一种偏差调整规则进一步融合MFCC的相关特征的识别结果。实验结果表明,在EMODB、RAVDESS和eNTERFACE05数据集上,与传统的基于小波散射系数的语音情感识别方法相比,该算法将ACC分别提高了2.82%、2.85%和5.92%,将UAR分别提升了3.40%、2.87%和5.80%,IEMOCAP上提高了6.89%。
展开更多
关键词
语音
情感
识
别
小波散射变换
排列熵
MFCC
模型融合
下载PDF
职称材料
基于融合特征ADRMFCC的语音识别方法
被引量:
1
5
作者
朵琳
马建
+1 位作者
韦贵香
唐剑
《吉林大学学报(理学版)》
CAS
北大核心
2024年第4期943-950,共8页
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些...
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性.
展开更多
关键词
语音
识
别
残差Mel倒谱系数
特征筛选
增减分量法
下载PDF
职称材料
基于AI技术的声像档案语音识别检索应用研究
被引量:
2
6
作者
魏丽维
《机电兵船档案》
2024年第1期22-24,34,共4页
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重...
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。
展开更多
关键词
AI技术
声像档案
语音
识
别
下载PDF
职称材料
自动语音识别模型压缩算法综述
7
作者
时小虎
袁宇平
+2 位作者
吕贵林
常志勇
邹元君
《吉林大学学报(理学版)》
CAS
北大核心
2024年第1期122-131,共10页
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性...
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案.
展开更多
关键词
语音
识
别
模型压缩
知
识
蒸馏
模型量化
低秩分解
网络剪枝
参数共享
下载PDF
职称材料
离散语音情感识别研究进展
8
作者
郭丽丽
王龙标
+1 位作者
党建武
丁世飞
《软件学报》
EI
CSCD
北大核心
2024年第12期5487-5508,共22页
语音情感识别是情感计算的重要组成部分,在人机交互中占据重要的地位.准确地识别说话人的情感信息,有助于机器更好地理解用户的意图,进而提供良好的交互性以提升用户的体验.以离散语音情感为对象,对语音情感识别的理论和方法进行综述....
语音情感识别是情感计算的重要组成部分,在人机交互中占据重要的地位.准确地识别说话人的情感信息,有助于机器更好地理解用户的意图,进而提供良好的交互性以提升用户的体验.以离散语音情感为对象,对语音情感识别的理论和方法进行综述.首先在全面回顾情感识别发展历程的同时,提出一个语音情感识别综述框架.其次,介绍情感描述方法以及常用的情感语料库,旨在为语音情感识别提供基础支撑.然后,概述语音情感识别过程,主要包括特征提取和识别模型,重点归纳总结传统分类模型、经典深度模型、其他先进模型,并介绍常用的评价指标,同时基于评价指标对模型进行总结.最后,探讨语音情感识别领域所面临的挑战,并对未来的发展趋势进行展望.
展开更多
关键词
语音
情感
识
别
声学特征
相位信息
分类模型
深度学习
下载PDF
职称材料
改进粒子滤波跟踪的视听双模态语音识别仿真
9
作者
岳莉
李柯景
赵剑
《计算机仿真》
2024年第9期213-216,345,共5页
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态...
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态语音特征信息,构建transformer语音识别模型,将提取的特征信息输入到模型内实施并行训练,实现视听双模态语音的有效识别。实验结果表明,通过对上述方法开展信噪比测试、识别性能测试,验证了上述方法的可行性高、可靠性强。
展开更多
关键词
语音
识
别模型
谱减法
去噪处理
识
别训练
下载PDF
职称材料
基于改进K均值聚类的语音情感识别深度学习方法
10
作者
李巧君
郭彍
《计算机应用与软件》
北大核心
2024年第9期224-229,共6页
针对当前语音情感识别(Speech Emotion Recognition, SER)方法中准确性低和时间复杂度高的问题,提出一种基于改进K均值聚类的语音情感识别深度学习方法。采用改进的K-均值聚类算法从整个音频信号中选取反映情感特征的关键片段;使用短时...
针对当前语音情感识别(Speech Emotion Recognition, SER)方法中准确性低和时间复杂度高的问题,提出一种基于改进K均值聚类的语音情感识别深度学习方法。采用改进的K-均值聚类算法从整个音频信号中选取反映情感特征的关键片段;使用短时傅里叶变换将所选序列转化为一个谱图;利用深度残差模型ResNet和深度双向长短时记忆Bi-LSTM网络从空间和时间上学习表征谱图中与情感相关的隐藏特征,基于Softmax分类器获得最终的情感分类。实验结果表明,所提方法比其他识别方法具有明显的优势,在改善情感识别率的同时,降低了模型的处理时间。
展开更多
关键词
语音
情感
识
别
深度双向长短时记忆
K-均值聚类
短时傅里叶变换
下载PDF
职称材料
面向管制语音识别系统的性能评价方法
11
作者
潘卫军
王梓璇
+1 位作者
蒋培元
王壮
《科学技术与工程》
北大核心
2024年第33期14278-14286,共9页
目前,随着空中交通管理领域的发展,越来越多的人工智能技术运用到管制领域。其中自动语音识别技术被用于管制指令纠错、复诵一致性检验等方面,用于提升飞行安全和效率。为了解决自动语音识别系统的性能参差不齐的问题,提出了一种面向管...
目前,随着空中交通管理领域的发展,越来越多的人工智能技术运用到管制领域。其中自动语音识别技术被用于管制指令纠错、复诵一致性检验等方面,用于提升飞行安全和效率。为了解决自动语音识别系统的性能参差不齐的问题,提出了一种面向管制语音识别系统的性能评价方法,对3个待测系统进行了评价与分析。首先,按照一定的管制场景比例收集管制语音并进行数据标注,建立管制语音识别系统测试语料库;其次,设计管制语音识别系统评价指标体系,并通过层次分析法计算指标权重;最后,提出并训练3个待测管制语音识别系统用于评价分析。结果表明,通过该评价方法可以对管制语音识别系统进行全面的评价以及分析不同管制场景下系统的表现情况,并能够根据不同的管制场景提出性能改进建议。该方法提供了一种直观的评价管制语音识别系统的途径,有望为未来的研究提供有力的指导。
展开更多
关键词
自动
语音
识
别
空中交通管制
性能评价
层次分析法
下载PDF
职称材料
基于双通道特征融合网络的语音情感识别
12
作者
周晓彦
王丽丽
+1 位作者
邵勇斌
鞠醒
《声学技术》
CSCD
北大核心
2024年第6期854-861,共8页
针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉trans...
针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉transformer提取全局序列特征,利用卷积神经网络直接提取整个语谱图代替分块部分,更好地提取时序信息,将提取到的特征信息进行融合,能够获取判别性强的情感特征,最后输入到Softmax分类器得到识别结果。在EMO-DB和CASIA数据库上进行实验,文中所提模型的平均准确率分别达到了94.24%和93.05%,与其他模型进行对比试验,结果优于其他模型,表明了该方法的有效性。
展开更多
关键词
语音
情感
识
别
卷积神经网络
视觉transformer
特征融合
下载PDF
职称材料
基于Conformer的端到端中英文管制语音识别
13
作者
孔建国
韩琪聪
+1 位作者
梁海军
李煜琨
《航空计算技术》
2024年第3期1-5,共5页
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conf...
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conformer共享编码器对输入序列进行语言分类并以参数有效的方式对音频序列的局部和全局相依性进行建模,添加了语种分类模块来判断输入语音序列的语种,还采用了CTC解码器和注意力解码器联合解码的多任务建模方法。最后在建立的民航数据集对所提出的框架进行验证,试验结果表明,Conformer-CTC/Attention(Language-Category)相对于基线模型错误率降低,识别效果达到预期。
展开更多
关键词
空中交通管制
中英文
语音
识
别
Conformer-CTC/Attention
多任务学习
端到端
下载PDF
职称材料
基于MHA-ResNet的语音情绪识别算法
14
作者
周传华
郝敏
+1 位作者
曾辉
王勇
《微电子学与计算机》
2024年第9期41-46,共6页
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首...
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首先,将原始语音信号数据进行预处理;其次,将提取到的情绪特征集,利用多头注意力机制具备的并行化处理且自适应关注的特性,初步获取不同状态下鉴别性的语音情绪信息;最后,残差网络进一步获取深层情绪特征,完成不同情绪的识别。为验证模型有效性,在CASIA和EmoDB数据集上进行实验,其结果显示识别准确率分别为93.59%和97.57%。
展开更多
关键词
语音
情绪
识
别
多头注意力机制
残差网络
情绪特征集
下载PDF
职称材料
基于深度学习的语音识别系统实现方法
15
作者
窦亚珍
《电声技术》
2024年第10期74-76,共3页
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于...
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于Python和PyTorch框架进行系统测试。实验结果表明,所提方法在准确率、精确率及召回率方面均表现优异,能够较好地捕捉大多数样本。
展开更多
关键词
深度卷积神经网络(DCNN)
语音
识
别
PYTHON
下载PDF
职称材料
基于改进Conformer的新闻领域端到端语音识别
被引量:
2
16
作者
张济民
早克热·卡德尔
+2 位作者
艾山·吾买尔
申云飞
汪烈军
《中文信息学报》
CSCD
北大核心
2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进...
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。
展开更多
关键词
端到端
语音
识
别
CONFORMER
句子层级一致性
下载PDF
职称材料
基于语音节奏差异的情感识别方法
被引量:
2
17
作者
张家豪
章昭辉
+1 位作者
严琦
王鹏伟
《计算机科学》
CSCD
北大核心
2024年第4期262-269,共8页
语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。文中基于语音节奏特征的差异性,提出了能量帧时频融合...
语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。文中基于语音节奏特征的差异性,提出了能量帧时频融合的语音情感识别方法。其关键是,针对语音中高能量区域进行频谱筛选,以高能语音帧的分布和时频变化来体现个体的语音节奏差异。在此基础上建立基于卷积神经网络(CNN)和循环神经网络(RNN)的情感识别模型,实现对频谱的时域和频域变化特征的提取与融合。在公开数据集IEMOCAP上进行实验,结果表明,该基于语音节奏差异的语音情感识别与基于语谱图的方法相比,在加权准确率WA和非加权准确率UA指标上分别平均提升了1.05%和1.9%;同时也表明个体的语音节奏差异对提升语音情感识别效果具有重要作用。
展开更多
关键词
语音
情感
识
别
能量帧
频域谱线
时频融合
语音
节奏差异
下载PDF
职称材料
基于不同单元的端到端语音识别
被引量:
1
18
作者
张岩
艾斯卡尔·艾木都拉
米吉提·阿不里米提
《中文信息学报》
CSCD
北大核心
2024年第1期166-172,共7页
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序...
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的HMM语音识别框架进行比较。单音素基础上端到端方法的表现超过传统HMM-GMM框架,CER下降10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的HMM-GMM系统CER下降2.23%。对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标。
展开更多
关键词
端到端技术
语音
识
别
维吾尔语
链接时序分类
下载PDF
职称材料
智能燃气灶语音识别测试方法研究
被引量:
2
19
作者
曹延
曾如翔
+3 位作者
陈响亮
洪涛
张维刚
何正罡
《科技创新与应用》
2024年第2期59-62,共4页
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法...
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法满足测试要求。因此,该文在现有家电语音测试方法基础上,针对带有口音的普通话,进行智能燃气灶语音识别测试方法研究,测试方法中明确设备要求、试验环境,并引入正交试验以减少试验次数,为其他智能家具语音识别研究提供参考。
展开更多
关键词
智能燃气灶
智能家居
语音
识
别
正交试验
方差分析
下载PDF
职称材料
基于频谱分析仪的语音识别及控制软件系统设计
被引量:
3
20
作者
赵元琪
尹永柯
+1 位作者
王洪君
房明
《现代电子技术》
北大核心
2024年第6期27-31,共5页
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识...
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识别及控制软件系统。该系统支持Ubuntu 18.04及以上版本操作系统,通过语音指令实现对频谱分析仪的控制,可以实现语音唤醒、语音录入及保存、离线语音识别并转换为文字文本、可执行代码等功能。
展开更多
关键词
语音
识
别
控制软件
频谱分析仪
UBUNTU
语音
唤醒
语音
听写
下载PDF
职称材料
题名
面向自动语音识别系统的对抗样本生成方法
1
作者
于振华
苏玉璠
叶鸥
丛旭亚
机构
西安科技大学计算机科学与技术学院
出处
《计算机科学与探索》
北大核心
2025年第1期253-263,共11页
基金
国家自然科学基金(62273272,62303375)。
文摘
通过对系统进行对抗攻击可以检测系统漏洞,进而提高系统鲁棒性。然而,对抗攻击前往往需要系统的参数信息,这使得攻击条件受限。为此,结合一种新的量子粒子群优化算法,提出一种黑盒有目标对抗攻击方法。该方法通过在原始样本中添加微小噪声,构造差异化粒子群,作为初始对抗样本种群;基于记忆搜索的领域重分布策略得到当前种群的全局最优粒子,从而生成初始对抗样本;融入扩维和自适应权重位置更新,使得种群更接近目标;根据对抗样本与目标语句的编辑距离,继续优化初始对抗样本,生成最终对抗样本。为了验证方法的攻击效果,在GoogleSpeech、LibriSpeech以及CommonVoice数据集上,对语音识别模型DeepSpeech进行实验,将目标语句设置为不同场景中的常见语音指令。实验结果表明,提出的方法在三个数据集上成功率都优于对比方法,其中在Common Voice数据集上的成功率比对比方法提升了10个百分点。同时,召集志愿者对生成的对抗样本噪声强度进行主观评估,其中82.4%的对抗样本被志愿者判断为没有噪声或噪声很小。
关键词
对抗攻击
语音
识
别
黑盒攻击
样本生成
量子粒子群算法
梯度评估方法
Keywords
adversarial attack
speech recognition
black-box attack
example generation
quantum particle swarm optimi-zation algorithm
gradient evaluation method
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
多模态特征的越南语语音识别文本标点恢复
被引量:
1
2
作者
赖华
孙童
王文君
余正涛
高盛祥
董凌
机构
昆明理工大学信息工程与自动化学院
云南省人工智能重点实验室(昆明理工大学)
出处
《计算机应用》
CSCD
北大核心
2024年第2期418-423,共6页
基金
国家自然科学基金资助项目(61732005,U21B2027,61972186)
云南高新技术产业发展项目(201606)
+2 种基金
云南省重大科技专项(202103AA080015,202002AD080001⁃5)
云南省基础研究计划项目(202001AS070014)
云南省学术和技术带头人后备人才(202105AC160018)。
文摘
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。
关键词
语音
识
别
标点恢复
越南语
BERT
多模态
Keywords
speech recognition
punctuation restoration
Vietnamese
Bidirectional Encoder Representations from Transformers(BERT)
multimodal
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
构音障碍语音识别算法研究综述
被引量:
1
3
作者
宋伟
张杨豪
机构
中央民族大学信息工程学院
国家语言资源监测与研究少数民族语言中心
民族语言智能分析与安全治理教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2024年第11期62-74,共13页
文摘
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。
关键词
构音障碍
语音
识
别
深度学习
人工智能
Keywords
dysarthria
speech recognition
deep learning
artificial intelligence
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于小波散射变换和MFCC的双特征语音情感识别融合算法
被引量:
1
4
作者
应娜
吴顺朋
杨萌
邹雨鉴
机构
杭州电子科技大学通信工程学院
出处
《电信科学》
北大核心
2024年第5期62-72,共11页
基金
浙江省自然科学基金资助项目(No.LTGS23F010001)
浙江省属高校基本科研业务费专项资金资助项目(No.GK239909299001-406)。
文摘
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首先获取语音信号的小波散射特征和梅尔频率倒谱系数的相关特征;然后按尺度维度扩展小波散射特征,利用支持向量机得到情感识别的后验概率并获得排列熵,并使用排列熵对后验概率进行加权;最后采用一种偏差调整规则进一步融合MFCC的相关特征的识别结果。实验结果表明,在EMODB、RAVDESS和eNTERFACE05数据集上,与传统的基于小波散射系数的语音情感识别方法相比,该算法将ACC分别提高了2.82%、2.85%和5.92%,将UAR分别提升了3.40%、2.87%和5.80%,IEMOCAP上提高了6.89%。
关键词
语音
情感
识
别
小波散射变换
排列熵
MFCC
模型融合
Keywords
speech emotion recognition
wavelet scattering transform
permutation entropy
MFCC
model fusion
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于融合特征ADRMFCC的语音识别方法
被引量:
1
5
作者
朵琳
马建
韦贵香
唐剑
机构
昆明理工大学信息工程与自动化学院
出处
《吉林大学学报(理学版)》
CAS
北大核心
2024年第4期943-950,共8页
基金
国家自然科学基金(批准号:61962032)。
文摘
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性.
关键词
语音
识
别
残差Mel倒谱系数
特征筛选
增减分量法
Keywords
speech recognition
residual Mel cepstral coefficient
feature screening
increase and decrease component method
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于AI技术的声像档案语音识别检索应用研究
被引量:
2
6
作者
魏丽维
机构
中国舰船研究院
出处
《机电兵船档案》
2024年第1期22-24,34,共4页
文摘
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。
关键词
AI技术
声像档案
语音
识
别
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TN912.34 [电子电信—通信与信息系统]
G276 [文化科学—档案学]
下载PDF
职称材料
题名
自动语音识别模型压缩算法综述
7
作者
时小虎
袁宇平
吕贵林
常志勇
邹元君
机构
吉林大学计算机科学与技术学院
吉林大学大数据和网络管理中心
中国第一汽车集团有限公司研发总院智能网联开发院
吉林大学生物与农业工程学院
长春中医药大学医药信息学院
出处
《吉林大学学报(理学版)》
CAS
北大核心
2024年第1期122-131,共10页
基金
国家自然科学基金(批准号:62272192)
吉林省科技发展计划项目(批准号:20210201080GX)
+1 种基金
吉林省发改委项目(批准号:2021C044-1)
吉林省教育厅科研基金(批准号:JJKH20200871KJ)。
文摘
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案.
关键词
语音
识
别
模型压缩
知
识
蒸馏
模型量化
低秩分解
网络剪枝
参数共享
Keywords
speech recognition
model compression
knowledge distillation
model quantization
low-rank decomposition
network pruning
parameter sharing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
离散语音情感识别研究进展
8
作者
郭丽丽
王龙标
党建武
丁世飞
机构
中国矿业大学计算机科学与技术学院
天津大学智能与计算学部
天津市认知计算与应用重点实验室(天津大学)
Japan Advanced Institute of Science and Technology
出处
《软件学报》
EI
CSCD
北大核心
2024年第12期5487-5508,共22页
基金
国家自然科学基金(62276265,62176182,62276185)
中央高校基本科研业务费专项资金(2022QN1096)。
文摘
语音情感识别是情感计算的重要组成部分,在人机交互中占据重要的地位.准确地识别说话人的情感信息,有助于机器更好地理解用户的意图,进而提供良好的交互性以提升用户的体验.以离散语音情感为对象,对语音情感识别的理论和方法进行综述.首先在全面回顾情感识别发展历程的同时,提出一个语音情感识别综述框架.其次,介绍情感描述方法以及常用的情感语料库,旨在为语音情感识别提供基础支撑.然后,概述语音情感识别过程,主要包括特征提取和识别模型,重点归纳总结传统分类模型、经典深度模型、其他先进模型,并介绍常用的评价指标,同时基于评价指标对模型进行总结.最后,探讨语音情感识别领域所面临的挑战,并对未来的发展趋势进行展望.
关键词
语音
情感
识
别
声学特征
相位信息
分类模型
深度学习
Keywords
speech emotion recognition(SER)
acoustic feature
phase information
classification model
deep learning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
改进粒子滤波跟踪的视听双模态语音识别仿真
9
作者
岳莉
李柯景
赵剑
机构
长春大学计算机科学技术学院
出处
《计算机仿真》
2024年第9期213-216,345,共5页
基金
吉林省教育厅科研项目(JJKH20220600KJ)。
文摘
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态语音特征信息,构建transformer语音识别模型,将提取的特征信息输入到模型内实施并行训练,实现视听双模态语音的有效识别。实验结果表明,通过对上述方法开展信噪比测试、识别性能测试,验证了上述方法的可行性高、可靠性强。
关键词
语音
识
别模型
谱减法
去噪处理
识
别训练
Keywords
Speech recognition model
Spectral subtraction
Noise removal
Identification training
分类号
TP399 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进K均值聚类的语音情感识别深度学习方法
10
作者
李巧君
郭彍
机构
河南工业职业技术学院电子信息工程学院
电子科技大学电子科学与工程学院
出处
《计算机应用与软件》
北大核心
2024年第9期224-229,共6页
基金
河南省高等学校重点科研项目(19A520022)
河南省高等职业学校青年骨干教师培养计划项目(教职成函[2019]326号)。
文摘
针对当前语音情感识别(Speech Emotion Recognition, SER)方法中准确性低和时间复杂度高的问题,提出一种基于改进K均值聚类的语音情感识别深度学习方法。采用改进的K-均值聚类算法从整个音频信号中选取反映情感特征的关键片段;使用短时傅里叶变换将所选序列转化为一个谱图;利用深度残差模型ResNet和深度双向长短时记忆Bi-LSTM网络从空间和时间上学习表征谱图中与情感相关的隐藏特征,基于Softmax分类器获得最终的情感分类。实验结果表明,所提方法比其他识别方法具有明显的优势,在改善情感识别率的同时,降低了模型的处理时间。
关键词
语音
情感
识
别
深度双向长短时记忆
K-均值聚类
短时傅里叶变换
Keywords
Speech emotion recognition
Deep Bi-LSTM
K-mean clustering
Short-time Fourier transform
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向管制语音识别系统的性能评价方法
11
作者
潘卫军
王梓璇
蒋培元
王壮
机构
中国民用航空飞行学院民航飞行技术与飞行安全科研基地
中国民用航空飞行学院空中交通管理学院
出处
《科学技术与工程》
北大核心
2024年第33期14278-14286,共9页
基金
国家重点研发计划(2021YFF0603904)。
文摘
目前,随着空中交通管理领域的发展,越来越多的人工智能技术运用到管制领域。其中自动语音识别技术被用于管制指令纠错、复诵一致性检验等方面,用于提升飞行安全和效率。为了解决自动语音识别系统的性能参差不齐的问题,提出了一种面向管制语音识别系统的性能评价方法,对3个待测系统进行了评价与分析。首先,按照一定的管制场景比例收集管制语音并进行数据标注,建立管制语音识别系统测试语料库;其次,设计管制语音识别系统评价指标体系,并通过层次分析法计算指标权重;最后,提出并训练3个待测管制语音识别系统用于评价分析。结果表明,通过该评价方法可以对管制语音识别系统进行全面的评价以及分析不同管制场景下系统的表现情况,并能够根据不同的管制场景提出性能改进建议。该方法提供了一种直观的评价管制语音识别系统的途径,有望为未来的研究提供有力的指导。
关键词
自动
语音
识
别
空中交通管制
性能评价
层次分析法
Keywords
automatic speech recognition
air traffic management
performance evaluation
analytic hierarchy process
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于双通道特征融合网络的语音情感识别
12
作者
周晓彦
王丽丽
邵勇斌
鞠醒
机构
南京信息工程大学电子与信息工程学院
出处
《声学技术》
CSCD
北大核心
2024年第6期854-861,共8页
文摘
针对语音情感识别中判别性的情感特征提取难题,结合卷积神经网络和视觉transformer网络结构,提出一种双通道特征融合的语音表征方法。使用基于倒瓶颈结构的卷积模块通道,并引入类transformer训练策略提取局部频谱特征,通过改进视觉transformer提取全局序列特征,利用卷积神经网络直接提取整个语谱图代替分块部分,更好地提取时序信息,将提取到的特征信息进行融合,能够获取判别性强的情感特征,最后输入到Softmax分类器得到识别结果。在EMO-DB和CASIA数据库上进行实验,文中所提模型的平均准确率分别达到了94.24%和93.05%,与其他模型进行对比试验,结果优于其他模型,表明了该方法的有效性。
关键词
语音
情感
识
别
卷积神经网络
视觉transformer
特征融合
Keywords
speech emotion recognition
convolutional neural network
vision transformer
feature fusion
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于Conformer的端到端中英文管制语音识别
13
作者
孔建国
韩琪聪
梁海军
李煜琨
机构
中国民用航空飞行学院
出处
《航空计算技术》
2024年第3期1-5,共5页
基金
中央高校基本科研业务费项目资助(J2023-035,J2022-009)。
文摘
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conformer共享编码器对输入序列进行语言分类并以参数有效的方式对音频序列的局部和全局相依性进行建模,添加了语种分类模块来判断输入语音序列的语种,还采用了CTC解码器和注意力解码器联合解码的多任务建模方法。最后在建立的民航数据集对所提出的框架进行验证,试验结果表明,Conformer-CTC/Attention(Language-Category)相对于基线模型错误率降低,识别效果达到预期。
关键词
空中交通管制
中英文
语音
识
别
Conformer-CTC/Attention
多任务学习
端到端
Keywords
air traffic control
Chinese-English Speech Recognition
Conformer-CTC/Attention
multi-task learning
end-to-end
分类号
V355 [航空宇航科学与技术—人机与环境工程]
下载PDF
职称材料
题名
基于MHA-ResNet的语音情绪识别算法
14
作者
周传华
郝敏
曾辉
王勇
机构
安徽工业大学管理科学与工程学院
中国科学技术大学计算机科学与技术学院
出处
《微电子学与计算机》
2024年第9期41-46,共6页
基金
国家自然科学基金(71371013,71772002)。
文摘
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首先,将原始语音信号数据进行预处理;其次,将提取到的情绪特征集,利用多头注意力机制具备的并行化处理且自适应关注的特性,初步获取不同状态下鉴别性的语音情绪信息;最后,残差网络进一步获取深层情绪特征,完成不同情绪的识别。为验证模型有效性,在CASIA和EmoDB数据集上进行实验,其结果显示识别准确率分别为93.59%和97.57%。
关键词
语音
情绪
识
别
多头注意力机制
残差网络
情绪特征集
Keywords
speech emotion recognition
multiple attention mechanism
residual network
emotional feature set
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于深度学习的语音识别系统实现方法
15
作者
窦亚珍
机构
河南农业职业学院
出处
《电声技术》
2024年第10期74-76,共3页
文摘
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于Python和PyTorch框架进行系统测试。实验结果表明,所提方法在准确率、精确率及召回率方面均表现优异,能够较好地捕捉大多数样本。
关键词
深度卷积神经网络(DCNN)
语音
识
别
PYTHON
Keywords
Deep Convolutional Neural Network(DCNN)
speech recognition
Python
分类号
X784 [环境科学与工程—环境工程]
下载PDF
职称材料
题名
基于改进Conformer的新闻领域端到端语音识别
被引量:
2
16
作者
张济民
早克热·卡德尔
艾山·吾买尔
申云飞
汪烈军
机构
新疆大学信息科学与工程学院
新疆大学新疆多语种信息技术实验室
新疆大学软件学院
出处
《中文信息学报》
CSCD
北大核心
2024年第4期156-164,共9页
基金
新疆维吾尔自治区科技创新领军人才项目——高层次领军人才(2022TSYCLJ0036)。
文摘
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。
关键词
端到端
语音
识
别
CONFORMER
句子层级一致性
Keywords
end-to-end speech recognition
conformer
sentence-level agreement
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语音节奏差异的情感识别方法
被引量:
2
17
作者
张家豪
章昭辉
严琦
王鹏伟
机构
东华大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2024年第4期262-269,共8页
基金
上海市科技创新行动技术高新技术领域项目(22511100700)。
文摘
语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。文中基于语音节奏特征的差异性,提出了能量帧时频融合的语音情感识别方法。其关键是,针对语音中高能量区域进行频谱筛选,以高能语音帧的分布和时频变化来体现个体的语音节奏差异。在此基础上建立基于卷积神经网络(CNN)和循环神经网络(RNN)的情感识别模型,实现对频谱的时域和频域变化特征的提取与融合。在公开数据集IEMOCAP上进行实验,结果表明,该基于语音节奏差异的语音情感识别与基于语谱图的方法相比,在加权准确率WA和非加权准确率UA指标上分别平均提升了1.05%和1.9%;同时也表明个体的语音节奏差异对提升语音情感识别效果具有重要作用。
关键词
语音
情感
识
别
能量帧
频域谱线
时频融合
语音
节奏差异
Keywords
Speech emotion recognition
Energy frames
Spectrum
Time-frequency fusion
Voice rhythm difference
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于不同单元的端到端语音识别
被引量:
1
18
作者
张岩
艾斯卡尔·艾木都拉
米吉提·阿不里米提
机构
新疆大学信息科学与工程学院
出处
《中文信息学报》
CSCD
北大核心
2024年第1期166-172,共7页
基金
国家重点研究与发展计划(2017YFC0820602)。
文摘
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的HMM语音识别框架进行比较。单音素基础上端到端方法的表现超过传统HMM-GMM框架,CER下降10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的HMM-GMM系统CER下降2.23%。对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标。
关键词
端到端技术
语音
识
别
维吾尔语
链接时序分类
Keywords
end-to-end
ASR
Uyghur
cnnectionist temporal classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
智能燃气灶语音识别测试方法研究
被引量:
2
19
作者
曹延
曾如翔
陈响亮
洪涛
张维刚
何正罡
机构
中国计量大学
浙江方圆检测集团股份有限公司
出处
《科技创新与应用》
2024年第2期59-62,共4页
基金
浙江省产学合作协同育人项目资助(浙教办函〔2020〕267号)。
文摘
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法满足测试要求。因此,该文在现有家电语音测试方法基础上,针对带有口音的普通话,进行智能燃气灶语音识别测试方法研究,测试方法中明确设备要求、试验环境,并引入正交试验以减少试验次数,为其他智能家具语音识别研究提供参考。
关键词
智能燃气灶
智能家居
语音
识
别
正交试验
方差分析
Keywords
smart gas stove
smart home
speech recognition
orthogonal test
analysis of variance
分类号
TN912 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于频谱分析仪的语音识别及控制软件系统设计
被引量:
3
20
作者
赵元琪
尹永柯
王洪君
房明
机构
山东大学信息科学与工程学院
出处
《现代电子技术》
北大核心
2024年第6期27-31,共5页
文摘
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识别及控制软件系统。该系统支持Ubuntu 18.04及以上版本操作系统,通过语音指令实现对频谱分析仪的控制,可以实现语音唤醒、语音录入及保存、离线语音识别并转换为文字文本、可执行代码等功能。
关键词
语音
识
别
控制软件
频谱分析仪
UBUNTU
语音
唤醒
语音
听写
Keywords
speech recognition
control software
spectrum analyzer
Ubuntu
voice wake-up
voice dictation
分类号
TN911.23-34 [电子电信—通信与信息系统]
TP311.5 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向自动语音识别系统的对抗样本生成方法
于振华
苏玉璠
叶鸥
丛旭亚
《计算机科学与探索》
北大核心
2025
0
下载PDF
职称材料
2
多模态特征的越南语语音识别文本标点恢复
赖华
孙童
王文君
余正涛
高盛祥
董凌
《计算机应用》
CSCD
北大核心
2024
1
下载PDF
职称材料
3
构音障碍语音识别算法研究综述
宋伟
张杨豪
《计算机工程与应用》
CSCD
北大核心
2024
1
下载PDF
职称材料
4
基于小波散射变换和MFCC的双特征语音情感识别融合算法
应娜
吴顺朋
杨萌
邹雨鉴
《电信科学》
北大核心
2024
1
下载PDF
职称材料
5
基于融合特征ADRMFCC的语音识别方法
朵琳
马建
韦贵香
唐剑
《吉林大学学报(理学版)》
CAS
北大核心
2024
1
下载PDF
职称材料
6
基于AI技术的声像档案语音识别检索应用研究
魏丽维
《机电兵船档案》
2024
2
下载PDF
职称材料
7
自动语音识别模型压缩算法综述
时小虎
袁宇平
吕贵林
常志勇
邹元君
《吉林大学学报(理学版)》
CAS
北大核心
2024
0
下载PDF
职称材料
8
离散语音情感识别研究进展
郭丽丽
王龙标
党建武
丁世飞
《软件学报》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
9
改进粒子滤波跟踪的视听双模态语音识别仿真
岳莉
李柯景
赵剑
《计算机仿真》
2024
0
下载PDF
职称材料
10
基于改进K均值聚类的语音情感识别深度学习方法
李巧君
郭彍
《计算机应用与软件》
北大核心
2024
0
下载PDF
职称材料
11
面向管制语音识别系统的性能评价方法
潘卫军
王梓璇
蒋培元
王壮
《科学技术与工程》
北大核心
2024
0
下载PDF
职称材料
12
基于双通道特征融合网络的语音情感识别
周晓彦
王丽丽
邵勇斌
鞠醒
《声学技术》
CSCD
北大核心
2024
0
下载PDF
职称材料
13
基于Conformer的端到端中英文管制语音识别
孔建国
韩琪聪
梁海军
李煜琨
《航空计算技术》
2024
0
下载PDF
职称材料
14
基于MHA-ResNet的语音情绪识别算法
周传华
郝敏
曾辉
王勇
《微电子学与计算机》
2024
0
下载PDF
职称材料
15
基于深度学习的语音识别系统实现方法
窦亚珍
《电声技术》
2024
0
下载PDF
职称材料
16
基于改进Conformer的新闻领域端到端语音识别
张济民
早克热·卡德尔
艾山·吾买尔
申云飞
汪烈军
《中文信息学报》
CSCD
北大核心
2024
2
下载PDF
职称材料
17
基于语音节奏差异的情感识别方法
张家豪
章昭辉
严琦
王鹏伟
《计算机科学》
CSCD
北大核心
2024
2
下载PDF
职称材料
18
基于不同单元的端到端语音识别
张岩
艾斯卡尔·艾木都拉
米吉提·阿不里米提
《中文信息学报》
CSCD
北大核心
2024
1
下载PDF
职称材料
19
智能燃气灶语音识别测试方法研究
曹延
曾如翔
陈响亮
洪涛
张维刚
何正罡
《科技创新与应用》
2024
2
下载PDF
职称材料
20
基于频谱分析仪的语音识别及控制软件系统设计
赵元琪
尹永柯
王洪君
房明
《现代电子技术》
北大核心
2024
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
250
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部