期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8,340
篇文章
<
1
2
…
250
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Google语音识别技术的研究与开发
被引量:
3
1
作者
梁昌银
周丽娴
汝荣
《现代电信科技》
2013年第9期39-44,共6页
基于Android系统作为应用开发平台,利用Google语音识别技术,实现了语音搜索以及语音打开手机软件的功能。另外,开发人员还实现了常用网站链接以及手机软件的列表展示,使用户能够更加方便地上网和娱乐。通过真机测试,语音搜索与语音打开...
基于Android系统作为应用开发平台,利用Google语音识别技术,实现了语音搜索以及语音打开手机软件的功能。另外,开发人员还实现了常用网站链接以及手机软件的列表展示,使用户能够更加方便地上网和娱乐。通过真机测试,语音搜索与语音打开手机软件的功能均已实现,性能稳定可靠,实用性强。
展开更多
关键词
ANDROID
google语音识别
搜索
下载PDF
职称材料
构音障碍语音识别算法研究综述
被引量:
1
2
作者
宋伟
张杨豪
《计算机工程与应用》
CSCD
北大核心
2024年第11期62-74,共13页
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音...
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。
展开更多
关键词
构音障碍
语音
识别
深度学习
人工智能
下载PDF
职称材料
基于融合特征ADRMFCC的语音识别方法
被引量:
1
3
作者
朵琳
马建
+1 位作者
韦贵香
唐剑
《吉林大学学报(理学版)》
CAS
北大核心
2024年第4期943-950,共8页
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些...
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性.
展开更多
关键词
语音
识别
残差Mel倒谱系数
特征筛选
增减分量法
下载PDF
职称材料
基于AI技术的声像档案语音识别检索应用研究
被引量:
2
4
作者
魏丽维
《机电兵船档案》
2024年第1期22-24,34,共4页
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重...
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。
展开更多
关键词
AI技术
声像档案
语音
识别
下载PDF
职称材料
多模态特征的越南语语音识别文本标点恢复
5
作者
赖华
孙童
+3 位作者
王文君
余正涛
高盛祥
董凌
《计算机应用》
CSCD
北大核心
2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南...
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。
展开更多
关键词
语音
识别
标点恢复
越南语
BERT
多模态
下载PDF
职称材料
自动语音识别模型压缩算法综述
6
作者
时小虎
袁宇平
+2 位作者
吕贵林
常志勇
邹元君
《吉林大学学报(理学版)》
CAS
北大核心
2024年第1期122-131,共10页
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性...
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案.
展开更多
关键词
语音
识别
模型压缩
知识蒸馏
模型量化
低秩分解
网络剪枝
参数共享
下载PDF
职称材料
改进粒子滤波跟踪的视听双模态语音识别仿真
7
作者
岳莉
李柯景
赵剑
《计算机仿真》
2024年第9期213-216,345,共5页
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态...
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态语音特征信息,构建transformer语音识别模型,将提取的特征信息输入到模型内实施并行训练,实现视听双模态语音的有效识别。实验结果表明,通过对上述方法开展信噪比测试、识别性能测试,验证了上述方法的可行性高、可靠性强。
展开更多
关键词
语音
识别
模型
谱减法
去噪处理
识别
训练
下载PDF
职称材料
基于小波散射变换和MFCC的双特征语音情感识别融合算法
8
作者
应娜
吴顺朋
+1 位作者
杨萌
邹雨鉴
《电信科学》
北大核心
2024年第5期62-72,共11页
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首...
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首先获取语音信号的小波散射特征和梅尔频率倒谱系数的相关特征;然后按尺度维度扩展小波散射特征,利用支持向量机得到情感识别的后验概率并获得排列熵,并使用排列熵对后验概率进行加权;最后采用一种偏差调整规则进一步融合MFCC的相关特征的识别结果。实验结果表明,在EMODB、RAVDESS和eNTERFACE05数据集上,与传统的基于小波散射系数的语音情感识别方法相比,该算法将ACC分别提高了2.82%、2.85%和5.92%,将UAR分别提升了3.40%、2.87%和5.80%,IEMOCAP上提高了6.89%。
展开更多
关键词
语音
情感
识别
小波散射变换
排列熵
MFCC
模型融合
下载PDF
职称材料
基于改进K均值聚类的语音情感识别深度学习方法
9
作者
李巧君
郭彍
《计算机应用与软件》
北大核心
2024年第9期224-229,共6页
针对当前语音情感识别(Speech Emotion Recognition, SER)方法中准确性低和时间复杂度高的问题,提出一种基于改进K均值聚类的语音情感识别深度学习方法。采用改进的K-均值聚类算法从整个音频信号中选取反映情感特征的关键片段;使用短时...
针对当前语音情感识别(Speech Emotion Recognition, SER)方法中准确性低和时间复杂度高的问题,提出一种基于改进K均值聚类的语音情感识别深度学习方法。采用改进的K-均值聚类算法从整个音频信号中选取反映情感特征的关键片段;使用短时傅里叶变换将所选序列转化为一个谱图;利用深度残差模型ResNet和深度双向长短时记忆Bi-LSTM网络从空间和时间上学习表征谱图中与情感相关的隐藏特征,基于Softmax分类器获得最终的情感分类。实验结果表明,所提方法比其他识别方法具有明显的优势,在改善情感识别率的同时,降低了模型的处理时间。
展开更多
关键词
语音
情感
识别
深度双向长短时记忆
K-均值聚类
短时傅里叶变换
下载PDF
职称材料
人脸语音混合智能识别平台界面设计
10
作者
罗静
张红青
《包装工程》
CAS
北大核心
2024年第10期F0003-F0003,共1页
设计说明:本产品来源于现阶段的社会需求。人脸和语音混合型智能识别平台是在特殊的、安全性高的工作领域中,开展面部和声音双重认证研究,以保证其准确性及安全性,同时通过双重识别进行发令人与命令执行权限的匹配。高效、准确、安全。
关键词
智能
识别
双重认证
设计说明
匹配
人脸
双重
识别
语音
混合
安全性
下载PDF
职称材料
基于MHA-ResNet的语音情绪识别算法
11
作者
周传华
郝敏
+1 位作者
曾辉
王勇
《微电子学与计算机》
2024年第9期41-46,共6页
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首...
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首先,将原始语音信号数据进行预处理;其次,将提取到的情绪特征集,利用多头注意力机制具备的并行化处理且自适应关注的特性,初步获取不同状态下鉴别性的语音情绪信息;最后,残差网络进一步获取深层情绪特征,完成不同情绪的识别。为验证模型有效性,在CASIA和EmoDB数据集上进行实验,其结果显示识别准确率分别为93.59%和97.57%。
展开更多
关键词
语音
情绪
识别
多头注意力机制
残差网络
情绪特征集
下载PDF
职称材料
基于Conformer的端到端中英文管制语音识别
12
作者
孔建国
韩琪聪
+1 位作者
梁海军
李煜琨
《航空计算技术》
2024年第3期1-5,共5页
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conf...
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conformer共享编码器对输入序列进行语言分类并以参数有效的方式对音频序列的局部和全局相依性进行建模,添加了语种分类模块来判断输入语音序列的语种,还采用了CTC解码器和注意力解码器联合解码的多任务建模方法。最后在建立的民航数据集对所提出的框架进行验证,试验结果表明,Conformer-CTC/Attention(Language-Category)相对于基线模型错误率降低,识别效果达到预期。
展开更多
关键词
空中交通管制
中英文
语音
识别
Conformer-CTC/Attention
多任务学习
端到端
下载PDF
职称材料
基于深度学习的语音识别系统实现方法
13
作者
窦亚珍
《电声技术》
2024年第10期74-76,共3页
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于...
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于Python和PyTorch框架进行系统测试。实验结果表明,所提方法在准确率、精确率及召回率方面均表现优异,能够较好地捕捉大多数样本。
展开更多
关键词
深度卷积神经网络(DCNN)
语音
识别
PYTHON
下载PDF
职称材料
基于语音节奏差异的情感识别方法
被引量:
2
14
作者
张家豪
章昭辉
+1 位作者
严琦
王鹏伟
《计算机科学》
CSCD
北大核心
2024年第4期262-269,共8页
语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。文中基于语音节奏特征的差异性,提出了能量帧时频融合...
语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。文中基于语音节奏特征的差异性,提出了能量帧时频融合的语音情感识别方法。其关键是,针对语音中高能量区域进行频谱筛选,以高能语音帧的分布和时频变化来体现个体的语音节奏差异。在此基础上建立基于卷积神经网络(CNN)和循环神经网络(RNN)的情感识别模型,实现对频谱的时域和频域变化特征的提取与融合。在公开数据集IEMOCAP上进行实验,结果表明,该基于语音节奏差异的语音情感识别与基于语谱图的方法相比,在加权准确率WA和非加权准确率UA指标上分别平均提升了1.05%和1.9%;同时也表明个体的语音节奏差异对提升语音情感识别效果具有重要作用。
展开更多
关键词
语音
情感
识别
能量帧
频域谱线
时频融合
语音
节奏差异
下载PDF
职称材料
基于改进Conformer的新闻领域端到端语音识别
被引量:
1
15
作者
张济民
早克热·卡德尔
+2 位作者
艾山·吾买尔
申云飞
汪烈军
《中文信息学报》
CSCD
北大核心
2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进...
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。
展开更多
关键词
端到端
语音
识别
CONFORMER
句子层级一致性
下载PDF
职称材料
基于频谱分析仪的语音识别及控制软件系统设计
被引量:
3
16
作者
赵元琪
尹永柯
+1 位作者
王洪君
房明
《现代电子技术》
北大核心
2024年第6期27-31,共5页
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识...
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识别及控制软件系统。该系统支持Ubuntu 18.04及以上版本操作系统,通过语音指令实现对频谱分析仪的控制,可以实现语音唤醒、语音录入及保存、离线语音识别并转换为文字文本、可执行代码等功能。
展开更多
关键词
语音
识别
控制软件
频谱分析仪
UBUNTU
语音
唤醒
语音
听写
下载PDF
职称材料
面向不平衡数据集的语音情感识别研究
被引量:
1
17
作者
张会云
黄鹤鸣
《计算机工程与应用》
CSCD
北大核心
2024年第4期122-132,共11页
样本平衡对机器学习至关重要,在不平衡数据集中,虽然某些类别的样本数量可能很少,但其重要性可能更高。研究了基于不平衡数据集的语音情感识别技术。在不同信噪比下采用不同噪声对不平衡基线数据集EMODB和IEMOCAP进行扩充,构建含噪数据...
样本平衡对机器学习至关重要,在不平衡数据集中,虽然某些类别的样本数量可能很少,但其重要性可能更高。研究了基于不平衡数据集的语音情感识别技术。在不同信噪比下采用不同噪声对不平衡基线数据集EMODB和IEMOCAP进行扩充,构建含噪数据集EMODBM和IEMOCAPM;采用SMOTE、RandomOverSampler、SMOTEENN、ADASYN、TomekLinks以及SMOTETomek等6种技术对基线数据集和含噪数据集进行重采样,实现类别样本平衡;在基线数据集和扩充数据集上分别提取21维的低级描述符特征;采用新提出的模型MA-CapsNet验证重采样技术的有效性。实验表明,重采样后各类情感样本基本平衡,使模型的学习更公平、更客观,并且模型在重采样数据集上的鲁棒性更好。
展开更多
关键词
语音
情感
识别
重采样
胶囊网络
数据扩充
下载PDF
职称材料
智能燃气灶语音识别测试方法研究
被引量:
1
18
作者
曹延
曾如翔
+3 位作者
陈响亮
洪涛
张维刚
何正罡
《科技创新与应用》
2024年第2期59-62,共4页
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法...
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法满足测试要求。因此,该文在现有家电语音测试方法基础上,针对带有口音的普通话,进行智能燃气灶语音识别测试方法研究,测试方法中明确设备要求、试验环境,并引入正交试验以减少试验次数,为其他智能家具语音识别研究提供参考。
展开更多
关键词
智能燃气灶
智能家居
语音
识别
正交试验
方差分析
下载PDF
职称材料
一种基于语音识别的地埋式垃圾分类装置
被引量:
1
19
作者
林锋烽
梁景松
+2 位作者
王昊
谭成兰
王子棋
《科技与创新》
2024年第8期5-8,共4页
针对目前城市街头的大量垃圾分类箱占用了大量空间、细菌病毒容易在其中滋生、恶臭气味污染空气、用户在投放垃圾时容易接触到致病体等问题,使用STM32单片机、人体红外感应模块、超声波感应模块、语音识别模块、语音播报模块及步进电机...
针对目前城市街头的大量垃圾分类箱占用了大量空间、细菌病毒容易在其中滋生、恶臭气味污染空气、用户在投放垃圾时容易接触到致病体等问题,使用STM32单片机、人体红外感应模块、超声波感应模块、语音识别模块、语音播报模块及步进电机设计了一种基于语音识别的智能垃圾分类回收装置。该装置可通过语音识别对常见垃圾进行分类,将垃圾引入地底,消除臭味缠身的烦恼,防止致病体传播,也可大大节省城市的空间,有望为城市垃圾管理和环境保护工作作出积极贡献。
展开更多
关键词
语音
识别
垃圾分类
地埋升跃
垃圾分类装置
下载PDF
职称材料
融合坐标与多头注意力机制的交互语音情感识别
被引量:
1
20
作者
高鹏淇
黄鹤鸣
樊永红
《计算机应用》
CSCD
北大核心
2024年第8期2400-2406,共7页
语音情感识别(SER)是人机交互系统中一项重要且充满挑战性的任务。针对目前SER系统中存在特征单一和特征间交互性较弱的问题,提出多输入交互注意力网络MIAN。该网络由特定特征坐标残差注意力网络和共享特征多头注意力网络两个子网络组...
语音情感识别(SER)是人机交互系统中一项重要且充满挑战性的任务。针对目前SER系统中存在特征单一和特征间交互性较弱的问题,提出多输入交互注意力网络MIAN。该网络由特定特征坐标残差注意力网络和共享特征多头注意力网络两个子网络组成。前者利用Res2Net和坐标注意力模块学习从原始语音中获取的特定特征,并生成多尺度特征表示,增强模型对情感相关信息的表征能力;后者融合前向网络所获取的特征,组成共享特征,并经双向长短时记忆(BiLSTM)网络输入至多头注意力模块,能同时关注不同特征子空间中的相关信息,增强特征之间的交互性,以捕获判别性强的特征。通过2个子网络间的协同作用,能增加模型特征的多样性,增强特征之间的交互能力。在训练过程中,应用双损失函数共同监督,使同类样本更紧凑、不同类样本更分离。实验结果表明,MIAN在EMO-DB和IEMOCAP语料库上分别取得了91.43%和76.33%的加权平均精度,相较于其他主流模型,具有更好的分类性能。
展开更多
关键词
语音
情感
识别
坐标注意力机制
多头注意力机制
特定特征学习
共享特征学习
下载PDF
职称材料
题名
Google语音识别技术的研究与开发
被引量:
3
1
作者
梁昌银
周丽娴
汝荣
机构
重庆邮电大学通信网与测试技术重点实验室
出处
《现代电信科技》
2013年第9期39-44,共6页
文摘
基于Android系统作为应用开发平台,利用Google语音识别技术,实现了语音搜索以及语音打开手机软件的功能。另外,开发人员还实现了常用网站链接以及手机软件的列表展示,使用户能够更加方便地上网和娱乐。通过真机测试,语音搜索与语音打开手机软件的功能均已实现,性能稳定可靠,实用性强。
关键词
ANDROID
google语音识别
搜索
Keywords
Android,
google
Voice, Searching
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
构音障碍语音识别算法研究综述
被引量:
1
2
作者
宋伟
张杨豪
机构
中央民族大学信息工程学院
国家语言资源监测与研究少数民族语言中心
民族语言智能分析与安全治理教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2024年第11期62-74,共13页
文摘
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。
关键词
构音障碍
语音
识别
深度学习
人工智能
Keywords
dysarthria
speech recognition
deep learning
artificial intelligence
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于融合特征ADRMFCC的语音识别方法
被引量:
1
3
作者
朵琳
马建
韦贵香
唐剑
机构
昆明理工大学信息工程与自动化学院
出处
《吉林大学学报(理学版)》
CAS
北大核心
2024年第4期943-950,共8页
基金
国家自然科学基金(批准号:61962032)。
文摘
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性.
关键词
语音
识别
残差Mel倒谱系数
特征筛选
增减分量法
Keywords
speech recognition
residual Mel cepstral coefficient
feature screening
increase and decrease component method
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于AI技术的声像档案语音识别检索应用研究
被引量:
2
4
作者
魏丽维
机构
中国舰船研究院
出处
《机电兵船档案》
2024年第1期22-24,34,共4页
文摘
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。
关键词
AI技术
声像档案
语音
识别
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TN912.34 [电子电信—通信与信息系统]
G276 [文化科学—档案学]
下载PDF
职称材料
题名
多模态特征的越南语语音识别文本标点恢复
5
作者
赖华
孙童
王文君
余正涛
高盛祥
董凌
机构
昆明理工大学信息工程与自动化学院
云南省人工智能重点实验室(昆明理工大学)
出处
《计算机应用》
CSCD
北大核心
2024年第2期418-423,共6页
基金
国家自然科学基金资助项目(61732005,U21B2027,61972186)
云南高新技术产业发展项目(201606)
+2 种基金
云南省重大科技专项(202103AA080015,202002AD080001⁃5)
云南省基础研究计划项目(202001AS070014)
云南省学术和技术带头人后备人才(202105AC160018)。
文摘
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。
关键词
语音
识别
标点恢复
越南语
BERT
多模态
Keywords
speech recognition
punctuation restoration
Vietnamese
Bidirectional Encoder Representations from Transformers(BERT)
multimodal
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
自动语音识别模型压缩算法综述
6
作者
时小虎
袁宇平
吕贵林
常志勇
邹元君
机构
吉林大学计算机科学与技术学院
吉林大学大数据和网络管理中心
中国第一汽车集团有限公司研发总院智能网联开发院
吉林大学生物与农业工程学院
长春中医药大学医药信息学院
出处
《吉林大学学报(理学版)》
CAS
北大核心
2024年第1期122-131,共10页
基金
国家自然科学基金(批准号:62272192)
吉林省科技发展计划项目(批准号:20210201080GX)
+1 种基金
吉林省发改委项目(批准号:2021C044-1)
吉林省教育厅科研基金(批准号:JJKH20200871KJ)。
文摘
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案.
关键词
语音
识别
模型压缩
知识蒸馏
模型量化
低秩分解
网络剪枝
参数共享
Keywords
speech recognition
model compression
knowledge distillation
model quantization
low-rank decomposition
network pruning
parameter sharing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
改进粒子滤波跟踪的视听双模态语音识别仿真
7
作者
岳莉
李柯景
赵剑
机构
长春大学计算机科学技术学院
出处
《计算机仿真》
2024年第9期213-216,345,共5页
基金
吉林省教育厅科研项目(JJKH20220600KJ)。
文摘
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态语音特征信息,构建transformer语音识别模型,将提取的特征信息输入到模型内实施并行训练,实现视听双模态语音的有效识别。实验结果表明,通过对上述方法开展信噪比测试、识别性能测试,验证了上述方法的可行性高、可靠性强。
关键词
语音
识别
模型
谱减法
去噪处理
识别
训练
Keywords
Speech recognition model
Spectral subtraction
Noise removal
Identification training
分类号
TP399 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于小波散射变换和MFCC的双特征语音情感识别融合算法
8
作者
应娜
吴顺朋
杨萌
邹雨鉴
机构
杭州电子科技大学通信工程学院
出处
《电信科学》
北大核心
2024年第5期62-72,共11页
基金
浙江省自然科学基金资助项目(No.LTGS23F010001)
浙江省属高校基本科研业务费专项资金资助项目(No.GK239909299001-406)。
文摘
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首先获取语音信号的小波散射特征和梅尔频率倒谱系数的相关特征;然后按尺度维度扩展小波散射特征,利用支持向量机得到情感识别的后验概率并获得排列熵,并使用排列熵对后验概率进行加权;最后采用一种偏差调整规则进一步融合MFCC的相关特征的识别结果。实验结果表明,在EMODB、RAVDESS和eNTERFACE05数据集上,与传统的基于小波散射系数的语音情感识别方法相比,该算法将ACC分别提高了2.82%、2.85%和5.92%,将UAR分别提升了3.40%、2.87%和5.80%,IEMOCAP上提高了6.89%。
关键词
语音
情感
识别
小波散射变换
排列熵
MFCC
模型融合
Keywords
speech emotion recognition
wavelet scattering transform
permutation entropy
MFCC
model fusion
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于改进K均值聚类的语音情感识别深度学习方法
9
作者
李巧君
郭彍
机构
河南工业职业技术学院电子信息工程学院
电子科技大学电子科学与工程学院
出处
《计算机应用与软件》
北大核心
2024年第9期224-229,共6页
基金
河南省高等学校重点科研项目(19A520022)
河南省高等职业学校青年骨干教师培养计划项目(教职成函[2019]326号)。
文摘
针对当前语音情感识别(Speech Emotion Recognition, SER)方法中准确性低和时间复杂度高的问题,提出一种基于改进K均值聚类的语音情感识别深度学习方法。采用改进的K-均值聚类算法从整个音频信号中选取反映情感特征的关键片段;使用短时傅里叶变换将所选序列转化为一个谱图;利用深度残差模型ResNet和深度双向长短时记忆Bi-LSTM网络从空间和时间上学习表征谱图中与情感相关的隐藏特征,基于Softmax分类器获得最终的情感分类。实验结果表明,所提方法比其他识别方法具有明显的优势,在改善情感识别率的同时,降低了模型的处理时间。
关键词
语音
情感
识别
深度双向长短时记忆
K-均值聚类
短时傅里叶变换
Keywords
Speech emotion recognition
Deep Bi-LSTM
K-mean clustering
Short-time Fourier transform
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
人脸语音混合智能识别平台界面设计
10
作者
罗静
张红青
机构
广州南洋理工职业学院
出处
《包装工程》
CAS
北大核心
2024年第10期F0003-F0003,共1页
基金
2021年广东省普通高校重点领域专项(新一代信息技术)项目(2021ZDZX1107)。
文摘
设计说明:本产品来源于现阶段的社会需求。人脸和语音混合型智能识别平台是在特殊的、安全性高的工作领域中,开展面部和声音双重认证研究,以保证其准确性及安全性,同时通过双重识别进行发令人与命令执行权限的匹配。高效、准确、安全。
关键词
智能
识别
双重认证
设计说明
匹配
人脸
双重
识别
语音
混合
安全性
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于MHA-ResNet的语音情绪识别算法
11
作者
周传华
郝敏
曾辉
王勇
机构
安徽工业大学管理科学与工程学院
中国科学技术大学计算机科学与技术学院
出处
《微电子学与计算机》
2024年第9期41-46,共6页
基金
国家自然科学基金(71371013,71772002)。
文摘
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首先,将原始语音信号数据进行预处理;其次,将提取到的情绪特征集,利用多头注意力机制具备的并行化处理且自适应关注的特性,初步获取不同状态下鉴别性的语音情绪信息;最后,残差网络进一步获取深层情绪特征,完成不同情绪的识别。为验证模型有效性,在CASIA和EmoDB数据集上进行实验,其结果显示识别准确率分别为93.59%和97.57%。
关键词
语音
情绪
识别
多头注意力机制
残差网络
情绪特征集
Keywords
speech emotion recognition
multiple attention mechanism
residual network
emotional feature set
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于Conformer的端到端中英文管制语音识别
12
作者
孔建国
韩琪聪
梁海军
李煜琨
机构
中国民用航空飞行学院
出处
《航空计算技术》
2024年第3期1-5,共5页
基金
中央高校基本科研业务费项目资助(J2023-035,J2022-009)。
文摘
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conformer共享编码器对输入序列进行语言分类并以参数有效的方式对音频序列的局部和全局相依性进行建模,添加了语种分类模块来判断输入语音序列的语种,还采用了CTC解码器和注意力解码器联合解码的多任务建模方法。最后在建立的民航数据集对所提出的框架进行验证,试验结果表明,Conformer-CTC/Attention(Language-Category)相对于基线模型错误率降低,识别效果达到预期。
关键词
空中交通管制
中英文
语音
识别
Conformer-CTC/Attention
多任务学习
端到端
Keywords
air traffic control
Chinese-English Speech Recognition
Conformer-CTC/Attention
multi-task learning
end-to-end
分类号
V355 [航空宇航科学与技术—人机与环境工程]
下载PDF
职称材料
题名
基于深度学习的语音识别系统实现方法
13
作者
窦亚珍
机构
河南农业职业学院
出处
《电声技术》
2024年第10期74-76,共3页
文摘
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于Python和PyTorch框架进行系统测试。实验结果表明,所提方法在准确率、精确率及召回率方面均表现优异,能够较好地捕捉大多数样本。
关键词
深度卷积神经网络(DCNN)
语音
识别
PYTHON
Keywords
Deep Convolutional Neural Network(DCNN)
speech recognition
Python
分类号
X784 [环境科学与工程—环境工程]
下载PDF
职称材料
题名
基于语音节奏差异的情感识别方法
被引量:
2
14
作者
张家豪
章昭辉
严琦
王鹏伟
机构
东华大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2024年第4期262-269,共8页
基金
上海市科技创新行动技术高新技术领域项目(22511100700)。
文摘
语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。文中基于语音节奏特征的差异性,提出了能量帧时频融合的语音情感识别方法。其关键是,针对语音中高能量区域进行频谱筛选,以高能语音帧的分布和时频变化来体现个体的语音节奏差异。在此基础上建立基于卷积神经网络(CNN)和循环神经网络(RNN)的情感识别模型,实现对频谱的时域和频域变化特征的提取与融合。在公开数据集IEMOCAP上进行实验,结果表明,该基于语音节奏差异的语音情感识别与基于语谱图的方法相比,在加权准确率WA和非加权准确率UA指标上分别平均提升了1.05%和1.9%;同时也表明个体的语音节奏差异对提升语音情感识别效果具有重要作用。
关键词
语音
情感
识别
能量帧
频域谱线
时频融合
语音
节奏差异
Keywords
Speech emotion recognition
Energy frames
Spectrum
Time-frequency fusion
Voice rhythm difference
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于改进Conformer的新闻领域端到端语音识别
被引量:
1
15
作者
张济民
早克热·卡德尔
艾山·吾买尔
申云飞
汪烈军
机构
新疆大学信息科学与工程学院
新疆大学新疆多语种信息技术实验室
新疆大学软件学院
出处
《中文信息学报》
CSCD
北大核心
2024年第4期156-164,共9页
基金
新疆维吾尔自治区科技创新领军人才项目——高层次领军人才(2022TSYCLJ0036)。
文摘
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。
关键词
端到端
语音
识别
CONFORMER
句子层级一致性
Keywords
end-to-end speech recognition
conformer
sentence-level agreement
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于频谱分析仪的语音识别及控制软件系统设计
被引量:
3
16
作者
赵元琪
尹永柯
王洪君
房明
机构
山东大学信息科学与工程学院
出处
《现代电子技术》
北大核心
2024年第6期27-31,共5页
文摘
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识别及控制软件系统。该系统支持Ubuntu 18.04及以上版本操作系统,通过语音指令实现对频谱分析仪的控制,可以实现语音唤醒、语音录入及保存、离线语音识别并转换为文字文本、可执行代码等功能。
关键词
语音
识别
控制软件
频谱分析仪
UBUNTU
语音
唤醒
语音
听写
Keywords
speech recognition
control software
spectrum analyzer
Ubuntu
voice wake-up
voice dictation
分类号
TN911.23-34 [电子电信—通信与信息系统]
TP311.5 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向不平衡数据集的语音情感识别研究
被引量:
1
17
作者
张会云
黄鹤鸣
机构
青海师范大学计算机学院
藏语智能语音信息处理及应用国家重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2024年第4期122-132,共11页
基金
国家自然科学基金(62066039)
青海省自然科学基金(2022-ZJ-925)。
文摘
样本平衡对机器学习至关重要,在不平衡数据集中,虽然某些类别的样本数量可能很少,但其重要性可能更高。研究了基于不平衡数据集的语音情感识别技术。在不同信噪比下采用不同噪声对不平衡基线数据集EMODB和IEMOCAP进行扩充,构建含噪数据集EMODBM和IEMOCAPM;采用SMOTE、RandomOverSampler、SMOTEENN、ADASYN、TomekLinks以及SMOTETomek等6种技术对基线数据集和含噪数据集进行重采样,实现类别样本平衡;在基线数据集和扩充数据集上分别提取21维的低级描述符特征;采用新提出的模型MA-CapsNet验证重采样技术的有效性。实验表明,重采样后各类情感样本基本平衡,使模型的学习更公平、更客观,并且模型在重采样数据集上的鲁棒性更好。
关键词
语音
情感
识别
重采样
胶囊网络
数据扩充
Keywords
speech emotion recognition
resampling
capsule network
data augmentation
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
智能燃气灶语音识别测试方法研究
被引量:
1
18
作者
曹延
曾如翔
陈响亮
洪涛
张维刚
何正罡
机构
中国计量大学
浙江方圆检测集团股份有限公司
出处
《科技创新与应用》
2024年第2期59-62,共4页
基金
浙江省产学合作协同育人项目资助(浙教办函〔2020〕267号)。
文摘
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法满足测试要求。因此,该文在现有家电语音测试方法基础上,针对带有口音的普通话,进行智能燃气灶语音识别测试方法研究,测试方法中明确设备要求、试验环境,并引入正交试验以减少试验次数,为其他智能家具语音识别研究提供参考。
关键词
智能燃气灶
智能家居
语音
识别
正交试验
方差分析
Keywords
smart gas stove
smart home
speech recognition
orthogonal test
analysis of variance
分类号
TN912 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
一种基于语音识别的地埋式垃圾分类装置
被引量:
1
19
作者
林锋烽
梁景松
王昊
谭成兰
王子棋
机构
广东海洋大学机械工程学院
出处
《科技与创新》
2024年第8期5-8,共4页
基金
2022年广东海洋大学大学生创新训练计划项目(编号:CXXL2022089)。
文摘
针对目前城市街头的大量垃圾分类箱占用了大量空间、细菌病毒容易在其中滋生、恶臭气味污染空气、用户在投放垃圾时容易接触到致病体等问题,使用STM32单片机、人体红外感应模块、超声波感应模块、语音识别模块、语音播报模块及步进电机设计了一种基于语音识别的智能垃圾分类回收装置。该装置可通过语音识别对常见垃圾进行分类,将垃圾引入地底,消除臭味缠身的烦恼,防止致病体传播,也可大大节省城市的空间,有望为城市垃圾管理和环境保护工作作出积极贡献。
关键词
语音
识别
垃圾分类
地埋升跃
垃圾分类装置
分类号
X799.3 [环境科学与工程—环境工程]
下载PDF
职称材料
题名
融合坐标与多头注意力机制的交互语音情感识别
被引量:
1
20
作者
高鹏淇
黄鹤鸣
樊永红
机构
青海师范大学计算机学院
藏语智能信息处理及应用国家重点实验室
出处
《计算机应用》
CSCD
北大核心
2024年第8期2400-2406,共7页
基金
国家自然科学基金资助项目(620660039)
青海省自然科学基金资助项目(2022-ZJ-925)
高等学校学科创新引智计划项目(D20035)。
文摘
语音情感识别(SER)是人机交互系统中一项重要且充满挑战性的任务。针对目前SER系统中存在特征单一和特征间交互性较弱的问题,提出多输入交互注意力网络MIAN。该网络由特定特征坐标残差注意力网络和共享特征多头注意力网络两个子网络组成。前者利用Res2Net和坐标注意力模块学习从原始语音中获取的特定特征,并生成多尺度特征表示,增强模型对情感相关信息的表征能力;后者融合前向网络所获取的特征,组成共享特征,并经双向长短时记忆(BiLSTM)网络输入至多头注意力模块,能同时关注不同特征子空间中的相关信息,增强特征之间的交互性,以捕获判别性强的特征。通过2个子网络间的协同作用,能增加模型特征的多样性,增强特征之间的交互能力。在训练过程中,应用双损失函数共同监督,使同类样本更紧凑、不同类样本更分离。实验结果表明,MIAN在EMO-DB和IEMOCAP语料库上分别取得了91.43%和76.33%的加权平均精度,相较于其他主流模型,具有更好的分类性能。
关键词
语音
情感
识别
坐标注意力机制
多头注意力机制
特定特征学习
共享特征学习
Keywords
Speech Emotion Recognition(SER)
coordinate attention mechanism
multi-head attention mechanism
specific feature learning
shared feature learning
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Google语音识别技术的研究与开发
梁昌银
周丽娴
汝荣
《现代电信科技》
2013
3
下载PDF
职称材料
2
构音障碍语音识别算法研究综述
宋伟
张杨豪
《计算机工程与应用》
CSCD
北大核心
2024
1
下载PDF
职称材料
3
基于融合特征ADRMFCC的语音识别方法
朵琳
马建
韦贵香
唐剑
《吉林大学学报(理学版)》
CAS
北大核心
2024
1
下载PDF
职称材料
4
基于AI技术的声像档案语音识别检索应用研究
魏丽维
《机电兵船档案》
2024
2
下载PDF
职称材料
5
多模态特征的越南语语音识别文本标点恢复
赖华
孙童
王文君
余正涛
高盛祥
董凌
《计算机应用》
CSCD
北大核心
2024
0
下载PDF
职称材料
6
自动语音识别模型压缩算法综述
时小虎
袁宇平
吕贵林
常志勇
邹元君
《吉林大学学报(理学版)》
CAS
北大核心
2024
0
下载PDF
职称材料
7
改进粒子滤波跟踪的视听双模态语音识别仿真
岳莉
李柯景
赵剑
《计算机仿真》
2024
0
下载PDF
职称材料
8
基于小波散射变换和MFCC的双特征语音情感识别融合算法
应娜
吴顺朋
杨萌
邹雨鉴
《电信科学》
北大核心
2024
0
下载PDF
职称材料
9
基于改进K均值聚类的语音情感识别深度学习方法
李巧君
郭彍
《计算机应用与软件》
北大核心
2024
0
下载PDF
职称材料
10
人脸语音混合智能识别平台界面设计
罗静
张红青
《包装工程》
CAS
北大核心
2024
0
下载PDF
职称材料
11
基于MHA-ResNet的语音情绪识别算法
周传华
郝敏
曾辉
王勇
《微电子学与计算机》
2024
0
下载PDF
职称材料
12
基于Conformer的端到端中英文管制语音识别
孔建国
韩琪聪
梁海军
李煜琨
《航空计算技术》
2024
0
下载PDF
职称材料
13
基于深度学习的语音识别系统实现方法
窦亚珍
《电声技术》
2024
0
下载PDF
职称材料
14
基于语音节奏差异的情感识别方法
张家豪
章昭辉
严琦
王鹏伟
《计算机科学》
CSCD
北大核心
2024
2
下载PDF
职称材料
15
基于改进Conformer的新闻领域端到端语音识别
张济民
早克热·卡德尔
艾山·吾买尔
申云飞
汪烈军
《中文信息学报》
CSCD
北大核心
2024
1
下载PDF
职称材料
16
基于频谱分析仪的语音识别及控制软件系统设计
赵元琪
尹永柯
王洪君
房明
《现代电子技术》
北大核心
2024
3
下载PDF
职称材料
17
面向不平衡数据集的语音情感识别研究
张会云
黄鹤鸣
《计算机工程与应用》
CSCD
北大核心
2024
1
下载PDF
职称材料
18
智能燃气灶语音识别测试方法研究
曹延
曾如翔
陈响亮
洪涛
张维刚
何正罡
《科技创新与应用》
2024
1
下载PDF
职称材料
19
一种基于语音识别的地埋式垃圾分类装置
林锋烽
梁景松
王昊
谭成兰
王子棋
《科技与创新》
2024
1
下载PDF
职称材料
20
融合坐标与多头注意力机制的交互语音情感识别
高鹏淇
黄鹤鸣
樊永红
《计算机应用》
CSCD
北大核心
2024
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
250
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部