期刊文献+
共找到4,264篇文章
< 1 2 214 >
每页显示 20 50 100
基于STM32的辨音识别系统的设计与应用 被引量:1
1
作者 李棚 孔健 +2 位作者 叶飞 张明存 刘明明 《科学技术创新》 2024年第3期64-67,共4页
声音识别技术能够用于多种环境参数检测,本文采用STM32的DSP技术,对全向拾音器采集到环境声音进行快速傅里叶变换(FFT),获取待测声音的主频率和次频率,通过液晶屏显示采集信号的强度和主要频率分量。该设备能够有效对环境声音的主要参... 声音识别技术能够用于多种环境参数检测,本文采用STM32的DSP技术,对全向拾音器采集到环境声音进行快速傅里叶变换(FFT),获取待测声音的主频率和次频率,通过液晶屏显示采集信号的强度和主要频率分量。该设备能够有效对环境声音的主要参赛进行检测,在噪声检测和一般设备运行故障检测具有较高的适用性。 展开更多
关键词 STM32F103主控 快速傅里叶变换(FFT) 数字信号处理(DSP)
下载PDF
基于深度学习的水下目标识别技术 被引量:2
2
作者 丁元明 徐利华 侯孟珂 《舰船科学技术》 北大核心 2024年第1期143-147,共5页
在水下复杂场景下,目标对象具有姿态不同、遮挡和背景复杂等特点,这对卷积网络的特征提取能力提出巨大挑战。Mask R-CNN算法在水下目标特征提取过程中也存在特征提取能力欠佳的问题,导致算法在水下目标检测准确性较差。因此,提出一种基... 在水下复杂场景下,目标对象具有姿态不同、遮挡和背景复杂等特点,这对卷积网络的特征提取能力提出巨大挑战。Mask R-CNN算法在水下目标特征提取过程中也存在特征提取能力欠佳的问题,导致算法在水下目标检测准确性较差。因此,提出一种基于Mask R-CNN的改进水下目标目标识别方法。首先可采用金字塔切分的通道注意力模块PAS代替采用了ResNet50的3×3卷积模块,该模块可通过对每个通道进行金字塔的切分,针对通道切分完成后所得出来的通道特征图上的空间信息来进行不用的尺度特征层提取;同时通过采用另一种更加安全稳定和高效的ECANEt通道注意力模块代替PAS模块中的SENet通道注意力模,对多维度的通道注意力权重进行特征重标定;最后对特征金字塔FPN的网络结构进行改进,加强不同特征层之间的信息融合。根据不同场景下进行的实验对比,改进后的网络能够提高水下目标识别的准确率,平均检测精度可达91.3%。本文所提出的改进Mask RCNN网络模型,能够适应水下复杂多变的场景,为水下目标的识别提供理论依据与技术方案。 展开更多
关键词 水下目标识别 Mask R-CNN 深度学习
下载PDF
粒径比率对声波操纵颗粒分离过程影响的数值模拟研究
3
作者 吴悠 田晓平 +2 位作者 KENZA Ayyada 王璜鹏 杨文婧 《电声技术》 2024年第4期23-27,共5页
基于驻波表面声波的微粒操纵技术因其高效低耗而得到广泛应用,但仅依靠实验方法和理论研究难以全面研究微观尺度下的微粒运动。对微流体内声波分离微观颗粒的过程进行数值模拟,并进一步研究不同粒径颗粒的粒径比率对颗粒分离过程的影响... 基于驻波表面声波的微粒操纵技术因其高效低耗而得到广泛应用,但仅依靠实验方法和理论研究难以全面研究微观尺度下的微粒运动。对微流体内声波分离微观颗粒的过程进行数值模拟,并进一步研究不同粒径颗粒的粒径比率对颗粒分离过程的影响。结果表明,两种颗粒的粒径越接近,颗粒分离越困难;粒径差越大,颗粒分离效果越好;粒径比率影响颗粒分离过程的本质是影响了大小颗粒受声场作用力间的差距。 展开更多
关键词 颗粒分离 离散元 表面声波 微流体
下载PDF
规则压缩模型和灵活架构的Transformer加速器设计
4
作者 姜小波 邓晗珂 +1 位作者 莫志杰 黎红源 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1079-1088,共10页
基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了... 基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了模型映射到硬件的效率。目前的加速器研究主要聚焦在解决模型数量上的复杂性,但对如何解决模型结构上的复杂性研究得不多。该文首先提出规则压缩模型,降低模型的结构复杂度,提高模型和硬件的匹配度,提高模型映射到硬件的效率。接着提出一种硬件友好的模型压缩方法,采用规则的偏移对角权重剪枝方案和简化硬件量化推理逻辑。此外,提出一个高效灵活的硬件架构,包括一种以块为单元的权重固定脉动运算阵列,同时包括一种准分布的存储架构。该架构可以高效实现算法到运算阵列的映射,同时实现高效的数据存储效率和降低数据移动。实验结果表明,该文工作在性能损失极小的情况下实现93.75%的压缩率,在FPGA上实现的加速器可以高效处理压缩后的Transformer模型,相比于中央处理器(CPU)和图形处理器(GPU)能效分别提高了12.45倍和4.17倍。 展开更多
关键词 自然语音处理 TRANSFORMER 模型压缩 硬件加速器 机器翻译
下载PDF
人脸语音混合智能识别平台界面设计
5
作者 罗静 张红青 《包装工程》 CAS 北大核心 2024年第10期F0003-F0003,共1页
设计说明:本产品来源于现阶段的社会需求。人脸和语音混合型智能识别平台是在特殊的、安全性高的工作领域中,开展面部和声音双重认证研究,以保证其准确性及安全性,同时通过双重识别进行发令人与命令执行权限的匹配。高效、准确、安全。
关键词 智能识别 双重认证 设计说明 匹配 人脸 双重识别 语音混合 安全性
下载PDF
基于ERes-ECAM的动物声纹识别
6
作者 侯卫民 孙艺菲 刘峻滔 《无线电通信技术》 北大核心 2024年第4期789-798,共10页
声纹识别技术不仅在人类身份验证领域广泛应用,在动物种类识别方面也取得一定进展。现有模型存在特征表达能力不足的问题,同时,在保证性能的前提下,模型的时间复杂度和推理速度有待优化。提出用于发声动物嵌入学习的改进的残差块连接改... 声纹识别技术不仅在人类身份验证领域广泛应用,在动物种类识别方面也取得一定进展。现有模型存在特征表达能力不足的问题,同时,在保证性能的前提下,模型的时间复杂度和推理速度有待优化。提出用于发声动物嵌入学习的改进的残差块连接改进的上下文感知掩蔽(Enhanced Res2block connected Enhanced Context Aware Masking, ERes-ECAM)新型架构,采用了稠密连接的时延神经网络(Densely-connected Time Delay Neural Network, D-TDNN)作为骨干,为了解决模糊不相关噪声问题的同时能够提取更多有效的关键信息,在D-TDNN层中采用多粒度池化方法的改进的上下文感知掩蔽(Enhanced Context Aware Masking, ECAM)模块,前端连接残差模块,通过局部特征融合(Local Feature Fusion, LFF)的方式,将残差块内提取的特征进行融合来提取局部信息,提升了声纹验证系统的准确性和鲁棒性。在Anim-Celeb和Pig-Celeb两个测试集中分别实验,实验结果表明,所提架构的等错误率(Equal Error Rate, EER)分别达到6.88%和7.24%,同时,对动物种类和猪只种类识别准确率达到了93.12%和92.76%。 展开更多
关键词 深度学习 声纹识别 上下文感知掩码 局部特征融合 动物种类识别
下载PDF
小波域在无线局域网络信号增强中的应用
7
作者 张沛朋 《通化师范学院学报》 2024年第8期56-62,共7页
为提升无线局域网络信号增强中的去噪效果,应用小波域思想,设计一种无线局域网络信号增强算法.针对无线局域网络,收集无线局域网络原始功率谱数据,通过功率谱拟合因子提取信号特征,识别网络信号.对于识别的无线局域网络信号,通过过零率... 为提升无线局域网络信号增强中的去噪效果,应用小波域思想,设计一种无线局域网络信号增强算法.针对无线局域网络,收集无线局域网络原始功率谱数据,通过功率谱拟合因子提取信号特征,识别网络信号.对于识别的无线局域网络信号,通过过零率和短时功率提取该信号.基于小波域对无线局域网络信号实施去噪处理,分为二维小波变换、二进剖分、信号重构三个步骤.通过贝叶斯方法,在实施稀疏字典训练的同时,实现无线局域网络信号的增强处理,在训练中结合K-SVD算法,将信号增强过程和稀疏字典学习过程进行迭代和融合.将MATLAB R2019a作为测试设计算法的实验平台,利用计算机开展算法性能测试.测试结果表明:设计算法的无线局域网络信号增强性能良好,同时信号去噪性能较强,说明算法满足设计需求,在完善细节后可以投入实际应用. 展开更多
关键词 小波域 无线局域网络 信号原始功率谱数据 信号增强算法 神经网络分类器 二维小波变换
下载PDF
基于MHA-ResNet的语音情绪识别算法
8
作者 周传华 郝敏 +1 位作者 曾辉 王勇 《微电子学与计算机》 2024年第9期41-46,共6页
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首... 语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首先,将原始语音信号数据进行预处理;其次,将提取到的情绪特征集,利用多头注意力机制具备的并行化处理且自适应关注的特性,初步获取不同状态下鉴别性的语音情绪信息;最后,残差网络进一步获取深层情绪特征,完成不同情绪的识别。为验证模型有效性,在CASIA和EmoDB数据集上进行实验,其结果显示识别准确率分别为93.59%和97.57%。 展开更多
关键词 语音情绪识别 多头注意力机制 残差网络 情绪特征集
下载PDF
语音识别在空中交通管制中的应用挑战与发展
9
作者 孔建国 李煜琨 +1 位作者 蒋培元 梁海军 《航空计算技术》 2024年第1期124-129,共6页
研究一种安全可靠的管制语音识别系统对于推进空管自动化进程、降低管制人员负荷、提升安全效能至关重要。对管制语音识别技术发展所面临的挑战进行了详细介绍,测试科大讯飞、腾讯云、阿里云、上海麦图这4家公司的商用语音识别系统。结... 研究一种安全可靠的管制语音识别系统对于推进空管自动化进程、降低管制人员负荷、提升安全效能至关重要。对管制语音识别技术发展所面临的挑战进行了详细介绍,测试科大讯飞、腾讯云、阿里云、上海麦图这4家公司的商用语音识别系统。结果表明,在前3家通用领域的商用ASR系统中,科大讯飞识别效果最好,CER为25.36%。相比之下,由于麦图的产品是基于ATC数据训练,具有最佳性能,其CER为15.02%。此外,设计了实验来探究人工设计的语音特征和基于自监督预训练策略提取的特征之间的优缺点。结果表明,后者有利于提升识别系统识别准确率和鲁棒性,但存在推理速度慢和部署难度大的问题。最后,总结了研究进展并进行了未来展望。 展开更多
关键词 ATC ASR 多任务学习 自监督学习 知识蒸馏
下载PDF
声纹识别的智能门禁系统设计及实现 被引量:3
10
作者 常钰坤 杨海燕 +1 位作者 陈潇杰 周萍 《电子制作》 2024年第3期27-30,共4页
本文提出的设计是一个应用于住宅小区的智能门禁系统,通过对需要使用门禁的人员进行声纹识别或者密码确认,判断该人员是否符合进入条件并给出门锁的开关动作。系统设计以STM32F103RET6单片机为核心控制模块,结合智能语音识别模块和无线... 本文提出的设计是一个应用于住宅小区的智能门禁系统,通过对需要使用门禁的人员进行声纹识别或者密码确认,判断该人员是否符合进入条件并给出门锁的开关动作。系统设计以STM32F103RET6单片机为核心控制模块,结合智能语音识别模块和无线传输模块构成。客户端采集用户声纹信息,服务器端进行声纹认证和信息记录,判别后通过网络发送控制指令来控制门禁状态;管理后台可实时查询门锁状态信息和用户信息;同时支持客户端远程开锁。基于声纹识别的智能门禁系统设置了多种方式的门禁控制,有效提升了用户的友好感,使用方便简洁,具有推广价值。 展开更多
关键词 声纹识别 动态指令 无线传输 智能门禁
下载PDF
基于AI技术的声像档案语音识别检索应用研究 被引量:2
11
作者 魏丽维 《机电兵船档案》 2024年第1期22-24,34,共4页
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重... 本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。 展开更多
关键词 AI技术 声像档案 语音识别
下载PDF
基于Group-Res2Block的智能合成语音说话人确认方法
12
作者 李菲 苏兆品 +2 位作者 王年松 杨波 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第4期709-722,共14页
针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的... 针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的分组,以增强说话人局部特征的上下文联系;其次,设计了并行结构的多尺度通道注意力特征融合机制,利用不同大小卷积核实现同一层级的特征在通道维度的特征选择,以获取更具表现力的说话人特征,避免信息冗余;最后,设计了串行结构的多尺度层注意力特征融合机制,构建层结构,将深浅层特征整体进行融合并赋予不同权重,以获取最优的特征表达。为验证所提出特征提取网络的有效性,构建了中英文两种智能合成语音数据集进行消融实验和对比实验。结果表明本文方法在该任务的评价指标精确度(accuracy,ACC)、等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)上是最优的。此外,通过对模型泛化性能进行测试,验证了本文方法对未知智能语音算法的适用性。 展开更多
关键词 说话人确认 智能合成语音 Group-Res2Block深度神经网络 多尺度特征 注意力机制
下载PDF
面向中文短语音的文本无关说话人确认新框架
13
作者 毛海全 冯海泓 +3 位作者 洪峰 马皓天 徐楚林 郑立通 《声学技术》 CSCD 北大核心 2024年第4期503-510,共8页
相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,... 相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,通过长、短语音说话人分类损失增强网络对不同时长语音段的说话人分类识别能力;同时,在嵌入码空间中增大同一说话人的短语音和长语音之间的相似度,减小不同说话人的短语音之间的相似度,增强网络对短语音的特征提取能力。此外,还提出了一种基于注意力机制的验证词选择方法,选择具有高注意力权重的中文词作为系统验证提示词。实验结果表明,文章提出的改进的端到端模型结合softmax预训练使得模型在短测试语音上的等错误率相对降低29%,基于注意力机制的验证词选择方法也能筛选出具有更好识别结果的验证词,二者结合能够有效提升说话人确认系统对于短中文语音的识别性能。 展开更多
关键词 说话人确认 短语音 注意力机制 验证词选择
下载PDF
基于密集连接时延神经网络的说话人识别算法
14
作者 和椿皓 常铁原 +1 位作者 潘立冬 王珺 《应用声学》 CSCD 北大核心 2024年第2期378-384,共7页
说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说... 说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率和0.15的最小检测代价标准,证明了在说话人识别任务上的有效性。 展开更多
关键词 说话人识别 深度学习 神经网络 密集连接 注意力机制
下载PDF
用于说话人识别的密集多分支时延神经网络
15
作者 和椿皓 常铁原 潘立冬 《应用声学》 CSCD 北大核心 2024年第5期949-955,共7页
时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进... 时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进一步提升小体积模型对说话人特征的提取能力。在使用密集连接实现特征重用的基础上,并行多分支结构能同时对同一输入在不同分辨率下进行特征提取。在VoxCeleb1测试集、VoxCeleb1-H、VoxCeleb1-E上进行测试表明,该网络能在模型参数量较小的前提下实现准确的说话人识别,以便应用在一些存储空间受限的本地说话人识别场景中。 展开更多
关键词 说话人识别 时延神经网络 多分支神经网络 密集连接 深度学习
下载PDF
基于文本特征能量编码的多模态语声情感识别
16
作者 方丛丛 金赟 +3 位作者 赵力 马勇 李世党 顾煜 《应用声学》 CSCD 北大核心 2024年第5期997-1007,共11页
能量是情感表达重要的特征之一,说话时不同的文字有着各自的能量值,反映了说话者不同的情感状态。而把语声转录成文本的过程中,每个文字表达的能量信息并不包含在内,在提取文本特征的时候导致能量信息丢失。故对于文本模态,该文提出并... 能量是情感表达重要的特征之一,说话时不同的文字有着各自的能量值,反映了说话者不同的情感状态。而把语声转录成文本的过程中,每个文字表达的能量信息并不包含在内,在提取文本特征的时候导致能量信息丢失。故对于文本模态,该文提出并设计了一种能量编码,将语声信号的每个词、每个停顿的能量值添加到转录文本中,使文本特征包含能量信息,并通过DC-BERT模型获取话语级文本特征。对于语声模态,利用OpenSMILE工具箱,提取语声中的浅层声学特征,采用随机森林算法,选取情感特征重要度靠前的1000维特征作为新的特征集。通过Transformer Encoder网络从新的特征集中提取深层特征,并将浅层特征和深层特征融合,形成多层次的语声情感特征。最后,利用基于自注意力机制的双向长短时记忆神经网络进行情感分类。结果表明,该文提出的方法在IEMOCAP四类情感分类中的加权准确率达到了76.49%。 展开更多
关键词 多模态情感识别 能量编码 随机森林 特征融合 注意机制
下载PDF
基于时延估计的远场被动声源定位算法
17
作者 牛永建 杨飞 李海龙 《科学技术与工程》 北大核心 2024年第11期4560-4566,共7页
现有的基于时延估计的声源定位算法大多假定声源是近场源,而在手机等手持式声源定位设备这种小尺度传声器阵列的应用场景中,声源主要为远场源。传统的基于时延估计的声源定位算法在处理远场源时,效果不佳。为了实现在该类情景中快速而... 现有的基于时延估计的声源定位算法大多假定声源是近场源,而在手机等手持式声源定位设备这种小尺度传声器阵列的应用场景中,声源主要为远场源。传统的基于时延估计的声源定位算法在处理远场源时,效果不佳。为了实现在该类情景中快速而准确地定位,提出一种适用于远场源的定位算法;同时提出一种用于计算广义互相关-相位变换(generalized cross correlation phase transformation,GCC-PHAT)时延估计结果置信度的算法,置信度用于估算时差(time difference of arrival,TDOA)协方差矩阵和选用传声器对。将传声器视为节点,用置信度表示节点间的距离。将传声器对的选用问题转化为图论中的路径规划问题,即寻找经过所有节点的最长路径。MATLAB仿真实验结果表明:当声源归为远场源时,与传统Chan算法相比,本文提出的远场定位算法在准确度和精度方面都有很大优势。采用基于路径规划的传声器对筛选算法后,远场定位算法将具有优异的抗干扰能力,在低信噪比或者高混响时间等恶劣声学环境下,也具有令人满意的定位效果。 展开更多
关键词 时延估计 估计结果置信度 远场源 声源定位 GCC-PHAT 传声器对的选择
下载PDF
基于桥接Transformer的小样本优化鸟声识别网络
18
作者 王基豪 周晓彦 +1 位作者 韩智超 王丽丽 《应用声学》 CSCD 北大核心 2024年第3期542-551,共10页
针对实际鸟类监测环境中,收集鸟声声频数据分布不均匀,导致神经网络训练不充分,分类识别测试准确率低的问题,设计了一种桥接Transformer神经网络模型。该网络首先利用原始鸟声声频信号生成短时傅里叶变换语谱图作为输入特征,之后将语谱... 针对实际鸟类监测环境中,收集鸟声声频数据分布不均匀,导致神经网络训练不充分,分类识别测试准确率低的问题,设计了一种桥接Transformer神经网络模型。该网络首先利用原始鸟声声频信号生成短时傅里叶变换语谱图作为输入特征,之后将语谱图输入到由注意力模块和卷积模块桥接组成的Transformer网络中,完成对语谱图中全局特征和局部特征的信息交互,最后利用单层Transformer编码器实现对每一个批次样本的损失优化,得到最终的分类结果。在Birdsdata和xeno-canto鸟声数据集上进行小样本实验,分别获得了91.34%和82.63%的平均准确率,与其他鸟声识别网络进行了对比实验,验证了该网络的有效性。 展开更多
关键词 鸟声识别 注意力机制 卷积模块 Transformer网络
下载PDF
基于Transformer的多编码器端到端语音识别 被引量:1
19
作者 庞江飞 孙占全 《电子科技》 2024年第4期1-7,共7页
当前广泛使用的Transformer模型具有良好的全局依赖关系捕捉能力,但其在浅层时容易忽略局部特征信息。针对该问题,文中提出了一种使用多个编码器来改善语音特征信息提取能力的方法。通过附加一个额外的卷积编码器分支来强化对局部特征... 当前广泛使用的Transformer模型具有良好的全局依赖关系捕捉能力,但其在浅层时容易忽略局部特征信息。针对该问题,文中提出了一种使用多个编码器来改善语音特征信息提取能力的方法。通过附加一个额外的卷积编码器分支来强化对局部特征信息的捕捉,弥补浅层Transformer对局部特征信息的忽视,有效实现音频特征序列全局和局部依赖关系的融合,即提出了基于Transformer的多编码器模型。在开源中文普通话数据集Aishell-1上的实验表明,在没有外部语言模型的情况下,相比于Transformer模型,基于Transformer的多编码器模型的字符错误率降低了4.00%。在内部非公开的上海话方言数据集上,文中所提模型的性能提升更加明显,其字符错误率从19.92%降低至10.31%,降低了48.24%。 展开更多
关键词 TRANSFORMER 语音识别 端到端 深度神经网络 多编码器 多头注意力 特征融合 卷积分支网络
下载PDF
融合双路CNN-LSTM与注意力机制的语音情感识别模型
20
作者 申雁 李鸿燕 +1 位作者 蒙志宏 张丽彩 《电子设计工程》 2024年第18期6-11,共6页
针对现有以卷积神经网络为基础的语音情感识别方法存在特征提取不足、模型识别效果不佳等问题,提出融合双路CNN-LSTM与注意力机制的语音情感识别模型。模型采用双路多维多尺度特征提取方法,结合残差块、多尺度卷积提取MFCC、Chroma和语... 针对现有以卷积神经网络为基础的语音情感识别方法存在特征提取不足、模型识别效果不佳等问题,提出融合双路CNN-LSTM与注意力机制的语音情感识别模型。模型采用双路多维多尺度特征提取方法,结合残差块、多尺度卷积提取MFCC、Chroma和语谱图深层特征,增加特征多样性;采用注意力机制,分别计算双路特征的自注意力与交叉注意力参数,分配不同权重系数并进行加权融合,综合互补信息,减少特征冗余影响;采用LSTM网络提取时序特征,获取上下文语义信息,采用Softmax函数在数据集RAVDESS与SEWA上的分类准确率分别为90.19%和89.23%。 展开更多
关键词 情感识别 注意力机制 长短时记忆网络 双路多维多尺度特征提取 多尺度卷积
下载PDF
上一页 1 2 214 下一页 到第
使用帮助 返回顶部