期刊文献+
共找到4,270篇文章
< 1 2 214 >
每页显示 20 50 100
基于STM32的辨音识别系统的设计与应用 被引量:1
1
作者 李棚 孔健 +2 位作者 叶飞 张明存 刘明明 《科学技术创新》 2024年第3期64-67,共4页
声音识别技术能够用于多种环境参数检测,本文采用STM32的DSP技术,对全向拾音器采集到环境声音进行快速傅里叶变换(FFT),获取待测声音的主频率和次频率,通过液晶屏显示采集信号的强度和主要频率分量。该设备能够有效对环境声音的主要参... 声音识别技术能够用于多种环境参数检测,本文采用STM32的DSP技术,对全向拾音器采集到环境声音进行快速傅里叶变换(FFT),获取待测声音的主频率和次频率,通过液晶屏显示采集信号的强度和主要频率分量。该设备能够有效对环境声音的主要参赛进行检测,在噪声检测和一般设备运行故障检测具有较高的适用性。 展开更多
关键词 STM32F103主控 快速傅里叶变换(FFT) 数字信号处理(DSP)
下载PDF
基于深度学习的水下目标识别技术 被引量:2
2
作者 丁元明 徐利华 侯孟珂 《舰船科学技术》 北大核心 2024年第1期143-147,共5页
在水下复杂场景下,目标对象具有姿态不同、遮挡和背景复杂等特点,这对卷积网络的特征提取能力提出巨大挑战。Mask R-CNN算法在水下目标特征提取过程中也存在特征提取能力欠佳的问题,导致算法在水下目标检测准确性较差。因此,提出一种基... 在水下复杂场景下,目标对象具有姿态不同、遮挡和背景复杂等特点,这对卷积网络的特征提取能力提出巨大挑战。Mask R-CNN算法在水下目标特征提取过程中也存在特征提取能力欠佳的问题,导致算法在水下目标检测准确性较差。因此,提出一种基于Mask R-CNN的改进水下目标目标识别方法。首先可采用金字塔切分的通道注意力模块PAS代替采用了ResNet50的3×3卷积模块,该模块可通过对每个通道进行金字塔的切分,针对通道切分完成后所得出来的通道特征图上的空间信息来进行不用的尺度特征层提取;同时通过采用另一种更加安全稳定和高效的ECANEt通道注意力模块代替PAS模块中的SENet通道注意力模,对多维度的通道注意力权重进行特征重标定;最后对特征金字塔FPN的网络结构进行改进,加强不同特征层之间的信息融合。根据不同场景下进行的实验对比,改进后的网络能够提高水下目标识别的准确率,平均检测精度可达91.3%。本文所提出的改进Mask RCNN网络模型,能够适应水下复杂多变的场景,为水下目标的识别提供理论依据与技术方案。 展开更多
关键词 水下目标识别 Mask R-CNN 深度学习
下载PDF
粒径比率对声波操纵颗粒分离过程影响的数值模拟研究
3
作者 吴悠 田晓平 +2 位作者 KENZA Ayyada 王璜鹏 杨文婧 《电声技术》 2024年第4期23-27,共5页
基于驻波表面声波的微粒操纵技术因其高效低耗而得到广泛应用,但仅依靠实验方法和理论研究难以全面研究微观尺度下的微粒运动。对微流体内声波分离微观颗粒的过程进行数值模拟,并进一步研究不同粒径颗粒的粒径比率对颗粒分离过程的影响... 基于驻波表面声波的微粒操纵技术因其高效低耗而得到广泛应用,但仅依靠实验方法和理论研究难以全面研究微观尺度下的微粒运动。对微流体内声波分离微观颗粒的过程进行数值模拟,并进一步研究不同粒径颗粒的粒径比率对颗粒分离过程的影响。结果表明,两种颗粒的粒径越接近,颗粒分离越困难;粒径差越大,颗粒分离效果越好;粒径比率影响颗粒分离过程的本质是影响了大小颗粒受声场作用力间的差距。 展开更多
关键词 颗粒分离 离散元 表面声波 微流体
下载PDF
规则压缩模型和灵活架构的Transformer加速器设计
4
作者 姜小波 邓晗珂 +1 位作者 莫志杰 黎红源 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1079-1088,共10页
基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了... 基于注意力机制的Transformer模型具有优越的性能,设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性,其中结构上的复杂性导致不规则模型和规则硬件之间的失配,降低了模型映射到硬件的效率。目前的加速器研究主要聚焦在解决模型数量上的复杂性,但对如何解决模型结构上的复杂性研究得不多。该文首先提出规则压缩模型,降低模型的结构复杂度,提高模型和硬件的匹配度,提高模型映射到硬件的效率。接着提出一种硬件友好的模型压缩方法,采用规则的偏移对角权重剪枝方案和简化硬件量化推理逻辑。此外,提出一个高效灵活的硬件架构,包括一种以块为单元的权重固定脉动运算阵列,同时包括一种准分布的存储架构。该架构可以高效实现算法到运算阵列的映射,同时实现高效的数据存储效率和降低数据移动。实验结果表明,该文工作在性能损失极小的情况下实现93.75%的压缩率,在FPGA上实现的加速器可以高效处理压缩后的Transformer模型,相比于中央处理器(CPU)和图形处理器(GPU)能效分别提高了12.45倍和4.17倍。 展开更多
关键词 自然语音处理 TRANSFORMER 模型压缩 硬件加速器 机器翻译
下载PDF
人脸语音混合智能识别平台界面设计
5
作者 罗静 张红青 《包装工程》 CAS 北大核心 2024年第10期F0003-F0003,共1页
设计说明:本产品来源于现阶段的社会需求。人脸和语音混合型智能识别平台是在特殊的、安全性高的工作领域中,开展面部和声音双重认证研究,以保证其准确性及安全性,同时通过双重识别进行发令人与命令执行权限的匹配。高效、准确、安全。
关键词 智能识别 双重认证 设计说明 匹配 人脸 双重识别 语音混合 安全性
下载PDF
面向管制语音识别系统的性能评价方法
6
作者 潘卫军 王梓璇 +1 位作者 蒋培元 王壮 《科学技术与工程》 北大核心 2024年第33期14278-14286,共9页
目前,随着空中交通管理领域的发展,越来越多的人工智能技术运用到管制领域。其中自动语音识别技术被用于管制指令纠错、复诵一致性检验等方面,用于提升飞行安全和效率。为了解决自动语音识别系统的性能参差不齐的问题,提出了一种面向管... 目前,随着空中交通管理领域的发展,越来越多的人工智能技术运用到管制领域。其中自动语音识别技术被用于管制指令纠错、复诵一致性检验等方面,用于提升飞行安全和效率。为了解决自动语音识别系统的性能参差不齐的问题,提出了一种面向管制语音识别系统的性能评价方法,对3个待测系统进行了评价与分析。首先,按照一定的管制场景比例收集管制语音并进行数据标注,建立管制语音识别系统测试语料库;其次,设计管制语音识别系统评价指标体系,并通过层次分析法计算指标权重;最后,提出并训练3个待测管制语音识别系统用于评价分析。结果表明,通过该评价方法可以对管制语音识别系统进行全面的评价以及分析不同管制场景下系统的表现情况,并能够根据不同的管制场景提出性能改进建议。该方法提供了一种直观的评价管制语音识别系统的途径,有望为未来的研究提供有力的指导。 展开更多
关键词 自动语音识别 空中交通管制 性能评价 层次分析法
下载PDF
基于ERes-ECAM的动物声纹识别
7
作者 侯卫民 孙艺菲 刘峻滔 《无线电通信技术》 北大核心 2024年第4期789-798,共10页
声纹识别技术不仅在人类身份验证领域广泛应用,在动物种类识别方面也取得一定进展。现有模型存在特征表达能力不足的问题,同时,在保证性能的前提下,模型的时间复杂度和推理速度有待优化。提出用于发声动物嵌入学习的改进的残差块连接改... 声纹识别技术不仅在人类身份验证领域广泛应用,在动物种类识别方面也取得一定进展。现有模型存在特征表达能力不足的问题,同时,在保证性能的前提下,模型的时间复杂度和推理速度有待优化。提出用于发声动物嵌入学习的改进的残差块连接改进的上下文感知掩蔽(Enhanced Res2block connected Enhanced Context Aware Masking, ERes-ECAM)新型架构,采用了稠密连接的时延神经网络(Densely-connected Time Delay Neural Network, D-TDNN)作为骨干,为了解决模糊不相关噪声问题的同时能够提取更多有效的关键信息,在D-TDNN层中采用多粒度池化方法的改进的上下文感知掩蔽(Enhanced Context Aware Masking, ECAM)模块,前端连接残差模块,通过局部特征融合(Local Feature Fusion, LFF)的方式,将残差块内提取的特征进行融合来提取局部信息,提升了声纹验证系统的准确性和鲁棒性。在Anim-Celeb和Pig-Celeb两个测试集中分别实验,实验结果表明,所提架构的等错误率(Equal Error Rate, EER)分别达到6.88%和7.24%,同时,对动物种类和猪只种类识别准确率达到了93.12%和92.76%。 展开更多
关键词 深度学习 声纹识别 上下文感知掩码 局部特征融合 动物种类识别
下载PDF
小波域在无线局域网络信号增强中的应用
8
作者 张沛朋 《通化师范学院学报》 2024年第8期56-62,共7页
为提升无线局域网络信号增强中的去噪效果,应用小波域思想,设计一种无线局域网络信号增强算法.针对无线局域网络,收集无线局域网络原始功率谱数据,通过功率谱拟合因子提取信号特征,识别网络信号.对于识别的无线局域网络信号,通过过零率... 为提升无线局域网络信号增强中的去噪效果,应用小波域思想,设计一种无线局域网络信号增强算法.针对无线局域网络,收集无线局域网络原始功率谱数据,通过功率谱拟合因子提取信号特征,识别网络信号.对于识别的无线局域网络信号,通过过零率和短时功率提取该信号.基于小波域对无线局域网络信号实施去噪处理,分为二维小波变换、二进剖分、信号重构三个步骤.通过贝叶斯方法,在实施稀疏字典训练的同时,实现无线局域网络信号的增强处理,在训练中结合K-SVD算法,将信号增强过程和稀疏字典学习过程进行迭代和融合.将MATLAB R2019a作为测试设计算法的实验平台,利用计算机开展算法性能测试.测试结果表明:设计算法的无线局域网络信号增强性能良好,同时信号去噪性能较强,说明算法满足设计需求,在完善细节后可以投入实际应用. 展开更多
关键词 小波域 无线局域网络 信号原始功率谱数据 信号增强算法 神经网络分类器 二维小波变换
下载PDF
基于MHA-ResNet的语音情绪识别算法
9
作者 周传华 郝敏 +1 位作者 曾辉 王勇 《微电子学与计算机》 2024年第9期41-46,共6页
语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首... 语音情绪识别的一个重要挑战是从语音信号中提取关键特征来提高识别准确率。在现有研究的基础上,提出了一种基于自注意力残差网络(Multi-Head-Attention Residual Network,MHA-ResNet)的语音情绪识别模型,提高了语音情绪识别准确率。首先,将原始语音信号数据进行预处理;其次,将提取到的情绪特征集,利用多头注意力机制具备的并行化处理且自适应关注的特性,初步获取不同状态下鉴别性的语音情绪信息;最后,残差网络进一步获取深层情绪特征,完成不同情绪的识别。为验证模型有效性,在CASIA和EmoDB数据集上进行实验,其结果显示识别准确率分别为93.59%和97.57%。 展开更多
关键词 语音情绪识别 多头注意力机制 残差网络 情绪特征集
下载PDF
语音识别在空中交通管制中的应用挑战与发展
10
作者 孔建国 李煜琨 +1 位作者 蒋培元 梁海军 《航空计算技术》 2024年第1期124-129,共6页
研究一种安全可靠的管制语音识别系统对于推进空管自动化进程、降低管制人员负荷、提升安全效能至关重要。对管制语音识别技术发展所面临的挑战进行了详细介绍,测试科大讯飞、腾讯云、阿里云、上海麦图这4家公司的商用语音识别系统。结... 研究一种安全可靠的管制语音识别系统对于推进空管自动化进程、降低管制人员负荷、提升安全效能至关重要。对管制语音识别技术发展所面临的挑战进行了详细介绍,测试科大讯飞、腾讯云、阿里云、上海麦图这4家公司的商用语音识别系统。结果表明,在前3家通用领域的商用ASR系统中,科大讯飞识别效果最好,CER为25.36%。相比之下,由于麦图的产品是基于ATC数据训练,具有最佳性能,其CER为15.02%。此外,设计了实验来探究人工设计的语音特征和基于自监督预训练策略提取的特征之间的优缺点。结果表明,后者有利于提升识别系统识别准确率和鲁棒性,但存在推理速度慢和部署难度大的问题。最后,总结了研究进展并进行了未来展望。 展开更多
关键词 ATC ASR 多任务学习 自监督学习 知识蒸馏
下载PDF
声音识别技术在计算机信息检测中的应用研究
11
作者 吕虎 《电声技术》 2024年第10期101-103,共3页
重点探讨声音识别技术在计算机信息检测中的应用,通过阐述声音识别的基本原理,详细介绍声音识别在计算机信息检测中的应用流程,包括声音采集与预处理、特征提取、模式匹配与识别这3个主要步骤。实验结果表明,基于梅尔频率倒谱系数(Mel F... 重点探讨声音识别技术在计算机信息检测中的应用,通过阐述声音识别的基本原理,详细介绍声音识别在计算机信息检测中的应用流程,包括声音采集与预处理、特征提取、模式匹配与识别这3个主要步骤。实验结果表明,基于梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征和支持向量机(Support Vector Machine,SVM)分类器的声音识别系统能够有效识别计算机使用过程中的正常操作声音和潜在威胁声音,为计算机安全监测提供了新的解决方案。 展开更多
关键词 声音识别 计算机信息检测 语音特征提取
下载PDF
声纹识别的智能门禁系统设计及实现 被引量:3
12
作者 常钰坤 杨海燕 +1 位作者 陈潇杰 周萍 《电子制作》 2024年第3期27-30,共4页
本文提出的设计是一个应用于住宅小区的智能门禁系统,通过对需要使用门禁的人员进行声纹识别或者密码确认,判断该人员是否符合进入条件并给出门锁的开关动作。系统设计以STM32F103RET6单片机为核心控制模块,结合智能语音识别模块和无线... 本文提出的设计是一个应用于住宅小区的智能门禁系统,通过对需要使用门禁的人员进行声纹识别或者密码确认,判断该人员是否符合进入条件并给出门锁的开关动作。系统设计以STM32F103RET6单片机为核心控制模块,结合智能语音识别模块和无线传输模块构成。客户端采集用户声纹信息,服务器端进行声纹认证和信息记录,判别后通过网络发送控制指令来控制门禁状态;管理后台可实时查询门锁状态信息和用户信息;同时支持客户端远程开锁。基于声纹识别的智能门禁系统设置了多种方式的门禁控制,有效提升了用户的友好感,使用方便简洁,具有推广价值。 展开更多
关键词 声纹识别 动态指令 无线传输 智能门禁
下载PDF
基于AI技术的声像档案语音识别检索应用研究 被引量:2
13
作者 魏丽维 《机电兵船档案》 2024年第1期22-24,34,共4页
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重... 本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。 展开更多
关键词 AI技术 声像档案 语音识别
下载PDF
基于Group-Res2Block的智能合成语音说话人确认方法
14
作者 李菲 苏兆品 +2 位作者 王年松 杨波 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第4期709-722,共14页
针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的... 针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的分组,以增强说话人局部特征的上下文联系;其次,设计了并行结构的多尺度通道注意力特征融合机制,利用不同大小卷积核实现同一层级的特征在通道维度的特征选择,以获取更具表现力的说话人特征,避免信息冗余;最后,设计了串行结构的多尺度层注意力特征融合机制,构建层结构,将深浅层特征整体进行融合并赋予不同权重,以获取最优的特征表达。为验证所提出特征提取网络的有效性,构建了中英文两种智能合成语音数据集进行消融实验和对比实验。结果表明本文方法在该任务的评价指标精确度(accuracy,ACC)、等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)上是最优的。此外,通过对模型泛化性能进行测试,验证了本文方法对未知智能语音算法的适用性。 展开更多
关键词 说话人确认 智能合成语音 Group-Res2Block深度神经网络 多尺度特征 注意力机制
下载PDF
面向中文短语音的文本无关说话人确认新框架
15
作者 毛海全 冯海泓 +3 位作者 洪峰 马皓天 徐楚林 郑立通 《声学技术》 CSCD 北大核心 2024年第4期503-510,共8页
相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,... 相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,通过长、短语音说话人分类损失增强网络对不同时长语音段的说话人分类识别能力;同时,在嵌入码空间中增大同一说话人的短语音和长语音之间的相似度,减小不同说话人的短语音之间的相似度,增强网络对短语音的特征提取能力。此外,还提出了一种基于注意力机制的验证词选择方法,选择具有高注意力权重的中文词作为系统验证提示词。实验结果表明,文章提出的改进的端到端模型结合softmax预训练使得模型在短测试语音上的等错误率相对降低29%,基于注意力机制的验证词选择方法也能筛选出具有更好识别结果的验证词,二者结合能够有效提升说话人确认系统对于短中文语音的识别性能。 展开更多
关键词 说话人确认 短语音 注意力机制 验证词选择
下载PDF
基于改进MFCC和能量算子倒谱的语种识别
16
作者 陈思竹 龙华 邵玉斌 《计算机科学》 CSCD 北大核心 2024年第S02期367-372,共6页
针对广播语音信号低信噪比下语种识别准确率低和鲁棒性差的问题,提出了基于小波包变换改进MFCC和能量算子倒谱特征的语种识别算法。首先,采用小波包变换代替MFCC中的傅里叶变换和Mel滤波得到WMFCC特征参数。在保留人耳听觉感知特性的基... 针对广播语音信号低信噪比下语种识别准确率低和鲁棒性差的问题,提出了基于小波包变换改进MFCC和能量算子倒谱特征的语种识别算法。首先,采用小波包变换代替MFCC中的傅里叶变换和Mel滤波得到WMFCC特征参数。在保留人耳听觉感知特性的基础上提升语音信号的高频分析能力和分析精确度,克服傅里叶变换的局限性。其次,提取Teager能量算子倒谱,得到语音瞬时能量的特性,与改进的MFCC特征参数融合得到新的特征参数TWMFCC。最后,为进一步提升低信噪比语音的识别效果,提出了VMD自适应维纳滤波去噪算法。通过实验对比了所提特征与传统特征的识别效果,所提特征的平均识别准确率显著提升,带噪语音在未进行语音去噪处理的情况下较传统MFCC高13.02%,有效改善了传统特征在低信噪比下识别准确率低的问题,具有较强的抗噪性和鲁棒性。 展开更多
关键词 语种识别 MFCC 小波包变换 能量算子倒谱 GMM-UBM
下载PDF
采用双阶段多示例学习网络的语音情感识别
17
作者 张石清 陈晨 赵小明 《计算机科学与探索》 CSCD 北大核心 2024年第12期3300-3310,共11页
在语音情感识别任务中,当处理不同时长的语音信号时,通常将每句语音信号分割成若干等长片段,然后根据所有片段预测结果的平均值来获得最终的情感分类。然而,这种处理方法要求用户的情绪表达在整个语音信号中是均匀分布的,但是这并不符... 在语音情感识别任务中,当处理不同时长的语音信号时,通常将每句语音信号分割成若干等长片段,然后根据所有片段预测结果的平均值来获得最终的情感分类。然而,这种处理方法要求用户的情绪表达在整个语音信号中是均匀分布的,但是这并不符合实际情况。针对上述问题,提出一种采用双阶段多示例学习网络的语音情感识别方法。第一阶段,将每句语音信号视为“包”,并将其分割成若干等长片段。每个语音片段视为“示例”,并提取多种声学特征,输入到相应的局部声学特征编码器,学习出各自对应的深度特征向量。然后,使用一致性注意力对不同的声学特征进行特征交互和增强。第二阶段,设计一个基于多示例学习的混合聚合器,用于在全局尺度上融合示例预测和示例特征,计算“包”级预测得分。提出一种示例蒸馏模块,用于过滤情感信息较弱的冗余示例。将蒸馏结果组成伪包,采用一种自适应特征聚合策略对伪包进行特征聚合,并通过分类器获得预测结果。将示例级和伪包预测结果进行自适应决策聚合,以获得最终的情感分类结果。该方法在IEMOCAP和MELD公开数据集分别获得73.02%和44.92%的识别率,实验结果表明了该方法的有效性。 展开更多
关键词 语音情感识别 多示例学习 示例蒸馏 一致性注意力 聚合
下载PDF
基于密集连接时延神经网络的说话人识别算法
18
作者 和椿皓 常铁原 +1 位作者 潘立冬 王珺 《应用声学》 CSCD 北大核心 2024年第2期378-384,共7页
说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说... 说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率和0.15的最小检测代价标准,证明了在说话人识别任务上的有效性。 展开更多
关键词 说话人识别 深度学习 神经网络 密集连接 注意力机制
下载PDF
用于说话人识别的密集多分支时延神经网络
19
作者 和椿皓 常铁原 潘立冬 《应用声学》 CSCD 北大核心 2024年第5期949-955,共7页
时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进... 时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进一步提升小体积模型对说话人特征的提取能力。在使用密集连接实现特征重用的基础上,并行多分支结构能同时对同一输入在不同分辨率下进行特征提取。在VoxCeleb1测试集、VoxCeleb1-H、VoxCeleb1-E上进行测试表明,该网络能在模型参数量较小的前提下实现准确的说话人识别,以便应用在一些存储空间受限的本地说话人识别场景中。 展开更多
关键词 说话人识别 时延神经网络 多分支神经网络 密集连接 深度学习
下载PDF
基于多尺度距离矩阵的语音关键词检测与细粒度定位方法
20
作者 李祥瑞 毛启容 《计算机应用研究》 CSCD 北大核心 2024年第11期3370-3375,共6页
针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方... 针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方法首先利用残差卷积网络提取特征并构建距离矩阵以建模输入之间的相关性;其次通过多尺度分割和解耦头学习不同尺度下的定位信息;最后根据多尺度加权定位损失、置信度损失和分类损失优化模型,实现对关键词存在性和时域边界的细粒度预测。在LibriSpeech数据集上的实验结果表明,MF-STD在集内词的检测中,精准率和交并比分别达到97.1%和88.6%;在集外词的检测中,精准率和交并比分别达到96.7%和88.2%。与现有的语音关键词检测与定位方法相比,MF-STD的检测准确率和定位精度显著提升,充分证明该方法的先进性,也证明了多尺度特征建模与细粒度定位约束在语音关键词检测任务中的有效性。 展开更多
关键词 语音关键词检测 语音细粒度定位 多尺度检测 残差卷积网络
下载PDF
上一页 1 2 214 下一页 到第
使用帮助 返回顶部