期刊文献+
共找到68,161篇文章
< 1 2 250 >
每页显示 20 50 100
多模态协同感知与融合技术专题前言 被引量:1
1
作者 孙立峰 宋新航 +2 位作者 蒋树强 王莉莉 申恒涛 《软件学报》 EI CSCD 北大核心 2024年第5期2099-2100,共2页
与人类利用视觉、听觉、触觉等多种感官信息来感知世界相似,计算机智能系统也可通过不同的传感器,如摄像头、雷达、麦克风、触觉传感器等,来获取人类和物理世界中的数据与信息.随着智能终端和多模态传感设备的普及,可用于感知世界的数... 与人类利用视觉、听觉、触觉等多种感官信息来感知世界相似,计算机智能系统也可通过不同的传感器,如摄像头、雷达、麦克风、触觉传感器等,来获取人类和物理世界中的数据与信息.随着智能终端和多模态传感设备的普及,可用于感知世界的数据来源、维度和数据量都在快速增长,单独模态数据所提供的信息已经不能满足智能系统感知与理解世界的需求.因此智能系统在感知世界时,需要从更多模态数据的差异化获取、动态适配、互补融合、协同感知等角度开展深入研究,这也是多媒体领域的一个非常重要和具有挑战性的问题.本专题强调多模态的协同交互与有机融合,研究多模态协同感知与融合技术,重点关注视觉语言多模态交互理解技术、多模态交互生成与重建技术和多模态智能融合与协同学习技术,旨在促进多模态特征表示、自适应融合、协同学习和交互生成等相关理论与方法的研究进展. 展开更多
关键词 智能系统 触觉传感器 融合技术 协同感知 协同学习 自适应融合 多模态数据 动态适配
下载PDF
基于双分支注意力U-Net的语音增强方法 被引量:1
2
作者 曹洁 王宸章 +2 位作者 梁浩鹏 王乔 李晓旭 《计算机应用研究》 CSCD 北大核心 2024年第4期1112-1116,共5页
针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征... 针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征作为输入。首先利用残差连接设计了基于Conformer的残差卷积来增强网络降噪的能力。其次设计了双分支注意力机制结构,利用全局和局部注意力获取带噪语音中更丰富的上下文信息,同时有效表示长序列特征,提取更多样的特征信息。最后结合时域频域损失函数构建了加权损失函数对网络进行训练,提高网络的语音增强性能。使用了多个指标对增强语音的质量和可懂度等进行评价,在公开数据集Voice Bank+DEMAND上的增强后的语音感知质量(PESQ)为3.11,短时可懂度(STOI)为95%,信号失真度(CSIG)为4.44,噪声失真测(CBAK)为3.60,综合质量测度(COVL)为3.81,其中PESQ相较于SE-Conformer提高了7.6%,相较于TSTNN提高了5.1%。实验结果表明,所提方法在语音降噪的各个指标都表现出更优的实验结果,能够完成语音增强任务的相关要求。 展开更多
关键词 语音增强 双分支注意力机制 时域 单通道
下载PDF
深度复数轴向自注意力卷积循环网络的语音增强 被引量:1
3
作者 曹洁 王乔 +3 位作者 梁浩鹏 王宸章 李晓旭 于泓 《计算机系统应用》 2024年第4期60-68,共9页
单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域... 单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域同时实现了语音幅度信息和相位信息的增强.首先使用基于复数卷积网络的编码器从输入语音信号中提取复数表示的特征,并引入卷积跳连模块用以将特征映射到高维空间进行特征融合,加强信息间的交互和梯度的流动.然后设计了基于轴向自注意力机制的编码器-解码器结构,利用轴向自注意力机制来增强模型的时序建模能力和特征提取能力.最后通过解码器实现对语音信号的重构,同时利用混合损失函数优化网络模型,提升增强语音信号的质量.实验在公开数据集Valentini和DNS Challenge上进行,结果表明所提方法相对于其他模型在客观语音质量评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)两项指标上均有提升,在非混响数据集中,PESQ比DCTCRN(deep cosine transform convolutional recurrent network)提高了12.8%,比DCCRN(deep complex convolutional recurrent network)提高了3.9%,验证了该网络模型在语音增强任务中的有效性. 展开更多
关键词 单通道语音增强 复数卷积循环网络 卷积跳连 轴向自注意力机制
下载PDF
基于STM32的辨音识别系统的设计与应用 被引量:1
4
作者 李棚 孔健 +2 位作者 叶飞 张明存 刘明明 《科学技术创新》 2024年第3期64-67,共4页
声音识别技术能够用于多种环境参数检测,本文采用STM32的DSP技术,对全向拾音器采集到环境声音进行快速傅里叶变换(FFT),获取待测声音的主频率和次频率,通过液晶屏显示采集信号的强度和主要频率分量。该设备能够有效对环境声音的主要参... 声音识别技术能够用于多种环境参数检测,本文采用STM32的DSP技术,对全向拾音器采集到环境声音进行快速傅里叶变换(FFT),获取待测声音的主频率和次频率,通过液晶屏显示采集信号的强度和主要频率分量。该设备能够有效对环境声音的主要参赛进行检测,在噪声检测和一般设备运行故障检测具有较高的适用性。 展开更多
关键词 STM32F103主控 快速傅里叶变换(FFT) 数字信号处理(DSP)
下载PDF
基于深度学习的水下目标识别技术 被引量:2
5
作者 丁元明 徐利华 侯孟珂 《舰船科学技术》 北大核心 2024年第1期143-147,共5页
在水下复杂场景下,目标对象具有姿态不同、遮挡和背景复杂等特点,这对卷积网络的特征提取能力提出巨大挑战。Mask R-CNN算法在水下目标特征提取过程中也存在特征提取能力欠佳的问题,导致算法在水下目标检测准确性较差。因此,提出一种基... 在水下复杂场景下,目标对象具有姿态不同、遮挡和背景复杂等特点,这对卷积网络的特征提取能力提出巨大挑战。Mask R-CNN算法在水下目标特征提取过程中也存在特征提取能力欠佳的问题,导致算法在水下目标检测准确性较差。因此,提出一种基于Mask R-CNN的改进水下目标目标识别方法。首先可采用金字塔切分的通道注意力模块PAS代替采用了ResNet50的3×3卷积模块,该模块可通过对每个通道进行金字塔的切分,针对通道切分完成后所得出来的通道特征图上的空间信息来进行不用的尺度特征层提取;同时通过采用另一种更加安全稳定和高效的ECANEt通道注意力模块代替PAS模块中的SENet通道注意力模,对多维度的通道注意力权重进行特征重标定;最后对特征金字塔FPN的网络结构进行改进,加强不同特征层之间的信息融合。根据不同场景下进行的实验对比,改进后的网络能够提高水下目标识别的准确率,平均检测精度可达91.3%。本文所提出的改进Mask RCNN网络模型,能够适应水下复杂多变的场景,为水下目标的识别提供理论依据与技术方案。 展开更多
关键词 水下目标识别 Mask R-CNN 深度学习
下载PDF
基于融合特征ADRMFCC的语音识别方法 被引量:1
6
作者 朵琳 马建 +1 位作者 韦贵香 唐剑 《吉林大学学报(理学版)》 CAS 北大核心 2024年第4期943-950,共8页
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些... 针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性. 展开更多
关键词 语音识别 残差Mel倒谱系数 特征筛选 增减分量法
下载PDF
基于AI算法的自然语言信息提取-翻译-校对系统设计 被引量:1
7
作者 崔丹 李舒淇 《现代电子技术》 北大核心 2024年第10期111-116,共6页
自20世纪90年代起,随着人工智能(AI)的飞速发展及其与深度学习等机器学习方法的广泛融合,自然语言处理(NLP)作为人工智能的核心,也取得了令人瞩目的进步。而随着国际学术交流、世界文化交融愈加频繁,人们搜寻、阅读他国网络信息的现实... 自20世纪90年代起,随着人工智能(AI)的飞速发展及其与深度学习等机器学习方法的广泛融合,自然语言处理(NLP)作为人工智能的核心,也取得了令人瞩目的进步。而随着国际学术交流、世界文化交融愈加频繁,人们搜寻、阅读他国网络信息的现实需求也随之增多。当信息搜寻者在搜寻非母语信息时,不仅会出现语言障碍问题,还会因错综复杂、层次不齐的各色信息而产生诸多不便。为了便于信息搜寻者快速高效地获取有用信息,文中基于人工智能算法(PageRank/TextRank)设计一种信息提取-翻译-校对(ETP)系统。系统通过AI自动搜索阅读页面上的重要信息和文本摘取,生成摘要,并基于机器翻译API模块完成翻译;其次,采用智能校对系统完成校对审核后,将信息呈现给搜寻者,以供其对全部信息高效且准确地进行预筛选,从而节省阅读时间和精力。最后对系统算法所实现的功能进行实验测试,结果达到预期。 展开更多
关键词 AI算法 自然语言处理 信息提取 机器翻译 翻译校对 PAGERANK算法 TextRank算法
下载PDF
基于AI技术的声像档案语音识别检索应用研究 被引量:2
8
作者 魏丽维 《机电兵船档案》 2024年第1期22-24,34,共4页
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重... 本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。 展开更多
关键词 AI技术 声像档案 语音识别
下载PDF
基于多维度注意力机制和复数Conformer的单通道语音增强方法
9
作者 高盛祥 莫尚斌 +2 位作者 余正涛 董凌 王文君 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期393-403,共11页
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-... 为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。 展开更多
关键词 深度复数网络 声学特征 关联信息 多维度注意力机制 语音增强
下载PDF
解耦知识蒸馏优化的域自适应跨库情感识别
10
作者 高翔 白静 +2 位作者 薛珮芸 董浙南 强彦 《现代电子技术》 北大核心 2024年第17期173-180,共8页
减小域间差异和加强特征情感表达是解决跨库语音情感识别任务的两个主要问题,但少有研究同时考虑到上述问题,为此,提出一种基于解耦知识蒸馏策略优化的域自适应跨库语音情感识别算法。在域自适应算法中引入解耦知识蒸馏(DKD)策略,提高... 减小域间差异和加强特征情感表达是解决跨库语音情感识别任务的两个主要问题,但少有研究同时考虑到上述问题,为此,提出一种基于解耦知识蒸馏策略优化的域自适应跨库语音情感识别算法。在域自适应算法中引入解耦知识蒸馏(DKD)策略,提高特征提取器获取具有显著情感信息的域不变特征的能力;并提出一个时频域自校正卷积神经网络(TFSC-CNN),融合不同感受域的特征细节,丰富特征中的情感信息,作为教师模型,指导特征提取器的训练过程;最后,使用优化后的特征提取器进行对抗训练,减小特征的域间差异,提升模型的泛化能力。所提方法在CASIA、EmoDB和RAVDESS数据集上进行了6组不同的跨库语音情感识别任务,在UAR和WAR两个评价指标上分别取得了49.74%和50.62%的识别结果;同时,通过消融实验进一步验证了不同改进模块的有效性。文中方法为跨库情感识别提供了一种新思路。 展开更多
关键词 跨库语音情感识别 时频域自校正模块 解耦知识蒸馏 域自适应 对抗训练 域不变特征
下载PDF
从高级音频编码(AAC)专利池发展窥探标准的引领作用
11
作者 郭小勇 陈方芳 +5 位作者 周瑾 李灵波 卢效东 张燕歌 于雷 徐春红 《中国标准化》 2024年第19期95-98,共4页
本文在研究标准体系、技术路线图和专利池三者关系过程中,发现高级音频编码(AAC)标准、专利池及专利三者之间违背一般逻辑的现象,即AAC标准发布后,有关研究机构和厂商发现了巨大商机,继而建立专利池,研发产品形成专利。这一实例说明标... 本文在研究标准体系、技术路线图和专利池三者关系过程中,发现高级音频编码(AAC)标准、专利池及专利三者之间违背一般逻辑的现象,即AAC标准发布后,有关研究机构和厂商发现了巨大商机,继而建立专利池,研发产品形成专利。这一实例说明标准有时先于专利、专利池发展和形成,继而对专利池的建立和专利的形成起着引领作用,需要引起人们重视标准对技术、产品、专利、专利池的引领作用。 展开更多
关键词 高级音频编码 专利池 标准
下载PDF
多说话人分离与目标说话人提取的研究现状与展望
12
作者 鲍长春 杨雪 《数据采集与处理》 CSCD 北大核心 2024年第5期1044-1061,共18页
语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起... 语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。 展开更多
关键词 语音分离 鸡尾酒会问题 多说话人分离 目标说话人提取 深度学习
下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成
13
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
基于扩张卷积和Transformer的视听融合语音分离方法
14
作者 刘宏清 谢奇洲 +1 位作者 赵宇 周翊 《信号处理》 CSCD 北大核心 2024年第7期1208-1217,共10页
为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征... 为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。 展开更多
关键词 语音分离 视听融合 多头自注意力机制 扩张卷积
下载PDF
基于多重互信息约束的高表现力语音转换
15
作者 王光 刘宗泽 +1 位作者 姜彦吉 董浩 《计算机系统应用》 2024年第9期216-225,共10页
随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出... 随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出一种基于多重互信息约束的高表现力语音转换模型(MMIC-EVC).在对内容和音色特征进行解耦的基础上,引入表现力模块分别对话语级韵律和节奏特征进行建模,以实现情感特性的传递;随后通过最小化各特征之间的多重互信息变分对数上界,约束各编码器专注于解耦对应的声学嵌入.在CSTR-VCTK和ESD语音数据集上的实验表明,本模型的转换音频语音自然度评分(MOS)达到3.78,梅尔倒谱失真为5.39 dB,最佳最差占比测试结果大幅领先于基线模型,MMIC-EVC能够有效解耦韵律和节奏特征,并实现高表现力语音转换,为人机交互带来更加出色和自然的用户体验. 展开更多
关键词 语音转换 特征解耦 互信息约束 韵律建模 人机交互
下载PDF
基于模态理论和改进GMM的声发射源识别研究
16
作者 杨勇 李晶 +1 位作者 朱作付 邓艾东 《电子器件》 CAS 2024年第1期128-133,共6页
基于模态声发射信号理论,提出了一种利用声学对数倒谱统计参数作为声发射信号特征参数的分析与提取方法。从声发射信号多模态特性出发,提出了一个基于改进高斯混合模型的声发射源信号识别系统。理论分析和实验结果表明,该方法能准确地... 基于模态声发射信号理论,提出了一种利用声学对数倒谱统计参数作为声发射信号特征参数的分析与提取方法。从声发射信号多模态特性出发,提出了一个基于改进高斯混合模型的声发射源信号识别系统。理论分析和实验结果表明,该方法能准确地判断声发射信号源,不仅能够应用于突发型声发射信号的识别,而且可以应用于连续型声发射信号的识别。 展开更多
关键词 声发射信号 倒谱 高斯混合模型 识别
下载PDF
海南临高方言语音数据预处理技术 被引量:2
17
作者 符龙生 《电脑编程技巧与维护》 2024年第2期83-85,共3页
介绍了海南临高方言语音数据预处理的背景和目标,以及所采用的方法,包括数据预处理方法,以及应用WeNet模型进行语音识别的数据预处理技术。其中,数据预处理是指对收集到的原始语音数据进行去除噪声、平滑、合并等处理,以提高语音识别系... 介绍了海南临高方言语音数据预处理的背景和目标,以及所采用的方法,包括数据预处理方法,以及应用WeNet模型进行语音识别的数据预处理技术。其中,数据预处理是指对收集到的原始语音数据进行去除噪声、平滑、合并等处理,以提高语音识别系统的识别性能;数据预处理的目标是消除语音识别系统中的噪声、去除非语音成分,并保持原始语音数据中的有用信息,使语音识别系统能够正确地进行识别;应用WeNet模型进行语音识别的数据预处理技术是指利用WeNet模型对采集到的原始语音数据进行预处理,将其中有用信息提取出来。 展开更多
关键词 海南临高方言 语音识别 数据预处理
下载PDF
麦克风阵列鲁棒频率不变波束形成算法
18
作者 张正文 张振平 +1 位作者 廖桂生 巩朋成 《计算机仿真》 2024年第2期241-248,486,共9页
在实际应用中,频率不变波束形成器通常受到麦克风阵列失配误差的影响,因此提高频率不变波束形成器的鲁棒性具有重要意义。针对上述问题提出了一种约束优化模型,可以在保持频率不变波束形成的同时提高阵列的鲁棒性。首先设计目标波束图,... 在实际应用中,频率不变波束形成器通常受到麦克风阵列失配误差的影响,因此提高频率不变波束形成器的鲁棒性具有重要意义。针对上述问题提出了一种约束优化模型,可以在保持频率不变波束形成的同时提高阵列的鲁棒性。首先设计目标波束图,考虑到差分麦克风阵列本身具有频率不变的波束图,选用传统二阶超心型差分麦克风波束图做为目标波束图。上述模型以麦克风阵列权矢量的二范数作为目标函数来最大化鲁棒性,在无失真约束,目标波束主瓣逼近约束以及旁瓣增益精准控制约束下实现频率不变。然后在交替方向乘子法算法框架下,将优化问题分解为多个优化子问题求解,然后对每个优化子问题分别求解,通过仿真验证了在交替方向乘子法算法下上述模型的可行性与有效性,最终达到了麦克风阵列鲁棒频率不变波束响应的效果。 展开更多
关键词 麦克风阵列 频率不变 波束形成 交替方向乘子法
下载PDF
粒径比率对声波操纵颗粒分离过程影响的数值模拟研究
19
作者 吴悠 田晓平 +2 位作者 KENZA Ayyada 王璜鹏 杨文婧 《电声技术》 2024年第4期23-27,共5页
基于驻波表面声波的微粒操纵技术因其高效低耗而得到广泛应用,但仅依靠实验方法和理论研究难以全面研究微观尺度下的微粒运动。对微流体内声波分离微观颗粒的过程进行数值模拟,并进一步研究不同粒径颗粒的粒径比率对颗粒分离过程的影响... 基于驻波表面声波的微粒操纵技术因其高效低耗而得到广泛应用,但仅依靠实验方法和理论研究难以全面研究微观尺度下的微粒运动。对微流体内声波分离微观颗粒的过程进行数值模拟,并进一步研究不同粒径颗粒的粒径比率对颗粒分离过程的影响。结果表明,两种颗粒的粒径越接近,颗粒分离越困难;粒径差越大,颗粒分离效果越好;粒径比率影响颗粒分离过程的本质是影响了大小颗粒受声场作用力间的差距。 展开更多
关键词 颗粒分离 离散元 表面声波 微流体
下载PDF
双分支复频谱下多特征聚合的轻量化语音增强方法
20
作者 张天骐 沈夕文 +1 位作者 唐娟 谭霜 《仪器仪表学报》 EI CAS CSCD 北大核心 2024年第7期279-291,共13页
针对目前多种改进的卷积循环网络(CRN)在单掩蔽或单映射的编解码结构下提取特征单一、捕获全局特征不强、参数量较大等问题,提出一种多特征聚合卷积模块与高效Transformer融合注意力机制结合的复频谱联合掩蔽和映射的单通道语音增强高... 针对目前多种改进的卷积循环网络(CRN)在单掩蔽或单映射的编解码结构下提取特征单一、捕获全局特征不强、参数量较大等问题,提出一种多特征聚合卷积模块与高效Transformer融合注意力机制结合的复频谱联合掩蔽和映射的单通道语音增强高效网络。在编解码层设计一种双分支门控协作单元(DGCU),提取复频谱多层次特征后交互、聚合以弥补特征提取单一问题;中间层设计一种通道时频注意力融合模块,聚焦语音的时频、空间局部细节特征。最后在THCHS30数据集上进行消融和对比实验,实验结果表明,该网络以最低参数量、较低计算量实现了轻量化,在匹配和不匹配噪声下PESQ分别提升了10.5%~50.6%、16.3%~94.5%,客观、主观指标都优于其他对比的网络模型,表现出较高的降噪性能和网络泛化能力。 展开更多
关键词 语音增强 复频谱掩蔽和映射 多特征聚合 高效Transformer 轻量化
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部