期刊文献+
共找到16,108篇文章
< 1 2 250 >
每页显示 20 50 100
多模态协同感知与融合技术专题前言 被引量:2
1
作者 孙立峰 宋新航 +2 位作者 蒋树强 王莉莉 申恒涛 《软件学报》 EI CSCD 北大核心 2024年第5期2099-2100,共2页
与人类利用视觉、听觉、触觉等多种感官信息来感知世界相似,计算机智能系统也可通过不同的传感器,如摄像头、雷达、麦克风、触觉传感器等,来获取人类和物理世界中的数据与信息.随着智能终端和多模态传感设备的普及,可用于感知世界的数... 与人类利用视觉、听觉、触觉等多种感官信息来感知世界相似,计算机智能系统也可通过不同的传感器,如摄像头、雷达、麦克风、触觉传感器等,来获取人类和物理世界中的数据与信息.随着智能终端和多模态传感设备的普及,可用于感知世界的数据来源、维度和数据量都在快速增长,单独模态数据所提供的信息已经不能满足智能系统感知与理解世界的需求.因此智能系统在感知世界时,需要从更多模态数据的差异化获取、动态适配、互补融合、协同感知等角度开展深入研究,这也是多媒体领域的一个非常重要和具有挑战性的问题.本专题强调多模态的协同交互与有机融合,研究多模态协同感知与融合技术,重点关注视觉语言多模态交互理解技术、多模态交互生成与重建技术和多模态智能融合与协同学习技术,旨在促进多模态特征表示、自适应融合、协同学习和交互生成等相关理论与方法的研究进展. 展开更多
关键词 智能系统 触觉传感器 融合技术 协同感知 协同学习 自适应融合 多模态数据 动态适配
下载PDF
基于融合特征ADRMFCC的语音识别方法 被引量:1
2
作者 朵琳 马建 +1 位作者 韦贵香 唐剑 《吉林大学学报(理学版)》 CAS 北大核心 2024年第4期943-950,共8页
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些... 针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性. 展开更多
关键词 语音识别 残差Mel倒谱系数 特征筛选 增减分量法
下载PDF
面向风格多样化的多对多语音情感转换
3
作者 周健 罗翔宇 +2 位作者 王华彬 郑文明 陶亮 《声学学报》 EI CAS CSCD 北大核心 2024年第6期1297-1303,共7页
针对现有基于生成对抗网络的语音情感转换仍然存在情感分离不明显,且转换后的语音情感缺乏多样性问题,提出了一种面向风格多样化的多对多语音情感转换方法。该方法基于一个双生成器结构的生成对抗网络模型,通过对不同生成器的中间编码... 针对现有基于生成对抗网络的语音情感转换仍然存在情感分离不明显,且转换后的语音情感缺乏多样性问题,提出了一种面向风格多样化的多对多语音情感转换方法。该方法基于一个双生成器结构的生成对抗网络模型,通过对不同生成器的中间编码进行一致性损失约束确保语音内容和说话人特征具有一致性,以提升转换后语音情感与目标情感的相似性。此外,该方法通过情感映射网络和情感特征编码器为生成器提供同类情感的多样化情感表征。实验结果表明,所提情感语音转换方法得到的语音情感更接近目标情感,且情感样式更加丰富。 展开更多
关键词 情感语音转换 风格多样化 生成对抗网络 情感编码
下载PDF
从高级音频编码(AAC)专利池发展窥探标准的引领作用
4
作者 郭小勇 陈方芳 +5 位作者 周瑾 李灵波 卢效东 张燕歌 于雷 徐春红 《中国标准化》 2024年第19期95-98,共4页
本文在研究标准体系、技术路线图和专利池三者关系过程中,发现高级音频编码(AAC)标准、专利池及专利三者之间违背一般逻辑的现象,即AAC标准发布后,有关研究机构和厂商发现了巨大商机,继而建立专利池,研发产品形成专利。这一实例说明标... 本文在研究标准体系、技术路线图和专利池三者关系过程中,发现高级音频编码(AAC)标准、专利池及专利三者之间违背一般逻辑的现象,即AAC标准发布后,有关研究机构和厂商发现了巨大商机,继而建立专利池,研发产品形成专利。这一实例说明标准有时先于专利、专利池发展和形成,继而对专利池的建立和专利的形成起着引领作用,需要引起人们重视标准对技术、产品、专利、专利池的引领作用。 展开更多
关键词 高级音频编码 专利池 标准
下载PDF
多说话人分离与目标说话人提取的研究现状与展望
5
作者 鲍长春 杨雪 《数据采集与处理》 CSCD 北大核心 2024年第5期1044-1061,共18页
语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起... 语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。 展开更多
关键词 语音分离 鸡尾酒会问题 多说话人分离 目标说话人提取 深度学习
下载PDF
基于扩张卷积和Transformer的视听融合语音分离方法
6
作者 刘宏清 谢奇洲 +1 位作者 赵宇 周翊 《信号处理》 CSCD 北大核心 2024年第7期1208-1217,共10页
为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征... 为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。 展开更多
关键词 语音分离 视听融合 多头自注意力机制 扩张卷积
下载PDF
基于多重互信息约束的高表现力语音转换
7
作者 王光 刘宗泽 +1 位作者 姜彦吉 董浩 《计算机系统应用》 2024年第9期216-225,共10页
随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出... 随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出一种基于多重互信息约束的高表现力语音转换模型(MMIC-EVC).在对内容和音色特征进行解耦的基础上,引入表现力模块分别对话语级韵律和节奏特征进行建模,以实现情感特性的传递;随后通过最小化各特征之间的多重互信息变分对数上界,约束各编码器专注于解耦对应的声学嵌入.在CSTR-VCTK和ESD语音数据集上的实验表明,本模型的转换音频语音自然度评分(MOS)达到3.78,梅尔倒谱失真为5.39 dB,最佳最差占比测试结果大幅领先于基线模型,MMIC-EVC能够有效解耦韵律和节奏特征,并实现高表现力语音转换,为人机交互带来更加出色和自然的用户体验. 展开更多
关键词 语音转换 特征解耦 互信息约束 韵律建模 人机交互
下载PDF
基于模态理论和改进GMM的声发射源识别研究
8
作者 杨勇 李晶 +1 位作者 朱作付 邓艾东 《电子器件》 CAS 2024年第1期128-133,共6页
基于模态声发射信号理论,提出了一种利用声学对数倒谱统计参数作为声发射信号特征参数的分析与提取方法。从声发射信号多模态特性出发,提出了一个基于改进高斯混合模型的声发射源信号识别系统。理论分析和实验结果表明,该方法能准确地... 基于模态声发射信号理论,提出了一种利用声学对数倒谱统计参数作为声发射信号特征参数的分析与提取方法。从声发射信号多模态特性出发,提出了一个基于改进高斯混合模型的声发射源信号识别系统。理论分析和实验结果表明,该方法能准确地判断声发射信号源,不仅能够应用于突发型声发射信号的识别,而且可以应用于连续型声发射信号的识别。 展开更多
关键词 声发射信号 倒谱 高斯混合模型 识别
下载PDF
海南临高方言语音数据预处理技术 被引量:2
9
作者 符龙生 《电脑编程技巧与维护》 2024年第2期83-85,共3页
介绍了海南临高方言语音数据预处理的背景和目标,以及所采用的方法,包括数据预处理方法,以及应用WeNet模型进行语音识别的数据预处理技术。其中,数据预处理是指对收集到的原始语音数据进行去除噪声、平滑、合并等处理,以提高语音识别系... 介绍了海南临高方言语音数据预处理的背景和目标,以及所采用的方法,包括数据预处理方法,以及应用WeNet模型进行语音识别的数据预处理技术。其中,数据预处理是指对收集到的原始语音数据进行去除噪声、平滑、合并等处理,以提高语音识别系统的识别性能;数据预处理的目标是消除语音识别系统中的噪声、去除非语音成分,并保持原始语音数据中的有用信息,使语音识别系统能够正确地进行识别;应用WeNet模型进行语音识别的数据预处理技术是指利用WeNet模型对采集到的原始语音数据进行预处理,将其中有用信息提取出来。 展开更多
关键词 海南临高方言 语音识别 数据预处理
下载PDF
麦克风阵列鲁棒频率不变波束形成算法
10
作者 张正文 张振平 +1 位作者 廖桂生 巩朋成 《计算机仿真》 2024年第2期241-248,486,共9页
在实际应用中,频率不变波束形成器通常受到麦克风阵列失配误差的影响,因此提高频率不变波束形成器的鲁棒性具有重要意义。针对上述问题提出了一种约束优化模型,可以在保持频率不变波束形成的同时提高阵列的鲁棒性。首先设计目标波束图,... 在实际应用中,频率不变波束形成器通常受到麦克风阵列失配误差的影响,因此提高频率不变波束形成器的鲁棒性具有重要意义。针对上述问题提出了一种约束优化模型,可以在保持频率不变波束形成的同时提高阵列的鲁棒性。首先设计目标波束图,考虑到差分麦克风阵列本身具有频率不变的波束图,选用传统二阶超心型差分麦克风波束图做为目标波束图。上述模型以麦克风阵列权矢量的二范数作为目标函数来最大化鲁棒性,在无失真约束,目标波束主瓣逼近约束以及旁瓣增益精准控制约束下实现频率不变。然后在交替方向乘子法算法框架下,将优化问题分解为多个优化子问题求解,然后对每个优化子问题分别求解,通过仿真验证了在交替方向乘子法算法下上述模型的可行性与有效性,最终达到了麦克风阵列鲁棒频率不变波束响应的效果。 展开更多
关键词 麦克风阵列 频率不变 波束形成 交替方向乘子法
下载PDF
基于两步单源点筛选的改进退化解混和估计算法
11
作者 吴礼福 马思佳 孙康 《数据采集与处理》 CSCD 北大核心 2024年第5期1114-1125,共12页
退化解混和估计(Degenerate unmixing estimation technique,DUET)算法是一种典型的欠定盲源分离算法,其采用的二进制时频掩蔽会保留部分干扰信号。提出了基于两步单源点筛选的改进DUET算法,首先使用余弦角算法进行单源点筛选,再采用计... 退化解混和估计(Degenerate unmixing estimation technique,DUET)算法是一种典型的欠定盲源分离算法,其采用的二进制时频掩蔽会保留部分干扰信号。提出了基于两步单源点筛选的改进DUET算法,首先使用余弦角算法进行单源点筛选,再采用计算相似度的方法进行第二步单源点筛选。通过两步单源点筛选获得更精确的目标信号和干扰信号后,设计用于抵消干扰信号的滤波器取代DUET中的二进制时频掩蔽,达到抑制干扰信号和提取目标信号的目的。仿真实验结果表明,该方法在正定盲源分离和欠定盲源分离两种情况下都有较优的盲源分离性能。 展开更多
关键词 盲源分离 退化解混和估计算法 单源点筛选 抵消核 语音信号
下载PDF
基于全卷积神经网络多任务学习的时域语音分离
12
作者 孙林慧 王春艳 张蒙 《信号处理》 CSCD 北大核心 2024年第12期2228-2237,共10页
基于深度神经网络时频掩码进行语音分离时,目标信号相位一般采用混合信号的相位谱,且对性别组合缺乏针对性处理,这导致分离语音的质量不佳。针对该问题,本文提出一种基于全卷积神经网络联合性别组合检测(Fully Convolutional Neural Net... 基于深度神经网络时频掩码进行语音分离时,目标信号相位一般采用混合信号的相位谱,且对性别组合缺乏针对性处理,这导致分离语音的质量不佳。针对该问题,本文提出一种基于全卷积神经网络联合性别组合检测(Fully Convolutional Neural Network-Gender Combination Detection,FCN-GCD)多任务学习的时域语音分离方法。该方法首先在语音分离支路构建全卷积神经网络,该网络的输入为时域两人混合语音信号,输出为目标讲话者的纯净语音信号,运用卷积编码器和反卷积解码器对特征进行压缩和重建,实现端到端的语音分离。其次将混合语音性别组合检测任务整合到语音分离网络中,在两个任务联合约束下获取辅助信息特征和语音分离特征,并将这些深度特征相结合来提升语音分离质量。该FCN-GCD方法是一种时域语音分离方法,不需要进行相位恢复和频域到时域的重构,相比频域处理方法,该处理过程简单,从而提高了运算效率。另外,该方法从混合语音性别组合检测任务中提取有效的辅助信息特征,利用联合特征实现了更有效的语音分离。实验结果表明,与单任务的语音分离方法相比,本文所提出的FCN-GCD方法在男男、女女和男女三种性别组合下均有效提高了语音质量,在语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、信号干扰比(Signalto-Interference Ratio,SIR)、信号失真比(Signal-to-Distortion Ratio,SDR)和信号伪像比(Signal-to-Artifact Ratio,SAR)评价指标上均获得更佳的表现。 展开更多
关键词 深度神经网络 语音分离 全卷积神经网络 特征融合 多任务学习
下载PDF
融合动态场景感知和注意力机制的声学回声消除算法
13
作者 许春冬 黄乔月 +1 位作者 王磊 徐锦武 《信号处理》 CSCD 北大核心 2024年第2期396-405,共10页
在实时语音频通话系统中,如何去除声学回声得到清晰语音是目前最受关注的难题之一。声学回声消除(Acoustic echo cancellation,AEC)技术旨在消除语音频通话系统中的声学回声,提高通话过程中的语音质量,给予用户良好的通话体验,但是传统... 在实时语音频通话系统中,如何去除声学回声得到清晰语音是目前最受关注的难题之一。声学回声消除(Acoustic echo cancellation,AEC)技术旨在消除语音频通话系统中的声学回声,提高通话过程中的语音质量,给予用户良好的通话体验,但是传统回声消除系统存在去回声效果不明显、存在非线性回声残留以及无法实时处理回声等问题。因此,为解决上述存在问题,提出了一种动态场景感知模块(Dynamic scene perception module,DSPM)和全局注意力机制(Global attention mechanism,GAM)相结合的声学回声消除算法。该算法以卷积循环网络(Convolutional recurrent network,CRN)作为基线模型,提取语音信号的序列特征;首先,在其编码器中引入DSPM模块替换原因果卷积,根据场景动态分配卷积内核数量,加强模型的自适应性;其次,在编码器最后两层中分别引入GAM模块,放大空间通道间关系以及统筹全局交互,提升对语音信号特征的提取能力以及消除回声的性能;最后,通过将MSE损失函数和HuberLoss损失函数线性相加生成一种新的损失函数——MSE-HuberLoss,进一步提高模型的鲁棒性。实验结果表明,提出的GAM-DSPM-CRN模型的回声消除性能优秀,且获得较基线模型更加清晰的重构语音信号;在双端通话环境下,提出的GAM-DSPM-CRN模型声学回声消除算法较其他对比算法性能有较大提升;在Microsoft AEC Challenges数据集上,MOS、ERLE和STOI的得分分别达到了4.09、57.43和0.78。 展开更多
关键词 声学回声消除 动态场景感知模块 全局注意力机制 卷积循环网络 联合损失函数
下载PDF
双解码卷积循环网络风噪声有源控制
14
作者 吴礼福 葛文昌 +1 位作者 陈晨 王绍博 《南京信息工程大学学报》 CAS 北大核心 2024年第5期678-687,共10页
本文提出一种利用双解码卷积循环网络(Dual-decoder Convolutional Recurrent Network,DCRN)代替FxLMS(Filtered-x Least Mean Square)算法的有源噪声控制方法,考虑到相位信息在有源噪声控制(Active Noise Control,ANC)中的重要性,DCRN... 本文提出一种利用双解码卷积循环网络(Dual-decoder Convolutional Recurrent Network,DCRN)代替FxLMS(Filtered-x Least Mean Square)算法的有源噪声控制方法,考虑到相位信息在有源噪声控制(Active Noise Control,ANC)中的重要性,DCRN网络的输入特征为噪声信号的复数频谱(包括实部谱和虚部谱).网络结构中,采用编码模块从噪声复数频谱中提取特征,利用双解码模块分别估计网络输出的实部谱和虚部谱,采用参数共享机制和组策略以降低训练参数的数量并提高网络的学习能力和泛化能力.特别是针对风噪声,选用新的损失函数以及对训练数据进行正则化处理以提升DCRN的性能.实验结果表明,DCRN方法在仿真环境与有源降噪耳机环境下对一般噪声和风噪声都表现出良好的降噪性能和鲁棒性. 展开更多
关键词 双解码卷积循环网络 有源噪声控制 FXLMS算法 复数频谱
下载PDF
自适应剪枝的多参考有源控制算法
15
作者 吴礼福 王绍博 +1 位作者 葛文昌 陈晨 《应用声学》 CSCD 北大核心 2024年第5期971-979,共9页
多参考信号有源控制算法是多噪声源环境噪声控制的研究热点之一。该文设计了Sigmoid函数加权的滤波最小均方算法,该算法不需要事先计算参考信号与误差信号的相关性以选取参考信号,而是在参考信号中引入自调整参数,通过调整该参数减小无... 多参考信号有源控制算法是多噪声源环境噪声控制的研究热点之一。该文设计了Sigmoid函数加权的滤波最小均方算法,该算法不需要事先计算参考信号与误差信号的相关性以选取参考信号,而是在参考信号中引入自调整参数,通过调整该参数减小无关信号对系统的影响。仿真实验对比验证了算法的两个优点:一是算法可以看作对每个参考信号采用了变步长的策略,二是算法可以依据参考信号与误差信号的相关性高低调整参考信号的权重,实现自适应剪枝的功能以降低系统的开销。 展开更多
关键词 主动噪声控制 FXLMS算法 车内噪声 多参考信号
下载PDF
全空间相关矩阵广义加权预测误差算法去混响研究
16
作者 吴礼福 陈晨 +1 位作者 王绍博 葛文昌 《声学技术》 CSCD 北大核心 2024年第5期726-733,共8页
广义加权预测误差(generalized weighted prediction error, GWPE)算法是一种有效的多通道语音去混响算法,但在麦克风间距较近时去混响效果变差。文章分析了GWPE算法在小间距麦克风阵列下的局限性,即未充分考虑麦克风信号间的空间相关... 广义加权预测误差(generalized weighted prediction error, GWPE)算法是一种有效的多通道语音去混响算法,但在麦克风间距较近时去混响效果变差。文章分析了GWPE算法在小间距麦克风阵列下的局限性,即未充分考虑麦克风信号间的空间相关性。据此,研究了全空间相关矩阵的广义加权预测误差(generalized weighted prediction error of full-space correlation matrix, GWPE-FCM)算法,该算法考虑了不同输入通道之间的空间相关性,计算复杂度比GWPE算法略增加。仿真结果表明,GWPE-FCM算法与GWPE算法相比在整体去混响方面效果更好,特别是在麦克风距离较近的情况下。全空间相关矩阵能够更准确地估计输入信号的相关性,使得GWPE-FCM算法在去混响效果上表现更出色。 展开更多
关键词 去混响 加权预测误差 全空间相关 麦克风阵列
下载PDF
基于小波变换的语音信号去噪算法优化
17
作者 王红娟 尚莹莹 《电声技术》 2024年第5期67-69,共3页
深入研究基于小波变换的语音信号去噪方法,并针对传统方法在复杂噪声环境下处理效果不佳的问题,提出一种基于自适应阈值的小波变换去噪优化方法。首先,分析小波变换去噪的基本原理。其次,深入研究自适应阈值技术的数学模型,并将其应用... 深入研究基于小波变换的语音信号去噪方法,并针对传统方法在复杂噪声环境下处理效果不佳的问题,提出一种基于自适应阈值的小波变换去噪优化方法。首先,分析小波变换去噪的基本原理。其次,深入研究自适应阈值技术的数学模型,并将其应用于小波变换,通过动态调整阈值来适应不同噪声环境的需求。最后,采用Aurora数据集进行实验验证。实验结果表明,该方法能够有效去除噪声。 展开更多
关键词 小波变换 语音去噪 自适应阈值 语音信号
下载PDF
基于加权预测误差的低复杂度去混响
18
作者 狄金海 戴天池 《电子器件》 CAS 2024年第3期667-671,共5页
在音视频会议以及人机交互等应用场景下,设备所采集到的音频信号往往会受到室内混响的干扰,从而降低语音的清晰度与可懂度。基于加权预测误差的自适应去混响算法是目前较为主流的盲去混响算法,该算法能够实时有效地去除混响,然而往往具... 在音视频会议以及人机交互等应用场景下,设备所采集到的音频信号往往会受到室内混响的干扰,从而降低语音的清晰度与可懂度。基于加权预测误差的自适应去混响算法是目前较为主流的盲去混响算法,该算法能够实时有效地去除混响,然而往往具有较高的计算复杂度。为降低算法的复杂度,通过分块对角矩阵简化原算法中相关的矩阵运算,实验证明,所设计的算法在确保语音质量的同时,降低了原算法的计算开销。 展开更多
关键词 去混响 加权预测误差 语音增强
下载PDF
应用于噪声环境下语种识别的GFCC改进算法 被引量:1
19
作者 周大春 邵玉斌 +2 位作者 张昊阁 龙华 彭艺 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期246-254,共9页
不同的噪声在频谱上有不同的特点,使得自动语种识别的性能在噪声环境下显著下降.针对该问题,提出一种基于改进时域伽马通滤波器倒谱系数(gammatone filter cepstral coefficient,GFCC)特征的语种识别方法.首先,提取不同噪声背景下的训... 不同的噪声在频谱上有不同的特点,使得自动语种识别的性能在噪声环境下显著下降.针对该问题,提出一种基于改进时域伽马通滤波器倒谱系数(gammatone filter cepstral coefficient,GFCC)特征的语种识别方法.首先,提取不同噪声背景下的训练集的时域GFCC特征;然后,利用Fisher比计算特征各维对区分语种的相对贡献度大小,分析不同噪声对时域GFCC特征各维的影响,并根据分析来设计合适的权值对特征各维加权,得到语种区分性更强的特征集;最后,利用高斯混合-通用背景模型作为基线系统进行语种识别,以测试所提方法性能.实验结果表明,在单一噪声背景,信噪比为-5 dB,噪声源分别为粉红噪声、餐厅噪声的条件下,所提方法相比于传统时域GFCC特征方法的识别率分别提升了40.1、20.6个百分点,在其他噪声背景、信噪比下的识别率也有一定程度的提升. 展开更多
关键词 噪声环境 语种识别 时域伽马通滤波器 Fisher比
下载PDF
基于ESP32平台的AI语音系统教学案例设计
20
作者 王浩 《办公自动化》 2024年第24期13-15,共3页
随着人工智能和物联网技术的飞速发展,智能语音助手已成为日常生活中的重要辅助工具,在智能家居、穿戴设备等领域展现广阔的应用前景。文章针对ESP32硬件平台的高性能、低成本的特点,设计一套基于ESP32平台的AI智能语音系统教学案例,通... 随着人工智能和物联网技术的飞速发展,智能语音助手已成为日常生活中的重要辅助工具,在智能家居、穿戴设备等领域展现广阔的应用前景。文章针对ESP32硬件平台的高性能、低成本的特点,设计一套基于ESP32平台的AI智能语音系统教学案例,通过ESP32平台WiFi无线连接云端语音识别和语音合成服务器以及AI大语言模型服务器,确保语音助手在处理速度和响应精度上的性能表现。实验结果表明:AI智能语音助手在语音识别准确率、响应时间和用户满意度等关键指标上均有显著提升。 展开更多
关键词 ESP32平台 大语言模型 语音助手
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部