期刊文献+
共找到5,152篇文章
< 1 2 250 >
每页显示 20 50 100
基于网络性能的VoIP语音质量评价模型 被引量:9
1
作者 张秀武 雷为民 《小型微型计算机系统》 CSCD 北大核心 2010年第3期460-464,共5页
在VoIP应用中,为了实现服务质量的监测和路径切换,通常需要测量路径的网络性能,并将网络性能映射到语音质量评价.本文提出一种基于网络性能的VoIP语音质量评价模型,该模型在E-Model的基础上进行了改进,只考虑网络性能的动态变化对语音... 在VoIP应用中,为了实现服务质量的监测和路径切换,通常需要测量路径的网络性能,并将网络性能映射到语音质量评价.本文提出一种基于网络性能的VoIP语音质量评价模型,该模型在E-Model的基础上进行了改进,只考虑网络性能的动态变化对语音质量的影响.新的模型考虑更少的影响因素,比E-Model更容易计算,因此更适用于VoIP系统的语音质量评价.通过实验比较了新的模型和简单的网络参数评价模型,结果显示该模型具有更好的语音质量描述能力. 展开更多
关键词 语音质量评价 评价模型 网络性能 voip
下载PDF
深度复数轴向自注意力卷积循环网络的语音增强 被引量:1
2
作者 曹洁 王乔 +3 位作者 梁浩鹏 王宸章 李晓旭 于泓 《计算机系统应用》 2024年第4期60-68,共9页
单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域... 单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域同时实现了语音幅度信息和相位信息的增强.首先使用基于复数卷积网络的编码器从输入语音信号中提取复数表示的特征,并引入卷积跳连模块用以将特征映射到高维空间进行特征融合,加强信息间的交互和梯度的流动.然后设计了基于轴向自注意力机制的编码器-解码器结构,利用轴向自注意力机制来增强模型的时序建模能力和特征提取能力.最后通过解码器实现对语音信号的重构,同时利用混合损失函数优化网络模型,提升增强语音信号的质量.实验在公开数据集Valentini和DNS Challenge上进行,结果表明所提方法相对于其他模型在客观语音质量评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)两项指标上均有提升,在非混响数据集中,PESQ比DCTCRN(deep cosine transform convolutional recurrent network)提高了12.8%,比DCCRN(deep complex convolutional recurrent network)提高了3.9%,验证了该网络模型在语音增强任务中的有效性. 展开更多
关键词 单通道语音增强 复数卷积循环网络 卷积跳连 轴向自注意力机制
下载PDF
基于下一代网络的VoIP语音网关设计与实现
3
作者 任定成 《深圳职业技术学院学报》 CAS 2014年第3期24-27,共4页
采用网络处理器+DSP作为语音网关解决方案,基于下一代网络VoIP语音网关让语音、数据、视频在IP网络上传送,可以有效地降低企业生产成本.通过对该网关设备的电路设计和音频驱动的开发,选择小巧快速的SIP协议栈为开发对象,实现了通话呼叫... 采用网络处理器+DSP作为语音网关解决方案,基于下一代网络VoIP语音网关让语音、数据、视频在IP网络上传送,可以有效地降低企业生产成本.通过对该网关设备的电路设计和音频驱动的开发,选择小巧快速的SIP协议栈为开发对象,实现了通话呼叫功能并通过测试. 展开更多
关键词 下一代网络 语音网关 voip SIP
下载PDF
LTE网络中的VoIP语音实现
4
作者 方国涛 《科技资讯》 2013年第27期28-28,30,共2页
介绍了语音及VoIP业务的发展,分析了LTE网络中的语音实现方案,重点阐述了LTE网络中VoIP业务的调度问题。
关键词 voip语音 LTE网络 CS回退技术 业务调度
下载PDF
基于多尺度时序感知网络的课堂语音情感识别方法
5
作者 周菊香 刘金生 +2 位作者 甘健侯 吴迪 李子杰 《计算机应用》 CSCD 北大核心 2024年第5期1636-1643,共8页
语音情感识别近年来在多场景智能系统中得到了广泛应用,也为实现智慧课堂环境下的教学行为智能分析提供了可能。通过课堂语音情感识别技术可以自动识别课堂教学中教师和学生的情感状态,帮助教师了解自己的授课风格并及时掌握学生的课堂... 语音情感识别近年来在多场景智能系统中得到了广泛应用,也为实现智慧课堂环境下的教学行为智能分析提供了可能。通过课堂语音情感识别技术可以自动识别课堂教学中教师和学生的情感状态,帮助教师了解自己的授课风格并及时掌握学生的课堂学习状态,从而达到精准施教的目的。针对课堂语音情感识别任务,首先,收集中小学的课堂实录教学视频,提取音频并进行人工切分和标注,构建了包含6类情感的中小学教学语音情感语料库;其次,基于时序卷积网络(TCN)和交叉门控机制(cross-gated mechanism)设计了双路时序卷积通道,以提取多尺度交叉融合特征;最后,采用动态权重融合策略调整不同尺度特征的贡献度,减少非重要特征对识别结果的干扰,进一步增强模型的表征和学习能力。实验结果表明,所提方法在多个公共数据集上优于TIM-Net(Temporal-aware bI-direction Multi-scaleNetwork)、GM-TCNet(Gated Multi-scale Temporal Convolutional Network)和CTL-MTNet(CapsNet and Transfer Learning-based Mixed Task Net)等先进模型,在真实课堂语音情感识别任务上未加权平均召回率(UAR)和加权平均召回率(WAR)分别达90.58%和90.45%。 展开更多
关键词 语音情感识别 课堂语音 时序卷积网络 交叉门控卷积 梅尔频率倒谱系数
下载PDF
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
6
作者 兰朝凤 蒋朋威 +4 位作者 陈欢 赵世龙 郭小霞 韩玉兰 韩闯 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1005-1012,共8页
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型... 目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。 展开更多
关键词 语音分离 视听融合 跨模态注意力 双路径递归网络 Conv-TasNet
下载PDF
神经网络辅助估计先验语音存在概率的多通道降噪方法
7
作者 雷菁 王劲夫 +1 位作者 杨飞然 杨军 《信号处理》 CSCD 北大核心 2024年第7期1197-1207,共11页
噪声功率谱密度矩阵的估计在波束形成中非常关键。基于多通道语音存在概率(Multichannel Speech Presence Probability,MCSPP)估计噪声功率谱密度矩阵的方法,利用语音存在概率逐帧更新噪声功率谱密度矩阵。因此,语音存在概率的精度直接... 噪声功率谱密度矩阵的估计在波束形成中非常关键。基于多通道语音存在概率(Multichannel Speech Presence Probability,MCSPP)估计噪声功率谱密度矩阵的方法,利用语音存在概率逐帧更新噪声功率谱密度矩阵。因此,语音存在概率的精度直接影响到噪声功率谱密度矩阵的估计精度。传统方法估计语音存在概率时依赖于噪声平稳假设。在变化较快的非平稳噪声上,估计的语音存在概率存在拖尾现象,这会导致降噪效果变差。本文从理论上解释了传统方法估计语音存在概率的拖尾现象成因。传统方法中语音存在概率由长期信噪比(Signal to Noise Ratio,SNR)线性映射得到,而本文证明当语音存在时当前时刻的长期信噪比仅为上一时刻长期信噪比的小幅衰减。当噪声快速变化时,长期信噪比变化缓慢,这导致语音存在概率出现拖尾现象。为解决该问题,本文提出了一种神经网络辅助估计先验语音存在概率的多通道降噪方法。所提方法利用时域卷积网络(Temporal Convolutional Network,TCN)来估计单通道观测信号的先验语音存在概率,而后利用多通道观测信号的空间信息来改善先验语音存在概率的估计。时域卷积网络估计先验语音存在概率不依赖于噪声的平稳假设,提升了噪声功率谱密度矩阵估计的精度。本文在CHiME-3数据集上进行测试,当SNR为5 dB时,所提方法取得的PESQ相比传统方法提升了0.09,fwSegSNR提升了0.78,COVL提升了0.08。结果表明,所提方法在非平稳噪声情况下能取得更好的降噪效果。 展开更多
关键词 多通道降噪 神经网络 语音存在概率
下载PDF
基于多模态共享网络的自监督语音-人脸跨模态关联学习方法
8
作者 李俊屿 卜凡亮 +2 位作者 谭林 周禹辰 毛璟仪 《科学技术与工程》 北大核心 2024年第7期2804-2812,共9页
现有的语音-人脸跨模态关联学习方法在语义关联和监督信息方面仍然面临挑战,尚未充分考虑语音与人脸之间的语义信息交互。为解决这些问题,提出一种基于多模态共享网络的自监督关联学习方法。首先,将语音和人脸模态的特征映射到单位球面... 现有的语音-人脸跨模态关联学习方法在语义关联和监督信息方面仍然面临挑战,尚未充分考虑语音与人脸之间的语义信息交互。为解决这些问题,提出一种基于多模态共享网络的自监督关联学习方法。首先,将语音和人脸模态的特征映射到单位球面,构建一个公共的特征空间;接着,通过多模态共享网络的残差块来挖掘复杂的非线性数据关系,并利用其中权重共享的全连接层来增强语音与人脸特征向量之间的关联性;最后,使用K均值聚类算法生成的伪标签作为监督信号来指导度量学习,从而完成4种跨模态关联学习任务。实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,多项评价指标相较于现有基线方法提升1%~4%的准确率。 展开更多
关键词 语音-人脸跨模态 多模态共享网络 伪标签 关联学习
下载PDF
基于卷积神经网络特征提取的病理语音识别
9
作者 姜羽菲 石宇 +2 位作者 何若男 陈益 曹辉 《电子设计工程》 2024年第20期26-30,共5页
针对传统病理语音识别效率低的问题,提出了一种利用卷积神经网络语音特征的病理语音识别方法,实现了特征的自动提取。从原始语音信号中提取梅尔语谱图特征,并对原始图像进行数据增强。基于迁移学习的思想,对Alex Net网络进行微调和训练... 针对传统病理语音识别效率低的问题,提出了一种利用卷积神经网络语音特征的病理语音识别方法,实现了特征的自动提取。从原始语音信号中提取梅尔语谱图特征,并对原始图像进行数据增强。基于迁移学习的思想,对Alex Net网络进行微调和训练,并将图像输入到训练好的卷积神经网络中提取语句级特征,输出时由时域金字塔匹配进行统一降维,得到相同长度的语音特征。使用神经网络和支持向量机分类器分别对提取好的语音特征进行分类,以完成病理语音识别。实验结果表明,神经网络能够很好地提取复杂和抽象的特征,避免了前期复杂繁琐的数据处理和数据分析工作,同时与传统特征提取方法相比准确率有所提高。 展开更多
关键词 病理语音识别 梅尔谱图 卷积神经网络 时域金字塔匹配
下载PDF
基于并行多注意力的语音增强网络
10
作者 张池 王忠 +1 位作者 姜添豪 谢康民 《计算机工程》 CAS CSCD 北大核心 2024年第4期68-77,共10页
针对受干扰语音的频域增强问题,提出一种基于并行多注意力机制和编解码结构的语音增强网络(PMAN)。网络输入经过短时傅里叶变换(STFT)的语音频域特征,包含振幅谱和复数谱,编码器使用密集卷积模块对输入数据信息进行整合,中间层的并行多... 针对受干扰语音的频域增强问题,提出一种基于并行多注意力机制和编解码结构的语音增强网络(PMAN)。网络输入经过短时傅里叶变换(STFT)的语音频域特征,包含振幅谱和复数谱,编码器使用密集卷积模块对输入数据信息进行整合,中间层的并行多注意力模块学习频域的局部和全局信息,并融合局部块注意力(LPA)机制捕捉语音频域二维(2D)结构,实现干净语音与干扰因素的2D层面分离。解码器将学习到的信息进行整合,分别生成振幅掩模和复数频谱,根据加权求和生成最终的语音复数频谱,使用时域与频域联合损失函数实现相位信息的融合。在VoicеBank+DEMAND语音数据集上的实验结果表明,与基于两阶段变换器的时域语音增强神经网络(TSTNN)相比,经过PMAN增强后语音的客观语音质量评价(PESQ)、短时客观可懂度(STOI)、分段信噪比(SSNR)指标值分别提升10.8%、1.1%、11.8%,具有较好的语音增强效果。 展开更多
关键词 语音增强 频域 多注意力机制 Transformer网络 并行模块
下载PDF
基于神经网络加速器的FPGA语音情感识别系统
11
作者 乔栋 陈章进 +1 位作者 邓良 张廓 《计算机应用与软件》 北大核心 2024年第10期163-169,246,共8页
针对现有语音情感识别系统的部署功耗高、不具有便携性的缺点,提出一种基于神经网络加速器的FPGA语音情感识别系统设计。在FPGA上实现语音MFCC(Mel Frequency Cepstrum Coefficient)特征的提取,便于进行识别;为神经网络加速器设计指令... 针对现有语音情感识别系统的部署功耗高、不具有便携性的缺点,提出一种基于神经网络加速器的FPGA语音情感识别系统设计。在FPGA上实现语音MFCC(Mel Frequency Cepstrum Coefficient)特征的提取,便于进行识别;为神经网络加速器设计指令生成算法,将网络模型部署在神经网络加速器实现语音情感识别。整个系统主要硬件资源消耗为37078个LUT和153个DSP,支持在主流FPGA平台上的部署。经过检验,语音情感识别系统的指令运算误差可达0.06以下,输出误差为0.0004以下,满足语音情感识别的需求。 展开更多
关键词 MFCC 语音情感识别 神经网络加速器 FPGA
下载PDF
基于循环神经网络的双麦克风语音增强算法 被引量:1
12
作者 邱智乾 陈霏 郎标 《传感技术学报》 CAS CSCD 北大核心 2024年第3期430-438,共9页
针对基于神经网络的语音增强算法难以部署在助听器中的问题,基于循环神经网络,提出了一种低延迟、低复杂度的双麦克风语音增强算法。该算法利用两个麦克风做空域滤波初步去除非期望方向噪声,并进一步通过循环神经网络得到纯净语音信号... 针对基于神经网络的语音增强算法难以部署在助听器中的问题,基于循环神经网络,提出了一种低延迟、低复杂度的双麦克风语音增强算法。该算法利用两个麦克风做空域滤波初步去除非期望方向噪声,并进一步通过循环神经网络得到纯净语音信号。为了解决助听器中全相位滤波器组阶数较多而引起群延迟较大的问题,创新性地提出一种分段式滤波器组,在保证性能的同时有效减少了阶数。仿真结果显示,该滤波器组在16 k采样率下的群延迟为3.125 ms,在0 dB的babble、volvo、factory1环境下,该语音增强算法的SNR平均提升了10.556 5 dB,PESQ平均提升了0.678 7。实际测试结果中,SNR平均提升了9.439 4 dB,PESQ平均提升了0.735 0。当DSP系统时钟频率为104 MHz时,助听器经过的系统延迟为8.4 ms,功耗为6.2 mA,可以很好满足助听器高续航的需求。 展开更多
关键词 语音增强 滤波器组 循环神经网络 助听器 DSP实现
下载PDF
基于深度卷积神经网络的智能机器人语音自动识别方法 被引量:3
13
作者 相增辉 张国梁 +2 位作者 庞渊源 陈鑫 王鑫 《自动化技术与应用》 2024年第4期43-46,共4页
外界环境的干扰会降低智能机器人语音识别效果,为提升智能机器人的识别效果,提出基于深度卷积神经网络的智能机器人语音自动识别方法。该方法首先分析了智能机器人智能化服务特性,以此为基础采集智能机器人语音信息数据;利用构建的伽玛... 外界环境的干扰会降低智能机器人语音识别效果,为提升智能机器人的识别效果,提出基于深度卷积神经网络的智能机器人语音自动识别方法。该方法首先分析了智能机器人智能化服务特性,以此为基础采集智能机器人语音信息数据;利用构建的伽玛通滤波器降低智能机器人语音噪声数据,进一步提取语音信息能量特征;将信息能量特征输入到深度卷积神经网络识别模型内分类训练,实现智能机器人语音自动识别。实验结果表明,该方法的语音识别率达到了90%以上,识别耗时低于1.5 s,提升了智能机器人的语音识别效果。 展开更多
关键词 深度卷积神经网络 智能机器人语音识别 数据滤波 分类训练
下载PDF
基于双微麦克风阵列与WideResNet网络的语音命令词识别
14
作者 祁潇潇 曾庆宁 赵学军 《计算机应用与软件》 北大核心 2024年第5期126-130,共5页
为了提高噪声环境下语音识别的稳健性[1],提出宽残差深度神经网络的语音识别算法。该算法结合双微麦克风阵列系统、语音数据集为双微麦克风数据集,使用功率归一化倒谱系数作为特征参数输入到残差网络中进行训练。实验表明,与ResNet15模... 为了提高噪声环境下语音识别的稳健性[1],提出宽残差深度神经网络的语音识别算法。该算法结合双微麦克风阵列系统、语音数据集为双微麦克风数据集,使用功率归一化倒谱系数作为特征参数输入到残差网络中进行训练。实验表明,与ResNet15模型、ResNet18模型相比,只有三个残差模块的宽残差网络在噪声环境下语音命令词的识别和内外部说话人检测任务中具有较高的准确度,均达到了95%以上。 展开更多
关键词 语音识别 宽残差神经网络 功率归一化倒谱系数 双微麦克风阵列
下载PDF
基于小波神经网络的嵌入式语音识别系统设计
15
作者 陈龙飞 《电声技术》 2024年第7期25-27,共3页
针对嵌入式语音识别中的资源受限问题,提出一种基于小波神经网络的轻量化识别方案。该方案利用小波变换提取语音信号的时频域特征,并结合小波神经网络的非线性拟合能力,构建了高效的语音识别模型。实证研究表明,该方案在TIMIT数据集上... 针对嵌入式语音识别中的资源受限问题,提出一种基于小波神经网络的轻量化识别方案。该方案利用小波变换提取语音信号的时频域特征,并结合小波神经网络的非线性拟合能力,构建了高效的语音识别模型。实证研究表明,该方案在TIMIT数据集上取得了80.17%的帧识别准确率,在满足实时性约束的同时,显著提升了嵌入式语音识别系统的性能表现,为智能语音交互在资源受限场景下的应用部署提供了新的思路。 展开更多
关键词 嵌入式语音识别 小波变换 小波神经网络
下载PDF
类别条件生成对抗网络的语音对抗样本生成方法
16
作者 于振华 胡旭飞 叶鸥 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第12期153-164,共12页
针对现有面向自动语音识别系统的对抗攻击方法难以捕捉不同语音尺度之间的相关性、导致攻击成功率低的问题,提出一种类别条件生成对抗网络的语音对抗样本生成方法。通过目标标签映射模块,将攻击目标标签转化为独热向量,作为条件输入到... 针对现有面向自动语音识别系统的对抗攻击方法难以捕捉不同语音尺度之间的相关性、导致攻击成功率低的问题,提出一种类别条件生成对抗网络的语音对抗样本生成方法。通过目标标签映射模块,将攻击目标标签转化为独热向量,作为条件输入到构建的类别条件生成对抗网络中,以此控制语音样本类别的生成。该类别条件生成对抗网络中的生成器,采用设计的NReSidual U-block网络模块与U-Net相融合,可以更好地学习不同时间尺度的语音特征,以及提升语音特征的表示能力,从而可以针对特定语音类别生成对抗样本;判别器采用卷积块和全连接层相结合的网络结构,将错误损失通过梯度反向传播至生成器,能有效保留语音信号的时序信息,并解决数据分布不稳定问题。在通用的谷歌命令数据集和音乐流派数据集上进行实验,结果表明,所提语音对抗样本生成方法的攻击成功率与主流方法相比,分别提高了3.47%、5.1%,平均信噪比提升了3.2、1.49 dB,该方法具有较好的攻击效果和语音质量。 展开更多
关键词 自动语音识别系统 生成对抗网络 对抗攻击 语音对抗样本生成 标签映射
下载PDF
基于生成对抗网络数据增强的抗噪语音识别系统
17
作者 冯天宇 朱永华 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期476-490,共15页
语音识别的研究始终存在数据集具有局限性的问题.通过数据增强可以提升训练数据的规模以及多样性,从而提升识别的准确率.提出了一种基于生成对抗网络(generative adversarial network,GAN)的语音数据生成方法,以改善噪声条件下的语音识... 语音识别的研究始终存在数据集具有局限性的问题.通过数据增强可以提升训练数据的规模以及多样性,从而提升识别的准确率.提出了一种基于生成对抗网络(generative adversarial network,GAN)的语音数据生成方法,以改善噪声条件下的语音识别.首先,使用基础的GAN结构,逐帧生成基于光谱特征水平的语音样本;之后,针对缺乏真实标签用于训练的问题,又提出了一种利用非转录数据进行声学建模的无监督学习框架,并利用条件GAN结构探讨2种条件:每个语音帧的声学状态和与数据集中语音对应的原始干净语音.整合了条件信息的条件GAN可以直接提供真实标签用于声学建模.该方法在2个噪声任务(Aurora-4和AMI会议转录任务)上进行了评估.研究结果表明,在各种噪声条件(加性噪声、信道失真和混响)下,该方法都能显著提升性能.GAN生成的增强数据在先进的非常深度卷积神经网络(very deep convolutional network,VDCNN)声学模型上,可以降低6%14%的字错误率(worderrorrate,WER). 展开更多
关键词 生成对抗网络 声学模型 数据增强 噪声 语音识别
下载PDF
基于双向长短时记忆网络的藏语语音情感识别
18
作者 李珊珊 边巴旺堆 《信息技术与信息化》 2024年第10期12-15,共4页
为提高藏语拉萨方言的语音情感识别准确度,构建了一个包含6000条语音样本的语料库,采用了改进的MFCC特征提取方法和双向长短时记忆网络(BiLSTM)模型。改进的MFCC特征能更有效地表征藏语中的情感信息,而BiLSTM模型则能有效捕捉语音序列... 为提高藏语拉萨方言的语音情感识别准确度,构建了一个包含6000条语音样本的语料库,采用了改进的MFCC特征提取方法和双向长短时记忆网络(BiLSTM)模型。改进的MFCC特征能更有效地表征藏语中的情感信息,而BiLSTM模型则能有效捕捉语音序列中的长期依赖关系,这对于情感识别任务尤为重要。研究结果显示,所设计的方法达到了81%的准确率,相较于传统方法有显著提升,在处理藏语情感识别方面具有很高的效果和潜力。未来的研究方向包括进一步优化模型结构,探索更多的深度学习架构,改进语音特征提取技术,以进一步提高模型的准确率和泛化能力,为语音情感识别技术在藏语等少数民族语言中的应用奠定重要的基础。 展开更多
关键词 藏语情感识别 MFCC特征 长短时记忆网络 语音情感分析 深度学习
下载PDF
基于多层次语音情绪识别网络的机器人表情控制
19
作者 杨琦 杨芳艳 +1 位作者 袁野 王佳琦 《智能计算机与应用》 2024年第10期41-49,共9页
面部表情与头部姿态是仿人机器人表达情绪的重要途径,精准的情绪识别与流畅的表情动作对于提升人机交互体验非常关键。为了满足上述要求,本文首先提出了一种基于跨越注意力与多层次声学集成学习的语音情绪识别算法,然后在自研仿人机器... 面部表情与头部姿态是仿人机器人表达情绪的重要途径,精准的情绪识别与流畅的表情动作对于提升人机交互体验非常关键。为了满足上述要求,本文首先提出了一种基于跨越注意力与多层次声学集成学习的语音情绪识别算法,然后在自研仿人机器人平台上部署该算法,实现了高仿真的人机交互。具体地,研究搭建了包含16个伺服位置舵机且拥有高仿真表情和多自由度头部姿态的仿人机器人,基于对关节角度的插值算法与轨迹规划,实现人机交互过程中的机器人面部表情的柔顺控制。此外,研究构建了基于跨越注意力与多层次声学集成学习的语音情绪模型,该模型首先使用深度卷积网络对多源音频信号进行特征提取,再将多种特征进行跨越注意力机制特征融合,解决了频域信息问题和其维度较高导致的维度含义不清晰的问题。实验结果表明,本文提出的方法比现有其他方法具有更好的性能,结合仿人机器人平台能够实现高仿真的人机情感交互。 展开更多
关键词 跨越注意力 多层次声学 语音情绪识别 深度卷积网络 插值算法
下载PDF
基于WP-MLP神经网络的VoIP自适应抖动缓冲算法
20
作者 李云峰 《中国电子科学研究院学报》 2024年第6期546-551,共6页
为解决抖动缓冲区播放延时和丢包之间的矛盾,实现缓冲区的动态调整使延时和丢包达到最优的平衡,提出一种基于WP-MLP神经网络的自适应抖动缓冲算法。首先,对抖动缓冲区的基本原理进行了分析并给出了丢包率与缓冲延时之间的函数关系;其次... 为解决抖动缓冲区播放延时和丢包之间的矛盾,实现缓冲区的动态调整使延时和丢包达到最优的平衡,提出一种基于WP-MLP神经网络的自适应抖动缓冲算法。首先,对抖动缓冲区的基本原理进行了分析并给出了丢包率与缓冲延时之间的函数关系;其次,提出了WP-MLP神经网络抖动缓冲算法的网络模型并对算法流程进行了分析;最后,通过VoIP网络仿真进行建模对比几种常用抖动缓冲算法,结果表明,本文所提算法能够在播放延时和丢包率之间保持更好的平衡,对缓冲区大小的动态调节表现出更优异的性能。 展开更多
关键词 神经网络 播出延迟 小波包 voip 多层感知器 自适应抖动缓冲
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部