期刊文献+
共找到172,329篇文章
< 1 2 250 >
每页显示 20 50 100
语音Internet应用日趋广泛
1
作者 常捷 《世界网络与多媒体》 2001年第3期42-42,49,共2页
关键词 语音internet 计算机网络 电子 语音通信
下载PDF
基于双分支注意力U-Net的语音增强方法 被引量:1
2
作者 曹洁 王宸章 +2 位作者 梁浩鹏 王乔 李晓旭 《计算机应用研究》 CSCD 北大核心 2024年第4期1112-1116,共5页
针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征... 针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征作为输入。首先利用残差连接设计了基于Conformer的残差卷积来增强网络降噪的能力。其次设计了双分支注意力机制结构,利用全局和局部注意力获取带噪语音中更丰富的上下文信息,同时有效表示长序列特征,提取更多样的特征信息。最后结合时域频域损失函数构建了加权损失函数对网络进行训练,提高网络的语音增强性能。使用了多个指标对增强语音的质量和可懂度等进行评价,在公开数据集Voice Bank+DEMAND上的增强后的语音感知质量(PESQ)为3.11,短时可懂度(STOI)为95%,信号失真度(CSIG)为4.44,噪声失真测(CBAK)为3.60,综合质量测度(COVL)为3.81,其中PESQ相较于SE-Conformer提高了7.6%,相较于TSTNN提高了5.1%。实验结果表明,所提方法在语音降噪的各个指标都表现出更优的实验结果,能够完成语音增强任务的相关要求。 展开更多
关键词 语音增强 双分支注意力机制 时域 单通道
下载PDF
深度复数轴向自注意力卷积循环网络的语音增强 被引量:1
3
作者 曹洁 王乔 +3 位作者 梁浩鹏 王宸章 李晓旭 于泓 《计算机系统应用》 2024年第4期60-68,共9页
单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域... 单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域同时实现了语音幅度信息和相位信息的增强.首先使用基于复数卷积网络的编码器从输入语音信号中提取复数表示的特征,并引入卷积跳连模块用以将特征映射到高维空间进行特征融合,加强信息间的交互和梯度的流动.然后设计了基于轴向自注意力机制的编码器-解码器结构,利用轴向自注意力机制来增强模型的时序建模能力和特征提取能力.最后通过解码器实现对语音信号的重构,同时利用混合损失函数优化网络模型,提升增强语音信号的质量.实验在公开数据集Valentini和DNS Challenge上进行,结果表明所提方法相对于其他模型在客观语音质量评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)两项指标上均有提升,在非混响数据集中,PESQ比DCTCRN(deep cosine transform convolutional recurrent network)提高了12.8%,比DCCRN(deep complex convolutional recurrent network)提高了3.9%,验证了该网络模型在语音增强任务中的有效性. 展开更多
关键词 单通道语音增强 复数卷积循环网络 卷积跳连 轴向自注意力机制
下载PDF
多模态特征的越南语语音识别文本标点恢复
4
作者 赖华 孙童 +3 位作者 王文君 余正涛 高盛祥 董凌 《计算机应用》 CSCD 北大核心 2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南... 越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。 展开更多
关键词 语音识别 标点恢复 越南语 BERT 多模态
下载PDF
基于统计的语音传输指数预测方法实验对比
5
作者 祝培生 陶畹琪 +2 位作者 莫方朔 路晓东 王时原 《应用声学》 CSCD 北大核心 2024年第2期275-284,共10页
良好的言语可懂度是语言声厅堂声环境设计的重要目标,语音传输指数(STI)是言语可懂度的客观评价参量。在设计阶段就能对STI做出准确预测,对语言声厅堂的声环境控制具有重要意义。基于统计的STI预测方法是IEC 60268-16标准推荐的主要预... 良好的言语可懂度是语言声厅堂声环境设计的重要目标,语音传输指数(STI)是言语可懂度的客观评价参量。在设计阶段就能对STI做出准确预测,对语言声厅堂的声环境控制具有重要意义。基于统计的STI预测方法是IEC 60268-16标准推荐的主要预测方法,但对于使用该方法时的影响因素以及预测精度,当前仍缺少系统性的实验对比研究。该文使用4个房间中13个测点共52种听音条件下的STI实测结果,分析了基于统计的STI预测方法的精度以及影响因素,结果表明:考虑和不考虑直达声的两种预测方法,都存在着系统偏差,预测结果普遍小于实测值;在距离声源较近测点的预测都产生了较大误差,在距离声源较远测点的预测误差相对较小;基于单指数衰变声场不考虑直达声的预测方法操作简单,但误差较大,52种听音条件的平均误差达到了-0.032,最大误差达到了-0.131;考虑直达声的预测方法误差相对较小,52种听音条件的STI平均误差为-0.018,最大误差为-0.080;预测精度主要受所使用的信噪比、扬声器的指向性、房间的声场条件等因素影响,并对这些因素的影响进行了对比分析。结果可为STI预测方法的使用者提供参考。 展开更多
关键词 语音传输指数 预测方法 预测精度 影响因素
下载PDF
构音障碍语音识别算法研究综述
6
作者 宋伟 张杨豪 《计算机工程与应用》 CSCD 北大核心 2024年第11期62-74,共13页
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音... 构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。 展开更多
关键词 构音障碍 语音识别 深度学习 人工智能
下载PDF
融合信息扰动与特征解耦的单样本语音转换
7
作者 王光 刘宗泽 +1 位作者 董浩 姜彦吉 《计算机应用研究》 CSCD 北大核心 2024年第10期3081-3086,共6页
单样本语音转换的特性是利用单条目标说话人的语音样本即可实现身份的转换,但由于声学特征呈现复杂的相互作用和动态变化,现有方法难以充分将单样本语音中的说话人音色与其他声学特征解耦,导致转换音频在听觉上仍与源说话人的音色特征相... 单样本语音转换的特性是利用单条目标说话人的语音样本即可实现身份的转换,但由于声学特征呈现复杂的相互作用和动态变化,现有方法难以充分将单样本语音中的说话人音色与其他声学特征解耦,导致转换音频在听觉上仍与源说话人的音色特征相似,存在说话人音色泄露情况。为此提出一种融合信息扰动与特征解耦的单样本语音转换模型,即IPFD-VC模型。首先,引入信息扰动模块对语音信号进行三次扰动操作,去除输入内容和韵律编码器中的冗余信息;其次,将处理后的语音信号送入各编码器,并结合最小化互信息策略进一步解耦声学特征,降低不同特征与说话人音色特征的相关性;最后通过解码器及声码器输出转换音频。实验结果表明:IPFD-VC模型转换音频的语音自然度和说话人相似度分别达到3.72和3.68,与目前先进的UUVC模型相比,梅尔倒谱失真降低0.26 dB。该模型能够有效对声学特征进行解耦,捕获目标说话人音色特征,同时保持源语言内容和韵律变化,降低说话人音色泄露风险。 展开更多
关键词 单样本语音转换 信息扰动 特征解耦 说话人音色泄露
下载PDF
手语产生中语音、语义信息的加工机制
8
作者 陈穗清 杨雪悦 +1 位作者 朱楚月 李春玉 《中国听力语言康复科学杂志》 2024年第5期510-513,共4页
目的考察在手语产生中,语音和语义信息在不同时间间隔(stimulus onset asynchrony,SOA)下(-100 ms、0 ms和100 ms)的激活情况,为听障儿童手语习得及教育提供参考建议。方法选取图-词干扰范式,干扰手语和图片同时(或早100 ms或晚100 ms)... 目的考察在手语产生中,语音和语义信息在不同时间间隔(stimulus onset asynchrony,SOA)下(-100 ms、0 ms和100 ms)的激活情况,为听障儿童手语习得及教育提供参考建议。方法选取图-词干扰范式,干扰手语和图片同时(或早100 ms或晚100 ms)呈现,请被试打出目标图片代表的手语。结果①当SOA=-100 ms和100 ms时,分别出现语义干扰效应和语音干扰效应;②当SOA=100 ms时,干扰手语词的位置与目标词汇一致的情况下,受到干扰效应最大,因此出现了语音干扰效应。结论手语产生与书面语产生既有相同之处,也有自己的特点,研究结果支持了言语产生的独立两阶段模型。 展开更多
关键词 手语产生 语音 语义
下载PDF
数字化网格语音平台的研究与应用
9
作者 陈佐 刘志杰 +3 位作者 季聪 郑飞 颜思宇 傅晓慧 《电力信息与通信技术》 2024年第7期88-94,共7页
为助力数字化网格等典型场景落地,推进营销数字化转型,打造了能源互联网营销服务系统。随着营销服务系统业务的发展,利用移动掌机与用电户沟通的语音通话需求量逐步增大,文章采用人工智能(artificial intelligence,AI)、自动呼叫分配、... 为助力数字化网格等典型场景落地,推进营销数字化转型,打造了能源互联网营销服务系统。随着营销服务系统业务的发展,利用移动掌机与用电户沟通的语音通话需求量逐步增大,文章采用人工智能(artificial intelligence,AI)、自动呼叫分配、智能路由等技术搭建了一套集灵活部署、覆盖需求、智能服务、易于集成等特色的数字化网格语音平台,满足现场作业人员的通话需求和移动办公的需要,实现客户信息反馈和客户的及时跟踪。 展开更多
关键词 数字化网格 营销服务系统 移动掌机 语音平台
下载PDF
基于多维度注意力机制和复数Conformer的单通道语音增强方法
10
作者 高盛祥 莫尚斌 +2 位作者 余正涛 董凌 王文君 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期393-403,共11页
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-... 为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。 展开更多
关键词 深度复数网络 声学特征 关联信息 多维度注意力机制 语音增强
下载PDF
基于小波变换的语音信号去噪算法优化
11
作者 王红娟 尚莹莹 《电声技术》 2024年第5期67-69,共3页
深入研究基于小波变换的语音信号去噪方法,并针对传统方法在复杂噪声环境下处理效果不佳的问题,提出一种基于自适应阈值的小波变换去噪优化方法。首先,分析小波变换去噪的基本原理。其次,深入研究自适应阈值技术的数学模型,并将其应用... 深入研究基于小波变换的语音信号去噪方法,并针对传统方法在复杂噪声环境下处理效果不佳的问题,提出一种基于自适应阈值的小波变换去噪优化方法。首先,分析小波变换去噪的基本原理。其次,深入研究自适应阈值技术的数学模型,并将其应用于小波变换,通过动态调整阈值来适应不同噪声环境的需求。最后,采用Aurora数据集进行实验验证。实验结果表明,该方法能够有效去除噪声。 展开更多
关键词 小波变换 语音去噪 自适应阈值 语音信号
下载PDF
自动语音识别模型压缩算法综述
12
作者 时小虎 袁宇平 +2 位作者 吕贵林 常志勇 邹元君 《吉林大学学报(理学版)》 CAS 北大核心 2024年第1期122-131,共10页
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性... 随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案. 展开更多
关键词 语音识别 模型压缩 知识蒸馏 模型量化 低秩分解 网络剪枝 参数共享
下载PDF
基于机器学习的语音增强技术 被引量:1
13
作者 杨涛 《电声技术》 2024年第3期39-41,共3页
主要研究基于机器学习的语音增强技术,以提升语音信号的质量。首先,介绍基于机器学习的语音增强系统框架。其次,详细探讨谱减法与深度神经网络(Deep Neural Network,DNN)相结合的语音增强方法的数学原理。最后,采用NOISEX-92数据集测试... 主要研究基于机器学习的语音增强技术,以提升语音信号的质量。首先,介绍基于机器学习的语音增强系统框架。其次,详细探讨谱减法与深度神经网络(Deep Neural Network,DNN)相结合的语音增强方法的数学原理。最后,采用NOISEX-92数据集测试与评估提出的方法。实验结果表明,基于谱减法与DNN的语音增强方法在提升信噪比和语音清晰度方面取得显著的效果,能够有效提升语音通信质量。 展开更多
关键词 谱减法 深度神经网络(DNN) 语音增强 去噪
下载PDF
基于扩张卷积和Transformer的视听融合语音分离方法
14
作者 刘宏清 谢奇洲 +1 位作者 赵宇 周翊 《信号处理》 CSCD 北大核心 2024年第7期1208-1217,共10页
为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征... 为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。 展开更多
关键词 语音分离 视听融合 多头自注意力机制 扩张卷积
下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成
15
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
基于小波散射变换和MFCC的双特征语音情感识别融合算法
16
作者 应娜 吴顺朋 +1 位作者 杨萌 邹雨鉴 《电信科学》 北大核心 2024年第5期62-72,共11页
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首... 为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首先获取语音信号的小波散射特征和梅尔频率倒谱系数的相关特征;然后按尺度维度扩展小波散射特征,利用支持向量机得到情感识别的后验概率并获得排列熵,并使用排列熵对后验概率进行加权;最后采用一种偏差调整规则进一步融合MFCC的相关特征的识别结果。实验结果表明,在EMODB、RAVDESS和eNTERFACE05数据集上,与传统的基于小波散射系数的语音情感识别方法相比,该算法将ACC分别提高了2.82%、2.85%和5.92%,将UAR分别提升了3.40%、2.87%和5.80%,IEMOCAP上提高了6.89%。 展开更多
关键词 语音情感识别 小波散射变换 排列熵 MFCC 模型融合
下载PDF
合成语音与自然语音的音高差异——从18种语言核心词看合成语音的音高特点
17
作者 王帅 《天津外国语大学学报》 2024年第5期88-98,F0003,共12页
论文以18种语言核心词的合成语音和自然语音为研究对象,从音高均值、最大值、最小值、标准差以及单位时间内词的音高变化幅度分析了合成语音和自然语音的音高表现,考察了合成语音的音高特点。整体看来,较之自然语音,合成语音的整体音高... 论文以18种语言核心词的合成语音和自然语音为研究对象,从音高均值、最大值、最小值、标准差以及单位时间内词的音高变化幅度分析了合成语音和自然语音的音高表现,考察了合成语音的音高特点。整体看来,较之自然语音,合成语音的整体音高均值低于自然语音。在具体的语言中,合成语音的音高表现存在语言间的差异,部分语言的合成语音和自然语音的音高表现非常接近,而部分语言的合成语音和自然语音的音高表现呈现出了较大的差异。就单位时间内词音高的变化幅度而言,大部分语言的合成语音词音高变化幅度大于自然语音的词音高变化幅度,这种情况与合成语音中的词音高曲线存在畸变的现象有关。 展开更多
关键词 核心词 合成语音 自然语音 音高差异
下载PDF
麦克风阵列语音增强技术在人工耳蜗中的应用
18
作者 亓贝尔 董瑞娟 李海云 《中国听力语言康复科学杂志》 2024年第3期284-289,共6页
噪声环境下的言语识别是人工耳蜗使用者面临的一个难题,目前已提出了多种技术方法用于改善这一问题。麦克风阵列语音增强技术是其中之一,旨在通过改进人工耳蜗前端信号采集系统性能,提高信噪比提升人工耳蜗使用者噪声下的言语识别能力,... 噪声环境下的言语识别是人工耳蜗使用者面临的一个难题,目前已提出了多种技术方法用于改善这一问题。麦克风阵列语音增强技术是其中之一,旨在通过改进人工耳蜗前端信号采集系统性能,提高信噪比提升人工耳蜗使用者噪声下的言语识别能力,具有较好的临床应用价值。本文介绍了麦克风阵列与语言增强技术的基本原理、临床应用效果、存在的问题和未来展望,以期为深入探索技术创新对改善人工耳蜗使用者噪声下言语可懂度提供参考。 展开更多
关键词 麦克风阵列 语音增强 波束形成 人工耳蜗
下载PDF
基于多重互信息约束的高表现力语音转换
19
作者 王光 刘宗泽 +1 位作者 姜彦吉 董浩 《计算机系统应用》 2024年第9期216-225,共10页
随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出... 随着语音转换在人机交互领域的广泛应用,对于获取高表现力语音的需求日益显著.当前语音转换主要通过解耦声学特征实现,侧重对内容和音色特征的解耦,很少考虑语音中混合的情感特性,导致转换音频情感表现力不足.为解决上述问题,本文提出一种基于多重互信息约束的高表现力语音转换模型(MMIC-EVC).在对内容和音色特征进行解耦的基础上,引入表现力模块分别对话语级韵律和节奏特征进行建模,以实现情感特性的传递;随后通过最小化各特征之间的多重互信息变分对数上界,约束各编码器专注于解耦对应的声学嵌入.在CSTR-VCTK和ESD语音数据集上的实验表明,本模型的转换音频语音自然度评分(MOS)达到3.78,梅尔倒谱失真为5.39 dB,最佳最差占比测试结果大幅领先于基线模型,MMIC-EVC能够有效解耦韵律和节奏特征,并实现高表现力语音转换,为人机交互带来更加出色和自然的用户体验. 展开更多
关键词 语音转换 特征解耦 互信息约束 韵律建模 人机交互
下载PDF
海南临高方言语音数据预处理技术 被引量:1
20
作者 符龙生 《电脑编程技巧与维护》 2024年第2期83-85,共3页
介绍了海南临高方言语音数据预处理的背景和目标,以及所采用的方法,包括数据预处理方法,以及应用WeNet模型进行语音识别的数据预处理技术。其中,数据预处理是指对收集到的原始语音数据进行去除噪声、平滑、合并等处理,以提高语音识别系... 介绍了海南临高方言语音数据预处理的背景和目标,以及所采用的方法,包括数据预处理方法,以及应用WeNet模型进行语音识别的数据预处理技术。其中,数据预处理是指对收集到的原始语音数据进行去除噪声、平滑、合并等处理,以提高语音识别系统的识别性能;数据预处理的目标是消除语音识别系统中的噪声、去除非语音成分,并保持原始语音数据中的有用信息,使语音识别系统能够正确地进行识别;应用WeNet模型进行语音识别的数据预处理技术是指利用WeNet模型对采集到的原始语音数据进行预处理,将其中有用信息提取出来。 展开更多
关键词 海南临高方言 语音识别 数据预处理
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部