期刊文献+
共找到57,667篇文章
< 1 2 250 >
每页显示 20 50 100
VoiceXML语音平台中预取方案的研究 被引量:2
1
作者 王文林 廖建新 +1 位作者 朱晓民 王纯 《电子与信息学报》 EI CSCD 北大核心 2007年第11期2574-2579,共6页
该文在分析目前主要预取算法优劣的基础上,根据VoiceXML语音平台与基于HTML的WWW之间的区别,认为在VoiceXML语音平台中应该预取其引用的语音资源,提出一种自适应的多用户共享的Markov预测模型,统一预测所有在线用户下一步所需的资源及... 该文在分析目前主要预取算法优劣的基础上,根据VoiceXML语音平台与基于HTML的WWW之间的区别,认为在VoiceXML语音平台中应该预取其引用的语音资源,提出一种自适应的多用户共享的Markov预测模型,统一预测所有在线用户下一步所需的资源及其访问概率,有助于提高预测的准确率。最后,该文还提出抢占式优先级模型来调度预取任务,将资源的访问概率映射为优先级。仿真研究表明,与单用户预测算法和循环调度模型比较,该预取算法和调度模型都能很好地减少用户请求的访问延迟,提高响应速度。 展开更多
关键词 语音平台 voicexml 预取 预测 MARKOV模型 调度 抢占式优先级
下载PDF
VoiceXML语音平台缓存技术综述 被引量:3
2
作者 王文林 廖建新 朱晓民 《通信学报》 EI CSCD 北大核心 2007年第2期101-108,共8页
论述了VoiceXML(voice extensible markup language)语音平台缓存系统的基本要素及理想特性,介绍了VoiceXML语音平台与WWW环境的异同,分析了目前WWW缓存技术中缓存内容选择、缓存替换算法、缓存一致性控制以及内容预取等方面的研究情况... 论述了VoiceXML(voice extensible markup language)语音平台缓存系统的基本要素及理想特性,介绍了VoiceXML语音平台与WWW环境的异同,分析了目前WWW缓存技术中缓存内容选择、缓存替换算法、缓存一致性控制以及内容预取等方面的研究情况及其在VoiceXML语音平台中的应用,最后给出了VoiceXML语音平台中的缓存技术需要进一步研究的问题。 展开更多
关键词 语音平台 voicexml 缓存 缓存替换
下载PDF
VoiceXML语音平台中的语音资源预取算法
3
作者 王文林 廖建新 +1 位作者 朱晓民 王纯 《北京邮电大学学报》 EI CAS CSCD 北大核心 2007年第1期90-95,共6页
在分析目前主要预取算法优劣的基础上,根据VoiceXML语音平台与基于HTML的WWW之间的区别,提出了在VoiceXML语音平台中应该预取其引用的语音资源.在采用基于热点预取技术的同时,提出了一种自适应的多用户共享的Markov模型,可以统一预测所... 在分析目前主要预取算法优劣的基础上,根据VoiceXML语音平台与基于HTML的WWW之间的区别,提出了在VoiceXML语音平台中应该预取其引用的语音资源.在采用基于热点预取技术的同时,提出了一种自适应的多用户共享的Markov模型,可以统一预测所有在线用户下一步所需的资源及其访问概率,有助于提高预测的准确率.仿真研究表明,与单用户Markov预测模型相比较,这种多用户共享的Markov预测模型能在相同带宽消耗下得到更好的命中率,减少用户请求的访问延迟,提高响应速度. 展开更多
关键词 voicexml 预取 多用户Markov预测模型
下载PDF
基于VoiceXML语音位置服务方法的研究
4
作者 周鹏 连东洲 《计算机应用与软件》 CSCD 北大核心 2008年第9期169-171,共3页
针对目前地理信息系统中存在的空间数据难于共享以及语音位置服务中存在的语音位置信息复杂多样、不易建立语音库的问题,提出一个基于GML+VoiceXML的语音位置服务方法,并给出了系统参考实现。
关键词 GML voicexml 语音位置服务
下载PDF
VoiceXML语音浏览器的研究 被引量:3
5
作者 李明华 徐良贤 《计算机工程》 CAS CSCD 北大核心 2002年第10期7-9,22,共4页
讨论了如何将VoiceXML浏览器中的一个核心部分―VoiceXML解析器以COM组件的形式实现,为语音应用程序提供服务。并且进一步考虑了用组件技术实现以VoiceXML浏览器为核心的整个语音应答系统的可能。
关键词 voicexml 语音浏览器 COM组件 语音识别 语音合成 INTERNET
下载PDF
一个VoiceXML语音浏览器的设计和实现 被引量:2
6
作者 张先锋 金连甫 陈平 《计算机应用研究》 CSCD 北大核心 2002年第10期154-157,共4页
电话是目前人们最常使用的交流工具之一。Internet的出现为人们提供了空前巨大的信息资源。如何使电话使用Internet资源显得至关重要。作为语音浏览技术以及语音互联网的核心 ,VoiceXML突破性地实现了互联网与电话网的融合。首先阐述基... 电话是目前人们最常使用的交流工具之一。Internet的出现为人们提供了空前巨大的信息资源。如何使电话使用Internet资源显得至关重要。作为语音浏览技术以及语音互联网的核心 ,VoiceXML突破性地实现了互联网与电话网的融合。首先阐述基于VoiceXML的语音平台 ,然后再着重讲述其中的语音浏览器部分的设计和实现。 展开更多
关键词 INTERNET voicexml 语音浏览器 设计
下载PDF
VoiceXML语音平台性能指标研究
7
作者 庞亭亭 廖建新 +1 位作者 朱晓民 吕文锋 《计算机系统应用》 2007年第8期20-22,19,共4页
提出了VoiceXML(Voice eXtensible Markup Language)语音平台的一套性能指标,为找出系统的瓶颈和优化系统性能提供参考,并且通过一个对系统进行优化的例子说明了对应性能指标的有效性。
关键词 voicexml 性能指标 文本语音转换 自动语音识别
下载PDF
VoiceXML语音浏览器解析
8
作者 梁烨 《CTI世界(计算机与电信集成世界)》 2001年第10期64-65,共2页
关键词 voicexml语言 计算机网络 语音浏览器
下载PDF
多模态特征的越南语语音识别文本标点恢复
9
作者 赖华 孙童 +3 位作者 王文君 余正涛 高盛祥 董凌 《计算机应用》 CSCD 北大核心 2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南... 越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。 展开更多
关键词 语音识别 标点恢复 越南语 BERT 多模态
下载PDF
基于统计的语音传输指数预测方法实验对比
10
作者 祝培生 陶畹琪 +2 位作者 莫方朔 路晓东 王时原 《应用声学》 CSCD 北大核心 2024年第2期275-284,共10页
良好的言语可懂度是语言声厅堂声环境设计的重要目标,语音传输指数(STI)是言语可懂度的客观评价参量。在设计阶段就能对STI做出准确预测,对语言声厅堂的声环境控制具有重要意义。基于统计的STI预测方法是IEC 60268-16标准推荐的主要预... 良好的言语可懂度是语言声厅堂声环境设计的重要目标,语音传输指数(STI)是言语可懂度的客观评价参量。在设计阶段就能对STI做出准确预测,对语言声厅堂的声环境控制具有重要意义。基于统计的STI预测方法是IEC 60268-16标准推荐的主要预测方法,但对于使用该方法时的影响因素以及预测精度,当前仍缺少系统性的实验对比研究。该文使用4个房间中13个测点共52种听音条件下的STI实测结果,分析了基于统计的STI预测方法的精度以及影响因素,结果表明:考虑和不考虑直达声的两种预测方法,都存在着系统偏差,预测结果普遍小于实测值;在距离声源较近测点的预测都产生了较大误差,在距离声源较远测点的预测误差相对较小;基于单指数衰变声场不考虑直达声的预测方法操作简单,但误差较大,52种听音条件的平均误差达到了-0.032,最大误差达到了-0.131;考虑直达声的预测方法误差相对较小,52种听音条件的STI平均误差为-0.018,最大误差为-0.080;预测精度主要受所使用的信噪比、扬声器的指向性、房间的声场条件等因素影响,并对这些因素的影响进行了对比分析。结果可为STI预测方法的使用者提供参考。 展开更多
关键词 语音传输指数 预测方法 预测精度 影响因素
下载PDF
构音障碍语音识别算法研究综述
11
作者 宋伟 张杨豪 《计算机工程与应用》 CSCD 北大核心 2024年第11期62-74,共13页
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音... 构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。 展开更多
关键词 构音障碍 语音识别 深度学习 人工智能
下载PDF
基于多维度注意力机制和复数Conformer的单通道语音增强方法
12
作者 高盛祥 莫尚斌 +2 位作者 余正涛 董凌 王文君 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期393-403,共11页
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-... 为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。 展开更多
关键词 深度复数网络 声学特征 关联信息 多维度注意力机制 语音增强
下载PDF
自动语音识别模型压缩算法综述
13
作者 时小虎 袁宇平 +2 位作者 吕贵林 常志勇 邹元君 《吉林大学学报(理学版)》 CAS 北大核心 2024年第1期122-131,共10页
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性... 随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案. 展开更多
关键词 语音识别 模型压缩 知识蒸馏 模型量化 低秩分解 网络剪枝 参数共享
下载PDF
基于双分支注意力U-Net的语音增强方法
14
作者 曹洁 王宸章 +2 位作者 梁浩鹏 王乔 李晓旭 《计算机应用研究》 CSCD 北大核心 2024年第4期1112-1116,共5页
针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征... 针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征作为输入。首先利用残差连接设计了基于Conformer的残差卷积来增强网络降噪的能力。其次设计了双分支注意力机制结构,利用全局和局部注意力获取带噪语音中更丰富的上下文信息,同时有效表示长序列特征,提取更多样的特征信息。最后结合时域频域损失函数构建了加权损失函数对网络进行训练,提高网络的语音增强性能。使用了多个指标对增强语音的质量和可懂度等进行评价,在公开数据集Voice Bank+DEMAND上的增强后的语音感知质量(PESQ)为3.11,短时可懂度(STOI)为95%,信号失真度(CSIG)为4.44,噪声失真测(CBAK)为3.60,综合质量测度(COVL)为3.81,其中PESQ相较于SE-Conformer提高了7.6%,相较于TSTNN提高了5.1%。实验结果表明,所提方法在语音降噪的各个指标都表现出更优的实验结果,能够完成语音增强任务的相关要求。 展开更多
关键词 语音增强 双分支注意力机制 时域 单通道
下载PDF
基于小波散射变换和MFCC的双特征语音情感识别融合算法
15
作者 应娜 吴顺朋 +1 位作者 杨萌 邹雨鉴 《电信科学》 北大核心 2024年第5期62-72,共11页
为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首... 为了充分挖掘语音信号频谱包含的情感信息以提高语音情感识别的准确性,提出了一种基于小波散射变换和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)的排列熵加权和偏差调整规则的语音情感识别融合算法(PEW-BAR)。算法首先获取语音信号的小波散射特征和梅尔频率倒谱系数的相关特征;然后按尺度维度扩展小波散射特征,利用支持向量机得到情感识别的后验概率并获得排列熵,并使用排列熵对后验概率进行加权;最后采用一种偏差调整规则进一步融合MFCC的相关特征的识别结果。实验结果表明,在EMODB、RAVDESS和eNTERFACE05数据集上,与传统的基于小波散射系数的语音情感识别方法相比,该算法将ACC分别提高了2.82%、2.85%和5.92%,将UAR分别提升了3.40%、2.87%和5.80%,IEMOCAP上提高了6.89%。 展开更多
关键词 语音情感识别 小波散射变换 排列熵 MFCC 模型融合
下载PDF
麦克风阵列语音增强技术在人工耳蜗中的应用
16
作者 亓贝尔 董瑞娟 李海云 《中国听力语言康复科学杂志》 2024年第3期284-289,共6页
噪声环境下的言语识别是人工耳蜗使用者面临的一个难题,目前已提出了多种技术方法用于改善这一问题。麦克风阵列语音增强技术是其中之一,旨在通过改进人工耳蜗前端信号采集系统性能,提高信噪比提升人工耳蜗使用者噪声下的言语识别能力,... 噪声环境下的言语识别是人工耳蜗使用者面临的一个难题,目前已提出了多种技术方法用于改善这一问题。麦克风阵列语音增强技术是其中之一,旨在通过改进人工耳蜗前端信号采集系统性能,提高信噪比提升人工耳蜗使用者噪声下的言语识别能力,具有较好的临床应用价值。本文介绍了麦克风阵列与语言增强技术的基本原理、临床应用效果、存在的问题和未来展望,以期为深入探索技术创新对改善人工耳蜗使用者噪声下言语可懂度提供参考。 展开更多
关键词 麦克风阵列 语音增强 波束形成 人工耳蜗
下载PDF
AI语音助手用户虚拟在线体验影响因素
17
作者 王晰巍 刘宇桐 +1 位作者 乌吉斯古楞 罗然 《图书馆论坛》 北大核心 2024年第1期71-85,共15页
在以ChatGPT为代表的ICT技术快速发展和社会变革环境下,以AI语音助手为例的智能应用对用户体验和行为的影响成为重要研究问题。文章基于认知情感意图(Cognition-Affect-Co⁃nation,CAC)框架,从AI语音助手技术特征出发分析感知拟人性、感... 在以ChatGPT为代表的ICT技术快速发展和社会变革环境下,以AI语音助手为例的智能应用对用户体验和行为的影响成为重要研究问题。文章基于认知情感意图(Cognition-Affect-Co⁃nation,CAC)框架,从AI语音助手技术特征出发分析感知拟人性、感知关系性、感知娱乐性对于用户认知评价的感知服务质量和感知使用成本,以及在认知评价作用下的情感体验对用户采纳意愿的影响。利用结构方法和fsQCA混合研究方法,通过对328份受访者的问卷调查进行实证检验。研究发现:AI语音助手的感知拟人性增加用户的感知使用成本,感知关系性和感知娱乐性有利于感知服务质量;情感体验在用户认知评价与用户行为意图结果之间起中介作用;根据fsQCA数据结果总结并诠释5种AI语音助手用户在线虚拟体验组态路径,验证并补充结构方程研究发现。文章为AI语音助手用户虚拟在线体验影响因素研究提供了新的理论研究视角,深化了客户旅程理论在用户虚拟在线体验中理论应用,为各界利用AI语音助手增强用户体验提供参考。 展开更多
关键词 认知情感意图框架 AI语音助手 用户体验
下载PDF
深度复数轴向自注意力卷积循环网络的语音增强
18
作者 曹洁 王乔 +3 位作者 梁浩鹏 王宸章 李晓旭 于泓 《计算机系统应用》 2024年第4期60-68,共9页
单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域... 单通道语音增强任务中相位估计不准确会导致增强语音的质量较差,针对这一问题,提出了一种基于深度复数轴向自注意力卷积循环网络(deep complex axial self-attention convolutional recurrent network,DCACRN)的语音增强方法,在复数域同时实现了语音幅度信息和相位信息的增强.首先使用基于复数卷积网络的编码器从输入语音信号中提取复数表示的特征,并引入卷积跳连模块用以将特征映射到高维空间进行特征融合,加强信息间的交互和梯度的流动.然后设计了基于轴向自注意力机制的编码器-解码器结构,利用轴向自注意力机制来增强模型的时序建模能力和特征提取能力.最后通过解码器实现对语音信号的重构,同时利用混合损失函数优化网络模型,提升增强语音信号的质量.实验在公开数据集Valentini和DNS Challenge上进行,结果表明所提方法相对于其他模型在客观语音质量评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)两项指标上均有提升,在非混响数据集中,PESQ比DCTCRN(deep cosine transform convolutional recurrent network)提高了12.8%,比DCCRN(deep complex convolutional recurrent network)提高了3.9%,验证了该网络模型在语音增强任务中的有效性. 展开更多
关键词 单通道语音增强 复数卷积循环网络 卷积跳连 轴向自注意力机制
下载PDF
复谱映射下融合高效Transformer的语音增强方法
19
作者 张天骐 罗庆予 +1 位作者 张慧芝 方蓉 《信号处理》 CSCD 北大核心 2024年第2期406-416,共11页
针对卷积神经网络(Convolutional Neural Network,CNN)过去在语音增强中表现优异但对全局特征捕获不足,以及Transformer近年展现出长序列间依赖优势但又存在局部细节特征丢失、参数量大等问题,该文为了充分利用CNN与Transformer的优势... 针对卷积神经网络(Convolutional Neural Network,CNN)过去在语音增强中表现优异但对全局特征捕获不足,以及Transformer近年展现出长序列间依赖优势但又存在局部细节特征丢失、参数量大等问题,该文为了充分利用CNN与Transformer的优势并弥补各自不足,提出了一种在复频谱映射下的新型卷积模块与高效Transformer融合的单通道语音增强网络。该网络由编码层、传输层与双分支解码层组成:在编解码部分设计了一种协作学习模块(Collaborative Learning Block,CLB)来监督交互信息,在减少参数量的同时提高主干网络对复特征的获取能力;传输层中则提出一种时频空间注意Transformer模块分别对语音子频带和全频带信息建模,充分利用声学特性来模拟局部频谱模式并捕获谐波间依赖关系。将该模块进一步与通道注意分支相结合,设计了一种可学习的双分支注意融合(Dual-branch Attention Fusion,DAF)机制,从空间-通道角度提取上下文特征以加强信息的多维度传输;最后,在此基础上搭建一种高斯加权渐进网络作为中间传输层,通过堆叠DAF模块进行加权求和后输出以充分利用深层特征,使得解码过程更具鲁棒性。分别在英文VoiceBank-DEMAND数据集、中文THCHS30语料库与115种环境噪声下进行消融以及综合对比实验,结果表明,该文方法仅以最小0.68×10^(6)的参数量,相比于大部分最新相关网络模型取得了更优的主、客观指标,具有较为突出的增强性能与泛化能力。 展开更多
关键词 语音增强 复频谱映射 高效Transformer 轻量型网络
下载PDF
采用表示分离自编码器的任意说话人语音转换
20
作者 简志华 章子旭 《通信学报》 EI CSCD 北大核心 2024年第2期162-172,共11页
针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法RSAE-VC。该方法将语音信号的说话人个性特征视为时不变,而将... 针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法RSAE-VC。该方法将语音信号的说话人个性特征视为时不变,而将内容信息视为时变,利用编码器中的实例归一化和激活引导层将两者进行分离,再由解码器将源语音的内容信息与目标语音的个性特征进行合成,从而生成转换后的语音。实验结果表明,RSAE-VC在梅尔倒谱距离上比现有的AGAIN-VC转换方法平均降低了3.11%,在基音频率均方根误差上降低了2.41%,MOS分和ABX值分别提升了5.22%和8.45%。RSAE-VC方法通过自内容损失进行约束使语音更好地保留内容信息,通过自说话人损失将说话人个性特征更好地从语音中分离,可以确保说话人个性特征尽少地遗留在内容信息中,从而提高语音转换性能。 展开更多
关键词 语音转换 表示分离 自适应实例归一化 自内容损失 自说话人损失
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部