期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
基于Gamma语音模型的语音增强算法 被引量:11
1
作者 邹霞 陈亮 张雄伟 《通信学报》 EI CSCD 北大核心 2006年第10期118-123,共6页
提出了一种新的基于Gamma语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Gamma和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音信号短时DCT系... 提出了一种新的基于Gamma语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Gamma和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音信号短时DCT系数估计的修正因子。在增强算法中,提出了基于Gamma语音模型的改进最小统计量控制递归平均(IMCRA)噪声估计算法。仿真结果表明,该算法不仅在噪声抑制性能方面优于近两年国际上提出的几种基于Gaussian语音模型的语音增强算法,而且在增强语音质量方面也具有更好的性能。 展开更多
关键词 语音增强 语音模型 最小均方误差 噪声估计
下载PDF
一种谐波正弦语音模型的最佳相位估计算法 被引量:6
2
作者 应娜 赵晓晖 +1 位作者 董婧 方昕 《电子学报》 EI CAS CSCD 北大核心 2009年第4期860-863,共4页
基于谐波正弦语音模型(HSSM),利用最小二乘方法估计语音模型的最佳相位参数,给出了一种估计相位的批处理方法和迭代算法.把利用该算法得到的相位参数用于宽带语音编解码算法进行仿真,其结果与G.722.2标准宽带编码算法中的两种编码速率8.... 基于谐波正弦语音模型(HSSM),利用最小二乘方法估计语音模型的最佳相位参数,给出了一种估计相位的批处理方法和迭代算法.把利用该算法得到的相位参数用于宽带语音编解码算法进行仿真,其结果与G.722.2标准宽带编码算法中的两种编码速率8.85kbit/s及6.60kbit/s的语音进行了比较,语音波形的比较和主客观测试结果表明该最佳相位估计算法相位参数估计准确有效,可由此建立的语音模型获得较高质量的合成语音. 展开更多
关键词 谐波正弦语音模型 相位估计 最小二乘 迭代算法
下载PDF
一种基于Laplacian语音模型的语音增强算法 被引量:2
3
作者 邹霞 吴其前 张雄伟 《信号处理》 CSCD 北大核心 2007年第2期195-199,共5页
本文提出了一种新的基于Laplacian语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Laplacian和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音... 本文提出了一种新的基于Laplacian语音模型的语音增强算法。首先,在假定语音和噪声的短时DCT系数分别服从Laplacian和Gaussian分布的基础上,推导了最小均方误差意义下的语音信号短时DCT系数估计;然后,根据语音存在概率估计,提出了语音信号短时DCT系数估计的修正因子。在增强算法中,提出了面向判决的Laplacian语音模型参数估计和基于Laplacian语音模型的改进最小量控制递归平均(IMCRA)噪声估计算法。仿真结果表明,本文算法不仅在噪声抑制性能方面优于近两年国际上提出的几种基于Gaussian语音模型的语音增强算法,而且在增强语音质量方面也具有更好的性能。 展开更多
关键词 语音增强 语音模型 最小均方误差 噪声估计
下载PDF
语音清浊音分类及浊音谐波提取算法——三阶累积量基于正弦语音模型的应用 被引量:3
4
作者 应娜 赵晓晖 《计算机工程与应用》 CSCD 北大核心 2006年第1期64-67,76,共5页
在低信噪比和非平稳噪声干扰下,语音信号的清浊音检测是语音信号处理中的一个重要研究问题。论文基于语音正弦模型,提出了一种清浊音分类和浊音谐波提取算法。该方法在分析了语音的三阶累积量谱后,用子谐波-谐波方法取得基音,并计算出... 在低信噪比和非平稳噪声干扰下,语音信号的清浊音检测是语音信号处理中的一个重要研究问题。论文基于语音正弦模型,提出了一种清浊音分类和浊音谐波提取算法。该方法在分析了语音的三阶累积量谱后,用子谐波-谐波方法取得基音,并计算出谐波参数和高低频能量比值。它利用谱包络估计器得到谱包络及尖峰信号,结合最小均方估计准则下的迭代算法计算语音谐波的信噪比;通过对上面各计算结果的综合评价得出语音帧的浊音度,从而得到语音清浊音的分类和浊音谐波数。仿真结果表明,该算法在复杂噪声背景下,能有效进行语音分类,准确得到浊音度。同时该算法还具有实时性好、语音参数分析精度高的特点。 展开更多
关键词 正弦语音模型 三阶累积量 清浊音分离 谐波提取
下载PDF
一种改进的正弦语音模型基音周期检测算法
5
作者 孙华山 《电信快报(网络与通信)》 2010年第6期7-9,共3页
分析了现有正弦语音模型基音周期检测算法的缺陷,提出一种改进算法。该算法改变了候选基音周期选择策略,大大降低了基音周期搜索时间;同时采用一种基于时域的前向滤波算法,解决了基音周期检测中的倍频问题。最后对实际采集的语音数据进... 分析了现有正弦语音模型基音周期检测算法的缺陷,提出一种改进算法。该算法改变了候选基音周期选择策略,大大降低了基音周期搜索时间;同时采用一种基于时域的前向滤波算法,解决了基音周期检测中的倍频问题。最后对实际采集的语音数据进行分析。 展开更多
关键词 正弦语音模型 基音周期 谐波提取 时域滤波
下载PDF
基于隐马尔可夫模型的语音识别(语音模型)
6
作者 陈文云 《科学与信息化》 2022年第21期37-39,共3页
语音识别是人工智能的重要分支,是实现智能化人机接口的重要方式。本文深入阐述了实现语音识别的主要方法,着重介绍了其中最为流行的基于隐马尔可夫模型的语音识别的基本原理和理论依据。它具有智能、准确寻找音节边界、语音识别率高的... 语音识别是人工智能的重要分支,是实现智能化人机接口的重要方式。本文深入阐述了实现语音识别的主要方法,着重介绍了其中最为流行的基于隐马尔可夫模型的语音识别的基本原理和理论依据。它具有智能、准确寻找音节边界、语音识别率高的特点,在各种语音人机接口应用中被广泛应用。 展开更多
关键词 语音识别 自然语言处理 语音模型 语言模型 隐马尔可夫模型
下载PDF
基于知识迁移与去噪的GSDNet语音识别模型训练策略研究
7
作者 罗莎 《长江信息通信》 2023年第12期118-121,共4页
针对不同场景中语音识别模型体量的逐渐增大而带来的一系列问题。文章提出一种GSDNet(Gated Selfsupervised Denoising Neural Network)知识迁移的语音识别算法。对GSDNet语音识别模型的结构设计和GSDNet语音识别算法的执行流程、模型... 针对不同场景中语音识别模型体量的逐渐增大而带来的一系列问题。文章提出一种GSDNet(Gated Selfsupervised Denoising Neural Network)知识迁移的语音识别算法。对GSDNet语音识别模型的结构设计和GSDNet语音识别算法的执行流程、模型交叉训练做了详细分析。利用梯度反向传播算法,计算合并损失函数的梯度,令特征提取网络完成识别与去噪后的语音高级特征提取,实现自监督知识迁移与去噪的语音识别训练,从而更加准确识别出语音信息。 展开更多
关键词 知识迁移与去噪 自监督学习 GSDNet语音识别算法模型 训练策略
下载PDF
基于大语言模型的翻译AI智能体项目的构建与应用
8
作者 林美蓉 《无线互联科技》 2024年第7期42-45,共4页
文章基于大语言模型和ZeLinAI平台进行了翻译AI智能体的构建和应用。其核心在于通过优化提示词和精准投喂训练集,提升机器翻译的准确性和流畅性。项目对现有的翻译模型进行深入分析,围绕提示词设计优化,动态调整以适应不同语境,增强模... 文章基于大语言模型和ZeLinAI平台进行了翻译AI智能体的构建和应用。其核心在于通过优化提示词和精准投喂训练集,提升机器翻译的准确性和流畅性。项目对现有的翻译模型进行深入分析,围绕提示词设计优化,动态调整以适应不同语境,增强模型对翻译内容的敏感度。文章通过制定策略选择性地投喂高质量语料,有效引导模型学习特定的语言风格和行业术语,提高其在专业领域的翻译效果。经过测试,该翻译AI智能体在翻译任务中具有优越的性能表现,为机器翻译领域带来新的应用场景。 展开更多
关键词 语音模型 翻译 AI智能体 提示词
下载PDF
基于提示方法与知识蒸馏方法的口语语音识别模型构建
9
作者 郭嘉 彭太乐 《西华大学学报(自然科学版)》 CAS 2023年第6期59-67,共9页
提示方法是利用预训练语言模型的一种有效技术,只需要少量的示例就可以使用语言模型进行一个新的自然语言任务。文章提出了一种新的基于提示方法和知识蒸馏方法的语音识别模型(SpokenPrompt-KD模型)。该模型利用Wav2Vec模型将语音转化... 提示方法是利用预训练语言模型的一种有效技术,只需要少量的示例就可以使用语言模型进行一个新的自然语言任务。文章提出了一种新的基于提示方法和知识蒸馏方法的语音识别模型(SpokenPrompt-KD模型)。该模型利用Wav2Vec模型将语音转化为预训练语言模型可识别的文本嵌入形式,从而将语言模型的小样本学习能力拓展到语音识别领域,同时通过知识蒸馏方法将教师语言模型中的知识传递给学生语音模型,以提高模型在语音理解任务上的准确性。实验结果表明,在100 h的数据集上进行预训练后,模型在分类任务上的准确率可以达到88.4%,证明了这种小样本学习能力的模型在语音识别领域是可行的、有效的。 展开更多
关键词 自然语言处理 提示方法 语音识别模型 知识蒸馏
下载PDF
基于多域融合及神经架构搜索的语音增强方法
10
作者 张睿 张鹏云 孙超利 《通信学报》 EI CSCD 北大核心 2024年第2期225-239,共15页
为进一步提高语音增强模型的自学习及降噪能力,提出基于多域融合及神经架构搜索的语音增强方法。该方法设计了语音信号多空间域映射及融合机制,实现信号实复数关联关系的挖掘;围绕模型卷积池化运算特点,提出了复数神经架构搜索机制,通... 为进一步提高语音增强模型的自学习及降噪能力,提出基于多域融合及神经架构搜索的语音增强方法。该方法设计了语音信号多空间域映射及融合机制,实现信号实复数关联关系的挖掘;围绕模型卷积池化运算特点,提出了复数神经架构搜索机制,通过设计的搜索空间、搜索策略及评估策略,高效自动地构建出语音增强模型。实验搜索到的最优语音增强模型与基线模型的对比泛化实验中,语音质量客观评价(PESQ)、短时客观可懂度(STOI)两大指标较最优基线模型均最大提升5.6%,且模型参数量最低。 展开更多
关键词 语音增强模型 复数空间域映射 多域融合 复数神经架构搜索 低成本评估
下载PDF
采用独立说话人模型的语音转换 被引量:8
11
作者 俞一彪 曾道建 姜莹 《声学学报》 EI CSCD 北大核心 2012年第3期346-352,共7页
提出一种基于完全独立的说话人语音模型进行语音转换的方法。首先每个说话人采用各自的语料训练结构化高斯混合模型(Structured Gaussian Mixture Model,SGMM),然后根据源和目标说话人各自的模型采用全局声学结构(AcousticalUniversal S... 提出一种基于完全独立的说话人语音模型进行语音转换的方法。首先每个说话人采用各自的语料训练结构化高斯混合模型(Structured Gaussian Mixture Model,SGMM),然后根据源和目标说话人各自的模型采用全局声学结构(AcousticalUniversal Structure,AUS)进行匹配和高斯分布对准,最终得到相应的转换函数进行语音转换。ABX和MOS实验表明可以得到与传统的平行语料联合训练方法接近的转换性能,并且转换语音的目标说话人识别正确率达到94.5%。实验结果充分说明了本文提出的方法不仅具有较好的转换性能,而且具有较小的训练量和很好的系统扩展性。 展开更多
关键词 说话人识别 语音转换 语音模型 GAUSSIAN 高斯混合模型 训练方法 系统扩展性 声学结构
下载PDF
基于StarGAN-VC的语音风格转换技术
12
作者 申少鹏 胡松涛 《电声技术》 2024年第1期35-37,共3页
文章基于星型生成式对抗网络-语音转换(Star Generative Adversarial Networks-Voice Conversion,StarGAN-VC)模型,研究了一种先进的语音风格转换技术,旨在实现对语音信号的高效转换。首先,详细阐述了基于StarGAN-VC的语音转换方法的基... 文章基于星型生成式对抗网络-语音转换(Star Generative Adversarial Networks-Voice Conversion,StarGAN-VC)模型,研究了一种先进的语音风格转换技术,旨在实现对语音信号的高效转换。首先,详细阐述了基于StarGAN-VC的语音转换方法的基本原理。其次,深入研究特征提取和基频转换方法,以及StarGAN-VC模型的数学原理。最后,通过在VCC2018数据集上的实验,验证了该方法的性能。实验结果表明,该方法在频谱包络相似度和基频准确度等指标上均取得了令人满意的效果。 展开更多
关键词 深度学习 语言风格转换 星型生成式对抗网络-语音转换(StarGAN-VC)模型 频谱分析
下载PDF
基于分段模糊c-均值的连续密度HMM语音识别模型参数估计 被引量:14
13
作者 马小辉 富煜清 陆佶人 《声学学报》 EI CSCD 北大核心 1997年第6期550-554,共5页
本文在分析了连续密度隐马尔可夫模型(CDHMM)的两种主要最大似然参数估计方法的基础上,引入模糊集思想,提出了分段模糊c-均值算法代替普通的分段k-均值算法进行CDHMM的最大似然参数估计。文中给出了其实现方法。实验结果证明其在... 本文在分析了连续密度隐马尔可夫模型(CDHMM)的两种主要最大似然参数估计方法的基础上,引入模糊集思想,提出了分段模糊c-均值算法代替普通的分段k-均值算法进行CDHMM的最大似然参数估计。文中给出了其实现方法。实验结果证明其在语音识别中具有很好的性能。 展开更多
关键词 分段模糊 CDHMM 语音识别模型 参数估计
下载PDF
基于语音参数模型的语音隐藏算法 被引量:14
14
作者 陈亮 张雄伟 《计算机学报》 EI CSCD 北大核心 2003年第8期974-981,共8页
基于语音参数模型 ,该文提出一种将保密语音隐藏在公开语音中的信息隐藏算法 .首先将保密语音经混合激励线性预测 (MELP)编码和纠错编码形成隐藏信息 .然后根据瞬态互相关基音周期检测算法确定频域嵌入点 ,并通过修改对应的DFT系数来隐... 基于语音参数模型 ,该文提出一种将保密语音隐藏在公开语音中的信息隐藏算法 .首先将保密语音经混合激励线性预测 (MELP)编码和纠错编码形成隐藏信息 .然后根据瞬态互相关基音周期检测算法确定频域嵌入点 ,并通过修改对应的DFT系数来隐藏信息 .提取时按同样方法确定嵌入点恢复隐藏信息 ,并经MELP解码还原保密语音 .实验结果表明嵌入信息后 ,中间语音的分段平均信噪比接近 6 0dB ,并且在受到压缩、滤波等攻击时具有较强的鲁棒性 . 展开更多
关键词 语音隐藏算法 语音参数模型 语音编码 信息隐藏 信息安全 语音信号处理
下载PDF
一种基于联合源-滤波器模型优化的语音声门源模型估计方法 被引量:3
15
作者 付强 Peter Murphy 颜永红 《电子学报》 EI CAS CSCD 北大核心 2007年第5期982-986,共5页
本文论述了一种基于联合源-滤波器分离的稳健声门源模型估计方法.此方法利用LF(Liljencrants-Fant)模型对声门波导数(glottal flow derivative)进行建模,而声道被描述为一个时变的ARX模型.由于联合估计问题是一个多变量非线性优化过程,... 本文论述了一种基于联合源-滤波器分离的稳健声门源模型估计方法.此方法利用LF(Liljencrants-Fant)模型对声门波导数(glottal flow derivative)进行建模,而声道被描述为一个时变的ARX模型.由于联合估计问题是一个多变量非线性优化过程,本文采用了一个两阶段(two-pass)的实现策略来解决这一问题.第一阶段初始化声门源和声道模型,并为其后的联合优化过程提供稳健的初始参数.第二阶段的联合估计则最终决定模型估计的精度,由信任域下降优化算法实现.通过分别对合成和真实语音的实验,表明该方法是一种具有一定精度和较好的稳健性的声门源模型估计算法. 展开更多
关键词 语音产生模型 源-滤波器 声门波导数 ARX 声门波估计 联合优化
下载PDF
双模型语音识别中的听视觉合成和模型同步异步性实验研究 被引量:3
16
作者 谢磊 蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 展开更多
关键词 语音识别 模型语音识别 听觉视觉合成 模型同步异步性
下载PDF
开放的语音通信模型研究及实现 被引量:2
17
作者 程华 宋国新 《计算机工程》 CAS CSCD 北大核心 2001年第6期143-145,共3页
对于开放式的语音通信模型,H.323和SIP都是基于IP的语音通信的体系结构的标准。通过对SIP协议的相关技术的研究,提出在Web的客户端浏览器上用Java来实现SIP协议的客户端用户代理部分。
关键词 用户代理 语音通信模型 计算机网络 SIP协议 WEB
下载PDF
语音相位听觉特性在正弦模型语音编码中的运用 被引量:1
18
作者 曹燕 张军 +1 位作者 宁更新 韦岗 《科学技术与工程》 2008年第23期6218-6223,共6页
通过分析语音相位的听觉特性,把这种听觉特性运用到基于正弦模型语音编码合成元音的相位处理中,只通过幅频信息和少量的原始相位信息来合成重建语音信号,仿真实验结果表明这种方法能改善合成信号中帧与帧之间的不连续性,使帧与帧之间能... 通过分析语音相位的听觉特性,把这种听觉特性运用到基于正弦模型语音编码合成元音的相位处理中,只通过幅频信息和少量的原始相位信息来合成重建语音信号,仿真实验结果表明这种方法能改善合成信号中帧与帧之间的不连续性,使帧与帧之间能平滑过渡,能增加语音自然度,提高语音的合成质量。 展开更多
关键词 语音相位 听觉特性 临界相位频率 语音正弦模型编码
下载PDF
基于语音结构化模型的数字语音识别 被引量:3
19
作者 姜莹 俞一彪 《计算机工程与设计》 CSCD 北大核心 2012年第4期1482-1485,1490,共5页
提出一种新的基于语音结构化模型的语音识别方法,并应用于非特定人数字语音识别。每一个数字语音计算倒谱特征之后提取语音中存在的对说话人差异具有不变性的结构化特征——全局声学结构(acoustical universal structure,AUS),并建立结... 提出一种新的基于语音结构化模型的语音识别方法,并应用于非特定人数字语音识别。每一个数字语音计算倒谱特征之后提取语音中存在的对说话人差异具有不变性的结构化特征——全局声学结构(acoustical universal structure,AUS),并建立结构化模型,识别时提取测试语音的全局声学结构,然后与各数字语音的结构化模型进行匹配。测试了少量语料训练下的识别性能并与传统HMM(hidden Markov model)方法进行比较,结果表明该方法可以取得优于HMM的性能,语音结构化模型可以有效消除说话人之间的差异。 展开更多
关键词 语音结构化模型 数字识别 隐马尔可夫模型 说话人差异 巴氏距离
下载PDF
双源谐波模型的语音清浊分量分解方法
20
作者 梁满贵 简锐锋 +2 位作者 何二宝 李俊杰 陈亮 《信号处理》 CSCD 北大核心 2005年第z1期227-230,共4页
本文结合双源激励模型和AM-FM语音表示模型,提出双源谐波模型,给出一套精确分离清音和浊音分量方法,即时域谐波逼近法,为分别提取清音与浊音特征,对清音和浊音以不同的时频分辨率进行分析提供技术条件,而且可以提高系统整体计算效率.新... 本文结合双源激励模型和AM-FM语音表示模型,提出双源谐波模型,给出一套精确分离清音和浊音分量方法,即时域谐波逼近法,为分别提取清音与浊音特征,对清音和浊音以不同的时频分辨率进行分析提供技术条件,而且可以提高系统整体计算效率.新方法特别适合声学和语言学模块的Top-Down和Bottom-Up并行迭代计算的特点. 展开更多
关键词 语音产生模型 信号分解 激励
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部