期刊文献+
共找到435篇文章
< 1 2 22 >
每页显示 20 50 100
动态语音教学:国际汉语语音教学的有效手段
1
作者 马秋武 翟海莹 《汉语学习》 北大核心 2024年第1期73-83,共11页
语音教学不同于语音学教学,它是以培养国内学外语或国外学汉语的学习者获得目的语语音能力、掌握一种新的语言交际能力为目的的语言教学活动。作为语言教学活动的一部分,我们当然应将它的一切定位在学习者能否更容易掌握一种语言的问题... 语音教学不同于语音学教学,它是以培养国内学外语或国外学汉语的学习者获得目的语语音能力、掌握一种新的语言交际能力为目的的语言教学活动。作为语言教学活动的一部分,我们当然应将它的一切定位在学习者能否更容易掌握一种语言的问题上。本文将从语音教学与语音学教学的差异谈起,分析和阐释在国际汉语语音教学过程中遇到的各种语音问题,指出动态语音既是国际汉语或外语听说基本语言能力训练的起点和主线,也是培养高水平国际汉语或外语人才的一种有效手段。 展开更多
关键词 国际汉语 动态 语音教学方法
下载PDF
基于分数基音延迟动态搜索的语音隐写算法
2
作者 田晖 严艳 +3 位作者 汤莉莉 吴俊彦 王慧东 全韩彧 《电子学报》 EI CAS CSCD 北大核心 2023年第1期67-75,共9页
论文提出了一种基于分数基音延迟动态搜索的语音隐写算法.该算法可根据隐藏容量(x比特/子帧)的需要将分数基音延迟候选值集合划分为2x个子集,每个子集代表不同的x比特信息.在闭环基音搜索过程中,可为每个子帧选择既能表示待嵌入隐秘信... 论文提出了一种基于分数基音延迟动态搜索的语音隐写算法.该算法可根据隐藏容量(x比特/子帧)的需要将分数基音延迟候选值集合划分为2x个子集,每个子集代表不同的x比特信息.在闭环基音搜索过程中,可为每个子帧选择既能表示待嵌入隐秘信息且内插后的归一化相关系数最大的分数基音延迟候选值,从而有效降低隐写操作对于原始载体的影响.以目前IP语音系统中广泛使用的自适应多速率语音编码为例,对该算法从隐藏容量、不可感知性及抗检测性三方面进行了性能评估并与相关工作进行了对比分析.实验结果表明,本文提出的隐写算法较之现有基于基音延迟的隐写算法可在确保较高隐写容量的同时达到更好隐写安全性(即更好抗检测能力和不可感知性). 展开更多
关键词 语音隐写 动态搜索 分数基音延迟 自适应多速率语音编码 隐写安全性
下载PDF
基于动态卷积递归神经网络的语音情感识别 被引量:2
3
作者 耿磊 傅洪亮 +3 位作者 陶华伟 卢远 郭歆莹 赵力 《计算机工程》 CAS CSCD 北大核心 2023年第4期125-130,137,共7页
动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一... 动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性。 展开更多
关键词 语音情感识别 特征提取 动态特征 注意力机制 神经网络
下载PDF
基于带阈值的BPE-dropout多任务学习的端到端语音识别
4
作者 马建 朵琳 +1 位作者 韦贵香 唐剑 《吉林大学学报(理学版)》 CAS 北大核心 2024年第3期674-682,共9页
针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类... 针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类和注意力机制相结合.为进一步提升模型性能,引入动态参数对损失函数进行动态调节,并同时进行多任务训练和解码.实验结果表明,该方法采用子词作为建模单元可有效解决未登录词问题,在多任务学习框架下进一步提升了模型的识别性能.在公开数据集THCHS30和ST-CMDS上,该模型实现了超过95%的识别准确率. 展开更多
关键词 语音识别 多任务学习 字节对编码 动态调节参数
下载PDF
基于W3C标准语言的动态语音Virtual Agent 被引量:1
5
作者 夏洪文 周晶晶 《浙江师范大学学报(自然科学版)》 CAS 2008年第2期126-129,共4页
W3C多形式交互框架为语音交互和多形式的应用提供了开发语言标准,为娱乐、教育和商业领域提供了新的应用平台.介绍了W3C标准语言以及W3C多形式框架,阐述了动态语音Virtual Agent的概念,并形象地说明了在W3C多形式框架下建构的不可视和... W3C多形式交互框架为语音交互和多形式的应用提供了开发语言标准,为娱乐、教育和商业领域提供了新的应用平台.介绍了W3C标准语言以及W3C多形式框架,阐述了动态语音Virtual Agent的概念,并形象地说明了在W3C多形式框架下建构的不可视和可视化Virtual Agent两个范例. 展开更多
关键词 W3C标准语言 W3C多形式框架 动态语音vitual AGENT 语音交互
下载PDF
基于幅值滤波与分层特征融合策略的语音情感识别
6
作者 喻永振 刘大明 《国外电子测量技术》 2024年第3期35-42,共8页
针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图... 针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图内的高频强增益、低频弱增益;同时,通过概率相乘缩小梅尔谱图内相远幅值之间的差异,以显示谱图内中频的细节部分。在此基础上,使用矩形卷积提取音频信号的时间动态特征,生成梅尔谱图动态特征图,并将其作为分层特征融合策略的输入。分层特征融合策略通过压缩特征图来提取不同尺度的时间动态特征,并提取不同深度中的时间动态特征。在多语言联合数据集CER上取得了84.44%的分类准确率。 展开更多
关键词 语音情感识别 幅值滤波 分层特征融合策略 梅尔谱图动态特征图
下载PDF
基于改进型DTW的语音识别系统的设计与实现
7
作者 焦晓燕 《电声技术》 2024年第4期60-62,76,共4页
大部分系统使用深度学习技术完成语音识别任务,并取得良好的效果。但是,基于深度学习的语音识别技术对计算机硬件算力的要求较高,同时需要大量的语音样本对语音识别模型进行训练。针对这些问题,基于改进后的动态时间归整(Dynamic Time W... 大部分系统使用深度学习技术完成语音识别任务,并取得良好的效果。但是,基于深度学习的语音识别技术对计算机硬件算力的要求较高,同时需要大量的语音样本对语音识别模型进行训练。针对这些问题,基于改进后的动态时间归整(Dynamic Time Warping,DTW)算法设计并实现了一个语音识别系统。 展开更多
关键词 语音识别 动态时间归整(DTW) 小样本
下载PDF
基于动态特性的D-LTSV语音端点检测方法 被引量:3
8
作者 赵欢 冯璐 +1 位作者 陈佐 张希翔 《计算机工程》 CAS CSCD 2014年第12期277-281,共5页
端点检测是语音信号处理的一个关键环节。为提高语音在低性噪比以及非平稳噪声环境下的端点检测性能,在长时信号变化特征(LTSV)的基础上提出一种新的D-LTSV语音端点检测方法。采用Bartlett-Welch方法估计语音谱,分析语音谱在长时域上的... 端点检测是语音信号处理的一个关键环节。为提高语音在低性噪比以及非平稳噪声环境下的端点检测性能,在长时信号变化特征(LTSV)的基础上提出一种新的D-LTSV语音端点检测方法。采用Bartlett-Welch方法估计语音谱,分析语音谱在长时域上的熵,利用倒谱的动态特性分析方法提取连续帧熵值的动态变化特征。实验结果表明,D-LTSV综合考虑了语音的非平稳性和帧间非平稳性的动态变化情况,具有比LTSV更好的分辨能力,特别是在低性噪比和非平稳噪声的环境下,D-LTSV的分辨能力提升了50.77%,能够准确地进行端点检测,具有更强的鲁棒性。 展开更多
关键词 语音端点检测 语音 长时特征 动态特性 分辨力
下载PDF
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 被引量:3
9
作者 吕国云 赵荣椿 +2 位作者 张艳宁 樊养余 Sahli Hichem 《数据采集与处理》 CSCD 北大核心 2009年第1期1-6,共6页
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-D... 考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型。WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM)。大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%。 展开更多
关键词 语音识别 动态贝叶斯网络 三音素 音素
下载PDF
语音信号时间动态规正新方法 被引量:7
10
作者 顾明亮 王太君 何振亚 《东南大学学报(自然科学版)》 EI CAS CSCD 1998年第2期10-14,共5页
利用函数逼近原理,提出了一种语音信号时间动态规正的新方法,并由此导出了可用于神经网络语音识别的新特征.重点讨论了时间动态规正的原理、新特征的提取方法和性质.实验及理论分析表明。
关键词 时间动态规正 函数逼近 神经网络 语音识别
下载PDF
动态阈值谱法语音增强 被引量:3
11
作者 陆生礼 余崇智 魏荣爵 《南京大学学报(自然科学版)》 CSCD 1996年第2期218-223,共6页
根据人耳能从噪声中提取有用信息的听觉特征,并结合语音信号的基本特征,提出并研究了一个适合于语音增强的听觉模型;实验结果表明,这个方法不仅在提高语音信噪比方面,而且在减小语音失真度方面均有较好的改善。
关键词 听觉模拟 语音增强 语音通信 动态阈值谱法
下载PDF
语音识别中动态时间规整和隐马尔可夫统一模型 被引量:5
12
作者 张焱 张杰 黄志同 《数据采集与处理》 CSCD 1997年第3期218-222,共5页
对于目前在语音识别中广泛使用的两种技术即动态时间规整(DTW)技术和隐马尔可夫模型(HMM)的本质联系,提出了二者的统一模型(DHUM,DTWandHMMUni-fiedModel),并分别给出DTW和HMM向DHUM的转换关系。文中还提出了用DHUM解决更接近... 对于目前在语音识别中广泛使用的两种技术即动态时间规整(DTW)技术和隐马尔可夫模型(HMM)的本质联系,提出了二者的统一模型(DHUM,DTWandHMMUni-fiedModel),并分别给出DTW和HMM向DHUM的转换关系。文中还提出了用DHUM解决更接近语音实际情况的高阶HMM作语音识别时所面临的运算量过大的问题。中等词表的识别实验结果表明,建立在DHUM之上的识别器的识别性能不低于DTW和HMM识别器。 展开更多
关键词 语音识别 动态时间规整 隐马尔可夫模型
下载PDF
基于动态贝叶斯网络的音视频连续语音识别和音素切分 被引量:2
13
作者 吕国云 蒋冬梅 +5 位作者 蒋晓悦 赵荣椿 侯云舒 孙阿利 H.Sahli W.Verhelst 《计算机应用》 CSCD 北大核心 2007年第7期1670-1673,共4页
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的... 构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 展开更多
关键词 动态贝叶斯网络 音视频 语音识别 音素切分
下载PDF
基于动态BLSTM和CTC的濒危语言语音识别研究 被引量:8
14
作者 于重重 陈运兵 +3 位作者 孙沁瑶 刘畅 徐世璇 尹蔚彬 《计算机应用研究》 CSCD 北大核心 2019年第11期3334-3337,共4页
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大... 针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大小根据训练模型作自适应调整,不仅能够加快收敛速度,而且能够提高模型的泛化性。通过修改网络层次与结构参数,并提取不同的语音特征进行模型对比,实验结果表明在两种濒危语言——吕苏语和土家语的数据集上均取得了较好的识别效果。 展开更多
关键词 濒危语言语音识别 端到端 动态双向长短时记忆网络 连接时序分类模型
下载PDF
语音信号实时传输中的动态变长分帧算法 被引量:2
15
作者 孙文彦 熊璋 +1 位作者 韩军 李超 《通信学报》 EI CSCD 北大核心 2001年第7期80-86,共7页
本文给出了一种动态的变长语音分帧算法 ,此算法以分析语音信号的时域特性为基础 ,利用音节之间存在空隙这一特性 ,基于对语音信号中不同性质的音段的分布特性分析 ,通过动态的阈值调整来实现动态的变长分帧 ,算法简单快速。实验证明 ,... 本文给出了一种动态的变长语音分帧算法 ,此算法以分析语音信号的时域特性为基础 ,利用音节之间存在空隙这一特性 ,基于对语音信号中不同性质的音段的分布特性分析 ,通过动态的阈值调整来实现动态的变长分帧 ,算法简单快速。实验证明 ,这一算法能够针对背景噪声的变化 ,动态调整语音的分帧长度 ,从而满足实时传输的需要。 展开更多
关键词 实时传输 语音信号 动态变长分帧算法
下载PDF
基于动态时间规整的语音样例快速检索算法 被引量:7
16
作者 张连海 冯志远 +1 位作者 陈琦 李勃昊 《计算机应用研究》 CSCD 北大核心 2014年第6期1688-1692,共5页
为了提高基于DTW算法的语音检索系统的速度,提出了一种基于分段累积近似下界估计的动态时间规整算法,实现语音样例快速检索。该方法首先提取查询样例和测试集的音素后验概率作为特征参数,然后计算语音样例和测试集中所有候选分段实际动... 为了提高基于DTW算法的语音检索系统的速度,提出了一种基于分段累积近似下界估计的动态时间规整算法,实现语音样例快速检索。该方法首先提取查询样例和测试集的音素后验概率作为特征参数,然后计算语音样例和测试集中所有候选分段实际动态规整得分的分段累积近似下界估计,最后采用K-最近邻算法与动态时间规整算法搜索与语音样例相似度最高的区域。实验结果表明,此算法的检索速度比直接运用DTW算法快6.32倍,而对其检索精度无任何影响。 展开更多
关键词 语音样例检索 音素后验概率 分段累积近似下界估计 动态时间规整 内积距离
下载PDF
飞机牵引车语音识别的动态时间规整优化算法 被引量:7
17
作者 解本铭 韩明明 +1 位作者 张攀 张威 《计算机应用》 CSCD 北大核心 2018年第6期1771-1776,1789,共7页
为研究飞机牵引车智能语音控制,实现机场环境下牵引车对飞行员语音命令的精确、高效识别,同时针对传统动态时间规整(DTW)算法计算量大、时间复杂度高、算法识别效率低的问题,提出了一种车辆语音识别的六边形弯曲窗口约束DTW优化算法。首... 为研究飞机牵引车智能语音控制,实现机场环境下牵引车对飞行员语音命令的精确、高效识别,同时针对传统动态时间规整(DTW)算法计算量大、时间复杂度高、算法识别效率低的问题,提出了一种车辆语音识别的六边形弯曲窗口约束DTW优化算法。首先,从DTW算法原理、牵引车指令的语音特性和机场环境三方面,分析了弯曲窗口对DTW算法识别精度、效率的影响;然后,在Itakura Parallelogram菱形弯曲窗口约束DTW优化算法的基础上,进一步提出了六边形弯曲窗口约束的DTW全局优化算法;最后,通过改变优化系数,实现了最优六边形弯曲窗口约束的DTW算法方案。基于孤立词识别的实验结果表明,所提最优算法与传统DTW算法、菱形弯曲窗口约束的DTW算法相比,识别错误率分别降低77.14%和69.27%,识别效率分别提高48.92%和27.90%。该最优算法更具鲁棒性、时效性,可以作为飞机牵引车智能控制的理想指令输入端口。 展开更多
关键词 飞机牵引车 语音识别 动态时间归整 弯曲窗口 全局优化 孤立词
下载PDF
动态降噪原理及其在语音辨识系统中的应用 被引量:3
18
作者 张屺 罗诗途 刘国福 《电声技术》 北大核心 2000年第7期21-23,共3页
根据对DNR动态降噪系统原理的分析,给出了其原理在PC机中具体实现的算法,以及在语音辨识系统中的运用。
关键词 动态降噪 语音辨识 PC机 CAI 教学软件
下载PDF
一种基于HMM的动态语音模式时间归一化方法 被引量:2
19
作者 邓伟 赵翊兰 《数据采集与处理》 CSCD 2003年第3期277-281,共5页
研究了利用隐马尔可夫模型 (HMM)对动态语音模式进行时间归一化的方法。引入了借助于 HMM对语音基元观测序列所做的一种分段 ,这种分段被称之为语音基元观测序列的 HMM全状态分段 ,并且定义了 HMM全状态分段的符合度。根据 HMM全状态分... 研究了利用隐马尔可夫模型 (HMM)对动态语音模式进行时间归一化的方法。引入了借助于 HMM对语音基元观测序列所做的一种分段 ,这种分段被称之为语音基元观测序列的 HMM全状态分段 ,并且定义了 HMM全状态分段的符合度。根据 HMM全状态分段的符合度确定了语音基元观测序列的最优 HMM全状态分段 ,通过最优 HMM全状态分段把语音基元观测序列转换为固定维数的向量 ,从而实现了动态语音模式的时间归一化。将动态语音模式的这一时间归一化方法在结合 HMM和人工神经网络 (ANN)的混合语音识别方法中进行了应用 ,实验结果表明这一时间归一化方法的有效性。 展开更多
关键词 语音识别 动态语音模式 隐马尔可夫模型 HMM 时间归一化方法
下载PDF
基于功率谱包络动态分割的鲁棒语音端点检测 被引量:1
20
作者 许春冬 王晶 +3 位作者 战鸽 应冬文 李军锋 颜永红 《北京理工大学学报》 EI CAS CSCD 北大核心 2015年第11期1189-1193,共5页
在复杂的声学环境中,由于环境噪声的干扰,导致声学特征的稳定性不够理想.为克服此难题,通常对决策结果在时间维度上进行平滑.然而,这些平滑过程本身没有考虑数据在时间维度上的结构特征,属于启发式的方法.该文采用动态分割的方法,将语... 在复杂的声学环境中,由于环境噪声的干扰,导致声学特征的稳定性不够理想.为克服此难题,通常对决策结果在时间维度上进行平滑.然而,这些平滑过程本身没有考虑数据在时间维度上的结构特征,属于启发式的方法.该文采用动态分割的方法,将语音的频谱包络在时间维度上分割成具有特征同一性的时间块,以分割块为单位计算能量特征,并进行语音/非语音决策,从而达到提高语音端点检测的稳定性目的.实验表明,提出的方法有效提高了语音端点检测的鲁棒性. 展开更多
关键词 语音端点检测 动态分割 聚类 最小描述长度准则
下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部