期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于LSTM的语音字幕转换技术
1
作者 刘俊丽 《电声技术》 2024年第6期47-49,共3页
针对实时语音识别中存在的问题,提出基于长短期记忆(Long Short-Term Memory,LSTM)的语音字幕转换技术。首先介绍网络直播实时字幕生成的总体框架,其次详细阐述LSTM在语音字幕转换中的应用,最后选用Librispeech数据集进行实验。实验结... 针对实时语音识别中存在的问题,提出基于长短期记忆(Long Short-Term Memory,LSTM)的语音字幕转换技术。首先介绍网络直播实时字幕生成的总体框架,其次详细阐述LSTM在语音字幕转换中的应用,最后选用Librispeech数据集进行实验。实验结果表明,基于LSTM的语音字幕转换技术在处理多样化的音频数据时具有较高的适应性。 展开更多
关键词 语音识别 字幕生成 长短期记忆(LSTM) 网络直播
下载PDF
基于At-LSTM模型的音/视频双流语音识别算法仿真 被引量:3
2
作者 张添添 王婧 《计算机仿真》 北大核心 2023年第1期251-254,282,共5页
语音中的噪声会影响语音信号中的正常信息,影响语音识别效果,为提升音/视频双流语音识别准确率与效率,提出基于注意力LSTM的音/视频双流语音识别算法。使用小波阈值方法对音/视频双流语音数据实施去噪处理,依据去噪结果对语音数据矢量量... 语音中的噪声会影响语音信号中的正常信息,影响语音识别效果,为提升音/视频双流语音识别准确率与效率,提出基于注意力LSTM的音/视频双流语音识别算法。使用小波阈值方法对音/视频双流语音数据实施去噪处理,依据去噪结果对语音数据矢量量化;基于语音数据量化结果构建At-LSTM模型,运用该模型提取语音数据的局部与整体特征,并融合处理特征;基于语音数据特征融合结果,对语音数据实施分类,实现音/视频双流语音的识别。实验结果表明,使用上述方法识别音/视频双流语音时,识别准确率高、识别时间短,且语音中的含噪部分较少,识别的语音更加流畅。 展开更多
关键词 注意力机制 音/视频 双流语音识别 语音数据去噪
下载PDF
端到端流式语音识别研究综述 被引量:7
3
作者 王澳回 张珑 +1 位作者 宋文宇 孟杰 《计算机工程与应用》 CSCD 北大核心 2023年第2期22-33,共12页
语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的... 语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研究领域,端到端语音识别已经取得了丰硕的研究成果,而流式语音识别在学术研究以及工业应用中还存在着一些挑战与困难,因此,最近两年,端到端流式语音识别逐渐成为语音领域的一个研究热点与重点。从端到端流式识别模型与性能优化等方面对近些年所展开的研究进行全面的调查与分析,具体包括以下内容:(1)详细分析和归纳了端到端流式语音识别的各种方法与模型,包括直接实现流式识别的CTC与RNN-T模型,以及对注意力机制进行改进以实现流式识别的单调注意力机制等方法;(2)介绍了端到端流式语音识别模型提高识别准确率与减少延迟的方法,在提高准确率方面,主要有最小词错率训练、知识蒸馏等方法,在降低延迟方面,主要有对齐、正则化等方法;(3)介绍了流式语音识别一些常用的中英文开源数据集以及流式识别模型的性能评价标准;(4)讨论了端到端流式语音识别模型的未来发展与展望。 展开更多
关键词 人机交互 语音识别 端到端 流式 延迟
下载PDF
用于流式语音识别的轻量化端到端声学架构 被引量:1
4
作者 杨淑莹 李欣 《模式识别与人工智能》 EI CSCD 北大核心 2023年第3期268-279,共12页
在流式识别方法中,分块识别破坏并行性且消耗资源较大,而限制自注意力机制的上下文识别很难获得所有信息.由此,文中提出轻量化端到端声学架构(CFLASH-Transducer).为了获取细腻的局部特征,采用轻量化的FLASH(Fast Linear Attention with... 在流式识别方法中,分块识别破坏并行性且消耗资源较大,而限制自注意力机制的上下文识别很难获得所有信息.由此,文中提出轻量化端到端声学架构(CFLASH-Transducer).为了获取细腻的局部特征,采用轻量化的FLASH(Fast Linear Attention with a Single Head)与卷积神经网络块结合.卷积块中采用Inception V2网络,提取语音信号多尺度的局部特征.再通过Coordinate Attention机制捕获特征的位置信息和多通道之间的相互关联.此外,采用深度可分离卷积,用于特征增强和层间平滑过渡.为了使其可流式化处理音频,采用RNN-T(Recurrent Neural Network Transducer)架构进行训练与解码.将当前块已经计算的全局注意力作为隐变量,传入后续块中,串联各块信息,保留训练的并行性和相关性,并且不会随着序列的增长而消耗计算资源.在开源数据集THCHS30上进行训练与测试,CFLASH-Transducer取得较高的识别率.并且相比离线识别,流式识别精度损失不超过1%. 展开更多
关键词 自动语言识别 流式识别 Fast Linear Attention with a Single Head(FLASH) 卷积神经网络(CNN) Re-current Neural Network Transducer(RNN-T)
下载PDF
基于G.729编码语音流的隐秘通信方法 被引量:1
5
作者 张秋余 文付华 +1 位作者 乔思斌 胡文进 《兰州理工大学学报》 CAS 北大核心 2018年第6期96-101,共6页
为了解决实时语音移动通信过程中语音隐秘通信的安全性问题,提出一种新的基于G.729编码语音流的隐秘通信方法.该方法首先利用数字逻辑变换(数字逻辑运算与循环移位运算)对隐秘信息进行各种变换,然后结合嵌入载体(从G.729编码比特流中选... 为了解决实时语音移动通信过程中语音隐秘通信的安全性问题,提出一种新的基于G.729编码语音流的隐秘通信方法.该方法首先利用数字逻辑变换(数字逻辑运算与循环移位运算)对隐秘信息进行各种变换,然后结合嵌入载体(从G.729编码比特流中选取的特定比特位所组成的码字)进行相似度(PSV)计算,最后从PSV中找出最大值所对应的一组码字向量进行信息隐藏.实验结果表明,该方法透明性较好,嵌入效率很高(5.02),嵌入速率也比较大(1.00),并在G.729编解码过程中嵌入和提取时满足实时性要求,可用于实时语音通信过程中的隐秘信息传输. 展开更多
关键词 隐秘通信 G.729编码 语音流 隐秘信息 相似度计算
下载PDF
基于G.729b的VOIP流媒体信息隐藏方法 被引量:3
6
作者 吴秋玲 吴蒙 《计算机工程与设计》 北大核心 2016年第3期618-622,共5页
针对低速率语音压缩编码隐藏容量低和隐蔽性不强等不足,根据VOIP流媒体语音背景噪声平稳且存在约60%语音静默期的特点,提出一种在G.729b语音编解码过程中隐藏机密信息的方法。通过改进G.729b的编解码原理,在静音检测模块获取背景噪声特... 针对低速率语音压缩编码隐藏容量低和隐蔽性不强等不足,根据VOIP流媒体语音背景噪声平稳且存在约60%语音静默期的特点,提出一种在G.729b语音编解码过程中隐藏机密信息的方法。通过改进G.729b的编解码原理,在静音检测模块获取背景噪声特征参数后,把静态机密语音信息装载到VOIP语音的静音帧内伪装背景噪声进行信息隐秘传输,在接收端获取机密语音并重构载体语音。实验结果表明,在保证语音质量的前提下,该方法具有960bps以上的隐藏容量和很好的隐蔽性能。 展开更多
关键词 语音编码 信息隐藏 流媒体 静音检测 隐蔽性
下载PDF
英语语流音变与语音教学 被引量:4
7
作者 白心敏 《河北北方学院学报(社会科学版)》 2012年第3期93-95,共3页
多年来,中国的英语语音教学一直以音段音位内容为重,忽略了超音段音位内容的讲授,造成学生语音水平较低,汉语腔调浓重。超音段音位包括重音、节奏、声调、语调、语流音变等。语流音变是超音段音位的一项重要内容,熟练掌握音变的规律及... 多年来,中国的英语语音教学一直以音段音位内容为重,忽略了超音段音位内容的讲授,造成学生语音水平较低,汉语腔调浓重。超音段音位包括重音、节奏、声调、语调、语流音变等。语流音变是超音段音位的一项重要内容,熟练掌握音变的规律及技巧对培养流畅的英语会话者起着举足轻重的作用。 展开更多
关键词 连贯语流 语流音变 语音教学
下载PDF
基于小数基音延迟相关性的自适应多速率语音流隐写分析 被引量:1
8
作者 田晖 吴俊彦 +2 位作者 严艳 王慧东 全韩彧 《计算机学报》 EI CAS CSCD 北大核心 2022年第6期1308-1325,共18页
网络语音流隐写分析是信息隐藏检测领域中的一个研究热点.针对自适应多速率语音流隐写检测问题,本文提出了一种基于小数基音延迟相关性的隐写分析方案.首先通过理论分析和实验对比验证了小数基音延迟相关性作为隐写特征的有效性;其次,... 网络语音流隐写分析是信息隐藏检测领域中的一个研究热点.针对自适应多速率语音流隐写检测问题,本文提出了一种基于小数基音延迟相关性的隐写分析方案.首先通过理论分析和实验对比验证了小数基音延迟相关性作为隐写特征的有效性;其次,摒弃了“手工”寻找特征的传统方式,通过采用深度神经网络获取编码参数的相关性,分别设计了基于局部相关性的检测模型、基于全局相关性的检测模型以及基于特征融合的检测模型;最后,以上述3种模型为基础,结合基于线性回归的多模型融合思想,给出了7种检测模式,即3种单一模型检测模式和4种多模型融合检测模式.通过大量的语音样本,对方案进行了性能评估,并与相关工作进行了实验对比分析.实验结果表明,方案中提出的各种检测模式均是可行和有效的,其中三模型融合检测模式整体性能最优.此外,本文工作填补了基于小数基音延迟隐写检测的空白,且较之已有方案对于各类基音延迟隐写方法在任意的嵌入率和样本长度下均具有更好的检测性能和更低的时间开销,从而实现了更为实时高效的检测. 展开更多
关键词 隐写分析 深度学习 多元线性回归 网络语音流 自适应多速率语音编码 小数基音延迟
下载PDF
一种基于数据筛的音频视频连续语音识别系统 被引量:1
9
作者 谢磊 I Ravyse +4 位作者 蒋冬梅 赵荣椿 H Sahli W Verhelst J Cornelis 《计算机应用》 CSCD 北大核心 2003年第7期1-3,共3页
文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法;在音频和视频集成建模方面,使用多数据流HMM来反映语音的双... 文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法;在音频和视频集成建模方面,使用多数据流HMM来反映语音的双模型特性。识别实验表明,文中建立的音频视频连续语音识别系统具有很好的抗噪性。 展开更多
关键词 语音识别 音频视频 连续语音识别 数据筛 多数据流HMM
下载PDF
多数据流子带噪声语音识别方法 被引量:1
10
作者 蒋文建 韦岗 《计算机工程与应用》 CSCD 北大核心 2001年第19期52-54,共3页
提出一种噪声下的多数据流子带语音识别方法。传统的子带特征方法虽然能提高噪声下的语音识别性能,但通常会使无噪声情况下的识别性能下降。新方法提取感知线性预测(PLP)特征和子带特征,分别进行识别,然后在识别概率层将两者相结合。通... 提出一种噪声下的多数据流子带语音识别方法。传统的子带特征方法虽然能提高噪声下的语音识别性能,但通常会使无噪声情况下的识别性能下降。新方法提取感知线性预测(PLP)特征和子带特征,分别进行识别,然后在识别概率层将两者相结合。通过E-Set在NoiseX92下的白噪声的识别实验表明,新方法不仅具有更好的抗噪性能,而且同时能提高无噪声情况下的识别性能。 展开更多
关键词 语音识别 噪声 多数据流 子带 隐马尔可夫模型
下载PDF
关于美国英语非正式口语连贯语流中的发音规律 被引量:1
11
作者 司福成 《华侨大学学报(哲学社会科学版)》 2005年第3期128-132,共5页
当前,美国通用英语(GA)在很大程度上影响着我国的英语教学与实际应用。文章旨在探讨和研究美国通用英语(GA)在非正式口语连贯语流中的发音规律,其特点与正常美国口语有很大差别,这主要表现在连贯语流中的音位变化,其中一些特殊发音的美... 当前,美国通用英语(GA)在很大程度上影响着我国的英语教学与实际应用。文章旨在探讨和研究美国通用英语(GA)在非正式口语连贯语流中的发音规律,其特点与正常美国口语有很大差别,这主要表现在连贯语流中的音位变化,其中一些特殊发音的美式拼法已发展成了固定使用的词汇,甚至已进入了词典,说明英语语音的不断发展变化已影响到了英语词汇的拼写形式及其词语的发展。这是学习英语必须重视的。 展开更多
关键词 发音规律 非正式口语 连贯语流 语流音变 美式拼法
下载PDF
噪声自适应的多数据流复合子带语音识别方法 被引量:3
12
作者 张军 韦岗 《电子与信息学报》 EI CSCD 北大核心 2006年第7期1183-1187,共5页
首先针对现有丢失数据语音识别技术中的边缘化(marginalisation)技术在特征运用上的局限,提出了一种倒谱特征分量的可靠性估计方法,将边缘化技术推广到常用的倒谱语音识别系统中;然后利用基于全带和子带倒谱特征的边缘化识别器在不同噪... 首先针对现有丢失数据语音识别技术中的边缘化(marginalisation)技术在特征运用上的局限,提出了一种倒谱特征分量的可靠性估计方法,将边缘化技术推广到常用的倒谱语音识别系统中;然后利用基于全带和子带倒谱特征的边缘化识别器在不同噪声中的互补性能,提出了一种噪声自适应的多数据流复合子带语音识别方法。实验结果表明,所提识别方法可以自适应地选出全带和子带数据流中受噪声影响较小者并以之为主要依据进行识别,有效地提高了识别系统在多变噪声环境中的鲁棒性。 展开更多
关键词 语音识别 丢失数据 边缘化 多数据流 复合子带
下载PDF
鞍山方言的语音特征 被引量:3
13
作者 赵彩红 陈会斌 《辽宁科技大学学报》 CAS 2014年第2期184-187,共4页
鞍山方言作为东北方言的重要组成部分,一直以来很少有人研究。为了保护作为鞍山地方文化一部分的鞍山方言,通过实地考察,从语音方面记录和描述了鞍山方言在声调变化和声韵母转换等方面的特征,得出了鞍山方言与普通话在不同语音特征上的... 鞍山方言作为东北方言的重要组成部分,一直以来很少有人研究。为了保护作为鞍山地方文化一部分的鞍山方言,通过实地考察,从语音方面记录和描述了鞍山方言在声调变化和声韵母转换等方面的特征,得出了鞍山方言与普通话在不同语音特征上的主要表现,指出了鞍山方言在平翘舌发音、声母[r]的硬腭化等方面的一些不同于普通话的语音现象与特征。 展开更多
关键词 鞍山方言 语音特点 语流音变 声、韵母转换 儿化音
下载PDF
汉语节律朗读——读者语流音律和作者意象心律的碰撞 被引量:1
14
作者 吴洁敏 何文忠 《浙江教育学院学报》 2003年第6期73-78,共6页
字正腔圆、表情达意的节律朗读 ,是读者的语流音律和作者的意象心律相碰撞的产物 ,也是语音链和语意、语用的表里合一。文章列举了汉语节律特征的表意功能 ,分析了导致朗读产生误码的各种因素 ,指出节律朗读的最高境界是“字中有音 ,音... 字正腔圆、表情达意的节律朗读 ,是读者的语流音律和作者的意象心律相碰撞的产物 ,也是语音链和语意、语用的表里合一。文章列举了汉语节律特征的表意功能 ,分析了导致朗读产生误码的各种因素 ,指出节律朗读的最高境界是“字中有音 ,音中无字”。 展开更多
关键词 汉语 节律朗读 语流音律 意象心律 语音
下载PDF
基于分组网络的实时语音自适应同步算法 被引量:1
15
作者 郭永冲 冯泽森 汤俊 《计算机工程与应用》 CSCD 北大核心 2003年第5期178-179,184,共3页
首先介绍了多媒体通信中的流同步问题以及影响同步的各种因素,然后提出一种基于播放时间的自适应同步算法并加以推导证明,最后介绍了它在已设计的语音传输系统中的具体实现。
关键词 分组网络 实时语音自适应同步算法 流同步 多媒体通信 语音传输系统
下载PDF
关于高师英语专业学生语音现状的调查与思考——兼谈英语语音教学中的合作学习策略及学习者的情感 被引量:27
16
作者 刘金梅 《湖北师范学院学报(哲学社会科学版)》 2005年第3期111-114,共4页
回顾语音教学过去一百多年的起伏,从某省属高等师范院校英语专业一年级学生的语音现状,寻求学生语音问题的成因,并提出如下建议:英语教师遵循语言习得的基本原理,科学地对待语音教学;运用合作学习策略,提高学生的语音学习效果;帮助学生... 回顾语音教学过去一百多年的起伏,从某省属高等师范院校英语专业一年级学生的语音现状,寻求学生语音问题的成因,并提出如下建议:英语教师遵循语言习得的基本原理,科学地对待语音教学;运用合作学习策略,提高学生的语音学习效果;帮助学生克服情感障碍,坚定其学好语音的信心。 展开更多
关键词 语音教学 音素 语流 合作学习 情感
下载PDF
基于信号能量的浊语音盲信号分离算法 被引量:2
17
作者 李鸿燕 屈俊玲 张雪英 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第5期1665-1670,共6页
针对以往单声道浊语音分离算法对目标语音信号分离不稳定性和信噪比低的不足,引入了浊语音的另一个重要特征,即信号能量。提出了一种基于信号能量的浊语音分离算法,算法对经典的Hu-Wang算法进行了改进,将能量特征应用于听觉重组部分,通... 针对以往单声道浊语音分离算法对目标语音信号分离不稳定性和信噪比低的不足,引入了浊语音的另一个重要特征,即信号能量。提出了一种基于信号能量的浊语音分离算法,算法对经典的Hu-Wang算法进行了改进,将能量特征应用于听觉重组部分,通过能量特征来改进目标语音听觉流的重组性能,降低噪声对重组后的目标听觉流的干扰,提高算法的稳定性。实验结果表明:与Hu-Wang算法相比较,该改进算法可提高目标语音的分段信噪比,改善了目标浊语音的分离性能。 展开更多
关键词 通信技术 计算听觉场景分析 语音分离 信号能量 听觉片段 听觉流
下载PDF
2-3岁聋儿言语康复训练的方法问题 被引量:2
18
作者 陈军兰 《中国听力语言康复科学杂志》 2004年第1期46-47,共2页
目的:从2-3岁聋儿的动作、气质、注意、记忆等方面的特点出发,探讨检验2-3岁聋儿言语训练的原则和方法。 方法:通过日常记录2-3岁聋儿言语训练中的反应和表现,并加以理论分析和归纳。 结果:言语训练运用直观性原则可操作性强,聋儿主动... 目的:从2-3岁聋儿的动作、气质、注意、记忆等方面的特点出发,探讨检验2-3岁聋儿言语训练的原则和方法。 方法:通过日常记录2-3岁聋儿言语训练中的反应和表现,并加以理论分析和归纳。 结果:言语训练运用直观性原则可操作性强,聋儿主动开口说话的频率高;运动游戏、隐藏和装饰等方法能较快地带领小年龄的聋儿进入语言情境中进行有目的、有计划的言语训练。 结论:在2-3岁聋儿的言语康复工作中,只有遵循一定的原则,运用科学有效的方法,才能将康复工作真正做好。 展开更多
关键词 2-3岁 聋儿 言语康复训练 耳聋
下载PDF
一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统 被引量:1
19
作者 谢磊 I.Cravyse +5 位作者 蒋冬梅 赵荣椿 H.Sahli Werner Verhelst J Cornelis Ignace Lemahieu 《计算机工程与应用》 CSCD 北大核心 2003年第16期3-5,35,共4页
文章抓住人类语音感知多模型的特点,尝试建立一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种基于特征口形的提取方法。识别实验证明,这种视频特征提取方法比传统DCT、DWT方法能够带来更... 文章抓住人类语音感知多模型的特点,尝试建立一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种基于特征口形的提取方法。识别实验证明,这种视频特征提取方法比传统DCT、DWT方法能够带来更高的识别率;基于特征口形的音频-视频混合连续语音识别系统具有很好的抗噪性。 展开更多
关键词 音频-视频混合连续语音识别 主分量分析 特征口形 多数据流 HMM
下载PDF
基于多流多状态动态贝叶斯网络的音视频连续语音识别 被引量:1
20
作者 吕国云 蒋冬梅 +4 位作者 张艳宁 赵荣椿 H Sahli Ilse Ravyse W Verhelst 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2906-2911,共6页
语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS... 语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构。本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。 展开更多
关键词 语音识别 动态贝叶斯网络 音视频 多流异步
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部