期刊文献+
共找到107篇文章
< 1 2 6 >
每页显示 20 50 100
基于句法依赖增强图的方面级情感分析
1
作者 廖列法 夏卫欢 杨翌虢 《计算机工程与设计》 北大核心 2024年第6期1857-1864,共8页
方面级情感分析旨在分析句子中特定方面的情感极性,现有研究侧重于利用图神经网络建模上下文与方面的依赖信息,忽略了对上下文中情感词及其词性的挖掘和利用。为此,提出一种基于句法依赖的增强图(syntactic dependency enhancement grap... 方面级情感分析旨在分析句子中特定方面的情感极性,现有研究侧重于利用图神经网络建模上下文与方面的依赖信息,忽略了对上下文中情感词及其词性的挖掘和利用。为此,提出一种基于句法依赖的增强图(syntactic dependency enhancement graph, SDEG)模型,在原始句法依赖图上引入情感知识和词性信息,增强情感词权重和相关词性单词在上下文中的作用。使用双向长短期记忆网络和卷积神经网络捕捉句子的重点语义信息,通过图卷积神经网络建模句法依赖增强图,通过交互注意力机制生成特定方面的上下文语义和语法表示以进行情感极性分类。在多个公共基准数据集上的实验结果表明,所提模型在性能上有明显提升。 展开更多
关键词 方面级情感分析 情感知识 词性 双向长短期记忆网络 卷积神经网络 图卷积神经网络 交互注意力机制
下载PDF
改进MFCC特征和MLA模型的语音情感识别 被引量:4
2
作者 张晓莉 《福建电脑》 2024年第1期52-56,共5页
MFCC及其一阶差分特征表征了语音的静态和动态信息,常作为SER的情感特征。在传统的MFCC特征提取过程中,通过人工调参实现语音信噪比的平衡,容易造成过度补偿的情况。本文提出两种改进方法,分别获得EMFCC和AMFCC特征。为了获得最佳的分... MFCC及其一阶差分特征表征了语音的静态和动态信息,常作为SER的情感特征。在传统的MFCC特征提取过程中,通过人工调参实现语音信噪比的平衡,容易造成过度补偿的情况。本文提出两种改进方法,分别获得EMFCC和AMFCC特征。为了获得最佳的分类准确率,基于池化层、LSTM和注意力机制构建了MLA模型,能够有效捕捉特征中的情感信息。采用由MFCC及其一阶差分特征和两个改进MFCC特征组成的混合特征,在CASIA语料库上取得了81.79%的未加权准确率。消融实验的结果表明,与SER领域其他较为先进的识别方法进行对比,改进的MFCC特征具有较好的性能优势。 展开更多
关键词 语音情感识别 梅尔频率倒谱系数 长短时记忆 注意力机制
下载PDF
基于语音情感识别的智能照明控制系统的研究 被引量:2
3
作者 王晓康 《电声技术》 2024年第2期7-9,13,共4页
文章针对传统智能照明控制系统中因未考虑用户语音指令所蕴含的情感信息导致照明控制效果不理想的问题,提出一种将梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征参数与长短时记忆(Long Short-Term Memory,LSTM)网络进行... 文章针对传统智能照明控制系统中因未考虑用户语音指令所蕴含的情感信息导致照明控制效果不理想的问题,提出一种将梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征参数与长短时记忆(Long Short-Term Memory,LSTM)网络进行融合的语音情感识别方法。通过对用户语音指令中所蕴含的情感信息进行识别,实现照明控制系统的个性化自动调节。通过搭建实验环境对改进的方案进行验证,实验结果表明,改进后的方案能够有效识别语音指令中的情感类别,满足实际使用需求。 展开更多
关键词 语音情感识别 智能照明 长短时记忆(LSTM)网络
下载PDF
义理与辞章的和谐律动:论《文心雕龙》的言说艺术
4
作者 黄诚祯 《写作》 2024年第2期47-57,共11页
《文心雕龙》是文论巨典,也是一部优秀的文艺作品。细而究之,《文心雕龙》言说艺术的特征主要有四:一是浸染文学自觉的时风,剖情析采,言之有理;二是倚重古代诸多典籍,援经引史,言之有据;三是论证过程法度森严,谋篇布局,言之有序;四是写... 《文心雕龙》是文论巨典,也是一部优秀的文艺作品。细而究之,《文心雕龙》言说艺术的特征主要有四:一是浸染文学自觉的时风,剖情析采,言之有理;二是倚重古代诸多典籍,援经引史,言之有据;三是论证过程法度森严,谋篇布局,言之有序;四是写作注重语言文采,遣词造句,言之有文。由此数端并进,《文心雕龙》实现了义理与辞章的和谐律动,成为我国文学批评诗性文体的典型代表。 展开更多
关键词 《文心雕龙》 言说艺术 恒数 互文性 诗性文体
下载PDF
LSTM网络在语音转文字应用中的优化方法
5
作者 张乾 《电声技术》 2024年第9期85-87,共3页
为研究基于长短期记忆(Long Short-TermMemory,LSTM)网络的语音转文字系统的优化方法,首先说明LSTM在语音转文字任务中的基本原理和架构,其次分析自适应矩估计(Adaptive Moment Estimation,Adam)优化算法的核心机制及其在LSTM网络中的应... 为研究基于长短期记忆(Long Short-TermMemory,LSTM)网络的语音转文字系统的优化方法,首先说明LSTM在语音转文字任务中的基本原理和架构,其次分析自适应矩估计(Adaptive Moment Estimation,Adam)优化算法的核心机制及其在LSTM网络中的应用,最后在Mozilla DeepSpeech框架中嵌入基于Adam优化的LSTM模型,并使用THCHS-30数据集进行实验。实验结果表明,基于Adam优化的LSTM模型在词错率和F1分数上均表现出显著的优越性。 展开更多
关键词 长短期记忆(LSTM) 自适应矩估计(Adam) 语音识别 训练优化
下载PDF
基于LSTM的语音字幕转换技术
6
作者 刘俊丽 《电声技术》 2024年第6期47-49,共3页
针对实时语音识别中存在的问题,提出基于长短期记忆(Long Short-Term Memory,LSTM)的语音字幕转换技术。首先介绍网络直播实时字幕生成的总体框架,其次详细阐述LSTM在语音字幕转换中的应用,最后选用Librispeech数据集进行实验。实验结... 针对实时语音识别中存在的问题,提出基于长短期记忆(Long Short-Term Memory,LSTM)的语音字幕转换技术。首先介绍网络直播实时字幕生成的总体框架,其次详细阐述LSTM在语音字幕转换中的应用,最后选用Librispeech数据集进行实验。实验结果表明,基于LSTM的语音字幕转换技术在处理多样化的音频数据时具有较高的适应性。 展开更多
关键词 语音识别 字幕生成 长短期记忆(LSTM) 网络直播
下载PDF
基于DPCNN-SLSTM的中文儿童语音情感识别
7
作者 董胡 彭高丰 陈伟 《通信技术》 2024年第7期666-671,共6页
针对中文儿童语音情感识别的准确性问题,提出了一种结合深度卷积神经网络(Deep Convolutional Neural Network,DPCNN)与堆叠长短时记忆(Stacked Long Short Term Memory,SLSTM)网络的融合模型,旨在提高中文儿童语音情感识别的准确性。通... 针对中文儿童语音情感识别的准确性问题,提出了一种结合深度卷积神经网络(Deep Convolutional Neural Network,DPCNN)与堆叠长短时记忆(Stacked Long Short Term Memory,SLSTM)网络的融合模型,旨在提高中文儿童语音情感识别的准确性。通过DPCNN对语音信号中的长距离依赖关系进行提取,再利用SLSTM捕捉情感相关的序列依赖信息,最终通过softmax分类器实现情感状态的判别。实验结果显示,基于DPCNN-SLSTM的模型在中文儿童语音数据集上的情感识别准确率达到了92%,显著优于CNN、LSTM和CNN-LSTM模型。研究结果对于推动儿童语音情感识别技术的发展具有重要意义。 展开更多
关键词 深度卷积神经网络 堆叠长短时记忆网络 融合模型 中文儿童语音 情感识别
下载PDF
基于Deep Speech与多层LSTM的儿童朗读语音评价模型 被引量:2
8
作者 郑纯军 贾宁 《计算机科学》 CSCD 北大核心 2019年第S11期108-111,148,共5页
现代人大多忽略了朗读的重要性,然而对于5~12岁的儿童,朗读不仅是学习过程中必备的技能,还是陶冶情操的有效手段。由于朗读语音信号的特征与评价标准之间存在着非线性关系,递归神经网络虽然适用于时间序列的预测,但是对长时间跨度的预... 现代人大多忽略了朗读的重要性,然而对于5~12岁的儿童,朗读不仅是学习过程中必备的技能,还是陶冶情操的有效手段。由于朗读语音信号的特征与评价标准之间存在着非线性关系,递归神经网络虽然适用于时间序列的预测,但是对长时间跨度的预测效果有限。基于此,根据儿童朗读语音特点及其评价体系,设计了一种基于DeepSpeech与三层长短期记忆(Long Short-Term Memory,LSTM)神经网络相结合的模型。首先,在添加注意力机制的基础上,提出朗读语音评价的准确性和流利性度量,以频谱图作为特征提取的输入,其中,朗读评价的准确性采用改进后的Deep Speech以提高音素识别的准确率,流利性评价将频谱图送至三层LSTM模型中以呈现时间序列的影响;然后,将结果送入注意力机制进行权重调节;最终,将计算的总评价结果用于儿童朗读语音的评分。使用“出口成章”软件提供的儿童朗读语料库和TensorFlow平台进行实验。结果表明,与传统的模型相比,此模型不仅可以精确判断朗读的正确性和朗读的流利性,而且其评价模型获得的评分结果较准确。 展开更多
关键词 频谱图 长短期记忆网络 注意力机制 Deepspeech 朗读语音评价模型
下载PDF
结合LSTM与ResNet的声学回声消除 被引量:1
9
作者 许春冬 徐锦武 +3 位作者 王茹霞 凌贤鹏 黄乔月 郭桥生 《传感器与微系统》 CSCD 北大核心 2023年第5期29-32,共4页
针对传统的声学回声消除(AEC)方法在双端讲话场景下较难实现快速收敛和动态自适应的问题,提出了一种结合长短时记忆(LSTM)与残差神经网络(ResNet)的AEC方法。通过使用LSTM和ResNet相结合的特征提取方法,同时提取到声学回声的时序特征和... 针对传统的声学回声消除(AEC)方法在双端讲话场景下较难实现快速收敛和动态自适应的问题,提出了一种结合长短时记忆(LSTM)与残差神经网络(ResNet)的AEC方法。通过使用LSTM和ResNet相结合的特征提取方法,同时提取到声学回声的时序特征和不同级别的抽象特征,且充分利用近端语音、近端麦克风语音和声学回声之间的幅度谱相似性的特点,引入它们之间的谱归一化互相关系数,构造了一种改进的理想二值掩蔽(iIBM)作为训练目标,此外引入深度可分离卷积使模型参数量减少了3.42 MB。实验结果表明:双端通话环境下所提出的方法相比参考算法取得了更高的客观评价得分。 展开更多
关键词 声学回声消除 双端讲话场景 长短时记忆网络 残差神经网络 理想二值掩蔽 深度可分离卷积
下载PDF
深度复卷积递归网络模型的师生学习语声增强方法
10
作者 卞金洪 吴瑞琦 +1 位作者 周锋 赵力 《应用声学》 CSCD 北大核心 2023年第2期269-275,共7页
基于深度神经网络的方法已经在语声增强领域得到了广泛的应用,然而若想取得理想的性能,一般需要规模较大且复杂度较高的模型。因此,在计算资源有限的设备或对延时要求高的环境下容易出现部署困难的问题。为了解决此问题,提出了一种基于... 基于深度神经网络的方法已经在语声增强领域得到了广泛的应用,然而若想取得理想的性能,一般需要规模较大且复杂度较高的模型。因此,在计算资源有限的设备或对延时要求高的环境下容易出现部署困难的问题。为了解决此问题,提出了一种基于深度复卷积递归网络的师生学习语声增强方法。在师生深度复卷积递归网络模型结构中间的复长短时记忆递归模块提取实部和虚部特征流,并分别计算帧级师生距离损失以进行知识转移。同时使用多分辨率频谱损失以进一步提升低复杂度学生模型的性能。实验在公开数据集Voice Bank Demand和DNS Challenge上进行,结果显示所提方法相对于基线学生模型在各项指标上均有明显提升。 展开更多
关键词 语声增强 递归神经网络 长短期记忆网络 知识蒸馏
下载PDF
基于微信号增强的机器人远距离语音识别仿真 被引量:1
11
作者 卢丽萌 《辽宁大学学报(自然科学版)》 CAS 2023年第1期38-44,共7页
由于噪声信号的干扰,导致机器人难以实现对微弱信号的远距离语音识别,影响最终的识别效果.为此,本文提出基于微信号增强的机器人远距离语音识别仿真研究.首先采用谱减法对微信号进行增强处理,由于语音信号中噪声功率谱具有一定的稳态属... 由于噪声信号的干扰,导致机器人难以实现对微弱信号的远距离语音识别,影响最终的识别效果.为此,本文提出基于微信号增强的机器人远距离语音识别仿真研究.首先采用谱减法对微信号进行增强处理,由于语音信号中噪声功率谱具有一定的稳态属性,可估算出噪声的功率谱,再利用谱减计算求出纯净语音的功率谱,对傅里叶变换后的各个相位信号进行差异化赋权后,再对去噪功率谱进行拟合,完成对信号相位的恢复.在语音识别阶段,将增强后的原始语音信号分解为若干个独立的语音帧,在梅尔三角滤波器组中提取语音信号的Mel频谱参数,将其与语音频率之间的关系作为识别特征参数,最后利用梯度下降算法,在损失函数的约束下匹配与识别特征拟合度最高的内容,实现语音识别.仿真测试结果表明,本文提出的设计方法在噪声、不同信噪比、不同测试距离下对语音的识别率均达到了95.00%以上,与对照组相比具有更好的识别效果. 展开更多
关键词 微信号增强 远距离 语音识别 谱减法 功率谱 梅尔三角滤波器组 Mel频谱参数 梯度下降算法
下载PDF
面向语音增强的双复数卷积注意聚合递归网络 被引量:4
12
作者 余本年 詹永照 +2 位作者 毛启容 董文龙 刘洪麟 《计算机应用》 CSCD 北大核心 2023年第10期3217-3224,共8页
针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分... 针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分支中编码分别使用特征块间和特征块内注意力机制对不同的语音特征信息进行重标注;再次,使用长短期记忆(LSTM)网络处理长时间序列信息,并用两解码器还原语谱图特征并聚合这些特征;最后,经短时逆傅里叶变换生成目标语音波形,以达到抑制噪声的目的。在公开数据集VBD(Voice Bank+DMAND)和加噪的TIMIT数据集上进行的实验的结果表明,与相位感知的深度复数卷积递归网络(DCCRN)相比,DCCARN在客观语音感知质量指标(PESQ)上分别提升了0.150和0.077~0.087。这验证了所提方法能更准确地捕获语谱图特征的关联信息,更有效地抑制噪声,并提高语音的清晰度。 展开更多
关键词 语音增强 注意力机制 复数卷积网络 编码 长短期记忆网络
下载PDF
基于注意力机制的语音情感识别非线性特征融合方法的研究 被引量:2
13
作者 周伟东 周后盘 夏鹏飞 《计算机应用与软件》 北大核心 2023年第1期216-221,272,共7页
为了解决语音情感识别中时空特征动态依赖问题,提出一种基于注意力机制的非线性时空特征融合模型。模型利用基于注意力机制的长短时记忆网络提取语音信号中的时间特征,利用时间卷积网络提取语音信号中的空间特征,利用注意力机制将时空... 为了解决语音情感识别中时空特征动态依赖问题,提出一种基于注意力机制的非线性时空特征融合模型。模型利用基于注意力机制的长短时记忆网络提取语音信号中的时间特征,利用时间卷积网络提取语音信号中的空间特征,利用注意力机制将时空特征进行非线性的融合,并将非线性融合后的高级特征输入给全连接层进行语音情感识别。实验在IEMOCAP数据集中进行评估,实验结果表明,该方法可以同时考虑时空特征的内在关联,相对于使用线性融合的方法,利用注意力机制进行非线性特征融合的网络可以有效地提高语音情感识别准确率。 展开更多
关键词 语音情感识别 长短时记忆网络 时间卷积网络 非线性融合
下载PDF
基于DCNN和BiLSTM的单通道视听融合语音分离方法研究 被引量:3
14
作者 兰朝凤 王顺博 +2 位作者 郭小霞 韩玉兰 康守强 《电子学报》 EI CAS CSCD 北大核心 2023年第4期914-921,共8页
近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的“鸡尾酒会”等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实... 近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的“鸡尾酒会”等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(Dilated Convolutions Neural Network,DCNN)和双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(Perceptual Eval-uation of Speech Quality)、STOI(Short-Time Objective Intelligibility)和SDR(Signal-to-Distortion Ratio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37 dB. 展开更多
关键词 视听融合 空洞卷积 双向长短时记忆网络 单通道 语音分离
下载PDF
基于ARIMA算法特征补齐的语音情感识别 被引量:4
15
作者 史少寒 周晓彦 李大鹏 《电子器件》 CAS 北大核心 2023年第5期1333-1338,共6页
语音情感识别的数据集普遍存在语音数据长短不一致的现象,进行补零处理会造成无用信息的冗余。针对此问题,提出了一种基于差分整合移动平均自回归ARIMA算法特征补齐的语音情感识别算法。首先进行特征的选取,并利用ARIMA方法进行语音特... 语音情感识别的数据集普遍存在语音数据长短不一致的现象,进行补零处理会造成无用信息的冗余。针对此问题,提出了一种基于差分整合移动平均自回归ARIMA算法特征补齐的语音情感识别算法。首先进行特征的选取,并利用ARIMA方法进行语音特征的补齐。然后,基于因果扩张卷积神经网络和长短期记忆网络,构建语音情感识别模型。最后,采用柏林语音集进行实验,结果表明:用ARIMA方法对特征进行补齐,一定程度上提高了模型的表现力;使用因果扩张卷积搭建模型,增加了模型的泛用性。 展开更多
关键词 语音情感识别 差分整合移动平均自回归模型 长短期记忆网络 因果扩张卷积 特征补齐
下载PDF
基于MFCC特征融合的语音情感识别算法 被引量:3
16
作者 黄喜阳 杜庆治 +1 位作者 龙华 邵玉斌 《陕西理工大学学报(自然科学版)》 2023年第4期17-25,共9页
在目前语音情感识别中,采用单一梅尔倒谱系数(MFCC)频谱的方法不能完全体现语音中所包含的情感特性,而多特征融合容易导致维数过大。提出了一种融合MFCC及其差分频谱的双向长短时记忆网络结合卷积神经网络(Bi-LSTM-CNN)的语音情感识别... 在目前语音情感识别中,采用单一梅尔倒谱系数(MFCC)频谱的方法不能完全体现语音中所包含的情感特性,而多特征融合容易导致维数过大。提出了一种融合MFCC及其差分频谱的双向长短时记忆网络结合卷积神经网络(Bi-LSTM-CNN)的语音情感识别算法。首先提取语音信号的MFCC特征,并进行差分运算得到一阶、二阶差分特征提取频谱,再采用主成分分析法分别获取3个频谱中贡献度较高的维度组成新的频谱,达到降维目的,并将降维后的3个特征频谱从上到下依次进行堆叠,得到动、静结合的MFCC差分融合频谱。训练阶段Bi-LSTM-CNN模型从特征融合频谱中学习语音情感特性,并采用稀疏交叉熵法得到最优结果。实验结果表明在RAVDESS数据集上准确率为81.32%,在EMO-DB数据集上对情感识别的准确率为85.51%,比主流情感识别模型的准确率提高了4.85%。 展开更多
关键词 语音情感识别 主成分分析法 双向长短时记忆网络 MFCC差分融合频谱 深度学习
下载PDF
基于BiLSTM-CRF的中文分词和词性标注联合方法 被引量:4
17
作者 袁里驰 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第8期3145-3153,共9页
针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树... 针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树形概率的词性标注中,当前词的词性不但与前面词的词性有关,而且与当前词本身有关。使用联合方法有助于使用词性标注信息实现分词,有机地将两者结合起来有利于消除歧义和提高分词、词性标注任务的准确率。实验结果表明:本文使用的中文分词和词性标注联合方法相比于通常的双向长短时记忆模型−条件随机场分词模型能够大幅度提高分词的准确率,并且相比于传统的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率。 展开更多
关键词 双向长短时记忆模型 中文分词 词性标注 马尔可夫族模型 树形概率
下载PDF
基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法 被引量:6
18
作者 袁里驰 《小型微型计算机系统》 CSCD 北大核心 2023年第9期1906-1911,共6页
针对中文分词、词性标注等序列标注任务,本文提出了结合BERT语言模型、BiLSTM(双向长短时记忆模型)、CRF(条件随机场模型)和马尔可夫族模型(MFM)或树形概率(TLP)构建的中文分词和词性标注联合方法.隐马尔可夫(HMM)词性标注方法忽略了词... 针对中文分词、词性标注等序列标注任务,本文提出了结合BERT语言模型、BiLSTM(双向长短时记忆模型)、CRF(条件随机场模型)和马尔可夫族模型(MFM)或树形概率(TLP)构建的中文分词和词性标注联合方法.隐马尔可夫(HMM)词性标注方法忽略了词本身到词性的发射概率,而在利用树形概率或马尔可夫族统计模型的词性标记中,一个词的词性不仅和该词前一个词的词性关联,且与该词自身关联.使用联合方法有助于使用词性信息帮助分词,将两者紧密结合能够帮助消除歧义和改进分词、词性标记的性能.实验结果表明本文使用的中文分词和词性标注联合方法与普通的BiLSTM-CRF分词算法相比,可以明显提升分词性能,而且相比于通常的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率. 展开更多
关键词 BERT 双向长短时记忆模型 中文分词 词性标注 马尔可夫族模型 树形概率
下载PDF
带通滤波后语音可懂度的实验研究 被引量:7
19
作者 许伟 龚昌超 曾新吾 《声学技术》 CSCD 北大核心 2008年第5期700-703,共4页
语音信号在空气中远距离传播时,由于大气的低通滤波效应,高频分量衰减严重,能够到达远端的量很少,其占据的信号源部分能量不能有效利用,从而使语音传播距离受到很大限制。在某些要求距离的场合,需要牺牲部分语音清晰度,传播时保留最低... 语音信号在空气中远距离传播时,由于大气的低通滤波效应,高频分量衰减严重,能够到达远端的量很少,其占据的信号源部分能量不能有效利用,从而使语音传播距离受到很大限制。在某些要求距离的场合,需要牺牲部分语音清晰度,传播时保留最低限度的可懂度以提升语音传播距离。语音信号中所含频率成分丰富,但对语音可懂起决定作用的只是其中有限范围的频段。以数字滤波和主观评价的方法对采样频率为44.1kHz的汉语语音可懂的极限频率进行了研究。结果表明,在满足语音内容完全可懂的要求时,汉语语音频率的最低上限应取在1kHz,最高下限应处于300Hz。该结论可以为调制信号源频率以提高能量利用效率,提升语音传播距离提供重要依据。 展开更多
关键词 汉语 语音 远距离传播 可懂度
下载PDF
低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统 被引量:22
20
作者 黄光许 田垚 +2 位作者 康健 刘加 夏善红 《计算机应用研究》 CSCD 北大核心 2017年第2期392-396,共5页
在低资源条件下,由于带标注训练数据较少,搭建的语音识别系统性能往往不甚理想。针对此问题,首先在声学模型上研究了长短时记忆(LSTM)递归神经网络,通过对长序列进行建模来充分挖掘上下文信息,并且引入线性投影层减小模型参数;然后研究... 在低资源条件下,由于带标注训练数据较少,搭建的语音识别系统性能往往不甚理想。针对此问题,首先在声学模型上研究了长短时记忆(LSTM)递归神经网络,通过对长序列进行建模来充分挖掘上下文信息,并且引入线性投影层减小模型参数;然后研究了在特征空间中对说话人进行建模的技术,提取出能有效反映说话人和信道信息的身份认证矢量(i-vector);最后将上述研究结合构建了基于i-vector特征的LSTM递归神经网络系统。在Open KWS 2013标准数据集上进行实验,结果表明该技术相比于深度神经网络基线系统有相对10%的字节错误率降低。 展开更多
关键词 语音识别 长短时记忆神经网络 身份认证矢量
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部