期刊文献+
共找到168篇文章
< 1 2 9 >
每页显示 20 50 100
应用于噪声环境下语种识别的GFCC改进算法 被引量:1
1
作者 周大春 邵玉斌 +2 位作者 张昊阁 龙华 彭艺 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期246-254,共9页
不同的噪声在频谱上有不同的特点,使得自动语种识别的性能在噪声环境下显著下降.针对该问题,提出一种基于改进时域伽马通滤波器倒谱系数(gammatone filter cepstral coefficient,GFCC)特征的语种识别方法.首先,提取不同噪声背景下的训... 不同的噪声在频谱上有不同的特点,使得自动语种识别的性能在噪声环境下显著下降.针对该问题,提出一种基于改进时域伽马通滤波器倒谱系数(gammatone filter cepstral coefficient,GFCC)特征的语种识别方法.首先,提取不同噪声背景下的训练集的时域GFCC特征;然后,利用Fisher比计算特征各维对区分语种的相对贡献度大小,分析不同噪声对时域GFCC特征各维的影响,并根据分析来设计合适的权值对特征各维加权,得到语种区分性更强的特征集;最后,利用高斯混合-通用背景模型作为基线系统进行语种识别,以测试所提方法性能.实验结果表明,在单一噪声背景,信噪比为-5 dB,噪声源分别为粉红噪声、餐厅噪声的条件下,所提方法相比于传统时域GFCC特征方法的识别率分别提升了40.1、20.6个百分点,在其他噪声背景、信噪比下的识别率也有一定程度的提升. 展开更多
关键词 噪声环境 语种识别 时域伽马通滤波器 Fisher比
下载PDF
基于变分信息瓶颈多任务算法的多领域文本分类
2
作者 马儀 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期125-135,共11页
多领域文本分类存在领域差异和词汇差异,导致分类的准确性和泛化性低,传统方法无法取得很好的效果.针对上述问题,本文提出基于变分信息瓶颈多任务算法的多领域文本分类方法,将任务建模为从综合特征中提取任务专属特征的分层学习表示问题... 多领域文本分类存在领域差异和词汇差异,导致分类的准确性和泛化性低,传统方法无法取得很好的效果.针对上述问题,本文提出基于变分信息瓶颈多任务算法的多领域文本分类方法,将任务建模为从综合特征中提取任务专属特征的分层学习表示问题.首先基于信息瓶颈原理,将综合特征和任务专属特征之间存在的冗余信息建模为均值为零,方差为对角矩阵的加性噪声,通过重参数化方法让噪声参与模型训练;其次通过信息瓶颈的变分边界构建模型损失函数以限制模型的信息流动,从而将带有加性噪声的综合特征解耦为任务专属特征;最后通过解码器中的分类器处理任务专属特征得到文本分类结果.实验表明,该模型在FDU-MTL多领域文本分类数据集上的平均分类准确率达到92.17%,较多个对比模型有明显提升,且该模型具有更好的可解释性. 展开更多
关键词 信息瓶颈 多任务模型 多领域 变分边界 可解释性
下载PDF
基于胶囊网络的恶意评论检测
3
作者 李公瑾 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期452-459,共8页
针对传统恶意评论检测模型无法适应不断更新的网络文化和语言习惯以及神经网络丢失信息的问题,提出了一种基于胶囊网络的检测模型.首先,采用BERT模型提取词向量的特征,以保留文本的潜在语义信息;然后,通过胶囊网络在局部范围内提取特征... 针对传统恶意评论检测模型无法适应不断更新的网络文化和语言习惯以及神经网络丢失信息的问题,提出了一种基于胶囊网络的检测模型.首先,采用BERT模型提取词向量的特征,以保留文本的潜在语义信息;然后,通过胶囊网络在局部范围内提取特征表示,并结合Bi-LSTM在全局范围内提取特征表示,以获得更全面的特征表示;其次,利用注意力机制将局部和全局的特征表示进行融合,提取关键信息并降低特征表示的维度;最后,使用Sigmoid分类器对结果进行分类,并输出检测结果.实验结果表明,所提出的组合模型相对于传统模型能够提取到更精细的语义信息,有效地提高了分类效果,在恶意评论的检测任务中,准确度达到了0.922. 展开更多
关键词 恶意评论检测 胶囊网络 局部特征 全局特征
下载PDF
基于联合情感的多任务谣言检测方法
4
作者 马儀 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期642-653,共12页
情感分析在社交媒体谣言检测中有重要作用,现有的谣言检测方法侧重于使用文章的情感特征,忽略了用户评论与文章的联合情感,单任务深度学习谣言检测方法缺少足够的标签数据导致准确率难以提升.为解决上述问题,基于谣言检测与联合情感检... 情感分析在社交媒体谣言检测中有重要作用,现有的谣言检测方法侧重于使用文章的情感特征,忽略了用户评论与文章的联合情感,单任务深度学习谣言检测方法缺少足够的标签数据导致准确率难以提升.为解决上述问题,基于谣言检测与联合情感检测两个任务的相关性,提出了多任务联合学习的谣言检测方法,在同一模型中实现联合情感检测以及谣言检测两个任务.首先,构建编码器提取文章及对应评论的语义特征并映射到同一语义空间,并通过注意力机制加权融合语义特征;其次,通过基于公共情感分类器与情感词典共同构建的情感提取网络提取文章与对应评论的情感特征;最后,将语义特征与联合情感特征融合后输入到两个共享损失函数的分类器中,分别得到谣言检测和联合情感检测的分类结果.实验结果表明,多任务模型的效果强于单任务模型,在公开的中文Weibo-16数据集、英文Twitter-15数据集上相较于对比方法中最好的方法,提出的模型在准确率上分别提升了3.5和2.9个百分点,F1值提高了3.1和3.9个百分点. 展开更多
关键词 谣言检测 用户评论 联合情感 多任务学习
下载PDF
基于多种分词情况的中文命名实体识别
5
作者 田地 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期350-356,共7页
针对中文词语边界不明确,词语和句子上下文关系被忽略的问题,设计一种基于多种分词情况的歧义分词信息抑制算法.在预处理中根据预训练的词汇频率表计算语句中不同分词的权重,将最有可能的分词情况与其他分词情况进行区分,合并至语句中,... 针对中文词语边界不明确,词语和句子上下文关系被忽略的问题,设计一种基于多种分词情况的歧义分词信息抑制算法.在预处理中根据预训练的词汇频率表计算语句中不同分词的权重,将最有可能的分词情况与其他分词情况进行区分,合并至语句中,在自注意力机制提取语句上下文信息时加入分词权重信息,添加正确分词有效的边界信息,抑制歧义分词错误的前后文关系.对比MarkBert与W2NER算法,在公开数据集Resume、 MSRA、 Weibo、 OntoNotes中的试验结果表明,歧义分词信息抑制算法的预测准确率、句子长度增加时的鲁棒性、数据集增大时的预测准确率均有更好的表现. 展开更多
关键词 命名实体识别 预训练模型 自注意力 词边界信息
下载PDF
低信噪比下基于融合网络的音素识别方法
6
作者 黄辉波 邵玉斌 +1 位作者 龙华 杜庆治 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第4期786-796,共11页
针对低信噪比下音素识别准确率低的问题,提出一种新的识别方法。提取语音的Fbank特征,输入到由多头注意力机制、ResNet、BLSTM、CTC构建的A-R-B-CTC模型中进行音素识别,利用Wave-U-Net对语音特征Fbank、MFCC、GFCC、对数频谱进行图像去... 针对低信噪比下音素识别准确率低的问题,提出一种新的识别方法。提取语音的Fbank特征,输入到由多头注意力机制、ResNet、BLSTM、CTC构建的A-R-B-CTC模型中进行音素识别,利用Wave-U-Net对语音特征Fbank、MFCC、GFCC、对数频谱进行图像去噪,发现Fbank特征去噪后,可以取得更低的音素错误率。在0 dB白噪声环境下采用THCHS30数据集进行实验验证。结果表明,Fbank去噪前,所提A-R-B-CTC模型相比于BLSTM-CTC、ResNet-BLSTM-CTC、Transformer模型,平均音素错误率分别降低了4.38%、2.5%、1.96%;Fbank去噪后,4种模型的音素错误率明显下降,其中所提A-R-B-CTC模型相比于其他3种模型性能依旧出色。此外,在其他信噪比下也达到了不错的效果。 展开更多
关键词 音素识别 Wave-U-Net 端到端 多头自注意力机制 Transformer模型
下载PDF
基于主成分的频谱迭代稀疏化语音增强方法
7
作者 董娴 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期229-237,共9页
针对现有频谱稀疏化方法在复杂环境语音增强上性能不佳的问题,提出一种基于主成分分析的迭代频谱稀疏化方法.首先,对输入信号的语谱图进行二维中值滤波处理,得到行分量频谱和列分量频谱;对包含语音主音的行分量频谱序列进行主成分分析(P... 针对现有频谱稀疏化方法在复杂环境语音增强上性能不佳的问题,提出一种基于主成分分析的迭代频谱稀疏化方法.首先,对输入信号的语谱图进行二维中值滤波处理,得到行分量频谱和列分量频谱;对包含语音主音的行分量频谱序列进行主成分分析(PCA),以去除噪声部分并保留主要语音结构;然后联合列分量频谱序列和缩放因子进行混合重构原信号,并采用动态缩放因子实现对列分量频谱噪声的有效控制.在此基础上,利用稀疏化对噪声的抑制作用,对频谱进行多次稀疏化,以减弱噪声.实验结果表明,该方法增强了不同类型噪声下语音的信噪比,包括White、Pink、Babble、Volvo和Factory等五种噪声,输入信噪比为15 dB,所提方法的信噪比分别提升了13.89 dB,11.97 dB,5.65 dB,5.26 dB和4.73 dB,该方法在其他信噪比下也能有效地抑制噪声和保留有效特征信息,并减少因背景噪声引起的语音失真. 展开更多
关键词 语音增强 多维度频谱分析 谱稀疏化 主成分分析
下载PDF
基于新闻文本图像的鲁棒水印算法
8
作者 刘尧 杜庆治 +3 位作者 马迪南 龙华 邵玉斌 黄喜阳 《现代电子技术》 北大核心 2024年第3期43-50,共8页
在新闻文本图像中,现有的水印算法没有将表达文本部分的区域与其他背景区域进行区分,并且对二值水印图像嵌入时只在单通道嵌入导致鲁棒性不高。针对以上问题,提出基于新闻文本图像的鲁棒水印算法。首先将新闻文本图像进行大津阈值分割(O... 在新闻文本图像中,现有的水印算法没有将表达文本部分的区域与其他背景区域进行区分,并且对二值水印图像嵌入时只在单通道嵌入导致鲁棒性不高。针对以上问题,提出基于新闻文本图像的鲁棒水印算法。首先将新闻文本图像进行大津阈值分割(OSTU),将文本与背景区域区分开,选择文本区域进行嵌入加深对重要信息的版权保护;接着将文本图像Cr和Cb通道的文本区域进行离散小波变换(DWT)后,利用主成分分析(PCA)进行能量集中并计算各主成分贡献率,通过比较贡献率来选择嵌入的主成分;最后对主成分及水印图像进行奇异值分解(SVD)完成水印嵌入。经过实验表明,嵌入水印图像在面对滤波等大多数常规攻击的NC值都在0.99以上,表明该算法有较强的鲁棒性,同时该算法在嵌入水印后图像的PSNR均值为45.66 dB,保证了不可感知性。 展开更多
关键词 图像水印 大津阈值分割 主成分分析 小波变换 奇异值分解 NC值
下载PDF
基于双向胶囊网络的恶意评论检测
9
作者 李公瑾 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《计算机工程与科学》 CSCD 北大核心 2024年第10期1765-1774,共10页
为了解决现有检测模型无法准确识别语言风格多变、语意隐晦的恶意评论问题,提出了一种基于双向胶囊网络的恶意评论检测模型。首先,利用BERT模型对评论文本进行词嵌入,创建输入矩阵;其次,将输入矩阵传递给双向特征提取层,该层由堆叠的LST... 为了解决现有检测模型无法准确识别语言风格多变、语意隐晦的恶意评论问题,提出了一种基于双向胶囊网络的恶意评论检测模型。首先,利用BERT模型对评论文本进行词嵌入,创建输入矩阵;其次,将输入矩阵传递给双向特征提取层,该层由堆叠的LSTM、双向胶囊网络和注意力网络组成,从正向和反向同时捕获文本的深层语义信息,将生成的正向和反向矩阵拼接起来并输入到注意力机制中,聚焦与恶意评论相关的词语并生成输出向量;再次,拼接输出向量与语境辅助特征向量,丰富特征表示;最后,将拼接向量输入到全连接层中,通过Sigmoid激活函数对评论文本进行分类。在维基百科恶意评论数据集上进行的实验表明,相较于现有研究,基于双向胶囊网络的恶意评论检测模型性能提升显著,能够捕获评论文本中更丰富的语义信息,有效检测恶意评论。 展开更多
关键词 BERT语言模型 双向胶囊网络 语境辅助特征 恶意评论检测
下载PDF
结合混合特征提取与深度学习的长文本语义相似度计算
10
作者 徐捷 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《计算机工程与科学》 CSCD 北大核心 2024年第8期1513-1520,共8页
文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征... 文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征提取模型,提取出长文本的主要语义信息;对提取的语义信息使用滑窗重叠的方法输入BERT预训练模型得到文本向量表示;然后,通过双向长短期记忆网络建模长文本的前后语义联系,将其映射到语义空间内;再通过线性层增加模型表示能力;最后,通过相似语义向量内积最大化和交叉熵损失函数进行微调。实验结果表明,该模型在CNSE和CNSS数据集上F1分数分别为0.84和0.91,性能优于基线模型。 展开更多
关键词 长文本语义相似度 特征提取 BERT预训练模型 语义空间
下载PDF
谐波结构相位估计联合幅度补偿的语音增强方法
11
作者 董娴 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第5期935-944,共10页
传统语音增强方法,通常只对含噪语音信号的幅度进行增强处理,忽略了相位信息。相位谱在语音的可懂度和感知质量方面也具有积极影响。为了解决传统语音增强方法对相位处理的不足以及在语音增强过程中普遍存在的可理解性较低的问题,提出... 传统语音增强方法,通常只对含噪语音信号的幅度进行增强处理,忽略了相位信息。相位谱在语音的可懂度和感知质量方面也具有积极影响。为了解决传统语音增强方法对相位处理的不足以及在语音增强过程中普遍存在的可理解性较低的问题,提出一种谐波结构相位估计联合幅度补偿的语音增强方法,该方法强调谐波结构的相位估计恢复浊音信息,并针对由浊音相位估计后清音特征被背景噪声破坏引起的语音信息丢失问题,提出一种平滑背景噪声策略来抑制噪声的影响。此外,还利用谐波比分离谐波结构和清音特征,基于谐波判决来判断是否应该平滑背景噪声,为避免不可靠的判决导致清音特征损失,在谐波判决的基础上还增加了清音特征信息的利用。实验结果表明,该方法在白噪声环境下的信噪比(signal to noise ratio,SNR)、语音质量感知评估(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)分别提升了12.02 dB,1.03和0.07,进一步证实该方法可以有效减少语音失真,提高噪声环境下语音信号质量和可懂度。 展开更多
关键词 相位估计 语音增强 谐波结构 幅度补偿
下载PDF
面向语种识别的声学特征提取改进研究
12
作者 周大春 邵玉斌 +1 位作者 张昊阁 杜庆治 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期195-205,共11页
在进行语种识别研究时,使用的声学特征矩阵维度往往很高,为了解决语种识别中声学特征维度过高的问题,本文提出一种声学特征提取过程改进方法.对一些常用的声学特征进行统计特性分析,再结合其提取流程及部分文献论证,通过计算特征各维在... 在进行语种识别研究时,使用的声学特征矩阵维度往往很高,为了解决语种识别中声学特征维度过高的问题,本文提出一种声学特征提取过程改进方法.对一些常用的声学特征进行统计特性分析,再结合其提取流程及部分文献论证,通过计算特征各维在帧上的均值,再对其进行向量归一化消除量纲的影响得到改进后的特征,实现了将传统特征矩阵优化为一维特征向量.最后,根据改进后特征的特性,在2个不同的数据集下,选取BP神经网络和支持向量机作为基线系统进行语种识别实验.实验结果表明,对于目前常用的5种声学特征,所提改进方法相比于传统做法,在降低了99.8%的数据量情况下,数据集1在2种模型下仍能取得95.6%的平均识别率,数据集2在2种模型下仍能取得90.2%的平均识别率.此外,由于所提方法降低了大部分的计算量,使得算法能够更适应硬件设施相对较弱的嵌入式环境,扩大了算法的使用场景. 展开更多
关键词 语种识别 声学特征 统计特性 特征提取
下载PDF
基于非线性语谱图联合判决的语种识别
13
作者 段云 邵玉斌 +1 位作者 龙华 杜庆治 《微电子学与计算机》 2024年第5期99-108,共10页
针对灰度对数语谱图对基频拉伸幅度过大,短时长语音识别率提升受限的问题,提出一种非线性语谱图联合判决的语种识别方法。首先,对语音进行能量归一化,提取对数功率谱,将频率刻度按照人耳听觉感知进行非线性映射得到非线性语谱图。然后,... 针对灰度对数语谱图对基频拉伸幅度过大,短时长语音识别率提升受限的问题,提出一种非线性语谱图联合判决的语种识别方法。首先,对语音进行能量归一化,提取对数功率谱,将频率刻度按照人耳听觉感知进行非线性映射得到非线性语谱图。然后,将非线性语谱图按词关联特性进行等间隔拆分,在ResNet网络后端加入联合判决层;输出语音所属语种类型。实验结果表明,所提方法有效改善灰度对数语谱图的缺点,识别性能均高于语谱图及改进特征。联合判决对切分时长为1.0 s的样本语音取得的识别效果最佳,在广播音频数据集中,识别率达到94.25%;在VoxForge公共语料集中,识别率达到98.94%。 展开更多
关键词 语种识别 语谱图 非线性 联合判决 神经网络
下载PDF
基于Arnold-DWT-QR的脆弱性图像水印算法
14
作者 黄喜阳 杜庆治 +3 位作者 马迪南 龙华 邵玉斌 刘尧 《陕西理工大学学报(自然科学版)》 2024年第1期65-72,共8页
在人物新闻图像中,人眼视觉更关注于人脸高频细节部分,为实现含水印的人物新闻图像受到任何微弱攻击情况下均不能完整提取出水印信息,且具有较好的不可感知性,提出了一种Arnold置乱结合离散小波变换(DWT)、正交三角分解法(QR)的脆弱性... 在人物新闻图像中,人眼视觉更关注于人脸高频细节部分,为实现含水印的人物新闻图像受到任何微弱攻击情况下均不能完整提取出水印信息,且具有较好的不可感知性,提出了一种Arnold置乱结合离散小波变换(DWT)、正交三角分解法(QR)的脆弱性图像水印算法。首先将水印图像进行Arnold置乱加密,再提取载体图像B通道中人眼不敏感的低频细节部分进行QR分解,最后将Arnold置乱加密后的水印图像QR分解后嵌入在载体图像矩阵R中每一个元素,使较少的水印信息均嵌入在载体图像的每一个像素中。实验结果表明,该算法在未受攻击情况下平均峰值信噪比(PSNR)为51 dB,归一化相关系数(NC)为1.0,在任何强度的攻击下均无法提取完整水印图像,具有较好的人物新闻图像认证能力。 展开更多
关键词 脆弱性图像水印 ARNOLD置乱 离散小波变换 QR分解 图像认证
下载PDF
基于新闻人物图像的水印算法
15
作者 刘尧 杜庆治 +2 位作者 龙华 邵玉斌 黄喜阳 《信息安全与通信保密》 2024年第6期74-84,共11页
现有的图像水印算法在针对新闻人物图像时没有将人物与背景区域区分,而攻击者以盗版为目的,会聚焦到人物区域。为了对人物区域进行更好保护,提出了一种基于新闻人物图像的水印算法。首先,将人物与背景区域区分,由图像各通道的四元数加... 现有的图像水印算法在针对新闻人物图像时没有将人物与背景区域区分,而攻击者以盗版为目的,会聚焦到人物区域。为了对人物区域进行更好保护,提出了一种基于新闻人物图像的水印算法。首先,将人物与背景区域区分,由图像各通道的四元数加权系数得到图像的三通道相关分量,对其进行离散小波变换后再得到子带相关分量;其次,使用SIFT算法找到复杂的纹理区域上的特征点,根据特征点进行水印嵌入。经过实验,2张人物图像嵌入水印后的PSNR值都在48 dB以上,人物区域的PSNR值也都超过44 dB。在进行各种常规攻击后,所提算法几乎都能完整提取出水印信息,并且在与其他算法进行对比时,拥有更好的鲁棒性。 展开更多
关键词 水印 新闻人物图像 四元数 小波变换
下载PDF
噪声环境下听觉特征融合的语种识别 被引量:1
16
作者 黄张衡 龙华 +3 位作者 邵玉斌 杜庆治 苏树盟 王延凯 《现代电子技术》 2023年第5期47-54,共8页
针对单一信号特征CFCC与GFCC在低信噪比下识别率不高的问题,提出一种噪声环境下听觉特征融合的语种识别方法。在特征提取前端对含噪语音信号进行端点检测,然后结合谱减法与维纳滤波器对信号进行噪声滤除;再根据人耳听觉频率集中范围采... 针对单一信号特征CFCC与GFCC在低信噪比下识别率不高的问题,提出一种噪声环境下听觉特征融合的语种识别方法。在特征提取前端对含噪语音信号进行端点检测,然后结合谱减法与维纳滤波器对信号进行噪声滤除;再根据人耳听觉频率集中范围采用带通滤波器滤除高频以及低频中噪声,进一步减小噪声对信号特征提取的影响;提取GFCC融入CFCC构成融合特征,再采用主成分分析对融合特征进行降维处理;最后将处理后的融合特征通过频域注意力Fcanet网络模型进行分类识别。实验对比不同特征在不同信噪比下的性能实验表明,融合特征较单一特征语种识别率有显著提升,特别在0 dB信噪比下较单一特征GFCC和CFCC识别准确率分别提升了9.75%和11.08%,具有较强的鲁棒性。 展开更多
关键词 语种识别 信号端点检测 噪声滤除 带通滤波 特征提取 特征识别 降维处理
下载PDF
基于改进语谱图的深度学习说话人识别 被引量:1
17
作者 马志举 杜庆治 +1 位作者 龙华 邵玉斌 《现代电子技术》 2023年第21期32-38,共7页
为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图... 为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进。在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果。网络模型采用MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用。在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%。 展开更多
关键词 语谱图 基音频率 梳状滤波器 深度学习 说话人识别 深度可分离卷积
下载PDF
基于MFCC特征融合的语音情感识别算法 被引量:2
18
作者 黄喜阳 杜庆治 +1 位作者 龙华 邵玉斌 《陕西理工大学学报(自然科学版)》 2023年第4期17-25,共9页
在目前语音情感识别中,采用单一梅尔倒谱系数(MFCC)频谱的方法不能完全体现语音中所包含的情感特性,而多特征融合容易导致维数过大。提出了一种融合MFCC及其差分频谱的双向长短时记忆网络结合卷积神经网络(Bi-LSTM-CNN)的语音情感识别... 在目前语音情感识别中,采用单一梅尔倒谱系数(MFCC)频谱的方法不能完全体现语音中所包含的情感特性,而多特征融合容易导致维数过大。提出了一种融合MFCC及其差分频谱的双向长短时记忆网络结合卷积神经网络(Bi-LSTM-CNN)的语音情感识别算法。首先提取语音信号的MFCC特征,并进行差分运算得到一阶、二阶差分特征提取频谱,再采用主成分分析法分别获取3个频谱中贡献度较高的维度组成新的频谱,达到降维目的,并将降维后的3个特征频谱从上到下依次进行堆叠,得到动、静结合的MFCC差分融合频谱。训练阶段Bi-LSTM-CNN模型从特征融合频谱中学习语音情感特性,并采用稀疏交叉熵法得到最优结果。实验结果表明在RAVDESS数据集上准确率为81.32%,在EMO-DB数据集上对情感识别的准确率为85.51%,比主流情感识别模型的准确率提高了4.85%。 展开更多
关键词 语音情感识别 主成分分析法 双向长短时记忆网络 MFCC差分融合频谱 深度学习
下载PDF
基于反事实注意力学习的ResNeSt网络语种识别 被引量:1
19
作者 陈思竹 龙华 邵玉斌 《中国电子科学研究院学报》 北大核心 2023年第12期1138-1145,共8页
深度学习方法在图像识别领域得到大量研究和应用,也逐渐被应用于语种识别。针对深度学习语种识别模型中所用二维特征图语种间相似度大,容易混淆的问题,提出基于反事实注意力学习的ResNeSt语种识别模型。在建立云南边境语种广播语音数据... 深度学习方法在图像识别领域得到大量研究和应用,也逐渐被应用于语种识别。针对深度学习语种识别模型中所用二维特征图语种间相似度大,容易混淆的问题,提出基于反事实注意力学习的ResNeSt语种识别模型。在建立云南边境语种广播语音数据集的基础上,首先,提取MFCC、Fbank和语谱图作为FcaNet、ResNet和ResNeSt三种网络的输入,对比三种网络下不同信噪比不同语音特征的识别效果,得出在语种识别任务中综合表现最佳的网络模型ResNeSt和语音特征Fbank;接着,在识别效果最佳的ResNeSt网络模型中引入反事实注意力学习模块,利用反事实因果关系来衡量ResNeSt网络中注意力特征的质量,促使网络学习更加有效的注意力特征,以此提高网络训练效果。实验结果表明,加入反事实注意力学习后,Fbank特征语种识别率较基线系统提升1.61%,对于MFCC、Fbank和语谱图三种特征,基于反事实注意力学习的ResNeSt网络较基线ResNeSt网络平均提升1.33%。反事实注意力学习帮助注意力机制关注更多重要语种区分性信息,有效提升了网络模型在语种识别任务中的识别效果。 展开更多
关键词 语种识别 反事实注意力学习 ResNeSt 语音特征
下载PDF
基于倒谱图像的语音回声隐写分析方法
20
作者 唐军豪 杜庆治 +2 位作者 龙华 邵玉斌 李一民 《数据采集与处理》 CSCD 北大核心 2023年第6期1469-1481,共13页
语音信号回声隐写后其倒谱系数会在回声延迟出产生峰值,传统回声隐写分析主要采用倒谱系数的统计特征作为隐写检测特征,然而在低回声幅度时隐写信号倒谱系数的峰值并不明显,基于统计特征的方法检测性能并不理想。本文将倒谱分析与图像... 语音信号回声隐写后其倒谱系数会在回声延迟出产生峰值,传统回声隐写分析主要采用倒谱系数的统计特征作为隐写检测特征,然而在低回声幅度时隐写信号倒谱系数的峰值并不明显,基于统计特征的方法检测性能并不理想。本文将倒谱分析与图像识别技术结合,提出了一种基于倒谱图像的语音回声隐写分析方法,对语音信号分帧加窗后进行倒谱计算,然后以时间为横轴,倒谱序列点为纵轴,倒谱系数幅值为灰度级生成倒谱图像,将生成的倒谱图像作为隐写检测的输入,采用残差神经网络作为分类器进行回声隐写分析。实验结果表明,在3种经典回声隐写算法上低回声幅度时检测准确率分别达到98.2%、98.6%和96.1%,本文方法在低回声幅度时检测准确率相较传统回声隐写分析方法有较大提升,解决了传统回声隐写分析方法在低回声幅度检测效果不佳的问题。 展开更多
关键词 回声隐写 语音隐写分析 倒谱 图像识别 残差神经网络
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部