期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
供应链质量追溯的烟草叶片图像帧特征动态识别方法
1
作者 李进 岳华峰 +2 位作者 程生博 彭一帆 黄备备 《计算技术与自动化》 2024年第1期111-116,共6页
目前叶片特征识别方法多依据叶片颜色识别叶片形状、脉络等特征,导致识别的图像特征存在清晰度低的问题,提出了生产线质量追溯的烟草叶片图像帧特征动态识别方法。采用无线网络硬盘录像机设置叶片图像采集流程,采集生产线质量追溯时的... 目前叶片特征识别方法多依据叶片颜色识别叶片形状、脉络等特征,导致识别的图像特征存在清晰度低的问题,提出了生产线质量追溯的烟草叶片图像帧特征动态识别方法。采用无线网络硬盘录像机设置叶片图像采集流程,采集生产线质量追溯时的烟草叶片图像,并且引入直方图均衡化、灰度化、降噪预处理技术,预处理叶片图像;引入四叉树分裂算法分割烟草叶片图像,从叶片的纹理着手,通过分形维数、缝隙量、能量、熵、对比度、对比度和相关性特征提取技术,提取叶片图像帧纹理复杂程度、疏密程度、灰度、信息量、清晰度和线性相关度特征;根据图像帧特征提取结果,使用DS合成算法动态识别烟草叶片图像帧特征。结果分析:此次研究方法应用后,提取的雪茄烟叶片脉络特征清晰度分别提升8.2、2.68;白肋烟叶片脉络特征清晰度分别提升7.56、1.5。 展开更多
关键词 生产线质量追溯 烟草叶片 图像 帧特征 特征动态性 动态识别
下载PDF
基于边缘检测及RBF神经网络的遥感图像帧特征动态识别技术
2
作者 薛薇 张锋 +2 位作者 凡静 王博 李娜 《计算机测量与控制》 2023年第7期163-168,共6页
为解决分辨率超限问题,实现对遥感图像帧特征对象的精准识别,提出基于边缘检测及RBF神经网络的遥感图像帧特征动态识别技术;求解微分算子与OTSU阈值,并以此为基础,确定边缘节点追踪参数的取值范围,实现对遥感图像边缘检测;根据RBF神经... 为解决分辨率超限问题,实现对遥感图像帧特征对象的精准识别,提出基于边缘检测及RBF神经网络的遥感图像帧特征动态识别技术;求解微分算子与OTSU阈值,并以此为基础,确定边缘节点追踪参数的取值范围,实现对遥感图像边缘检测;根据RBF神经网络机制的构建标准,推导神经性激活函数,完成RBF神经网络识别模型的设计;在所选遥感图像中,实施帧特征分割处理,再联合动态合并条件,计算超像素指标与并行识别参量,完成基于边缘检测及RBF神经网络的遥感图像帧特征动态识别方法的设计;实验结果表明,在边缘检测与RBF神经网络模型的作用下,主机元件在长、宽、高3个方向上对于遥感图像帧特征对象的识别精度都达到了100%,分辨率超限问题得到较好解决,符合精准识别遥感图像特征的实际应用需求。 展开更多
关键词 边缘检测 RBF神经网络 遥感图像 帧特征 动态识别 OTSU阈值 神经性激活函数 超像素
下载PDF
基于帧特征、段特征联合建模的语音识别模型 被引量:3
3
作者 韩疆 尹宝林 《声学学报》 EI CSCD 北大核心 2000年第2期182-190,共9页
提出了基于帧特征、段特征联合建模的语音识别模型。该模型采用描述谱参数轨迹的段特征,在段尺度上实现了对语音信号帧间相关性的显式建模;采用段特征依赖的非平稳时间序列产生模型,实现了段特征与帧特征间的相关性建模,并在帧尺度... 提出了基于帧特征、段特征联合建模的语音识别模型。该模型采用描述谱参数轨迹的段特征,在段尺度上实现了对语音信号帧间相关性的显式建模;采用段特征依赖的非平稳时间序列产生模型,实现了段特征与帧特征间的相关性建模,并在帧尺度上通过参数化的均值轨迹函数,实现了对语音信号帧间相关性的隐式建模。本文给出了基于帧特征、段特征联合统计距离优化的分段算法以及内嵌EM迭代的模型参数估计算法。对非特定人汉语孤立韵母以及多话者汉语基本音节的识别实验表明,该模型的识别性能优于标准HMM及趋势HMM。 展开更多
关键词 帧特征 特征 联合建模 语音识别 汉语
下载PDF
基于相邻帧特征相似性的快速关键词检出方法
4
作者 袁浩 李海洋 +1 位作者 郑铁然 韩纪庆 《计算机工程》 CAS CSCD 2012年第7期287-289,共3页
针对关键词检出系统中计算观察概率效率较低的问题,在最近邻近似方法的基础上,提出一种基于相邻帧特征相似性的方法。依据相邻帧之间的高相似性,利用产生前一帧特征矢量的若干个最大的混合分量,有效预测当前帧所使用的最大高斯混合分量... 针对关键词检出系统中计算观察概率效率较低的问题,在最近邻近似方法的基础上,提出一种基于相邻帧特征相似性的方法。依据相邻帧之间的高相似性,利用产生前一帧特征矢量的若干个最大的混合分量,有效预测当前帧所使用的最大高斯混合分量,从而快速计算观察概率。实验结果表明,与基线系统相比,该方法在保持识别性能的前提下,识别时间可降低29.3%。 展开更多
关键词 语音识别 关键词检出 GMM估算 在线垃圾模型 相邻帧特征相似性 隐马尔科夫模型
下载PDF
基于通道和帧级特征注意力模型的环境声音识别
5
作者 苏瑞轩 葛动元 姚锡凡 《科学技术与工程》 北大核心 2024年第16期6792-6798,共7页
为了对环境声音进行更好的识别,提出基于通道和帧级特征注意力的环境声音识别卷积神经网络模型。该模型针对声音特征特点选取一维卷积以提高模型对声音特征信息的提取能力,并引入SE-Res2Net模块实现对声音特征细粒度上的全局感受并帮助... 为了对环境声音进行更好的识别,提出基于通道和帧级特征注意力的环境声音识别卷积神经网络模型。该模型针对声音特征特点选取一维卷积以提高模型对声音特征信息的提取能力,并引入SE-Res2Net模块实现对声音特征细粒度上的全局感受并帮助模型关注特征通道间的信息,在全连接层前加入注意力统计池化模块,增强模型对表征不同声音类别的关键帧级特征的学习以提高模型识别性能。采用Urbansound8K数据集,实验结果表明:所提模型在测试集上的训练准确率达到94.5%,即模型可以有效学习声音特征中表征不同环境声音的关键信息并进行正确预测。对消融实验结果分析可得,所提模型的设计可使其分类错误率的下降率达到43.8%,表明模型对一维卷积的应用和各个模块的引入是有效的,可见所提环境声音识别模型性能优越。 展开更多
关键词 声音识别 细粒度 通道加权 特征 注意力统计池化
下载PDF
一种基于帧序列特征的三流网络人体行为识别方法
6
作者 黄瑞丰 陈冲 +2 位作者 程睿 王旭 张龙凤 《池州学院学报》 2024年第3期21-27,共7页
随着计算机科学和深度学习技术的发展,人体行为识别研究逐渐成为计算机视觉的一个重要课题。目前主流的双流网络模型无法做到在提取图像和运动特征的同时提取视频的帧间序列特征,当局部序列特征与长短时运动特征发生时空交互时,双流网... 随着计算机科学和深度学习技术的发展,人体行为识别研究逐渐成为计算机视觉的一个重要课题。目前主流的双流网络模型无法做到在提取图像和运动特征的同时提取视频的帧间序列特征,当局部序列特征与长短时运动特征发生时空交互时,双流网络模型鲁棒性严重降低。针对于此,提出了一种基于视频序列特征的三流网络人体行为识别方法。通过预处理将视频的稠密光流帧输入时间网络,RGB帧输入空间网络和帧序列特征提取网络,同时对三个网络进行预训练。网络输出其对应的特征后使用权重相加的融合方法进行特征融合,最后采用多层感知机得到行为分类结果。将该方法分别在UCF11、UCF50和HMDB51数据集进行实验,得到行为分类准确率分别为99.17%、97.40%和96.88%。与传统的双流网络方法相比,该方法有效综合了行为的空间信息,时间信息和帧序列信息,识别准确率得到较大提升,具有更强的泛化能力。 展开更多
关键词 人体行为识别 三流网络 序列特征 UCF11 UCF50 HMDB51
下载PDF
一种结合帧级特征预测的多任务学习声纹确认方法
7
作者 李晋 《长江信息通信》 2023年第6期1-4,共4页
目前主流的声纹确认算法通常采用有监督、区分性的训练方式得到神经网络模型,如卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆网络(Long-Short-Term Memory Network,LSTM)等,再利用该神经网络模型提取语音中包含个性化... 目前主流的声纹确认算法通常采用有监督、区分性的训练方式得到神经网络模型,如卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆网络(Long-Short-Term Memory Network,LSTM)等,再利用该神经网络模型提取语音中包含个性化信息的声纹模型向量,从而进行相同人或不同人的声纹相似性比对。文章提出一种结合帧级特征预测的多任务学习训练方式,额外增加对帧级特征进行预测的神经网络模型分支,通过联合训练达到提高声纹确认算法性能的目的。在基准VoxCeleb三个测试集合上开展的实验结果表明,本文提出的方法可以有效提升声纹确认算法性能。 展开更多
关键词 声纹确认 多任务学习 特征预测
下载PDF
基于多帧信息的多传感器融合三维目标检测 被引量:1
8
作者 吴绍斌 耿家琳 +2 位作者 吴超 闫泽新 陈恺宇 《北京理工大学学报》 EI CAS CSCD 北大核心 2023年第12期1282-1289,共8页
为提高三维目标检测中多传感器融合的效果,并利用前后帧之间的特征关联,提高目标检测的准确率,提出了一种基于多帧信息的多传感器特征融合三维目标检测网络.首先通过基于指导点的特征映射模块,将图像相机视角特征转换为鸟瞰图特征,并通... 为提高三维目标检测中多传感器融合的效果,并利用前后帧之间的特征关联,提高目标检测的准确率,提出了一种基于多帧信息的多传感器特征融合三维目标检测网络.首先通过基于指导点的特征映射模块,将图像相机视角特征转换为鸟瞰图特征,并通过自适应融合模块对点云特征和图像特征进行融合;之后利用历史帧跟踪信息,融合多帧特征;最后采用基于CenterPoint检测头进行目标检测.在nuScenes数据集和实车上对三维目标检测网络进行了测试,试验结果表明该网络具有更高的精度和实时性. 展开更多
关键词 目标检测 多传感器融合 帧特征
下载PDF
利用全局与局部帧级特征进行基于共享注意力的视频问答 被引量:1
9
作者 王雷全 候文艳 +3 位作者 袁韶祖 赵欣 林瑶 吴春雷 《计算机科学》 CSCD 北大核心 2021年第8期145-149,共5页
视频问答是视觉理解领域中非常重要且具有挑战性的任务。目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频。此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获... 视频问答是视觉理解领域中非常重要且具有挑战性的任务。目前的视觉问答(VQA)方法主要关注单个静态图片的问答,而现实生活中的数据是立体动态的视频。此外,由于问题的复杂性,视频问答任务必须根据问答问题恰当地处理多种视觉特征才能获得高质量的答案。文中提出了一个通过利用局部和全局帧级别的视觉信息来进行视频问答的多共享注意力网络。具体来说,以不同帧率提取视频帧,并以此提取帧级的全局与局部视觉特征,这两种特征包含了多个帧级别特征,用于对视频时间动态建模,再以共享注意力的形式建模全局与局部视觉特征的相关性,然后结合文本问题来推断答案。在天池视频问答数据集上进行了大量的实验,验证了所提方法的有效性。 展开更多
关键词 视频问答 共享注意力机制 全局和局部特征
下载PDF
基于复数帧段特征的语音情感识别方法
10
作者 张霞 杨勇 赵力 《电子器件》 CAS 北大核心 2022年第2期479-482,共4页
提出了一种基于复数帧段特征的语音情感识别方法,采用相继的复数帧组成的特征参数矢量作为语音情感识别GMM的输入,能有效地在语音情感识别GMM中引入帧间相关动态信息,同时为了改善复数帧段输入GMM的输出概率密度函数性能,在GMM的前端增... 提出了一种基于复数帧段特征的语音情感识别方法,采用相继的复数帧组成的特征参数矢量作为语音情感识别GMM的输入,能有效地在语音情感识别GMM中引入帧间相关动态信息,同时为了改善复数帧段输入GMM的输出概率密度函数性能,在GMM的前端增加语音帧段参数压缩的主分量分析神经网络(PCANN)。语音情感识别实验证实了引入帧间相关动态信息方法的有效性,新方法在识别率上较状态输出独立GMM方法有一定程度的提升。 展开更多
关键词 语音情感识别 高斯混合模型 主分量分析神经网络 复数特征
下载PDF
基于三特征预测的海杂波中小目标检测方法
11
作者 董云龙 张兆祥 +2 位作者 丁昊 黄勇 刘宁波 《雷达学报(中英文)》 EI CSCD 北大核心 2023年第4期762-775,共14页
特征检测方法是解决海杂波中小目标检测问题的重要途径,其根据特征值是否在判决区域内判断目标有无,几乎不考虑特征间的时序信息。事实上,历史帧数据与当前帧数据的时序关联性,可以为当前帧特征值的计算提供丰富的先验信息。为此,该文... 特征检测方法是解决海杂波中小目标检测问题的重要途径,其根据特征值是否在判决区域内判断目标有无,几乎不考虑特征间的时序信息。事实上,历史帧数据与当前帧数据的时序关联性,可以为当前帧特征值的计算提供丰富的先验信息。为此,该文提出了一种使用自回归(AR)模型在特征域对雷达回波进行时序建模和预测的方法,以利用历史帧特征的先验信息。首先,使用AR模型对平均幅度(AA)、相对多普勒峰高(RDPH)、频谱峰均比(FPAR)特征序列进行建模和1步预测分析,验证了对特征序列进行AR建模和预测的可行性。其次,提出利用历史帧特征时序信息作为先验信息的特征值提取方法,在此基础上,提出一种基于三特征预测的小目标检测方法,该方法可有效利用AA,RDPH和FPAR的历史帧特征时序信息。最后,使用实测数据验证了所提方法的有效性。 展开更多
关键词 目标检测 海杂波 历史帧特征 先验信息 特征预测
下载PDF
基于帧级特征的端到端说话人识别 被引量:2
12
作者 花明 李冬冬 +1 位作者 王喆 高大启 《计算机科学》 CSCD 北大核心 2020年第10期169-173,共5页
现有的说话人识别方法仍存在许多不足。基于话语级特征输入的端到端方法由于语音长短不一致需要将输入处理为同等大小,而特征训练加后验分类的两阶段方法使得识别系统过于复杂,这些因素都会影响模型的性能。文中提出了基于帧级特征的端... 现有的说话人识别方法仍存在许多不足。基于话语级特征输入的端到端方法由于语音长短不一致需要将输入处理为同等大小,而特征训练加后验分类的两阶段方法使得识别系统过于复杂,这些因素都会影响模型的性能。文中提出了基于帧级特征的端到端说话人识别方法。模型采用帧级语音作为输入,同等大小的帧级特征有效解决了话语级语音输入长度不一致的问题,且帧级特征可保留更多的话者信息。与如今主流的两阶段法识别系统相比,端到端的识别方法将特征训练和分类打分一体化,简化了模型的复杂性。在训练阶段,每段语音被分帧成多个帧级语音输入到卷积神经网络(Convolutional Neural Networks,CNN)用于训练模型。在评估阶段,训练好的CNN模型对帧级语音进行分类,每段语音基于多个帧的预测得分计算该条语音数据的预测类别。每段语音的类别通过取各帧最多预测类别和各帧预测值平均的方法来计算。为了验证方法的有效性,使用普通话情感语音语料库(MASC)的语音数据进行训练和测试。实验结果表明,与现有方法相比,基于帧级特征的端到端识别方法的性能表现更佳。 展开更多
关键词 说话人识别 端到端 卷积神经网络 特征 话语级语音
下载PDF
基于特征帧构建的运动目标检测方法 被引量:2
13
作者 卢志茂 刘明华 刘晨 《红外与激光工程》 EI CSCD 北大核心 2012年第7期1959-1963,共5页
非参数密度估计在样本分析建模方面得到了很大的关注,尤其是核密度估计方法。但由于核密度估计方法计算量大,应用到运动目标检测方面很难达到实时效果。提出了一种特征帧构建的核密度估计方法。因为核密度估计不需要假设背景模型的密度... 非参数密度估计在样本分析建模方面得到了很大的关注,尤其是核密度估计方法。但由于核密度估计方法计算量大,应用到运动目标检测方面很难达到实时效果。提出了一种特征帧构建的核密度估计方法。因为核密度估计不需要假设背景模型的密度分布函数,所有样本值又满足独立同分布的原则,所以可以通过特征帧构建的方法进行背景建模,同时应用此方法进行背景更新。实验结果表明:该方法能够适应环境变化且具有运算速度快、实时性好等特点,可以将其应用到复杂背景下的监控系统中。 展开更多
关键词 核密度估计 运动目标检测 背景建模 特征
下载PDF
猝发通信特征帧结构与快速同步设计 被引量:1
14
作者 余福荣 陈江 王静雨 《通信技术》 2020年第3期578-583,共6页
猝发扩频通信在时域和频域上实现隐蔽通信,在军事通信中应用广泛。针对猝发扩频通信的传输时间短、安全性与可靠性高的特点,提出了一种可变帧长猝发信号特征帧结构与猝发通信快速同步方法,采用特殊帧结构设计、两层扩频以及分段频偏估... 猝发扩频通信在时域和频域上实现隐蔽通信,在军事通信中应用广泛。针对猝发扩频通信的传输时间短、安全性与可靠性高的特点,提出了一种可变帧长猝发信号特征帧结构与猝发通信快速同步方法,采用特殊帧结构设计、两层扩频以及分段频偏估计技术,具有猝发时间短、捕获速度快、占有资源少等特点,并在原理样机上进行了性能测试验证,长时间可靠性测试捕获概率达到100%,具有高可靠性和工程应用价值。 展开更多
关键词 猝发通信 特征结构 两层扩频 快速同步 频偏估计
下载PDF
基于帧间特征矩阵的同源视频检测 被引量:1
15
作者 张雪梅 康宇哲 沈学文 《软件工程与应用》 2022年第1期130-138,共9页
近年来,随着数字媒体软件的火热,网络中的近重复相似视频呈爆炸似增长,因此快速准确地筛选出海量视频中的同源视频是当下研究的重点课题。针对该课题,本文采取了基于帧间特征矩阵的同源视频检测方案,首先在视频帧间时空关系矩阵的基础... 近年来,随着数字媒体软件的火热,网络中的近重复相似视频呈爆炸似增长,因此快速准确地筛选出海量视频中的同源视频是当下研究的重点课题。针对该课题,本文采取了基于帧间特征矩阵的同源视频检测方案,首先在视频帧间时空关系矩阵的基础上确定视频相应类别,然后进一步通过视频帧间特征序列对比来确认所检测视频是否与该类下的其他视频存在重复片段,并定位重复片段在视频中的位置。当重复片段占比超过一定阈值,即可判定被检测视频为同源视频。实验表明该方法在CC_WEB数据集上平均准确率可达93.2%,由此证明了该方法在保护视频知识产权领域的可用性。 展开更多
关键词 间时空特征 差分法 特征序列
下载PDF
基于多通道帧级筛选的LSTM网络脑电情感识别 被引量:1
16
作者 闫舒羽 李小光 +1 位作者 顾天昊 徐冠华 《国外电子测量技术》 北大核心 2023年第12期94-101,共8页
针对当前脑电(EEG)情感识别技术常受冗余信号干扰的问题,提出了基于多通道帧级筛选长短时记忆网络模型(multi-channel fame-level filtered long short-term memory,MCFL-LSTM)。设计了“多头门控”模块,该模块以拼接的32个通道特征片... 针对当前脑电(EEG)情感识别技术常受冗余信号干扰的问题,提出了基于多通道帧级筛选长短时记忆网络模型(multi-channel fame-level filtered long short-term memory,MCFL-LSTM)。设计了“多头门控”模块,该模块以拼接的32个通道特征片段作为输入,通过多头机制,即采用多个门控单元获取单通道的帧级片段的特征权重,筛选出单通道中重要特征,减少冗余和无意义特征片段的影响。在帧级特征提取后,将维度变换后的32个通道输入门控单元进行通道级筛选,从而获取与当前情感刺激最相关通道,提升模型特征提取能力,增强了识别性能。实验结果表明,方法在DEAP数据集上4个二元分类评估分别达到了87.21%、82.26%、82.98%和87.53%的平均准确度,证明了模型的有效性和鲁棒性。 展开更多
关键词 EEG情感识别 特征筛选 通道级筛选 神经网络 受试者无关
下载PDF
基于双特征匹配层融合的步态识别方法 被引量:5
17
作者 李洪安 杜卓明 +2 位作者 李占利 惠巧娟 白佳豪 《图学学报》 CSCD 北大核心 2019年第3期441-446,共6页
步态识别是根据人类走路的姿态来进行远距离的身份识别。针对轮廓不完整的图像和关键帧容易造成部分信息丢失而引起的识别率下降问题,提出一种基于双特征匹配层融合的步态识别方法。步态既有静态图像特征,又有动态速度变化特征,因此本... 步态识别是根据人类走路的姿态来进行远距离的身份识别。针对轮廓不完整的图像和关键帧容易造成部分信息丢失而引起的识别率下降问题,提出一种基于双特征匹配层融合的步态识别方法。步态既有静态图像特征,又有动态速度变化特征,因此本文提出用匹配层融合方法将静态的Hu矩6个不变矩特征和动态的帧差百分比特征融合后进行步态身份识别。首先对一个周期内的归一化步态图像进行Hu矩特征以及帧差百分比的特征提取,将Hu矩6个不变矩特征描述成一个特征向量,然后运用匹配层融合算法对2个特征进行融合;最后使用K近邻分类器进行身份识别。实验表明,该方法较单一方法能够有效地提高步态识别正确率。 展开更多
关键词 步态识别 Hu矩特征 差百分比特征 匹配层融合
下载PDF
低信噪比下归零Turbo码码长及其帧同步识别 被引量:5
18
作者 吴昭军 张立民 +2 位作者 钟兆根 于柯远 杨芸丞 《电子与信息学报》 EI CSCD 北大核心 2019年第9期2063-2070,共8页
针对目前高斯消元法在归零Turbo码长、帧同步等参数识别过程存在容错性能低且计算复杂度高的缺点,该文提出一种低信噪比(SNR)下基于差分似然差(DLD)的识别算法。首先通过定义差分似然差的概念,利用归零Turbo码帧头两码元差分似然差为正... 针对目前高斯消元法在归零Turbo码长、帧同步等参数识别过程存在容错性能低且计算复杂度高的缺点,该文提出一种低信噪比(SNR)下基于差分似然差(DLD)的识别算法。首先通过定义差分似然差的概念,利用归零Turbo码帧头两码元差分似然差为正值(“+”)的特性,构建分析矩阵实现码长的识别;其次,提出基于最小错误判决准则下的差分似然差“+”位置门限判决方法,完成帧同步;最后,从工程实际出发,遍历寄存器个数的可能值,实现码率、寄存器个数以及交织长度识别。仿真实验表明:所提算法对于归零Turbo码码长、帧同步等参数识别有效,差分似然差“+”位置分布与分析的数据结构特征一致,判决门限能够有效判断差分似然差“+”位置,同时,算法容错性能较强,在信噪比为-5 dB条件下,码长、帧同步等参数识别率能够达到90%以上,并且算法的复杂度远小于现有算法。 展开更多
关键词 归零Turbo码 差分似然差 结构特征 码长 同步 识别
下载PDF
基于2DPCA特征降维的CNN说话人识别 被引量:1
19
作者 张学祥 雷菊阳 《软件导刊》 2022年第1期131-135,共5页
针对使用话语级特征参数矩阵作为卷积神经网络输入而导致收敛速度慢及识别率低的问题,提出一种基于二维主成分分析(2DPCA)特征降维的卷积神经网络(CNN)说话人识别方法。首先将每段语音分帧成多个帧级语音并提取同等大小的帧级特征组成... 针对使用话语级特征参数矩阵作为卷积神经网络输入而导致收敛速度慢及识别率低的问题,提出一种基于二维主成分分析(2DPCA)特征降维的卷积神经网络(CNN)说话人识别方法。首先将每段语音分帧成多个帧级语音并提取同等大小的帧级特征组成特征矩阵,然后利用2DPCA对特征矩阵进行降维处理,再将得到的主成分特征向量组合成新的特征矩阵作为CNN的输入,最后通过CNN的自适应特征学习创建说话人模型。基于Alexnet的CNN模型实验结果表明,采用该说话人识别方法使运行时间减少了57%,同时识别率也有所提高。 展开更多
关键词 二维主成分分析 特征 卷积神经网络 说话人识别
下载PDF
基于改进LSTM的儿童语音情感识别模型 被引量:11
20
作者 余莉萍 梁镇麟 梁瑞宇 《计算机工程》 CAS CSCD 北大核心 2020年第6期40-49,共10页
为实现不同儿童情感需求状态下帧级语音特征的有效获取,建立一种基于改进长短时记忆(LSTM)网络的儿童语音情感识别模型。采用帧级语音特征代替传统统计特征以保留原始语音中的时序关系,通过引入注意力机制将传统遗忘门和输入门转换为注... 为实现不同儿童情感需求状态下帧级语音特征的有效获取,建立一种基于改进长短时记忆(LSTM)网络的儿童语音情感识别模型。采用帧级语音特征代替传统统计特征以保留原始语音中的时序关系,通过引入注意力机制将传统遗忘门和输入门转换为注意力门,并根据自定义的深度策略计算得到深度注意力门,从而提高语音情感识别性能。实验结果表明,在Fau Aibo儿童情感数据语料库及婴儿哭声情感需求数据库上,该模型在召回率和F1分数上相比基于传统LSTM的识别模型分别提高了3.14%、5.50%和1.84%、5.49%,在CASIA中文情感数据库上,其相比基于传统LSTM和GRU的识别模型训练时间更短、儿童语音情感识别率更高。 展开更多
关键词 儿童情感 时序关系 级语音特征 深度注意力门 长短时记忆网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部