期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于幅值滤波与分层特征融合策略的语音情感识别
1
作者 喻永振 刘大明 《国外电子测量技术》 2024年第3期35-42,共8页
针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图... 针对语音情感识别在多语言联合数据集上识别准确率低的问题,提出了一种基于幅值滤波与分层特征融合策略的语音情感识别方法。该方法首先对梅尔谱图内幅值分布规律进行幅值滤波,通过概率叠加扩大梅尔谱图内相近幅值之间的差异,实现谱图内的高频强增益、低频弱增益;同时,通过概率相乘缩小梅尔谱图内相远幅值之间的差异,以显示谱图内中频的细节部分。在此基础上,使用矩形卷积提取音频信号的时间动态特征,生成梅尔谱图动态特征图,并将其作为分层特征融合策略的输入。分层特征融合策略通过压缩特征图来提取不同尺度的时间动态特征,并提取不同深度中的时间动态特征。在多语言联合数据集CER上取得了84.44%的分类准确率。 展开更多
关键词 语音情感识别 幅值滤波 分层特征融合策略 梅尔谱图动态特征图
下载PDF
语谱图傅里叶变换的二字汉语词汇语音识别 被引量:1
2
作者 潘迪 梁士利 +2 位作者 魏莹 许廷发 王双维 《现代电子技术》 北大核心 2017年第16期13-18,共6页
以语音信号的语谱图作为处理对象,提出一种基于宽窄带语谱图傅里叶变换频域图像二进宽度分带投影特征融合的二字汉语词汇语音识别算法。首先,对宽窄语谱图傅里叶变换频域图的图像意义以及相应的语音特性进行分析;然后,分别对宽窄带语谱... 以语音信号的语谱图作为处理对象,提出一种基于宽窄带语谱图傅里叶变换频域图像二进宽度分带投影特征融合的二字汉语词汇语音识别算法。首先,对宽窄语谱图傅里叶变换频域图的图像意义以及相应的语音特性进行分析;然后,分别对宽窄带语谱图频域图像进行二进宽度分带列投影和行投影,将投影值作为语音识别的第一个特征参数集合和第二个特征参数集合,将以上两个特征集进行特征融合作为二字词汇语音识别的特征量,以支持向量机为分类器实现二字汉语词汇语音识别。实验结果表明,该方法对特定人二字汉语词汇语音的识别率可达96.8%,对非特定人二字汉语词汇语音的识别率可达98.8%,为解决汉语词汇整体语音识别提供了一种新的思路。 展开更多
关键词 傅里叶变换 语谱图 特征融合 支持向量机
下载PDF
宽窄带语谱图融合分带投影的特定人汉语词汇识别 被引量:1
3
作者 魏莹 王双维 +3 位作者 潘迪 张玲 许廷发 梁士利 《计算机科学》 CSCD 北大核心 2016年第S2期215-219,232,共6页
提出一种基于宽窄带语谱图融合分带投影的方法对特定人二字汉语词汇进行识别。该方法将图像处理技术应用到语音识别领域,在图像特征提取过程中,首先对窄带语谱图进行等宽度分带行投影和二进宽度分带行投影,并将其分别作为窄带语谱图的第... 提出一种基于宽窄带语谱图融合分带投影的方法对特定人二字汉语词汇进行识别。该方法将图像处理技术应用到语音识别领域,在图像特征提取过程中,首先对窄带语谱图进行等宽度分带行投影和二进宽度分带行投影,并将其分别作为窄带语谱图的第1个特征集合和第2个特征集合,同时将窄带语谱图进行再次图像傅里叶变换之后进行等宽度行投影,作为第3个特征集合。然后对宽带语谱图进行等宽度分带列投影,作为第4个特征集合。将上述特征集合作为识别的特征向量,以支持向量机为分类器进行特定人二字汉语词汇整体识别。采用1000个语音样本进行仿真实验,结果表明,采用前3个特征集合的特征向量对特定人二字汉语词汇识别的正确识别率可达92.4%,采用第4个特征集合的特征值对特定人二字词汇识别的正确识别率可达80%,而采用上述4个特征集合的特征值融合对特定人二字汉语词汇识别的正确识别率可达95.4%。该特征融合的方法为汉语词汇的识别提供了新的思路。 展开更多
关键词 语音识别 语谱图 特征融合 行投影 列投影 支持向量机(SVM)
下载PDF
激光拉曼技术的珠宝成分检测 被引量:4
4
作者 秦宏宇 刘瑞 《激光杂志》 北大核心 2017年第7期40-43,共4页
激光拉曼光谱检测技术可实现珠宝的无损和准确检测,其是鉴定珠宝成分的重要方法。分析激光拉曼技术的原理和理论,给出激光拉曼光谱仪中各部分进行拉曼光谱检测的过程。通过实验对翡翠样品、天然翡翠样品、聚碳酸酯以及固体石蜡的拉曼光... 激光拉曼光谱检测技术可实现珠宝的无损和准确检测,其是鉴定珠宝成分的重要方法。分析激光拉曼技术的原理和理论,给出激光拉曼光谱仪中各部分进行拉曼光谱检测的过程。通过实验对翡翠样品、天然翡翠样品、聚碳酸酯以及固体石蜡的拉曼光谱进行检测,获取各实验样品的检测特征谱峰。对比分析有机填充材料聚碳酸脂谱图以及固体石蜡特征谱峰值,可得翡翠样品的光谱图融合天然翡翠、石蜡以及聚碳酸脂谱图,说明翡翠样品是采用聚碳酸脂填充并用石蜡打磨表面而成的翡翠B货。并总结出了激光拉曼技术的珠宝成分检测流程。 展开更多
关键词 激光 拉曼技术 珠宝 成分检测 特征谱峰 光谱图融合
下载PDF
基于多模态特征的音乐情感多任务识别研究 被引量:1
5
作者 王昊 刘渊晨 +1 位作者 赵萌 裘靖文 《现代情报》 CSSCI 2022年第11期61-75,共15页
[目的/意义]情感是目前在线音乐平台常用的资源组织与检索方式之一,利用特征融合对歌单、歌曲的情感分类进行探索研究,能够优化音乐资源的管理与利用效果,更好地满足网民对音乐文化生活的需求。[方法/过程]本文引入Hevner音乐情感模型... [目的/意义]情感是目前在线音乐平台常用的资源组织与检索方式之一,利用特征融合对歌单、歌曲的情感分类进行探索研究,能够优化音乐资源的管理与利用效果,更好地满足网民对音乐文化生活的需求。[方法/过程]本文引入Hevner音乐情感模型构建情感词典,利用词典信息、歌单名称、歌单介绍对大粒度歌单情感进行分类;通过预训练模型语义表示、音频信号处理等方法,融合歌词与音频多模态特征对小粒度歌曲情感进行识别。[结果/结论]情感词典的引入有效提升歌单情感分类精度,人工预处理能够帮助算法更好地学习数据特征;歌曲的文本与音频中均含有丰富的情感信息,多模态融合模型在歌曲情感识别中表现最优。 展开更多
关键词 网易云音乐 歌单情感分类 音乐情感分类 梅尔声谱图 多模态融合
下载PDF
基于自注意力机制时频谱同源特征融合的鸟鸣声分类 被引量:2
6
作者 刘志华 陈文洁 陈爱斌 《计算机应用》 CSCD 北大核心 2022年第4期1260-1268,共9页
目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔... 目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔时频谱特征;然后,使用特定的卷积以及下采样操作,将同一梅尔时频谱特征的时域和频域维度分别压缩至1,得到仅包含鸟鸣声高低特性的频域特征以及连续特性的时域特征。基于上述提取频域以及时域特征的操作,在时域和频域维度上同时对梅尔时频谱特征进行提取,得到具有连续性以及高低特性的时频域特征。然后,将自注意力机制分别用于得到的时域、频域、时频域特征以加强其各自拥有的特性。最后,将这三类同源谱图特征决策融合后的结果用于鸟鸣声分类。所提模型用于Xeno-canto网站的8种鸟类音频分类,并在分类对比实验中取得了平均精确率(MAP)为0.939的较好结果。实验结果表明该模型能应对复杂背景噪声下的鸟鸣声分类效果较差的问题。 展开更多
关键词 深度学习 鸟鸣声分类 卷积神经网络 自注意力机制 同源谱图特征融合
下载PDF
基于语音频谱图像特征的人体疲劳检测方法 被引量:13
7
作者 李响 李国正 +2 位作者 邓明君 万平 严利鑫 《仪器仪表学报》 EI CAS CSCD 北大核心 2021年第2期123-132,共10页
为了将语谱图的可视化图像分析手段有效应用于人体疲劳检测,提出一种基于语音频谱图像特征的人体疲劳检测方法。首先,在研究分析人体疲劳对语谱图影响机理的基础上,对语谱图进行基于听觉感知理论的Mel频率拉伸变换,以突出易受疲劳影响... 为了将语谱图的可视化图像分析手段有效应用于人体疲劳检测,提出一种基于语音频谱图像特征的人体疲劳检测方法。首先,在研究分析人体疲劳对语谱图影响机理的基础上,对语谱图进行基于听觉感知理论的Mel频率拉伸变换,以突出易受疲劳影响的感兴趣区域。其次,将Mel频率拉伸后的语谱图分割为24个相互交叠的临界频带子图,并从各子图在4个方向上的灰度共生矩阵中分别提取了15种纹理特征参数用于语音疲劳信息的定量表征。最后,建立多子带疲劳信息融合的人体疲劳检测模型,针对各临界频带子图特征分别设计特征层分类器进行分布检测,并通过决策层的多分类器融合判决得到最终的疲劳检测结果。实验结果表明,该方法所提取的语音频谱图像特征具有比传统声学特征更好的疲劳表征能力,同时该方法的人体疲劳检测效果也优于现有的语谱图特征识别方法。 展开更多
关键词 语音 人体疲劳检测 频谱图 灰度共生矩阵 融合判决
下载PDF
基于多特征融合和组合模型的鸟声识别方法 被引量:1
8
作者 欧昀 周晓彦 李大鹏 《信息技术》 2022年第12期47-51,56,共6页
针对现有鸟声识别方法中提取的特征单一且最终识别准确率不高的情况,提出一种基于多特征融合和组合模型的鸟声识别方法。首先,将鸟声的梅尔倒谱系数(MFCC)、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征纵向拼接得到融合特... 针对现有鸟声识别方法中提取的特征单一且最终识别准确率不高的情况,提出一种基于多特征融合和组合模型的鸟声识别方法。首先,将鸟声的梅尔倒谱系数(MFCC)、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征纵向拼接得到融合特征,同时提取短时傅里叶变换(STFT)语谱图特征,然后将两种特征分别放入两个基于Inception模块的卷积神经网络(CNN)模型训练,将两个模型的输出组合后作为人工神经网络(ANN)的输入再训练,最终获得识别结果。实验结果表明,融合特征优于单一的MFCC特征,采用组合模型提高了识别准确率。 展开更多
关键词 鸟声识别 融合特征 语谱图 卷积神经网络 组合模型
下载PDF
融合浅层学习和深度学习模型的语音情感识别 被引量:2
9
作者 赵小蕾 许喜斌 《计算机应用与软件》 北大核心 2020年第12期108-112,176,共6页
为了构建高效的语音情感识别模型,提出一种利用浅层学习和深度学习优势的决策融合方法。浅层学习为传统的语音情感识别方法,即人工统计特征提取及识别;深度学习采用PCANET网络实现特征提取过程,将携带情感信息的语谱图作为网络输入。将... 为了构建高效的语音情感识别模型,提出一种利用浅层学习和深度学习优势的决策融合方法。浅层学习为传统的语音情感识别方法,即人工统计特征提取及识别;深度学习采用PCANET网络实现特征提取过程,将携带情感信息的语谱图作为网络输入。将浅层学习特征和深度学习特征分别输入到SVM模型进行分类,并采用差异性投票机制实现决策层融合。实验结果表明,该方法的识别率在自己录制的库和柏林数据库上取得明显提高,与代表性的方法相比优势明显。 展开更多
关键词 语音情感识别 决策融合 语谱图 浅层学习 深度学习
下载PDF
基于语音特征融合的帕金森疾病诊断
10
作者 牟新刚 陶佳昕 陈龙 《数字制造科学》 2023年第3期225-230,共6页
帕金森病的早期发现是一项艰巨的工作,因为疾病的症状会随着时间的推移而出现。研究表明,言语障碍被认为是帕金森病分类的一个可能的预测指标。因此,考虑使用声学特征对语音变化进行建模,以识别这些变化。在这项研究中,提出了一种特征... 帕金森病的早期发现是一项艰巨的工作,因为疾病的症状会随着时间的推移而出现。研究表明,言语障碍被认为是帕金森病分类的一个可能的预测指标。因此,考虑使用声学特征对语音变化进行建模,以识别这些变化。在这项研究中,提出了一种特征融合的卷积循环神经网络,使用语音频谱图和声学特征对帕金森患者进行分类,并在PC-GITA数据集上进行评估,实验表明,使用持续元音最高可达84.19%的准确率,优于其他传统分类方法,为帕金森疾病检测提供可靠参考。 展开更多
关键词 语音特征融合 语谱图 帕金森病 卷积神经网络 门控循环单元
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部