期刊文献+
共找到111篇文章
< 1 2 6 >
每页显示 20 50 100
Fine-grained grid computing model for Wi-Fi indoor localization in complex environments
1
作者 Yan Liang Song Chen +1 位作者 Xin Dong Tu Liu 《Journal of Electronic Science and Technology》 EI CAS CSCD 2024年第1期42-52,共11页
The fingerprinting-based approach using the wireless local area network(WLAN)is widely used for indoor localization.However,the construction of the fingerprint database is quite time-consuming.Especially when the posi... The fingerprinting-based approach using the wireless local area network(WLAN)is widely used for indoor localization.However,the construction of the fingerprint database is quite time-consuming.Especially when the position of the access point(AP)or wall changes,updating the fingerprint database in real-time is difficult.An appropriate indoor localization approach,which has a low implementation cost,excellent real-time performance,and high localization accuracy and fully considers complex indoor environment factors,is preferred in location-based services(LBSs)applications.In this paper,we proposed a fine-grained grid computing(FGGC)model to achieve decimeter-level localization accuracy.Reference points(RPs)are generated in the grid by the FGGC model.Then,the received signal strength(RSS)values at each RP are calculated with the attenuation factors,such as the frequency band,three-dimensional propagation distance,and walls in complex environments.As a result,the fingerprint database can be established automatically without manual measurement,and the efficiency and cost that the FGGC model takes for the fingerprint database are superior to previous methods.The proposed indoor localization approach,which estimates the position step by step from the approximate grid location to the fine-grained location,can achieve higher real-time performance and localization accuracy simultaneously.The mean error of the proposed model is 0.36 m,far lower than that of previous approaches.Thus,the proposed model is feasible to improve the efficiency and accuracy of Wi-Fi indoor localization.It also shows high-accuracy performance with a fast running speed even under a large-size grid.The results indicate that the proposed method can also be suitable for precise marketing,indoor navigation,and emergency rescue. 展开更多
关键词 fine-grained grid computing (FGGC) Indoor localization Path loss Random forest Reference points(RPs)
下载PDF
Attention Guided Food Recognition via Multi-Stage Local Feature Fusion
2
作者 Gonghui Deng Dunzhi Wu Weizhen Chen 《Computers, Materials & Continua》 SCIE EI 2024年第8期1985-2003,共19页
The task of food image recognition,a nuanced subset of fine-grained image recognition,grapples with substantial intra-class variation and minimal inter-class differences.These challenges are compounded by the irregula... The task of food image recognition,a nuanced subset of fine-grained image recognition,grapples with substantial intra-class variation and minimal inter-class differences.These challenges are compounded by the irregular and multi-scale nature of food images.Addressing these complexities,our study introduces an advanced model that leverages multiple attention mechanisms and multi-stage local fusion,grounded in the ConvNeXt architecture.Our model employs hybrid attention(HA)mechanisms to pinpoint critical discriminative regions within images,substantially mitigating the influence of background noise.Furthermore,it introduces a multi-stage local fusion(MSLF)module,fostering long-distance dependencies between feature maps at varying stages.This approach facilitates the assimilation of complementary features across scales,significantly bolstering the model’s capacity for feature extraction.Furthermore,we constructed a dataset named Roushi60,which consists of 60 different categories of common meat dishes.Empirical evaluation of the ETH Food-101,ChineseFoodNet,and Roushi60 datasets reveals that our model achieves recognition accuracies of 91.12%,82.86%,and 92.50%,respectively.These figures not only mark an improvement of 1.04%,3.42%,and 1.36%over the foundational ConvNeXt network but also surpass the performance of most contemporary food image recognition methods.Such advancements underscore the efficacy of our proposed model in navigating the intricate landscape of food image recognition,setting a new benchmark for the field. 展开更多
关键词 fine-grained image recognition food image recognition attention mechanism local feature fusion
下载PDF
不同噪声条件下健听人群水平声源定位能力差异研究
3
作者 李星 何金凯 赵琦 《中国听力语言康复科学杂志》 2024年第5期479-483,共5页
目的探讨不同噪声条件下健听人群水平声源定位能力的差异。方法选取2022年8月~2023年8月在我院检查的听力正常者78例,测试在安静、白噪声35 dB SPL、40 dB SPL和言语噪声40 dB SPL条件下,受试者应答扬声器与发声扬声器的均方根误差(root... 目的探讨不同噪声条件下健听人群水平声源定位能力的差异。方法选取2022年8月~2023年8月在我院检查的听力正常者78例,测试在安静、白噪声35 dB SPL、40 dB SPL和言语噪声40 dB SPL条件下,受试者应答扬声器与发声扬声器的均方根误差(root mean square error,RMSE)和平均应答时间。结果不同噪声条件下受试者平均应答时间比较无显著差异(P>0.05);安静条件下受试者RMSE为10.21°±1.55°,明显低于白噪声35 dB SPL、40 dB SPL和言语噪声40 dB SPL条件下(P<0.05);白噪声40 dB SPL、言语噪声40 dB SPL条件下受试者RMSE分别为15.02°±2.22°和15.16°±2.06°,明显高于白噪声35 dB SPL(P<0.05);安静、白噪声35 dB SPL、白噪声40 dB SPL和言语噪声40 dB SPL条件下受试者对低频、中频和高频刺激声的平均应答时间无显著差异(P>0.05);白噪声35 dB SPL、40 dB SPL和言语噪声40 dB SPL条件下受试者对高频刺激声的RMSE均高于低频、中频刺激声(P<0.05),对中频刺激声的RMSE均高于低频刺激声(P<0.05);安静、白噪声35 dB SPL、40 dB SPL和言语噪声40 dB SPL条件下受试者对前方声源的RMSE明显低于其他方位(P<0.05);安静、白噪声35 dB SPL、40 dB SPL和言语噪声40 dB SPL条件下受试者对前方和其他方位声源的平均应答时间无显著差异(P>0.05);安静、白噪声35 dB SPL、40 dB SPL和言语噪声40 dB SPL条件下,不同性别、年龄受试者RMSE及平均应答时间无显著差异(P>0.05)。结论噪声对健听人群声源识别定位能力有明显影响,在不同噪声条件下,受试者更容易定位来自前方的声源。 展开更多
关键词 听力正常 声源定位 白噪声 言语噪声
下载PDF
Speech emotion recognition via discriminant-cascading dimensionality reduction 被引量:1
4
作者 王如刚 徐新洲 +3 位作者 黄程韦 吴尘 张昕然 赵力 《Journal of Southeast University(English Edition)》 EI CAS 2016年第2期151-157,共7页
In order to accurately identify speech emotion information, the discriminant-cascading effect in dimensionality reduction of speech emotion recognition is investigated. Based on the existing locality preserving projec... In order to accurately identify speech emotion information, the discriminant-cascading effect in dimensionality reduction of speech emotion recognition is investigated. Based on the existing locality preserving projections and graph embedding framework, a novel discriminant-cascading dimensionality reduction method is proposed, which is named discriminant-cascading locality preserving projections (DCLPP). The proposed method specifically utilizes supervised embedding graphs and it keeps the original space for the inner products of samples to maintain enough information for speech emotion recognition. Then, the kernel DCLPP (KDCLPP) is also proposed to extend the mapping form. Validated by the experiments on the corpus of EMO-DB and eNTERFACE'05, the proposed method can clearly outperform the existing common dimensionality reduction methods, such as principal component analysis (PCA), linear discriminant analysis (LDA), locality preserving projections (LPP), local discriminant embedding (LDE), graph-based Fisher analysis (GbFA) and so on, with different categories of classifiers. 展开更多
关键词 speech emotion recognition discriminant-cascading locality preserving projections DISCRIMINANTANALYSIS dimensionality reduction
下载PDF
基于局部Transformer的泰语分词和词性标注联合模型
5
作者 朱叶芬 线岩团 +1 位作者 余正涛 相艳 《智能系统学报》 CSCD 北大核心 2024年第2期401-410,共10页
泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采... 泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采用局部Transformer网络从音节序列中学习分词特征;考虑到词根和词缀等音节与词性的关联,将用于分词的音节特征融入词语序列特征,缓解未知词的词性标注特征缺失问题。在此基础上,模型采用线性分类层预测分词标签,采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明,模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%,相较基线模型分别提升了0.33%、0.44%和0.12%。 展开更多
关键词 泰语分词 词性标注 联合学习 局部Transformer 构词特点 音节特征 线性条件随机场 联合模型
下载PDF
基于LMD改进特征提取的三路病理语音识别
6
作者 张楠 陈媛媛 +1 位作者 陈鑫钰 侯懿桃 《电子测量技术》 北大核心 2024年第12期140-147,共8页
针对发音障碍患者发音不够清晰准确,导致病理语音识别率低的问题,提出一种基于LMD改进的Gammatone滤波器组图谱特征提取算法进行三路病理语音识别,首先,该算法采用LMD分解语音信号,对分解后的各语音分量做短时傅里叶变换后进行频率合成... 针对发音障碍患者发音不够清晰准确,导致病理语音识别率低的问题,提出一种基于LMD改进的Gammatone滤波器组图谱特征提取算法进行三路病理语音识别,首先,该算法采用LMD分解语音信号,对分解后的各语音分量做短时傅里叶变换后进行频率合成,提取滤波器组特征及其一阶、二阶差分特征,构成能获取病理语音有效局部特征的LMD-GFbank图谱特征;其次,为了进一步优化网络模型在训练过程中遗漏掉部分有效特征信息,提出一种三路病理语音识别模型;最后,结合语音特征信息进行病理语音识别模型训练和测试。实验结果表明,LMD-GFbank图谱特征在三路病理语音识别模型上的识别率达到了93.36%,优于传统MFCC、GFCC、Fbank特征的语音识别效果,验证了所提算法及识别模型能提升病理语音识别准确率。 展开更多
关键词 发音障碍 局部均值分解 病理语音识别 特征提取
下载PDF
基于多尺度距离矩阵的语音关键词检测与细粒度定位方法
7
作者 李祥瑞 毛启容 《计算机应用研究》 CSCD 北大核心 2024年第11期3370-3375,共6页
针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方... 针对现有语音关键词检测方法定位精度低的问题,提出了一种基于多尺度距离矩阵的语音关键词检测与细粒度定位方法(spoken term detection and fine-grained localization method based on multi-scale distance matrices,MF-STD)。该方法首先利用残差卷积网络提取特征并构建距离矩阵以建模输入之间的相关性;其次通过多尺度分割和解耦头学习不同尺度下的定位信息;最后根据多尺度加权定位损失、置信度损失和分类损失优化模型,实现对关键词存在性和时域边界的细粒度预测。在LibriSpeech数据集上的实验结果表明,MF-STD在集内词的检测中,精准率和交并比分别达到97.1%和88.6%;在集外词的检测中,精准率和交并比分别达到96.7%和88.2%。与现有的语音关键词检测与定位方法相比,MF-STD的检测准确率和定位精度显著提升,充分证明该方法的先进性,也证明了多尺度特征建模与细粒度定位约束在语音关键词检测任务中的有效性。 展开更多
关键词 语音关键词检测 语音细粒度定位 多尺度检测 残差卷积网络
下载PDF
数字助听器关键算法研究现状与进展
8
作者 杨荣 马凤领 潘国新 《北京生物医学工程》 2024年第5期531-536,共6页
数字助听器具有听力补偿作用,可以在不损伤听力障碍患者听力的情况下有效提高其听力水平,是目前解决听力障碍的主要途径。近年来随着科技进步,深度学习、麦克风阵列、计算场景分析等技术的改进和发展极大推动了数字助听器的发展。本文... 数字助听器具有听力补偿作用,可以在不损伤听力障碍患者听力的情况下有效提高其听力水平,是目前解决听力障碍的主要途径。近年来随着科技进步,深度学习、麦克风阵列、计算场景分析等技术的改进和发展极大推动了数字助听器的发展。本文综述了响度补偿、噪声处理、语音增强、回声消除等技术在数字助听器中的应用现状,归纳各技术的研究成果,探讨其局限性和改进方式,并对未来数字助听器的发展做了展望。 展开更多
关键词 数字助听器 响度补偿 语音增强 声源定位 回声消除
下载PDF
一种基于Transformer模型的特征增强算法及其应用研究
9
作者 李俊华 段志奎 于昕梅 《佛山科学技术学院学报(自然科学版)》 CAS 2024年第3期27-34,共8页
Transformer模型在自动语音识别(ASR)任务中展现出优秀的性能,但在特征提取方面存在两个问题:一是模型集中于全局特征交互信息提取,忽略了其他有用的特征信息,如局部特征交互信息;二是模型对低层特征交互信息的利用不够充分。为了解决... Transformer模型在自动语音识别(ASR)任务中展现出优秀的性能,但在特征提取方面存在两个问题:一是模型集中于全局特征交互信息提取,忽略了其他有用的特征信息,如局部特征交互信息;二是模型对低层特征交互信息的利用不够充分。为了解决这两个问题,提出了卷积线性映射(CMLP)模块以强化局部特征交互,并设计低层特征融合(LF)模块来融合高低层特征。通过整合这些模块,构建了CLformer模型。在两个中文普通话数据集(Aishell-1和HKUST)上进行实验,结果表明,CLformer显著提升了模型性能,在Aishell-1上较基线提高0.3%,在HKUST上提高0.5%。 展开更多
关键词 Transformer模型 自动语音识别 特征增强 局部特征 特征融合
下载PDF
Space discriminative function for microphone array robust speech recognition
10
作者 赵贤宇 Ou Zhijian Wang Zuoying 《High Technology Letters》 EI CAS 2005年第4期351-354,共4页
Based on W-disjoint orthogonality of speech mixtures, a space d,scnmlnative tunetlon was proposer1 to enumerate and localize competing speakers in the surrounding environments. Then, a Wiener-like postfiherer was deve... Based on W-disjoint orthogonality of speech mixtures, a space d,scnmlnative tunetlon was proposer1 to enumerate and localize competing speakers in the surrounding environments. Then, a Wiener-like postfiherer was developed to adaptively suppress interferences. Experimental results with a hands-free speech recognizer under various SNR and competing speakers settings show that nearly 69 % error reduction can be obtained with a two-channel small aperture microphone array against the conventional single microphone baseline system. Comparisons were made against traditional delay-and-sum and Griffiths-Jim adaptive beamforming techniques to further assess the effectiveness of this method. 展开更多
关键词 speech recognition array signal processing microphone array source localization adaptive filtering
下载PDF
口部定位疗法联合引导式教育治疗言语语言障碍儿童的疗效观察 被引量:7
11
作者 张玲 吴浪龙 +1 位作者 康怀鑫 徐高红 《听力学及言语疾病杂志》 CAS CSCD 北大核心 2023年第1期26-30,共5页
目的 探讨口部定位疗法联合引导式教育治疗言语语言障碍儿童的临床疗效。方法 采用随机数字表法将2018年7月~2019年12月收治的84例言语语言障碍儿童分为对照组与观察组,每组42例。对照组给予常规言语训练,观察组给予常规语言训练的同时... 目的 探讨口部定位疗法联合引导式教育治疗言语语言障碍儿童的临床疗效。方法 采用随机数字表法将2018年7月~2019年12月收治的84例言语语言障碍儿童分为对照组与观察组,每组42例。对照组给予常规言语训练,观察组给予常规语言训练的同时进行口部定位治疗联合引导式教育,1次/天,40分/次,5次/周,4周为1疗程,连续治疗3个疗程。治疗前后,分别采用简易口部运动功能量表、Frenchay汉语版构音障碍检测表、语音清晰度量表、Gesell发育量表评估两组患儿的口部运动功能、构音情况、语音清晰度、语言行为能力,并采用汉语儿童语言发育评定法(S-S)评估俩两组患儿的临床疗效。结果 治疗前,两组患儿的口部运动功能评分、构音、语音清晰度及语言行为评分比较,差异无统计学意义(P>0.05)。治疗3个疗程后,两组患儿的口部运动功能评分、构音、语音清晰度及语言行为评分均有明显改善,且观察组明显高于对照组,差异有统计学意义(P<0.05);对照组的治疗总有效率为73.81%,观察组为95.24%,两组比较差异有统计学意义(P<0.05)。结论 口部定位疗法联合引导式教育能明显促进言语语言障碍儿童康复,且疗效显著。 展开更多
关键词 口部定位治疗 引导式教育 言语语言障碍 儿童 疗效
下载PDF
单侧聋人工耳蜗植入长期随访1例
12
作者 姜子刚 王金平 +1 位作者 赵东 李春娇 《中国听力语言康复科学杂志》 2023年第5期486-488,515,共4页
目的探讨单侧聋(single-sided deafness,SSD)成人患者人工耳蜗植入远期效果。以为单侧聋患者人工耳蜗植入适应症提供借鉴和参考。方法选择一例单侧聋20年成人进行人工耳蜗植入,随访其残余听力、言语识别率、声源定位能力、以及言语空间... 目的探讨单侧聋(single-sided deafness,SSD)成人患者人工耳蜗植入远期效果。以为单侧聋患者人工耳蜗植入适应症提供借鉴和参考。方法选择一例单侧聋20年成人进行人工耳蜗植入,随访其残余听力、言语识别率、声源定位能力、以及言语空间和听觉质量主观量表(SQQ)。结果该患者术后残余听力早期保持良好,但五年后残余听力未能保留。言语识别率随术后随访时间延长而有所提升,但没达到较高水平。声源定位能力随时间有所改善。随访SQQ量表可以看出SSD患者人工耳蜗植入后对于言语理解、空间听觉、声音聆听能力都有所帮助,尤其对于空间听觉帮助较大。结论SSD患者人工耳蜗植入后,可以改善患者噪声下的言语识别率与声源定位能力及生活质量。建议进一步大样本研究,为SSD患者人工耳蜗植入适应症提供科学依据。 展开更多
关键词 单侧聋 人工耳蜗 声源定位 言语识别
下载PDF
基于双阶段Conv-Transformer的时频域语音增强算法 被引量:3
13
作者 沈学利 田桂源 +1 位作者 姜彦吉 马琳琳 《计算机工程》 CAS CSCD 北大核心 2023年第6期123-130,共8页
频域语音增强算法通常存在相位失配问题,而相位信息对于语音增强任务非常重要。时域语音增强算法可以有效解决相位失配问题,但是噪声和语音在频域中更易分离。为了实现时域和频域语音增强算法的优势互补,提出一种基于双阶段Conv-Transfo... 频域语音增强算法通常存在相位失配问题,而相位信息对于语音增强任务非常重要。时域语音增强算法可以有效解决相位失配问题,但是噪声和语音在频域中更易分离。为了实现时域和频域语音增强算法的优势互补,提出一种基于双阶段Conv-Transformer的时频域语音增强算法。采用编解码结构,将带噪语音经过短时傅里叶变换得到的频域特征和一维卷积处理后得到的时域特征作为输入。考虑到Transformer擅长提取语音序列的全局依赖关系,卷积神经网络可以关注局部特征,为了更好地提取时域和频域中的局部信息和全局信息,设计一种Conv-Transformer模块。在此基础上,联合时域和频域损失函数对模型进行优化,使得模型可以同时学习语音在时域和频域中的分布规律。实验结果表明,与单一域的语音增强算法相比,该算法具有更好的降噪效果,增强后的语音感知质量、短时可懂度、信号失真测度、噪声失真测度、综合质量测度分别为3.04、0.953、4.34、3.55、3.69。 展开更多
关键词 语音增强 时频域 卷积神经网络 局部信息 全局信息
下载PDF
引入非局部模块卷积神经网络的基频提取模型 被引量:2
14
作者 刘晶晶 黄浩 《计算机工程》 CAS CSCD 北大核心 2023年第3期128-133,160,共7页
基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全... 基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全局音频样本点依赖关系,导致计算效率低与优化困难。受非局部模块在计算机视觉任务中具有较高性能的启发,提出一种具有非局部模块的卷积神经网络用于基频提取任务。非局部模块相比不断堆叠的卷积神经网络,可以直接计算两个位置之间的关系,由于其可以忽略欧氏距离,因此能够快速捕获长范围的依赖关系。对于基频估计任务,可在卷积神经网络中加入非局部模块以计算音频样本点之间的相似性,有助于捕获帧与帧和样本点与样本点之间的全局依赖关系,且非局部模块可以保持输入输出维度不变,能够快速地集成卷积神经网络。实验结果表明,该方法平均绝对误差仅为4.7,与基线模型相比,至少降低了0.7,能够获得最佳的模型性能。 展开更多
关键词 基频 语音信号处理 数据驱动 卷积神经网络 非局部模块
下载PDF
A Novel Fine-Grained Method for Vehicle Type Recognition Based on the Locally Enhanced PCANet Neural Network 被引量:4
15
作者 Qian Wang You-Dong Ding 《Journal of Computer Science & Technology》 SCIE EI CSCD 2018年第2期335-350,共16页
In this paper, we propose a locally enhanced PCANet neural network for fine-grained classification of vehicles. The proposed method adopts the PCANet unsupervised network with a smaller number of layers and simple par... In this paper, we propose a locally enhanced PCANet neural network for fine-grained classification of vehicles. The proposed method adopts the PCANet unsupervised network with a smaller number of layers and simple parameters compared with the majority of state-of-the-art machine learning methods. It simplifies calculation steps and manual labeling, and enables vehicle types to be recognized without time-consuming training. Experimental results show that compared with the traditional pattern recognition methods and the multi-layer CNN methods, the proposed method achieves optimal balance in terms of varying scales of sample libraries, angle deviations, and training speed. It also indicates that introducing appropriate local features that have different scales from the general feature is very instrumental in improving recognition rate. The 7-angle in 180° (12-angle in 360°) classification modeling scheme is proven to be an effective approach, which can solve the problem of suffering decrease in recognition rate due to angle deviations, and add the recognition accuracy in practice. 展开更多
关键词 fine-grained classification PCANet local enhancement vehicle type recognition
原文传递
基于麦克风阵列的声源定位研究 被引量:21
16
作者 邵怀宗 林静然 +2 位作者 彭启琮 居太亮 徐异凌 《云南民族大学学报(自然科学版)》 CAS 2004年第4期256-258,267,共4页
 基于麦克风阵列的声源定位是有效声源提取的前提和基础,其技术在多媒体通信中得到了广泛的应用.讨论了基于麦克风均匀线阵和均匀圆阵的声源定位方法,并进行了仿真,其结果表明这两种模型均能有效地提取出声源的位置.并给出了算法的硬...  基于麦克风阵列的声源定位是有效声源提取的前提和基础,其技术在多媒体通信中得到了广泛的应用.讨论了基于麦克风均匀线阵和均匀圆阵的声源定位方法,并进行了仿真,其结果表明这两种模型均能有效地提取出声源的位置.并给出了算法的硬件实现的原理框图. 展开更多
关键词 麦克风阵列 声源定位 原理图
下载PDF
基于传声器阵列的声源定位 被引量:9
17
作者 朱广信 陈彪 金蓉 《电声技术》 北大核心 2003年第1期34-37,共4页
文中对利用传声器进行语音声源定位时所面临的几个问题作了讨论。同时分析比较了几类主要的源定位方法,并给出了基于可控波束形成的源定位的仿真结果。
关键词 传声器阵列 声源定位 语音 可控波束形成 仿真 语音信号处理
下载PDF
基于一种改进的监督流形学习算法的语音情感识别 被引量:21
18
作者 张石清 李乐民 赵知劲 《电子与信息学报》 EI CSCD 北大核心 2010年第11期2724-2729,共6页
为了有效提高语音情感识别的性能,需要对嵌入在高维声学特征空间的非线性流形上的语音特征数据作非线性降维处理。监督局部线性嵌入(SLLE)是一种典型的用于非线性降维的监督流形学习算法。该文针对SLLE存在的缺陷,提出一种能够增强低维... 为了有效提高语音情感识别的性能,需要对嵌入在高维声学特征空间的非线性流形上的语音特征数据作非线性降维处理。监督局部线性嵌入(SLLE)是一种典型的用于非线性降维的监督流形学习算法。该文针对SLLE存在的缺陷,提出一种能够增强低维嵌入数据的判别力,具备最优泛化能力的改进SLLE算法。利用该算法对包含韵律和音质特征的48维语音情感特征数据进行非线性降维,提取低维嵌入判别特征用于生气、高兴、悲伤和中性4类情感的识别。在自然情感语音数据库的实验结果表明,该算法仅利用较少的9维嵌入特征就取得了90.78%的最高正确识别率,比SLLE提高了15.65%。可见,该算法用于语音情感特征数据的非线性降维,可以较好地改善语音情感识别结果。 展开更多
关键词 语音情感识别 非线性降维 流形学习 监督局部线性嵌入
下载PDF
面向语音情感识别的Gabor分块局部二值模式特征 被引量:5
19
作者 陶华伟 柳晶晶 +3 位作者 梁瑞宇 查诚 张昕然 赵力 《信号处理》 CSCD 北大核心 2016年第5期505-511,共7页
谱特征在语音情感识别中起到了重要的作用,然而现有的谱特征仍未能充分表达谱图中的语音情感信息。为研究语音情感与谱图之间的联系,提出了一种面向语音情感识别的Gabor分块局部二值模式特征(GBLBP)。首先,获取情感语音的对数能量谱;... 谱特征在语音情感识别中起到了重要的作用,然而现有的谱特征仍未能充分表达谱图中的语音情感信息。为研究语音情感与谱图之间的联系,提出了一种面向语音情感识别的Gabor分块局部二值模式特征(GBLBP)。首先,获取情感语音的对数能量谱;然后,采用多尺度,多方向的Gabor小波对对数能量谱进行处理,得到Gabor谱图;再次,对每张Gabor谱图进行分块,采用局部二值模式提取每个块的局部能量分布信息;最后,将提取到的所有特征级联,得到GBLBP特征。EMO-DB库及中文语音库上的实验结果表明:GBLBP特征的平均加权召回率比MFCC高了9%~10%,识别性能显著优于众多谱特征,且与现有声学特征有较好的融合性。 展开更多
关键词 GABOR小波 局部二值模式 语音情感识别 谱特征
下载PDF
语谱图改进完全局部二值模式的语音情感识别 被引量:10
20
作者 许良凤 刘泳海 +2 位作者 胡敏 王晓华 任福继 《电子测量与仪器学报》 CSCD 北大核心 2018年第5期25-32,共8页
提出一种改进完全局部二值模式和幂指数加权融合方法的语音情感识别方法。首先,将原始语音样本转化为语谱图,再使用5尺度、8方向的Log-Gabor滤波器对语谱图做处理,放大语谱图的细节信息;然后提取语谱图均匀完全局部二值模式符号特征和... 提出一种改进完全局部二值模式和幂指数加权融合方法的语音情感识别方法。首先,将原始语音样本转化为语谱图,再使用5尺度、8方向的Log-Gabor滤波器对语谱图做处理,放大语谱图的细节信息;然后提取语谱图均匀完全局部二值模式符号特征和改进完全局部二值模式幅值特征的分块直方图特征,之后串联两种特征作为新的融合特征改进完全局部二值模式符号幅值特征。最后,基于支持向量机对3种特征进行决策级幂指数加权融合完成语音情感识别。实验表明,改进完全局部二值模式幅值特征和融合特征可以在降低直方图特征维度的同时提高系统的识别性能;幂指数加权融合方法,扩大分类器间的差距,并使分类性能较好的分类器获得较大的权重,最终有效的提升了语音情感识别系统的性能。与其他算法相对比,验证了算法的有效性。 展开更多
关键词 语音情感识别 改进完全局部二值模式 幂指数加权融合 完全局部二值模式
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部