期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
一种适于计算声场景分析的混叠语音基音检测方法 被引量:3
1
作者 赵鹤鸣 朱美虹 +1 位作者 俞一彪 陈雪勤 《电子学报》 EI CAS CSCD 北大核心 2003年第1期123-126,共4页
本文提出了一种在混叠语音信号中检测各自语音分量基音信息的方法 .该方法采用小波变换作为基音检测模型中的滤波处理 ,并用广义自相关运算突出基音信息 ,用增强自相关累和消除冗余信息 ,并提出了用基音概率函数来预测并跟踪不同基音的... 本文提出了一种在混叠语音信号中检测各自语音分量基音信息的方法 .该方法采用小波变换作为基音检测模型中的滤波处理 ,并用广义自相关运算突出基音信息 ,用增强自相关累和消除冗余信息 ,并提出了用基音概率函数来预测并跟踪不同基音的变化以提高基音检测的准确性 .本文提出的方法可应用于计算声场景分析中 .实验结果表明 ,该方法对于混叠语音的基音检测是非常有效的 . 展开更多
关键词 声场景分析 混叠语音 基音检测 小波变换
下载PDF
基于互信息的主成分分析用于声场景分类 被引量:2
2
作者 范雪莉 冯海泓 原猛 《声学技术》 CSCD 2013年第3期222-227,共6页
主成分分析是声场景分类中常用的特征选择方法。针对主成分分析的局限性,提出一种基于互信息的主成分分析方法。这一方法引入类别信息,用不同声场景条件下特征之间的互信息矩阵之和替代传统主成分分析中的协方差矩阵,计算其特征向量与... 主成分分析是声场景分类中常用的特征选择方法。针对主成分分析的局限性,提出一种基于互信息的主成分分析方法。这一方法引入类别信息,用不同声场景条件下特征之间的互信息矩阵之和替代传统主成分分析中的协方差矩阵,计算其特征向量与特征值,特征向量表示由原始特征空间向新的主成分空间的转换系数,特征值则用于计算主成分的累计贡献率并判断主成分维数。声场景分类实验结果表明,该方法较之传统主成分分析方法降维效果更好,辅以神经网络分类器,计算得到的分类正确率更高。 展开更多
关键词 互信息 主成分分析 声场景分类 特征选择
下载PDF
基于神经网络的声场景数据声谱图提取方法 被引量:2
3
作者 韦娟 丁智恺 宁方立 《系统工程与电子技术》 EI CSCD 北大核心 2021年第12期3462-3469,共8页
在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组。针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网... 在复杂环境声场景识别任务中,梅尔频谱作为输入的深度卷积神经网络有良好的识别能力,然而梅尔滤波器组依据人耳生理特征设计,对于声场景识别并非最优滤波器组。针对此问题提出声谱图提取神经网络取代传统梅尔频谱提取过程,通过训练该网络使声谱图自动适应声场景数据集。声谱图提取神经网络连接ResNet50作为声场景识别架构,在DCASE2019声场景数据集上进行训练与测试,实验结果表明该架构比传统模型有更高的识别率,能够有效调整频率曲线、滤波器幅值以及滤波器形状。 展开更多
关键词 声场景分类 深度卷积神经网络 谱图提取神经网络 梅尔频谱
下载PDF
时频图像特征用于声场景分类 被引量:1
4
作者 高敏 尹雪飞 陈克安 《声学技术》 CSCD 北大核心 2017年第5期399-404,共6页
为解决根据音频流识别声场景的问题,对音频信号进行恒Q变换,得到其时频表达图像,然后进行滤波平滑等处理,随之提取能够表述信号谱能量变化方向信息的梯度直方图特征,以及能够捕捉信号谱纹理信息的局部二值模式特征,输入具有线性核函数... 为解决根据音频流识别声场景的问题,对音频信号进行恒Q变换,得到其时频表达图像,然后进行滤波平滑等处理,随之提取能够表述信号谱能量变化方向信息的梯度直方图特征,以及能够捕捉信号谱纹理信息的局部二值模式特征,输入具有线性核函数的支持向量机分类器,对不同声场景数据进行分类实验。结果表明,相对于传统的时频域特征和梅尔频率倒谱系数特征,所提出的特征基本能够捕捉到给定声场景具有区分度的信息,所得分类率更高,且两者的互补作用使得联合特征分类效果达到最优,该方法为声信号特征提取贡献了一种新思路。 展开更多
关键词 声场景 恒Q变换 梯度直方图 局部二值模式
下载PDF
神经网络的声场景自动分类方法 被引量:3
5
作者 梁腾 姜文宗 +2 位作者 王立 刘宝弟 王延江 《应用声学》 CSCD 北大核心 2022年第3期373-380,共8页
声场景探察和自动分类能帮助人类制定应对特定环境的正确策略,具有重要的研究价值。随着卷积神经网络的发展,出现了许多基于卷积神经网络的声场景分类方法。其中时频卷积神经网络(TS-CNN)采用了时频注意力模块,是目前声场景分类效果最... 声场景探察和自动分类能帮助人类制定应对特定环境的正确策略,具有重要的研究价值。随着卷积神经网络的发展,出现了许多基于卷积神经网络的声场景分类方法。其中时频卷积神经网络(TS-CNN)采用了时频注意力模块,是目前声场景分类效果最好的网络之一。为了在保持网络复杂度不变的前提下进一步提高网络的声场景分类性能,该文提出了一种基于协同学习的时频卷积神经网络模型(TSCNN-CL)。具体地说,该文首先建立了基于同构结构的辅助分支参与网络的训练。其次,提出了一种基于KL散度的协同损失函数,实现了分支与主干的知识协同,最后,在测试过程中,为了不增加推理计算量,该文提出的模型只使用主干网络预测结果。在ESC-10、ESC-50和UrbanSound8k数据集的综合实验表明,该模型分类效果要优于TS-CNN模型以及当前大部分的主流方法。 展开更多
关键词 声场景分类 时频卷积神经网络 协同学习 信号处理
下载PDF
基于HMM的声场景分类 被引量:1
6
作者 董语诗 时浏艺 丁一坤 《信息化研究》 2018年第3期39-47,52,共10页
语音识别是一项近年来高速发展的技术。声场景分类作为语音识别的核心技术,其算法处于信号处理的前端,能够识别出人工智能产品使用者当前的声场景,自适应地调用相应的处理程序,实现针对不同场景声信号的个性化处理。文章主要围绕选择性... 语音识别是一项近年来高速发展的技术。声场景分类作为语音识别的核心技术,其算法处于信号处理的前端,能够识别出人工智能产品使用者当前的声场景,自适应地调用相应的处理程序,实现针对不同场景声信号的个性化处理。文章主要围绕选择性注意模型、传统的HMM模型对声场景分类进行研究。研究结果表明:运用选择性注意模型,将视觉理论应用于声学中,并结合传统的HMM分类器,分别使用单独的显著图特征、单独的MFCC特征和混合特征,能够很好地完成对声场景的分类。 展开更多
关键词 声场景分类 选择性注意 HMM模型
下载PDF
一种基于双路径深度卷积网络的声场景分类方法研究
7
作者 王丽 龚君 黄裕磊 《电子器件》 CAS 北大核心 2021年第2期417-422,共6页
声场景分类,就是训练计算机通过声音中所包含的信息将声音正确的划分到其所属的场景中,其在物联网设备、智能助听器、自动驾驶等领域有着广泛的应用。根据声学特征谱图的特点和深度学习中的卷积神经网络理论,提出了一种基于卷积神经网... 声场景分类,就是训练计算机通过声音中所包含的信息将声音正确的划分到其所属的场景中,其在物联网设备、智能助听器、自动驾驶等领域有着广泛的应用。根据声学特征谱图的特点和深度学习中的卷积神经网络理论,提出了一种基于卷积神经网络的声场景分类方法。首先提取音频的对数Mel谱图及其一阶二阶差分谱图,并在通道维度上进行拼接,随后利用中值滤波器对融合谱图进行分层,得到2个融合谱图分量。然后搭建了双路径深度卷积神经网络分别对每个谱图分量进行建模,并在系统输出前将2个路径获得的特征图进行融合,最后通过全连接层进行分类。并在TUT数据集上进行实验,分类准确率可达79.2%。 展开更多
关键词 声场景分类 Mel谱图 谱图分层 卷积神经网络
下载PDF
基于计算听觉场景分析的强噪声背景下基音检测方法 被引量:5
8
作者 陈雪勤 赵鹤鸣 陈小平 《电路与系统学报》 CSCD 2003年第3期128-131,共4页
本文针对强噪声背景下语音基音检测这一既具实际应用,又相当困难的问题,提出了一种基于计算听觉场景分析的基音检测方法。该方法利用了人的听觉感知特性,适用于低信噪比和存在其它语音干扰下基音信息的提取。实验结果证明,本文提出的方... 本文针对强噪声背景下语音基音检测这一既具实际应用,又相当困难的问题,提出了一种基于计算听觉场景分析的基音检测方法。该方法利用了人的听觉感知特性,适用于低信噪比和存在其它语音干扰下基音信息的提取。实验结果证明,本文提出的方法是非常有效的。 展开更多
关键词 基音检测 计算声场景分析 强噪 混叠语音
下载PDF
基于声场景分析的混叠语音分离研究 被引量:4
9
作者 赵鹤鸣 朱美虹 +1 位作者 陈雪勤 肖筱华 《通信技术》 2002年第1X期4-5,12,共3页
从计算声场景思想出发,研究了如何从混叠语音中提取各源信号基音及谐波分量的方法,在此基础上根据语音信号正弦模型重建各语音分量,从而实现混叠语音分离。实验结果表明,笔者提出的方法是十分有效的。
关键词 计算声场景分析 混叠语音 多基音分析 信号分离
原文传递
基于多流卷积和数据增强的声场景分类方法 被引量:4
10
作者 曹毅 费鸿博 +1 位作者 李平 张小勇 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第4期40-46,共7页
针对单特征输入时,现有声场景分类方法分类准确率不高且泛化能力不强的问题,提出了一种基于多流卷积和数据增强的声场景分类方法.首先,介绍了卷积神经网络和混合数据增强的基本原理;其次,基于网络并行输入理论,设计了一种多流卷积神经... 针对单特征输入时,现有声场景分类方法分类准确率不高且泛化能力不强的问题,提出了一种基于多流卷积和数据增强的声场景分类方法.首先,介绍了卷积神经网络和混合数据增强的基本原理;其次,基于网络并行输入理论,设计了一种多流卷积神经网络模型以期实现多流特征融合,其由特征提取模块和特征融合模块组成;然后,为进一步提升模型的准确率并降低模型过拟合的概率,提出了一种多维混合数据增强方法以实现特征数据的平滑处理;最后,采用9种特征组合方案,基于Urbansound8K,ESC50和ESC10数据集分别开展了声场景分类实验.实验结果表明:模型的准确率分别为88.29%,77.75%和96.25%,验证了当使用该方法进行声场景分类研究时,模型具有较高的准确率和较强的泛化能力. 展开更多
关键词 声场景分类 多流特征融合 多流卷积神经网络 过拟合 多维混合数据增强
原文传递
基于ResNet的音频场景声替换造假的检测算法
11
作者 董明宇 严迪群 《计算机应用》 CSCD 北大核心 2022年第6期1724-1728,共5页
针对造假成本低、不易察觉的音频场景声替换的造假样本检测问题,提出了基于ResNet的造假样本检测算法。该算法首先提取音频的常数Q频谱系数(CQCC)特征,之后由残差网络(ResNet)结构学习输入的特征,结合网络的多层的残差块以及特征归一化... 针对造假成本低、不易察觉的音频场景声替换的造假样本检测问题,提出了基于ResNet的造假样本检测算法。该算法首先提取音频的常数Q频谱系数(CQCC)特征,之后由残差网络(ResNet)结构学习输入的特征,结合网络的多层的残差块以及特征归一化,最后输出分类结果。在TIMIT和Voicebank数据库上,所提算法的检测准确率最高可达100%,错误接收率最低仅为1.37%。在现实场景下检测由多种不同录音设备录制的带有设备本底噪声以及原始场景声音频,该算法的检测准确率最高可达99.27%。实验结果表明,在合适的模型下利用音频的CQCC特征来检测音频的场景替换痕迹是有效的。 展开更多
关键词 音频造假 音频场景替换 残差网络 常数Q频谱系数
下载PDF
基于过零点双耳时间差的运动声源定位 被引量:3
12
作者 李冰 夏秀渝 +1 位作者 申庆超 周宁 《计算机工程与应用》 CSCD 2012年第9期127-130,共4页
人耳听觉定位的一个主要因素是ITD。在传统的计算声场景分析方法中,对ITD的估计采用对双耳神经发放率做互相关求得。但该方法具有计算量大和抗噪声能力弱两大缺陷,给实现运动声源实时定位带来了巨大瓶颈。对较新的过零时间差(ZCTD)方法... 人耳听觉定位的一个主要因素是ITD。在传统的计算声场景分析方法中,对ITD的估计采用对双耳神经发放率做互相关求得。但该方法具有计算量大和抗噪声能力弱两大缺陷,给实现运动声源实时定位带来了巨大瓶颈。对较新的过零时间差(ZCTD)方法进行了改进,采用Teager能量算子(TEO)提取语音包络截取可靠语音段估计ITD,避免了ZCTD方法中用信噪比的估值提取可靠ITD的繁琐步骤,能够更快速、准确地估计ITD,具有较强的抗噪声能力。将该方法运用到运动声源定位上,提出了基于过零点双耳时间差的运动声源定位模型,通过仿真实验验证了其实现运动声源实时定位的可行性。 展开更多
关键词 计算声场景分析 运动源定位 过零点 TEAGER能量算子 双耳时间差
下载PDF
一种改进的强噪声背景下基音检测算法
13
作者 胡连锋 夏秀渝 +1 位作者 张佩 李志昌 《金属材料与冶金工程》 CAS 2012年第3期-,共3页
关键词 计算声场景分析 基音检测 广义自相关函数
下载PDF
人耳对于不同频率成分分离知觉的定量分析 被引量:1
14
作者 包永强 周晓彦 +1 位作者 赵力 邹采荣 《声学技术》 EI CSCD 2004年第2期106-108,116,共4页
文章中研究了知觉性声源分离的最基本的问题,即听觉对于不同频率成分特征声源的分离知觉。通过三组听觉辨别实验,定量地分析了不同频率成分特征声源与产生分离知觉的关系,得到了描述这种关系的近似函数,提出了听觉对于不同频率成分特征... 文章中研究了知觉性声源分离的最基本的问题,即听觉对于不同频率成分特征声源的分离知觉。通过三组听觉辨别实验,定量地分析了不同频率成分特征声源与产生分离知觉的关系,得到了描述这种关系的近似函数,提出了听觉对于不同频率成分特征的分离知觉模型。通过听觉辨别实验得出:两种频率成分的On set和Off set的偏离是产生分离知觉的主要原因之一;谐波频率成分之间频率发生的偏移也是产生分离知觉的要因之一;要实现实环境下的知觉性声源分离系统,必须研究各个特征量相互作用时产生的综合结果。 展开更多
关键词 声场景分析 源分离 频率成分 知觉模型 谐波频率
下载PDF
数字文旅中的沉浸式体验及其“气氛”审美探赜
15
作者 徐雪 《广西科技师范学院学报》 2023年第5期47-55,共9页
数字文旅是新近文化消费热点。作为数字科技与文化旅游深度融合的新型产业形态,沉浸式场景为气氛创构奠定了从生理沉浸到心理沉浸转向的媒介基础。尽管场景中的光、声、影能强化观众感知深度,建构出极具现代科技感与具身体验感的独异性... 数字文旅是新近文化消费热点。作为数字科技与文化旅游深度融合的新型产业形态,沉浸式场景为气氛创构奠定了从生理沉浸到心理沉浸转向的媒介基础。尽管场景中的光、声、影能强化观众感知深度,建构出极具现代科技感与具身体验感的独异性场域,打破时空、虚拟-现实界限,追问知觉者与被知觉者现实性,言说不可传达之物,以此凸显沉浸式体验之本质。但是,气氛之源制造了某种特殊的情调,并展现沉浸式空间中物之迷狂,将主体置于一种模糊的主客间性的暧昧气氛之中,促动主体情感经验与身体在场的感性返归。因此,重审数字文旅与“人之此在”的隐含逻辑及其发展路径,是新型文旅场域建构中人与技术“往何处去”的密钥所在。 展开更多
关键词 数字文旅 沉浸式体验 光、、影场景 感性返归 “气氛”审美
下载PDF
基于起始和截止时刻的听觉分段
16
作者 申庆超 夏秀渝 +1 位作者 李冰 周宁 《计算机应用》 CSCD 北大核心 2011年第A02期176-180,共5页
分段是计算声场景分析中的一个重要步骤。传统分段是基于响应能量和相邻通道的互相关性,易受干扰,会忽略清音,且计算量大。研究了另一种分段方式:基于语音的起始截止时刻分段。采用一种可纠正失真的包络求取算法获得较准确的信号包络,... 分段是计算声场景分析中的一个重要步骤。传统分段是基于响应能量和相邻通道的互相关性,易受干扰,会忽略清音,且计算量大。研究了另一种分段方式:基于语音的起始截止时刻分段。采用一种可纠正失真的包络求取算法获得较准确的信号包络,然后通过卷积高斯函数和低通滤波器进行频域时域平滑处理,并提出一种简单实用的去除系统延迟的方法,最后检测起始截止时刻并将其组合成段。仿真实验表明此分段方法能准确提取起止时刻,完成强噪声环境下语音信号的分段。 展开更多
关键词 计算声场景分析 分段 起始和截止时刻 包络提取 去除系统延迟
下载PDF
Research on Strategy Marine Noise Map Based on i4Ocean Platform: Constructing Flow and Key Approach 被引量:2
17
作者 HUANG Baoxiang CHEN Ge +1 位作者 HAN Yong 《Journal of Ocean University of China》 SCIE CAS 2016年第1期117-123,共7页
Noise level in a marine environment has raised extensive concern in the scientific community.The research is carried out on i4 Ocean platform following the process of ocean noise model integrating,noise data extractin... Noise level in a marine environment has raised extensive concern in the scientific community.The research is carried out on i4 Ocean platform following the process of ocean noise model integrating,noise data extracting,processing,visualizing,and interpreting,ocean noise map constructing and publishing.For the convenience of numerical computation,based on the characteristics of ocean noise field,a hybrid model related to spatial locations is suggested in the propagation model.The normal mode method K/I model is used for far field and ray method CANARY model is used for near field.Visualizing marine ambient noise data is critical to understanding and predicting marine noise for relevant decision making.Marine noise map can be constructed on virtual ocean scene.The systematic marine noise visualization framework includes preprocessing,coordinate transformation interpolation,and rendering.The simulation of ocean noise depends on realistic surface.Then the dynamic water simulation gird was improved with GPU fusion to achieve seamless combination with the visualization result of ocean noise.At the same time,the profile and spherical visualization include space,and time dimensionality were also provided for the vertical field characteristics of ocean ambient noise.Finally,marine noise map can be published with grid pre-processing and multistage cache technology to better serve the public. 展开更多
关键词 marine noise map 3D virtual ocean GPU fusion map publishing
下载PDF
一种改进的强噪声背景下基音检测算法 被引量:2
18
作者 胡连锋 夏秀渝 +1 位作者 张佩 李志昌 《通信技术》 2009年第12期164-166,169,共4页
针对强噪声背景下语音基音检测这一困难的问题,提出了一种基于计算声场景分析的基音检测的改进算法。该方法利用人的听觉感知特性,引入广义自相关函数以增强基音信息,适用于低信噪比和存在其它语音干扰下基音信息的提取。另外,对于混叠... 针对强噪声背景下语音基音检测这一困难的问题,提出了一种基于计算声场景分析的基音检测的改进算法。该方法利用人的听觉感知特性,引入广义自相关函数以增强基音信息,适用于低信噪比和存在其它语音干扰下基音信息的提取。另外,对于混叠语音的基音周期轨迹的检测,提出一种比较简单的方法。实验结果证明,提出的算法是十分有效的。 展开更多
关键词 计算声场景分析 基音检测 广义自相关函数
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部