期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
Attention-based neural network for end-to-end music separation
1
作者 Jing Wang Hanyue Liu +3 位作者 Haorong Ying Chuhan Qiu Jingxin Li Muhammad Shahid Anwar 《CAAI Transactions on Intelligence Technology》 SCIE EI 2023年第2期355-363,共9页
The end-to-end separation algorithm with superior performance in the field of speech separation has not been effectively used in music separation.Moreover,since music signals are often dual channel data with a high sa... The end-to-end separation algorithm with superior performance in the field of speech separation has not been effectively used in music separation.Moreover,since music signals are often dual channel data with a high sampling rate,how to model longsequence data and make rational use of the relevant information between channels is also an urgent problem to be solved.In order to solve the above problems,the performance of the end-to-end music separation algorithm is enhanced by improving the network structure.Our main contributions include the following:(1)A more reasonable densely connected U-Net is designed to capture the long-term characteristics of music,such as main melody,tone and so on.(2)On this basis,the multi-head attention and dualpath transformer are introduced in the separation module.Channel attention units are applied recursively on the feature map of each layer of the network,enabling the network to perform long-sequence separation.Experimental results show that after the introduction of the channel attention,the performance of the proposed algorithm has a stable improvement compared with the baseline system.On the MUSDB18 dataset,the average score of the separated audio exceeds that of the current best-performing music separation algorithm based on the time-frequency domain(T-F domain). 展开更多
关键词 channel attention densely connected network end-to-end music separation
下载PDF
Speech Separation Algorithm Using Gated Recurrent Network Based on Microphone Array
2
作者 Xiaoyan Zhao Lin Zhou +2 位作者 Yue Xie Ying Tong Jingang Shi 《Intelligent Automation & Soft Computing》 SCIE 2023年第6期3087-3100,共14页
Speech separation is an active research topic that plays an important role in numerous applications,such as speaker recognition,hearing pros-thesis,and autonomous robots.Many algorithms have been put forward to improv... Speech separation is an active research topic that plays an important role in numerous applications,such as speaker recognition,hearing pros-thesis,and autonomous robots.Many algorithms have been put forward to improve separation performance.However,speech separation in reverberant noisy environment is still a challenging task.To address this,a novel speech separation algorithm using gate recurrent unit(GRU)network based on microphone array has been proposed in this paper.The main aim of the proposed algorithm is to improve the separation performance and reduce the computational cost.The proposed algorithm extracts the sub-band steered response power-phase transform(SRP-PHAT)weighted by gammatone filter as the speech separation feature due to its discriminative and robust spatial position in formation.Since the GRU net work has the advantage of processing time series data with faster training speed and fewer training parameters,the GRU model is adopted to process the separation featuresof several sequential frames in the same sub-band to estimate the ideal Ratio Masking(IRM).The proposed algorithm decomposes the mixture signals into time-frequency(TF)units using gammatone filter bank in the frequency domain,and the target speech is reconstructed in the frequency domain by masking the mixture signal according to the estimated IRM.The operations of decomposing the mixture signal and reconstructing the target signal are completed in the frequency domain which can reduce the total computational cost.Experimental results demonstrate that the proposed algorithm realizes omnidirectional speech sep-aration in noisy and reverberant environments,provides good performance in terms of speech quality and intelligibility,and has the generalization capacity to reverberate. 展开更多
关键词 Microphone array speech separation gate recurrent unit network gammatone sub-band steered response power-phase transform spatial spectrum
下载PDF
Binaural Speech Separation Algorithm Based on Long and Short Time Memory Networks 被引量:1
3
作者 Lin Zhou Siyuan Lu +3 位作者 Qiuyue Zhong Ying Chen Yibin Tang Yan Zhou 《Computers, Materials & Continua》 SCIE EI 2020年第6期1373-1386,共14页
Speaker separation in complex acoustic environment is one of challenging tasks in speech separation.In practice,speakers are very often unmoving or moving slowly in normal communication.In this case,the spatial featur... Speaker separation in complex acoustic environment is one of challenging tasks in speech separation.In practice,speakers are very often unmoving or moving slowly in normal communication.In this case,the spatial features among the consecutive speech frames become highly correlated such that it is helpful for speaker separation by providing additional spatial information.To fully exploit this information,we design a separation system on Recurrent Neural Network(RNN)with long short-term memory(LSTM)which effectively learns the temporal dynamics of spatial features.In detail,a LSTM-based speaker separation algorithm is proposed to extract the spatial features in each time-frequency(TF)unit and form the corresponding feature vector.Then,we treat speaker separation as a supervised learning problem,where a modified ideal ratio mask(IRM)is defined as the training function during LSTM learning.Simulations show that the proposed system achieves attractive separation performance in noisy and reverberant environments.Specifically,during the untrained acoustic test with limited priors,e.g.,unmatched signal to noise ratio(SNR)and reverberation,the proposed LSTM based algorithm can still outperforms the existing DNN based method in the measures of PESQ and STOI.It indicates our method is more robust in untrained conditions. 展开更多
关键词 Binaural speech separation long and short time memory networks feature vectors ideal ratio mask
下载PDF
Improving Deep Attractor Network by BGRU and GMM for Speech Separation
4
作者 Rawad Melhem Assef Jafar Riad Hamadeh 《Journal of Harbin Institute of Technology(New Series)》 CAS 2021年第3期90-96,共7页
Deep Attractor Network(DANet) is the state-of-the-art technique in speech separation field, which uses Bidirectional Long Short-Term Memory(BLSTM), but the complexity of the DANet model is very high. In this paper, a ... Deep Attractor Network(DANet) is the state-of-the-art technique in speech separation field, which uses Bidirectional Long Short-Term Memory(BLSTM), but the complexity of the DANet model is very high. In this paper, a simplified and powerful DANet model is proposed using Bidirectional Gated neural network(BGRU) instead of BLSTM. The Gaussian Mixture Model(GMM) other than the k-means was applied in DANet as a clustering algorithm to reduce the complexity and increase the learning speed and accuracy. The metrics used in this paper are Signal to Distortion Ratio(SDR), Signal to Interference Ratio(SIR), Signal to Artifact Ratio(SAR), and Perceptual Evaluation Speech Quality(PESQ) score. Two speaker mixture datasets from TIMIT corpus were prepared to evaluate the proposed model, and the system achieved 12.3 dB and 2.94 for SDR and PESQ scores respectively, which were better than the original DANet model. Other improvements were 20.7% and 17.9% in the number of parameters and time training respectively. The model was applied on mixed Arabic speech signals and the results were better than that in English. 展开更多
关键词 attractor network speech separation gated recurrent units
下载PDF
Tibetan Multi-Dialect Speech Recognition Using Latent Regression Bayesian Network and End-To-End Mode 被引量:1
5
作者 Yue Zhao Jianjian Yue +4 位作者 Wei Song Xiaona Xu Xiali Li Licheng Wu Qiang Ji 《Journal on Internet of Things》 2019年第1期17-23,共7页
We proposed a method using latent regression Bayesian network (LRBN) toextract the shared speech feature for the input of end-to-end speech recognition model.The structure of LRBN is compact and its parameter learning... We proposed a method using latent regression Bayesian network (LRBN) toextract the shared speech feature for the input of end-to-end speech recognition model.The structure of LRBN is compact and its parameter learning is fast. Compared withConvolutional Neural Network, it has a simpler and understood structure and lessparameters to learn. Experimental results show that the advantage of hybridLRBN/Bidirectional Long Short-Term Memory-Connectionist Temporal Classificationarchitecture for Tibetan multi-dialect speech recognition, and demonstrate the LRBN ishelpful to differentiate among multiple language speech sets. 展开更多
关键词 Multi-dialect speech recognition Tibetan language latent regressionbayesian network end-to-end model
下载PDF
Microphone Array Speech Separation Algorithm Based on TC-ResNet
6
作者 Lin Zhou Yue Xu +2 位作者 Tianyi Wang Kun Feng Jingang Shi 《Computers, Materials & Continua》 SCIE EI 2021年第11期2705-2716,共12页
Traditional separation methods have limited ability to handle the speech separation problem in high reverberant and low signal-to-noise ratio(SNR)environments,and thus achieve unsatisfactory results.In this study,a co... Traditional separation methods have limited ability to handle the speech separation problem in high reverberant and low signal-to-noise ratio(SNR)environments,and thus achieve unsatisfactory results.In this study,a convolutional neural network with temporal convolution and residual network(TC-ResNet)is proposed to realize speech separation in a complex acoustic environment.A simplified steered-response power phase transform,denoted as GSRP-PHAT,is employed to reduce the computational cost.The extracted features are reshaped to a special tensor as the system inputs and implements temporal convolution,which not only enlarges the receptive field of the convolution layer but also significantly reduces the network computational cost.Residual blocks are used to combine multiresolution features and accelerate the training procedure.A modified ideal ratio mask is applied as the training target.Simulation results demonstrate that the proposed microphone array speech separation algorithm based on TC-ResNet achieves a better performance in terms of distortion ratio,source-to-interference ratio,and short-time objective intelligibility in low SNR and high reverberant environments,particularly in untrained situations.This indicates that the proposed method has generalization to untrained conditions. 展开更多
关键词 Residual networks temporal convolution neural networks speech separation
下载PDF
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
7
作者 兰朝凤 蒋朋威 +4 位作者 陈欢 赵世龙 郭小霞 韩玉兰 韩闯 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1005-1012,共8页
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型... 目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。 展开更多
关键词 语音分离 视听融合 跨模态注意力 双路径递归网络 Conv-TasNet
下载PDF
轻量型胶囊网络语音情感识别方法 被引量:2
8
作者 王颖 高胜 《电子科技大学学报》 EI CAS CSCD 北大核心 2023年第3期423-429,共7页
针对目前语音情感识别模型参数多、运算量大、训练速度慢等问题,提出了一种适用于小数据集、轻量型的网络模型。模型以胶囊网络为基础结构,引入深度可分离卷积模块代替胶囊网络中原有的卷积层以减少计算量。基于迁移学习提取普适的底层... 针对目前语音情感识别模型参数多、运算量大、训练速度慢等问题,提出了一种适用于小数据集、轻量型的网络模型。模型以胶囊网络为基础结构,引入深度可分离卷积模块代替胶囊网络中原有的卷积层以减少计算量。基于迁移学习提取普适的底层图像特征,利用语谱图来微调整个网络,减弱模型在小数据集上的过拟合现象。再利用夹角余弦来计算动态路由结构中向量的相似度,提高动态路由算法性能。实验结果表明,轻量型胶囊网络的识别率和运算速度均优于对比的7种深度学习网络模型。 展开更多
关键词 胶囊网络 深度可分离卷积 语音情感识别 迁移学习
下载PDF
基于强约束字典联合深度神经网络的单通道语音分离 被引量:1
9
作者 孙林慧 袁硕 +2 位作者 张蒙 梁文清 步云怡 《南京邮电大学学报(自然科学版)》 北大核心 2023年第2期1-10,共10页
针对基于字典学习语音分离方法的“交叉投影”问题,提出了强约束的优化函数,不仅抑制重构信号和目标信号的误差,约束干净信号在联合字典上的误差,而且抑制干净信号在其他字典上的投影并限制字典间的原子相关性。此外,为了进一步提高两... 针对基于字典学习语音分离方法的“交叉投影”问题,提出了强约束的优化函数,不仅抑制重构信号和目标信号的误差,约束干净信号在联合字典上的误差,而且抑制干净信号在其他字典上的投影并限制字典间的原子相关性。此外,为了进一步提高两个相似信号的分离效果,提出基于强约束字典联合深度神经网络的单通道语音分离方法,首先利用强约束字典实现目标与干扰语音的初步分离,然后通过联合约束利用深度神经网络实现语音与干扰语音交叉投影残余的分离。实验结果表明,与其他优秀单通道语音分离方法相比,该算法有效提升了语音分离系统的性能。 展开更多
关键词 单通道语音分离 字典学习 深度神经网络 损失函数 语音增强
下载PDF
结合LSTM与ResNet的声学回声消除 被引量:1
10
作者 许春冬 徐锦武 +3 位作者 王茹霞 凌贤鹏 黄乔月 郭桥生 《传感器与微系统》 CSCD 北大核心 2023年第5期29-32,共4页
针对传统的声学回声消除(AEC)方法在双端讲话场景下较难实现快速收敛和动态自适应的问题,提出了一种结合长短时记忆(LSTM)与残差神经网络(ResNet)的AEC方法。通过使用LSTM和ResNet相结合的特征提取方法,同时提取到声学回声的时序特征和... 针对传统的声学回声消除(AEC)方法在双端讲话场景下较难实现快速收敛和动态自适应的问题,提出了一种结合长短时记忆(LSTM)与残差神经网络(ResNet)的AEC方法。通过使用LSTM和ResNet相结合的特征提取方法,同时提取到声学回声的时序特征和不同级别的抽象特征,且充分利用近端语音、近端麦克风语音和声学回声之间的幅度谱相似性的特点,引入它们之间的谱归一化互相关系数,构造了一种改进的理想二值掩蔽(iIBM)作为训练目标,此外引入深度可分离卷积使模型参数量减少了3.42 MB。实验结果表明:双端通话环境下所提出的方法相比参考算法取得了更高的客观评价得分。 展开更多
关键词 声学回声消除 双端讲话场景 长短时记忆网络 残差神经网络 理想二值掩蔽 深度可分离卷积
下载PDF
基于分离结果信噪比估计与自适应调频网络的单通道语音分离技术 被引量:1
11
作者 张锐 吕俊 《广东工业大学学报》 CAS 2023年第2期45-54,共10页
在实际应用中,语音分离模型往往受到未知噪声的干扰,从而出现泛化性能严重退化的问题。据此本文提出了基于分离结果信噪比估计与自适应调频网络的单通道语音分离方法。该方法首先通过预测网络对测试信号分离结果的尺度不变信噪比进行估... 在实际应用中,语音分离模型往往受到未知噪声的干扰,从而出现泛化性能严重退化的问题。据此本文提出了基于分离结果信噪比估计与自适应调频网络的单通道语音分离方法。该方法首先通过预测网络对测试信号分离结果的尺度不变信噪比进行估计,以此计算模型的认知不确定性;然后,设计自适应调频网络针对不确定性较高的信号进行自适应频谱调节,以降低模型认知不确定性,从而提升模型在面对未知噪声时的泛化能力。实验结果表明:本文提出的方法相比于单独的时域卷积语音分离网络,将SI-SNR指标从2.72 dB提升至4.57 dB,增幅达到67.94%,在泛化能力上具有较大的改善;相比于增加了软掩膜过滤机制的时域卷积语音分离网络,将SI-SNR指标从3.32d B提升至4.57 dB,增幅达到37.65%,表明该方法在提高泛化能力方面的能力优于软掩膜过滤机制。 展开更多
关键词 语音分离 不确定性度量 噪声鲁棒 神经网络
下载PDF
基于语音信号特性的沙漏网络下的人声与伴奏分离算法
12
作者 孙超 余勤 +1 位作者 龚晓峰 雒瑞森 《计算机应用与软件》 北大核心 2023年第6期89-95,共7页
沙漏神经网络最初是为了解决人体姿态估计而设计的,最近有的工作将其迁移到人声与伴奏分离的任务之中,然而这种网络结构较简单,并且分离性能较差,分离出的信号会产生伪影。为了进一步提高分离性能,针对语音信号的特性构造一种新的损失函... 沙漏神经网络最初是为了解决人体姿态估计而设计的,最近有的工作将其迁移到人声与伴奏分离的任务之中,然而这种网络结构较简单,并且分离性能较差,分离出的信号会产生伪影。为了进一步提高分离性能,针对语音信号的特性构造一种新的损失函数,可以使网络更好地学习和优化;在整个网络中加入批标准化和Leaky-ReLU激活函数,改进网络的反向梯度传播,稳定学习过程。在MIR-1K数据集上的实验结果表明,改进后的算法分离后的人声在源-失真比,源-算法引入伪像比上原始沙漏网络分别提高了0.18 dB和0.26 dB,分离后的伴奏在源-失真比、源-干扰比和源-算法引入伪像比上分别提高了0.23 dB和0.32 dB,明显超过了目前的人声伴奏的算法。 展开更多
关键词 沙漏神经网络 人声与伴奏分离 语音信号特性 反向传播
下载PDF
双路注意力循环网络的轻量化语音分离
13
作者 杨弋 胡琦 张鹏远 《声学学报》 EI CAS CSCD 北大核心 2023年第5期1060-1069,共10页
提出了双路注意力循环网络的轻量化语音分离方法。首先,该方法使用基于“双路注意力机制”和“双路循环网络”的可选择分支结构对语音信号进行建模,从而提取深层特征信息并降低模型的参数量。其次,引入子带处理技术,从而降低模型的计算... 提出了双路注意力循环网络的轻量化语音分离方法。首先,该方法使用基于“双路注意力机制”和“双路循环网络”的可选择分支结构对语音信号进行建模,从而提取深层特征信息并降低模型的参数量。其次,引入子带处理技术,从而降低模型的计算量。在LibriCSS数据集上的实验结果表明,该方法取得的平均词错误率为8.6%,且参数量和计算量分别仅为0.15 MiB和15.2 G/6s,与当前主流方法相比,分别减小了3.3~391.3倍和1.1~3.2倍。这表明,所提方法在取得高语音分离性能的同时,能有效地降低模型的参数量和计算量。 展开更多
关键词 语音分离 轻量化模型 深度神经网络 双路网络 自注意力网络
下载PDF
基于CNN和Transformer的双路径语音分离
14
作者 王钧谕 高勇 《通信技术》 2023年第5期585-589,共5页
使用深度学习技术进行语音分离已经取得了优异的成果。当前主流的语音分离模型主要基于注意力模块或卷积神经网络,它们通过许多中间状态传递信息,难以对较长的语音序列建模导致分离性能不佳。首先提出了一种端到端的双路径语音分离网络(... 使用深度学习技术进行语音分离已经取得了优异的成果。当前主流的语音分离模型主要基于注意力模块或卷积神经网络,它们通过许多中间状态传递信息,难以对较长的语音序列建模导致分离性能不佳。首先提出了一种端到端的双路径语音分离网络(DPCFNet),该网络通过引入改进的密集连接块,使编码器能提取到丰富的语音特征。然后使用卷积增强Transformer(Conformer)作为分离层的主要组成部分,使语音序列中的元素可以直接交互,不再通过中间状态传递信息。最后将Conformer与双路径结构相结合使得该模型能够有效地进行长语音序列建模。实验结果表明,相比于当前主流的Conv-Tasnet算法及DPTNet算法,所提出的模型在信噪失真比(Signal to noise Distortion Ratio,SDR)和尺度不变信噪失真比(Scale-Invariant Signal to noise Distortion Ratio,SI-SDR)上有明显提高,分离性能更好。 展开更多
关键词 深度学习 CONFORMER 双路径网络 单通道语音分离 密集连接块
下载PDF
双路径多尺度混合感知语音分离模型
15
作者 刘雄涛 周书民 方江雄 《现代信息科技》 2023年第1期8-13,共6页
单通道语音分离主要采用循环神经网络或卷积神经网络对语音序列建模,但这些方法都存在对较长停顿的语音序列建模困难的问题。提出一种双路径多尺度多层感知混合分离网络(DPMNet)去解决这个问题。提出多尺度上下文感知建模方法,将三个不... 单通道语音分离主要采用循环神经网络或卷积神经网络对语音序列建模,但这些方法都存在对较长停顿的语音序列建模困难的问题。提出一种双路径多尺度多层感知混合分离网络(DPMNet)去解决这个问题。提出多尺度上下文感知建模方法,将三个不同时间尺度的输入通道特征融合。与传统的方法相比,加入全连接层以弱化噪音的干扰,卷积和全连接的交叉融合增加了模型的感受野,强化了长序列建模能力。实验表明,这种双路径多尺度混合感知的方案拥有更少的参数,在Libri2mix及其实验嘈杂的版本WHAM!,以及课堂真实数据的ICSSD都表明DPMNet始终优于其他先进的模型。 展开更多
关键词 多尺度上下文建模 混合感知 全连接层 双路径网络 语音分离
下载PDF
基于深度学习语音分离技术的研究现状与进展 被引量:69
16
作者 刘文举 聂帅 +1 位作者 梁山 张学良 《自动化学报》 EI CSCD 北大核心 2016年第6期819-833,共15页
现阶段,语音交互技术日益在现实生活中得到广泛的应用,然而,由于干扰的存在,现实环境中的语音交互技术远没有达到令人满意的程度.针对加性噪音的语音分离技术是提高语音交互性能的有效途径,几十年来,全世界范围内的许多研究者为此投入... 现阶段,语音交互技术日益在现实生活中得到广泛的应用,然而,由于干扰的存在,现实环境中的语音交互技术远没有达到令人满意的程度.针对加性噪音的语音分离技术是提高语音交互性能的有效途径,几十年来,全世界范围内的许多研究者为此投入了巨大的努力,提出了很多实用的方法.特别是近年来,由于深度学习研究的兴起,基于深度学习的语音分离技术日益得到了广泛关注和重视,显露出了相当光明的应用前景,逐渐成为语音分离中一个新的研究趋势.目前已有很多基于深度学习的语音分离方法被提出,但是,对于深度学习语音分离技术一直以来都缺乏一个系统的分析和总结,不同方法之间的联系和区分也很少被研究.针对这个问题,本文试图对语音分离的主要流程和整体框架进行细致的分析和总结,从特征、模型以及目标三个方面对现有的前沿研究进展进行全面而深入的综述,最后对语音分离技术进行展望. 展开更多
关键词 神经网络 语音分离 计算听觉场景分析 机器学习
下载PDF
卷积混迭语音信号的联合块对角化盲分离方法 被引量:7
17
作者 张华 冯大政 庞继勇 《声学学报》 EI CSCD 北大核心 2009年第2期167-174,共8页
针对语音信号的卷积混迭模型,利用不同语音信号之间的近似独立和短时平稳特性,提出一种基于信号二阶统计量的联合块对角化方法,解决超定卷积盲分离问题。该方法采用非对角线上各子矩阵F-范数的平方和作为联合块对角化性能的评判准则,将... 针对语音信号的卷积混迭模型,利用不同语音信号之间的近似独立和短时平稳特性,提出一种基于信号二阶统计量的联合块对角化方法,解决超定卷积盲分离问题。该方法采用非对角线上各子矩阵F-范数的平方和作为联合块对角化性能的评判准则,将原四次代价函数转化为一组较为简单的二次子代价函数,每一子代价函数用于估计酉混迭矩阵的一个子矩阵。依次最小化各子函数,迭代搜索代价函数最小点,得到混迭矩阵的估计。理论分析及实验结果表明,所提方法不仅能够达到与类Jacobi经典方法同样好的分离效果,并且具有更低的计算复杂度、更快的收敛速度和对传输信道阶数、迭代初始值不敏感的特点。 展开更多
关键词 语音信号 块对角化 混迭 分离方法 卷积 代价函数 JACOBI 对角化方法
下载PDF
在鸡尾酒会场景下利用去掩蔽知觉线索提高言语识别的脑网络机制 被引量:4
18
作者 李量 郑英君 +3 位作者 吴超 黎绢花 张畅芯 陆灵犀 《心理科学进展》 CSSCI CSCD 北大核心 2017年第12期2099-2110,共12页
在有多人说话的嘈杂环境下,听者如何利用知觉线索来强化对目标言语的识别?为解答这一鸡尾酒会问题,研究者用脑成像的方法来考察相应的脑网络机制。研究表明,听者对与目标言语某个特征相关联的去掩蔽线索的利用,不但能促进听觉皮层对目... 在有多人说话的嘈杂环境下,听者如何利用知觉线索来强化对目标言语的识别?为解答这一鸡尾酒会问题,研究者用脑成像的方法来考察相应的脑网络机制。研究表明,听者对与目标言语某个特征相关联的去掩蔽线索的利用,不但能促进听觉皮层对目标言语信号的短潜伏期反应,而且强化了线索特异性及非特异性的注意、言语表达、抑制功能和言语运动这四类脑区的活动及其功能连接,从而构成了信息掩蔽环境下知觉线索促进目标言语客体完好化的脑网络基础。 展开更多
关键词 鸡尾酒会问题 信息掩蔽 去掩蔽 言语识别 主观空间分离 听觉言语启动 视觉言语启动 脑网络 神经成像
下载PDF
一种采用振荡器神经网络的CASA计算模型语音分离算法 被引量:3
19
作者 胡光锐 虞晓 茅晓泉 《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第11期1640-1644,共5页
基于听觉现象分析 (CASA)模型的基本原理 ,在仅有单通道输入混合语音信号时 ,采用振荡器神经网络 ,提出了一种 CASA改进模型语音分离算法结构 .文中利用一个实例说明了新算法的具体实现步骤 .讨论了新算法机构中语音听觉外围处理部分和... 基于听觉现象分析 (CASA)模型的基本原理 ,在仅有单通道输入混合语音信号时 ,采用振荡器神经网络 ,提出了一种 CASA改进模型语音分离算法结构 .文中利用一个实例说明了新算法的具体实现步骤 .讨论了新算法机构中语音听觉外围处理部分和分割神经网络处理部分 .通过上述两个部分的处理可以将输入混合语音信号在时频域上分割为若干有听觉感知意义的语音听觉感知成分分段 Segments,以便于新算法后续处理部分中语音 Segments的聚类和分离重构输出处理 ,最终完成语音分离任务 . 展开更多
关键词 语音分离 听觉现象分析 振荡器神经网络 听觉感知成分分段 CASA模型 语音识别
下载PDF
基于小波域的非平稳卷积混合语音信号的自适应盲分离 被引量:4
20
作者 楼红伟 胡光锐 《控制与决策》 EI CSCD 北大核心 2004年第1期73-76,共4页
一些卷积混合信号的盲分离算法是迭代性的,不适于实时应用.为此提出一种基于小波域的算法,用于卷积混合信号的自适应盲分离.对基于小波域的算法进行仿真,并与频域盲信号分离算法进行对比,结果表明所提出的算法能提高盲信号分离的性能.
关键词 语音信号分离 神经网络 二进小波变换 非平稳卷积混合信号 自适应盲分离 小波域
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部