期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
基于跨模态注意力的目标语音提取
1
作者 杨明强 卢健 《计算机工程》 CAS CSCD 北大核心 2024年第9期121-129,共9页
目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进... 目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进行卷积操作实现通道融合,这种方法无法有效挖掘到跨模态信息间的相关性。针对这个问题,设计一个基于两阶段的跨模态注意力特征融合模块。在第一阶段进行点积注意力计算来挖掘跨模态信息间存在的浅层相关性,在第二阶段进行自注意力计算来捕捉目标语音特征间的全局依赖关系,以增强目标语音的特征表示,2个融合阶段分别训练不同的可学习参数来调节注意力权重。此外还在时间卷积网络(TCN)中引入门控循环单元(GRU)来增强其捕捉序列数据间长期依赖关系的能力,从而改善视觉特征的提取,进一步提升视听特征的融合效果。在VoxCeleb2和LRS2-BBC两个数据集上进行测试,实验结果表明,相比于基线方法,提出的方法在2个数据集上都有较好的表现,在评估指标源失真比(SDR)上分别提升了1.05 dB和0.26 dB。 展开更多
关键词 目标语音提取 跨模态融合 自注意力 时间卷积网络 门控循环单元
下载PDF
基于深度学习的目标说话人语音提取
2
作者 王志雄 《电脑知识与技术》 2024年第10期37-40,共4页
人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换... 人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换为嵌入系数,从而规避了复杂的相位估计。该网络由四个关键部分构成,即说话人辅助网络、语音编码器、目标说话人语音提取器以及语音解码器。具体而言,语音编码器负责将混合语音转化为嵌入系数;说话人辅助网络则通过学习以说话人嵌入形式表示目标说话人特征;目标说话人语音提取器以嵌入系数与目标说话人嵌入作为输入,进而估计出一个接收掩模;最后,语音解码器根据处理过的嵌入系数重新构造出目标说话人的语音。实验结果显示,在开放评测环境下,相较于基准模型,所提方法在SDR(Signal-to-Distortion Ratio)和SI-SDR(Source-to-Interference Signal-to-Distortion Ratio)指标上分别取得了相对提升2.62dB和2.52dB的成绩。实验结果有力证明了该方法具有更好的抗干扰性和泛化性能。 展开更多
关键词 单通道 目标说话人语音提取 时域语音信号 泛化性 语音编码器 语音解码器
下载PDF
基于ffmpeg提取目标人物语音的应用研究 被引量:2
3
作者 孟利 沈郑燕 张泰雯 《信息系统工程》 2023年第3期74-76,共3页
目的:根据真实案例中的语音检材,利用ffmpeg软件提取犯罪嫌疑人的语音,探究适用ffmpeg软件提取的目标人物语音特点,同时归纳总结整个提取过程的具体操作流程,固化经验。方法:利用该软件包含的先进的音频编解码库开展语音提取实验,优化... 目的:根据真实案例中的语音检材,利用ffmpeg软件提取犯罪嫌疑人的语音,探究适用ffmpeg软件提取的目标人物语音特点,同时归纳总结整个提取过程的具体操作流程,固化经验。方法:利用该软件包含的先进的音频编解码库开展语音提取实验,优化能够提高可移植性和编解码质量的细节操作,提高语音提取质量。结果:ffmpeg可以将案例中犯罪嫌疑人的语音进行提取,并能够提高语音提取质量。结论:运用ffmpeg可以进行视频转音频、音频截取、音频转码等操作,处理时间短、效果显著;同时将复杂困难的命令行软件的应用,简化为具体的操作步骤是切实可行的,有望使公安工作人员在不具备编码相关专业背景的情况下进行操作。 展开更多
关键词 FFMPEG 提取语音 音频转码
下载PDF
基于嵌入式注意机制的目标语音提取算法
4
作者 郭志楷 杨明堃 +3 位作者 蒋国峰 陶祁 刘欢欢 马红强 《计算机测量与控制》 2023年第10期174-181,共8页
针对说话人语音提取问题,提出了一种基于深度神经网络多任务学习的嵌入式注意机制单声道说话人语音提取方法;该算法将语音分离和语音提取统一到单个框架中,向频谱映射分离模型中嵌入说话人注意机制,并在引入说话人辅助信息的注意机制中... 针对说话人语音提取问题,提出了一种基于深度神经网络多任务学习的嵌入式注意机制单声道说话人语音提取方法;该算法将语音分离和语音提取统一到单个框架中,向频谱映射分离模型中嵌入说话人注意机制,并在引入说话人辅助信息的注意机制中得到时变注意权重,利用时变注意权重分离出目标说话人的内部嵌入向量,随后采用提取模型对目标说话人的嵌入向量进行非线性处理运算,估计出目标说话人对应的掩蔽,进而提取出目标说话人语音;同时借助TIMIT数据集,进行了语音提取实验;实验结果验证了所提算法的可行性和有效性,并在说话人语音提取的性能上有明显的优越性。 展开更多
关键词 深度神经网络 单声道说话人语音提取 多任务学习 嵌入式注意机制
下载PDF
阅读障碍儿童语音提取 被引量:10
5
作者 刘翔平 丁玎 杨双 《心理与行为研究》 2005年第3期169-172,204,共5页
儿童在提取短时记忆系统的语音信息时,往往会造成部分信息的丢失和回忆量的下降,这种信息丢失量的多少与中央执行系统功能有着密切的联系。为了考察阅读障碍儿童的语音提取特点,挖掘他们记忆失败的本质,使用自由回忆和再认两种任务,考... 儿童在提取短时记忆系统的语音信息时,往往会造成部分信息的丢失和回忆量的下降,这种信息丢失量的多少与中央执行系统功能有着密切的联系。为了考察阅读障碍儿童的语音提取特点,挖掘他们记忆失败的本质,使用自由回忆和再认两种任务,考察阅读障碍儿童在无意义音节和汉语词汇上的提取特点,结果发现:(1)阅读障碍儿童在语音提取时,丢失的信息率要显著多于正常儿童,这种丢失可能是由于他们落后的中央执行功能所致;(2)阅读障碍儿童单纯的语音保持能力正常,但不擅长利用语义编码来促进短时记忆效果,而正常儿童却能够较好地利用语义线索。 展开更多
关键词 阅读障碍 语音提取 中央执行功能
下载PDF
中级水平留学生对部件熟悉的陌生形声字的语音提取 被引量:4
6
作者 张金桥 帅平 王明月 《华文教学与研究》 CSSCI 2014年第1期21-27,共7页
本文采用纸笔测验方法探讨了中级水平留学生对部件熟悉的陌生形声字的语音提取特点。结果表明,字的类型、声旁位置和形旁可命名性影响中级水平留学生对部件熟悉的陌生形声字的语音提取,具体表现为:规则字的命名成绩好于不规则字;声旁在... 本文采用纸笔测验方法探讨了中级水平留学生对部件熟悉的陌生形声字的语音提取特点。结果表明,字的类型、声旁位置和形旁可命名性影响中级水平留学生对部件熟悉的陌生形声字的语音提取,具体表现为:规则字的命名成绩好于不规则字;声旁在右的汉字命名成绩好于声旁在左的汉字,形旁不可命名的汉字命名成绩好于形旁可命名的汉字。当陌生形声字的形旁不可命名时,中级水平留学生对整字的命名更倾向于利用声旁信息;形声字声旁在右时,利用可单独命名的声旁命名整字的可能性更大;当形旁可命名时,声旁的语音线索与形旁的语音线索存在竞争。中级水平留学生对部件熟悉的陌生形声字语音提取主要采用"读声旁"、"读形旁"和"类比"三种策略,尤其以"读声旁"和"读形旁"等"读半边"策略为主。 展开更多
关键词 留学生 部件熟悉 陌生形声字 语音提取
下载PDF
基于听觉模型的语音特征提取 被引量:3
7
作者 张焱 闵丽娟 黄志同 《数据采集与处理》 CSCD 2000年第3期307-311,共5页
分析了耳蜗对声音频率分解机理 ,毛细胞和听神经的能量转换机理以及中枢神经系统的侧抑制机理 ,分别在以上三个层次上建立了数学模型 ,并提取出识别语音特征参数。通过对听觉谱和L PC倒谱对比分析 ,得到了听觉谱适宜用作语音识别并具有... 分析了耳蜗对声音频率分解机理 ,毛细胞和听神经的能量转换机理以及中枢神经系统的侧抑制机理 ,分别在以上三个层次上建立了数学模型 ,并提取出识别语音特征参数。通过对听觉谱和L PC倒谱对比分析 ,得到了听觉谱适宜用作语音识别并具有良好的噪声鲁棒性的结论。听觉谱和L PC倒谱对比实验分析也反映了听觉模型特征的优良性能。 展开更多
关键词 听觉模型 语音特征提取 语音识别 神经网络
下载PDF
一种基于粒子滤波的双模态语音提取方法 被引量:1
8
作者 金乃高 殷福亮 《大连理工大学学报》 EI CAS CSCD 北大核心 2008年第4期596-601,共6页
说话人的唇动信息有助于加强对语音的感知.根据说话人语音的双模态特性,将振动信息引入语音提取问题,提出了一种基于粒子滤波的贝叶斯融合架构的双模态语音提取方法.该方法融合说话人的语音和唇动信息,根据信息论中的最大互信息准则与... 说话人的唇动信息有助于加强对语音的感知.根据说话人语音的双模态特性,将振动信息引入语音提取问题,提出了一种基于粒子滤波的贝叶斯融合架构的双模态语音提取方法.该方法融合说话人的语音和唇动信息,根据信息论中的最大互信息准则与盲源分离中的高阶统计量准则,将音视频互信息与语音峭度的乘积作为代价函数,利用粒子滤波估计混合矩阵,解决时变瞬时混合情况下的语音提取问题.仿真结果表明,该方法在低信噪比情况下仍然能够实现语音信号的有效提取. 展开更多
关键词 语音提取 粒子滤波 高阶统计量 最大互信息
下载PDF
基于ICA的重叠语音基频提取和语音增强 被引量:1
9
作者 王泽 朱贻盛 +1 位作者 王自明 张红煊 《北京生物医学工程》 2001年第4期241-245,278,共6页
语音信号是一种特征时变信号 ,基音频率提取和语音增强是两种常见语音处理要求。独立分量分析 (ICA)是一种盲信号处理方法 ,目的在于将混合在观察信号中的相互独立的源信号分离出来 ,ICA在很多领域都有广泛的应用 ,在语音信号上最为成... 语音信号是一种特征时变信号 ,基音频率提取和语音增强是两种常见语音处理要求。独立分量分析 (ICA)是一种盲信号处理方法 ,目的在于将混合在观察信号中的相互独立的源信号分离出来 ,ICA在很多领域都有广泛的应用 ,在语音信号上最为成功 ,本文将ICA用来提取重叠语音信号中的基音频率 ,提出了一个基于ICA的混叠语音基频提取系统 ,成功地解决了基频相互接近时无法提取混合信号基频的问题 ,并将它应用到有音乐背景下的语音增强方面 ,均取得了较好的结果。 展开更多
关键词 独立分量分析 语音基频提取 语音增强 语音信号 生物医学工程
下载PDF
用于语音动画合成的语音特征提取和聚类技术 被引量:4
10
作者 叶静 董兰芳 王洵 《微型机与应用》 2004年第8期47-49,共3页
在基于图像的人脸语音动画合成过程中,为了保证音频帧和视频帧的精确映射关系,需要提取鲁棒的语音信号特征参数,并对特征参数聚类。本文介绍了直接从原始语音信号中提取LPC复倒谱及短时能量组成特征矢量的方法,以及对特征矢量进行聚类... 在基于图像的人脸语音动画合成过程中,为了保证音频帧和视频帧的精确映射关系,需要提取鲁棒的语音信号特征参数,并对特征参数聚类。本文介绍了直接从原始语音信号中提取LPC复倒谱及短时能量组成特征矢量的方法,以及对特征矢量进行聚类的方法。 展开更多
关键词 语音动画合成 语音特征提取 聚类技术 音频帧 映射
下载PDF
语音信号包络提取与汉语音节包络头分析 被引量:1
11
作者 向建军 戴乐 袁晓 《数据采集与处理》 CSCD 2001年第3期334-337,共4页
复解析子波变换 (CAWT)将希尔伯特变换 (HT)与子波变换 (WT)紧密地结合在一起 ,在信号处理方面具有良好的表现。本文将复解析子波变换应用于语音信号的包络提取中 ,数字仿真结果表明 ,该方法优于传统的希尔伯特变换法 。
关键词 语音信号包络提取 语音节包络头 音节识别 子波变换
下载PDF
一种基于共振峰恢复和Mellin变换的非特定人语音特征提取方法 被引量:1
12
作者 蒋冬梅 赵荣椿 《数据采集与处理》 CSCD 2001年第1期58-62,共5页
针对非特定人语音识别中的声道长度归一化问题 ,首先研究了一种能够去掉基音激励的、基于自相关估计的共振峰 (Formant)频谱恢复方法 ,说明了不同说话人发同一元音时的频谱互为尺度化的关系 ,以及它们与同一说话人发不同元音时频谱的差... 针对非特定人语音识别中的声道长度归一化问题 ,首先研究了一种能够去掉基音激励的、基于自相关估计的共振峰 (Formant)频谱恢复方法 ,说明了不同说话人发同一元音时的频谱互为尺度化的关系 ,以及它们与同一说话人发不同元音时频谱的差别 ,然后结合具有尺度不变性的Mellin变换 ,提出了一种适用于非特定人的语音特征提取方法。在实验中 ,对从非特定人收集的 2 0个汉语元音 ,分别提取了其 FFT倒谱、Mel倒谱、FFT- Mellin倒谱及本文 Formant- Mellin倒谱 ,并用一种很直观的 F- ratio分辨率准则进行了性能评价。结果表明 ,无论是对纯净的 ,还是对带附加白噪声的发音样本 ,本文由共振峰恢复和 Mellin变换相结合得到的语音特征都具有较高的分辨率。 展开更多
关键词 Mellin变换 自相关估计 共振峰恢复 语音特征提取 语音识别
下载PDF
一种基于听觉模型的语音特征提取方法 被引量:4
13
作者 李鸣华 《计算机与现代化》 2000年第3期9-13,共5页
提出了一种基于听觉模型的语音特征提取方法 ,从信号的过零点获得频率信息 ,从振幅峰值和非线性压缩获得强度信息 ,并对这种方法进行了误差分析 ,证明其噪声的鲁棒性。
关键词 听觉模型 误差分析 语音特征提取 语音识别 噪声
下载PDF
基于小波包变换和小波阈值消噪的语音特征提取 被引量:5
14
作者 陈白 《机电工程》 CAS 2008年第9期28-30,共3页
为了实现强噪声背景下语音信号的特征提取,根据小波变换的多分辨率特性,以及与人耳耳蜗滤波相一致的特性,利用小波包变换,在各语音特征频率段上,提取出包含丰富的非平稳信息的语音特征;并在小波包分解去噪的基础上,构造了模糊阈值函数,... 为了实现强噪声背景下语音信号的特征提取,根据小波变换的多分辨率特性,以及与人耳耳蜗滤波相一致的特性,利用小波包变换,在各语音特征频率段上,提取出包含丰富的非平稳信息的语音特征;并在小波包分解去噪的基础上,构造了模糊阈值函数,利用小波模糊阈值去噪,得到了信噪比较高的语音信号。研究结果表明,小波包变换和小波阈值去噪,较好地消除了强噪声背景下的噪声,并有效地提取出了语音信号特征。 展开更多
关键词 小波包变换 语音特征提取 语音消噪 小波阂值消噪
下载PDF
基于短时傅里叶变换的敏感语音提取 被引量:2
15
作者 张学敏 《微型机与应用》 2009年第24期78-81,共4页
在纯净语音条件下,提出了一种基于短时傅里叶变换的敏感语音提取,该提取利用3种FIR数字滤波器对纯净语音在不同频率范围的特征语音进行选取,从而产生不同的音效。待处理的声音文件可以是自己录制的一段语音,也可以是任意格式的音频文件... 在纯净语音条件下,提出了一种基于短时傅里叶变换的敏感语音提取,该提取利用3种FIR数字滤波器对纯净语音在不同频率范围的特征语音进行选取,从而产生不同的音效。待处理的声音文件可以是自己录制的一段语音,也可以是任意格式的音频文件,通过DSP和编译软件实现敏感语音提取,并在数字处理芯片TMS320C5402上实现。 展开更多
关键词 短时傅里叶变换 数字滤波器 敏感语音提取 DSP
下载PDF
图形用户界面下敏感语音提取的仿真实现 被引量:1
16
作者 张学敏 王秀艳 张建红 《长春工程学院学报(自然科学版)》 2011年第2期109-112,共4页
获取纯净语音的不同频段音效时,常存在提取方法复杂、数据修改麻烦及效果不直观的缺点。鉴于此,利用短时傅里叶变换获取纯净语音在频域的频谱特性并分析其频谱分布特点,采用不同类型的FIR数字滤波器对纯净语音的感兴趣区进行敏感语音的... 获取纯净语音的不同频段音效时,常存在提取方法复杂、数据修改麻烦及效果不直观的缺点。鉴于此,利用短时傅里叶变换获取纯净语音在频域的频谱特性并分析其频谱分布特点,采用不同类型的FIR数字滤波器对纯净语音的感兴趣区进行敏感语音的提取,从而产生低音、中音和高音音效,并通过MATLAB图形用户界面实现之。仿真结果表明:在不同频段进行的敏感语音提取音效明显,声音感染力强。同时,利用图形用户界面实现敏感语音的提取具有数据修改方便、操作简单灵活、效果直观明了的优点。 展开更多
关键词 短时傅里叶变换 数字滤波器 敏感语音提取 图形用户界面
下载PDF
基于多参考信号ICA的目标语音提取方法 被引量:1
17
作者 王青云 宗慧 《微计算机信息》 2012年第8期14-16,共3页
为了能够在强噪声、干扰声等复杂环境下提取干净的目标语音,提高输出信号的信噪比和信干比,本文提出了一种基于多参考信号ICA算法的语音提取方案。该方法利用声源定位、波束形成和小波分解等算法结果作为参考信号,应用基于负熵的FastIC... 为了能够在强噪声、干扰声等复杂环境下提取干净的目标语音,提高输出信号的信噪比和信干比,本文提出了一种基于多参考信号ICA算法的语音提取方案。该方法利用声源定位、波束形成和小波分解等算法结果作为参考信号,应用基于负熵的FastICA算法估计目标语音。使用麦克风阵实测语音信号的仿真实验证明,本文提出的算法能有效地抑制背景噪声和干扰声,恢复目标语音波形和语谱图。与常规波束形成和ICA算法相比较,本文的处理方法有更好的性能,输出信号的信噪比和信干比更高。 展开更多
关键词 目标语音提取 多参考信号ICA 波束形成 小波分解
下载PDF
一种改进的语音基频轮廓提取算法 被引量:3
18
作者 江太辉 《五邑大学学报(自然科学版)》 CAS 2002年第2期27-30,34,共5页
在说话人识别课题中,需要提取精确的基频轮廓作为特征参量,但通常使用传统的固定窗口长度的短时自相关函数算法并不能够适应各种不同人的发音. 论文使用了一种可变窗口长度的改进算法,实验表明它有更强的适应能力. 文中还介绍了一种改... 在说话人识别课题中,需要提取精确的基频轮廓作为特征参量,但通常使用传统的固定窗口长度的短时自相关函数算法并不能够适应各种不同人的发音. 论文使用了一种可变窗口长度的改进算法,实验表明它有更强的适应能力. 文中还介绍了一种改进的基频“野点”平滑算法,它能够在去除野点的同时,更好地保存正确点的信息. 展开更多
关键词 语音基频轮廓提取算法 语音信号处理 平滑滤波 语音识别 说话人识别 提取原理
下载PDF
过完备ICA算法在语音信号提取中的应用
19
作者 郭水旺 李白燕 《计算机系统应用》 2011年第7期169-171,共3页
在语音信号处理中常用麦克风采集语音,然后用算法进行提取和分离,目前常用的有独立分量分析(Independent component Analysis,ICA)算法。但是当麦克风个数少于说话人的个数时,即欠定情形,此时语音信号的提取需采用过完备ICA算法。提出... 在语音信号处理中常用麦克风采集语音,然后用算法进行提取和分离,目前常用的有独立分量分析(Independent component Analysis,ICA)算法。但是当麦克风个数少于说话人的个数时,即欠定情形,此时语音信号的提取需采用过完备ICA算法。提出了一种基于过完备ICA算法的两步算法:估计混合矩阵的几何算法和估计源矩阵的最短路径法。该算法能在欠定情形下对语音信号的提取有很好的作用,仿真实验验证了这一结果。 展开更多
关键词 独立分量分析 过完备 欠定 语音信号提取 两步算法
下载PDF
基于主成分分析的激光麦克风的语音信号提取 被引量:2
20
作者 孙学明 张大华 +2 位作者 周志全 赵张美 胡荣磊 《激光与红外》 CAS CSCD 北大核心 2022年第12期1761-1767,共7页
主成分分析(Principal Component Analysis,PCA)法用于高速视觉的激光麦克风的音频信号重建,可从声场中轻质弹性物体表面的激光散斑动态变化中提取语音信息。将高速散斑视频中的一帧图像视为高维空间中的向量,顺序将视频图像堆栈成数据... 主成分分析(Principal Component Analysis,PCA)法用于高速视觉的激光麦克风的音频信号重建,可从声场中轻质弹性物体表面的激光散斑动态变化中提取语音信息。将高速散斑视频中的一帧图像视为高维空间中的向量,顺序将视频图像堆栈成数据矩阵,利用PCA做特征提取,语音信息就存在于方差较大的主成分中,通常应用第一主成分就可以重建清晰的语音信号。实验表明,PCA对激光散斑颗粒尺度和灰度分布没有过多限制,即使在采样区域较小、反射物体材质不同的情况下,都可以重建人耳可分辨的语音信号。而且基于PCA的无监督机器学习算法特性,选取视频开始部分的帧图像做训练集,还可以提取含有音频信息的主成分的特征向量,作为后续视频图像向量的投影基,实现语音信号的快速提取。 展开更多
关键词 激光麦克风 激光散斑 语音提取 主成分分析 机器学习
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部