期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进Transformer模型的多声源分离方法
1
作者
曾援
李剑
+2 位作者
马明星
庞润嘉
贺斌
《计算机技术与发展》
2024年第5期60-65,共6页
目前主流的语音分离算法模型都是基于复杂的递归网络或Transformer网络,Transformer网络复杂度高导致训练难度大以及音频的高采样率导致在样本级别上使用超长输入从而获取不完全特征,不能直接对长语音特征序列进行直接建模出现特征丢失...
目前主流的语音分离算法模型都是基于复杂的递归网络或Transformer网络,Transformer网络复杂度高导致训练难度大以及音频的高采样率导致在样本级别上使用超长输入从而获取不完全特征,不能直接对长语音特征序列进行直接建模出现特征丢失问题。对此,该文提出了一种基于Transformer的改进网络模型。首先,在原有Transformer网络模型编码器里新添加下采样块,计算不同时间尺度上的高级特征同时降低特征空间复杂度;其次,在Transformer网络模型的解码器里添加上采样层与编码器下采样层特征融合保证特征不丢失,提高模型分离能力;最后,在模型分离层里引入一种改进的滑动窗口注意力机制,滑动窗口使用循环移位技术,新的特征窗口中包含老的特征窗口特征同时融合特征边缘信息完成了特征窗口之间的信息交互,获得特征编码以及特征位置编码同时提高特征信息之间的相关系数。实验表明,使用SI-SNR评价标准达到13.5 dB,使用SDR评价指标达到14.1 dB,分离效果优于之前的方法。
展开更多
关键词
上下采样层
TRANSFORMER
特征编码
滑动窗口注意力机制
深度学习
下载PDF
职称材料
题名
基于改进Transformer模型的多声源分离方法
1
作者
曾援
李剑
马明星
庞润嘉
贺斌
机构
中北大学信息与通信工程学院
中北大学省部共建动态测试技术国家重点实验室
出处
《计算机技术与发展》
2024年第5期60-65,共6页
基金
国家自然基金青年科学基金(61901419)。
文摘
目前主流的语音分离算法模型都是基于复杂的递归网络或Transformer网络,Transformer网络复杂度高导致训练难度大以及音频的高采样率导致在样本级别上使用超长输入从而获取不完全特征,不能直接对长语音特征序列进行直接建模出现特征丢失问题。对此,该文提出了一种基于Transformer的改进网络模型。首先,在原有Transformer网络模型编码器里新添加下采样块,计算不同时间尺度上的高级特征同时降低特征空间复杂度;其次,在Transformer网络模型的解码器里添加上采样层与编码器下采样层特征融合保证特征不丢失,提高模型分离能力;最后,在模型分离层里引入一种改进的滑动窗口注意力机制,滑动窗口使用循环移位技术,新的特征窗口中包含老的特征窗口特征同时融合特征边缘信息完成了特征窗口之间的信息交互,获得特征编码以及特征位置编码同时提高特征信息之间的相关系数。实验表明,使用SI-SNR评价标准达到13.5 dB,使用SDR评价指标达到14.1 dB,分离效果优于之前的方法。
关键词
上下采样层
TRANSFORMER
特征编码
滑动窗口注意力机制
深度学习
Keywords
upper and lower sampling layer
Transformer
feature coding
sliding window attention mechanism
deep learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进Transformer模型的多声源分离方法
曾援
李剑
马明星
庞润嘉
贺斌
《计算机技术与发展》
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部