期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于CNN-Transformer的欺骗语音检测
1
作者
徐童心
黄俊
《无线电工程》
2024年第5期1091-1098,共8页
语音合成和转换技术的不断更迭对声纹识别系统产生重大威胁。针对现有语音欺骗检测方法中难以适应多种欺骗类型,对未知欺骗攻击检测能力不足的问题,提出了一种结合卷积神经网络(Convolutional Neural Network,CNN)与Transformer的欺骗...
语音合成和转换技术的不断更迭对声纹识别系统产生重大威胁。针对现有语音欺骗检测方法中难以适应多种欺骗类型,对未知欺骗攻击检测能力不足的问题,提出了一种结合卷积神经网络(Convolutional Neural Network,CNN)与Transformer的欺骗语音检测模型。设计基于坐标注意力(Coordinate Attention,CA)嵌入的SE-ResNet18的位置感知特征序列提取网络,将语音信号局部时频表示映射为高维特征序列并引入二维位置编码(two-Dimensional Position Encoding,2D-PE)保留特征之间的相对位置关系;提出多尺度自注意力机制从多个尺度建模特征序列之间的长期依赖关系,解决Transformer难以捕捉局部依赖的问题;引入特征序列池化(Sequence Pooling,SeqPool)提取话语级特征,保留Transformer层输出帧级特征序列之间的相关性信息。在ASVspoof2019大赛官方逻辑访问(Logic Access,LA)数据集的实验结果表明,提出的方法相对于当前先进的欺骗语音检测系统,等错误率(Equal Error Rate,EER)平均降低12.83%,串联检测成本函数(tandem Detection Cost Function,t-DCF)平均降低7.81%。
展开更多
关键词
欺骗语音检测
位置感知
序列
TRANSFORMER
特征
序列池化
下载PDF
职称材料
基于紧凑型Vision transformer的细粒度视觉分类
被引量:
1
2
作者
徐昊
郭黎
李润泽
《控制与决策》
EI
CSCD
北大核心
2024年第3期893-900,共8页
Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池...
Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池化技术取消分类令牌的使用,减少计算复杂度;最后,使用部位选择模块和混合损失函数,进一步提升模型在细粒度视觉分类中的表现.所提出算法在公共数据集CUB-200-2011、Butterfly200、Stanford Dogs、Stanford Cars和NABirds中均进行了实验验证,在只使用少量的数据和计算资源条件下,分别获得了88.9%、87.4%、89.0%、93.4%和88.0%的准确率,训练时间平均比常用的Vi T-B_16模型下降了73.8%,同时比TransFG模型下降了93.9%,并且训练过程中的参数量只有这两种模型的1/4左右.实验结果充分表明,所提出的模型较之其他主流的方法在数据量需求和计算复杂度方面具有明显的优越性,可广泛应用于工业过程控制、设备微小故障检测与诊断中.
展开更多
关键词
紧凑型
Vision
transformer
细粒度视觉分类
卷积块
归纳偏置
序列池化
混合损失
原文传递
题名
基于CNN-Transformer的欺骗语音检测
1
作者
徐童心
黄俊
机构
重庆邮电大学通信与信息工程学院
出处
《无线电工程》
2024年第5期1091-1098,共8页
基金
国家自然科学基金(61771085)。
文摘
语音合成和转换技术的不断更迭对声纹识别系统产生重大威胁。针对现有语音欺骗检测方法中难以适应多种欺骗类型,对未知欺骗攻击检测能力不足的问题,提出了一种结合卷积神经网络(Convolutional Neural Network,CNN)与Transformer的欺骗语音检测模型。设计基于坐标注意力(Coordinate Attention,CA)嵌入的SE-ResNet18的位置感知特征序列提取网络,将语音信号局部时频表示映射为高维特征序列并引入二维位置编码(two-Dimensional Position Encoding,2D-PE)保留特征之间的相对位置关系;提出多尺度自注意力机制从多个尺度建模特征序列之间的长期依赖关系,解决Transformer难以捕捉局部依赖的问题;引入特征序列池化(Sequence Pooling,SeqPool)提取话语级特征,保留Transformer层输出帧级特征序列之间的相关性信息。在ASVspoof2019大赛官方逻辑访问(Logic Access,LA)数据集的实验结果表明,提出的方法相对于当前先进的欺骗语音检测系统,等错误率(Equal Error Rate,EER)平均降低12.83%,串联检测成本函数(tandem Detection Cost Function,t-DCF)平均降低7.81%。
关键词
欺骗语音检测
位置感知
序列
TRANSFORMER
特征
序列池化
Keywords
spoofed speech detection
position aware sequence
Transformer
feature SeqPool
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于紧凑型Vision transformer的细粒度视觉分类
被引量:
1
2
作者
徐昊
郭黎
李润泽
机构
重庆理工大学计算机科学与工程学院
湖北民族大学智能科学与工程学院
南京航空航天大学自动化学院
出处
《控制与决策》
EI
CSCD
北大核心
2024年第3期893-900,共8页
基金
国家自然科学基金项目(62263010,62020106003)。
文摘
Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池化技术取消分类令牌的使用,减少计算复杂度;最后,使用部位选择模块和混合损失函数,进一步提升模型在细粒度视觉分类中的表现.所提出算法在公共数据集CUB-200-2011、Butterfly200、Stanford Dogs、Stanford Cars和NABirds中均进行了实验验证,在只使用少量的数据和计算资源条件下,分别获得了88.9%、87.4%、89.0%、93.4%和88.0%的准确率,训练时间平均比常用的Vi T-B_16模型下降了73.8%,同时比TransFG模型下降了93.9%,并且训练过程中的参数量只有这两种模型的1/4左右.实验结果充分表明,所提出的模型较之其他主流的方法在数据量需求和计算复杂度方面具有明显的优越性,可广泛应用于工业过程控制、设备微小故障检测与诊断中.
关键词
紧凑型
Vision
transformer
细粒度视觉分类
卷积块
归纳偏置
序列池化
混合损失
Keywords
compact
Vision transformer
fine-grained visual classification
convolutional blocks
inductive bias
sequence pooling
mixed loss
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于CNN-Transformer的欺骗语音检测
徐童心
黄俊
《无线电工程》
2024
0
下载PDF
职称材料
2
基于紧凑型Vision transformer的细粒度视觉分类
徐昊
郭黎
李润泽
《控制与决策》
EI
CSCD
北大核心
2024
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部