期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于CNN-Transformer的欺骗语音检测
1
作者 徐童心 黄俊 《无线电工程》 2024年第5期1091-1098,共8页
语音合成和转换技术的不断更迭对声纹识别系统产生重大威胁。针对现有语音欺骗检测方法中难以适应多种欺骗类型,对未知欺骗攻击检测能力不足的问题,提出了一种结合卷积神经网络(Convolutional Neural Network,CNN)与Transformer的欺骗... 语音合成和转换技术的不断更迭对声纹识别系统产生重大威胁。针对现有语音欺骗检测方法中难以适应多种欺骗类型,对未知欺骗攻击检测能力不足的问题,提出了一种结合卷积神经网络(Convolutional Neural Network,CNN)与Transformer的欺骗语音检测模型。设计基于坐标注意力(Coordinate Attention,CA)嵌入的SE-ResNet18的位置感知特征序列提取网络,将语音信号局部时频表示映射为高维特征序列并引入二维位置编码(two-Dimensional Position Encoding,2D-PE)保留特征之间的相对位置关系;提出多尺度自注意力机制从多个尺度建模特征序列之间的长期依赖关系,解决Transformer难以捕捉局部依赖的问题;引入特征序列池化(Sequence Pooling,SeqPool)提取话语级特征,保留Transformer层输出帧级特征序列之间的相关性信息。在ASVspoof2019大赛官方逻辑访问(Logic Access,LA)数据集的实验结果表明,提出的方法相对于当前先进的欺骗语音检测系统,等错误率(Equal Error Rate,EER)平均降低12.83%,串联检测成本函数(tandem Detection Cost Function,t-DCF)平均降低7.81%。 展开更多
关键词 欺骗语音检测 位置感知序列 TRANSFORMER 特征序列池化
下载PDF
基于紧凑型Vision transformer的细粒度视觉分类 被引量:1
2
作者 徐昊 郭黎 李润泽 《控制与决策》 EI CSCD 北大核心 2024年第3期893-900,共8页
Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池... Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池化技术取消分类令牌的使用,减少计算复杂度;最后,使用部位选择模块和混合损失函数,进一步提升模型在细粒度视觉分类中的表现.所提出算法在公共数据集CUB-200-2011、Butterfly200、Stanford Dogs、Stanford Cars和NABirds中均进行了实验验证,在只使用少量的数据和计算资源条件下,分别获得了88.9%、87.4%、89.0%、93.4%和88.0%的准确率,训练时间平均比常用的Vi T-B_16模型下降了73.8%,同时比TransFG模型下降了93.9%,并且训练过程中的参数量只有这两种模型的1/4左右.实验结果充分表明,所提出的模型较之其他主流的方法在数据量需求和计算复杂度方面具有明显的优越性,可广泛应用于工业过程控制、设备微小故障检测与诊断中. 展开更多
关键词 紧凑型 Vision transformer 细粒度视觉分类 卷积块 归纳偏置 序列池化 混合损失
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部