题名 语音伪造及检测技术研究综述
被引量:16
1
作者
任延珍
刘晨雨
刘武洋
王丽娜
机构
空天信息安全与可信计算教育部重点实验室
武汉大学国家网络安全学院
出处
《信号处理》
CSCD
北大核心
2021年第12期2412-2439,共28页
基金
国家自然科学基金项目(61872275,U1836112,61876134,62172306)
湖北省重大科技创新计划(2020BAB018)。
文摘
语音承载着人类语言和说话人身份信息,通过语音伪造技术可以精确模仿目标说话人的声音以达到欺骗人或机器听觉的目的。目前,深度伪造(Deepfake)正在对全球的政治经济及社会稳定带来极大的威胁,其中语音伪造是Deepfake实现舆论操控的核心技术之一。近年来语音伪造技术在拟人度、自然度方面有了显著进步,使得语音伪造检测技术面临着更大的挑战。本文对当前主流的语音伪造和伪造语音检测技术研究现状进行综述,主要包括:1)对主流语音伪造技术,包括语音合成、语音转换和语音对抗样本的基本概念、技术发展历程和研究进展进行综述;2)对伪造语音检测技术的基本概念、性能评价指标、主要技术实现原理和性能效果进行综述;3)对伪造语音检测相关的主流竞赛、常用数据集和可用代码工具资源进行介绍;最后对语音伪造和检测技术现存的挑战性问题和未来的研究方向进行讨论。
关键词
语音伪造
语音伪造 检测
语音 合成
语音 转换
说话人验证
对抗样本
Keywords
voice spoofing attacks
spoofing countermeasures
voice synthesis
voice conversion
automatic speaker verification
adversarial examples
分类号
TN912
[电子电信—通信与信息系统]
题名 语音伪造与鉴伪的发展与挑战
被引量:16
2
作者
陶建华
傅睿博
易江燕
王成龙
汪涛
机构
中国科学院自动化研究所模式识别国家重点实验室
中国科学院大学人工智能技术学院
中国科学院自动化研究所中国科学院脑科学与智能技术研究中心
出处
《信息安全学报》
CSCD
2020年第2期28-38,共11页
基金
国家重点研发计划(No.2018YFB1005003)
国家自然科学基金(No.61831022,No.61771472,No.61773379,No.61901473)
cas-inria院双边合作项目资助(No.173211KYSB20190049)。
文摘
本文对语音伪造与鉴伪的发展进行了梳理与阐释。针对语音伪造的适用场景与关键技术点,分别对身份风格伪造、音色与韵律伪造、语音模拟三大核心语音伪造技术的基本概念、发展历程、优势与不足进行梳理与分析。针对语音伪造的应对技术语音鉴伪技术,首先介绍整理了针对性较强、面向参数式语音伪造、拼接式语音伪造与语音模拟技术框架的应对技术,在此基础上介绍了具有普适性更强的基于深度鉴别网络语音鉴伪研究进展。在此基础上,本文针对语音伪造技术所面临口语化、低资源的挑战,对未来多风格、低成本、鲁棒性发展趋势进行分析。对于语音鉴伪,本文从语料库、特征挖掘、异常检测三个角度对未来的研究重点进行诠释。
关键词
语音伪造
语音 鉴伪
发展与挑战
Keywords
speech forgery
speech forgery detection
development and challenge
分类号
TP191
[自动化与计算机技术—控制理论与控制工程]
题名 基于全局时频注意力网络的语音伪造检测
被引量:2
3
作者
王成龙
易江燕
陶建华
马浩鑫
田正坤
傅睿博
机构
中国科学技术大学信息科学技术学院
模式识别国家重点实验室(中国科学院自动化研究所)
中国科学院大学人工智能学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2021年第7期1466-1475,共10页
基金
国家重点研发计划项目(2017YFC0820602)
国家自然科学基金项目(61831022,61901473,61771472,61773379)
法国国家信息与自动化研究所与中国科学院联合科研项目(173211KYSB20190049)。
文摘
语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了每一维上特征图的不同位置强调的信息是不一样的.2)此外,前人工作大多关注特征图的局部信息,没有利用全局视图中特征图之间的关系.为了解决以上挑战,引入全局时频注意力框架,分别对通道维度和时频维度做了注意力变换.具体而言,引入了2个并行的注意力模块:1)时频注意力模块;2)全局注意力模块.对于时频注意力模块,可以通过使用加权求和在所有时频特征图上聚合特征来进行更新.对于全局注意力模块,借鉴了SE-Net的思想,通过参数为每个特征通道生成权重.通过这种办法,可以得到特征通道上响应的全局分布.在ASVspoof2019 LA公开数据集上进行了一系列实验,结果显示所提的模型取得不错的效果,最佳模型的等错误率达到4.12%,刷新了单个模型的最好成绩.
关键词
语音 鉴伪
注意力机制
语音伪造 检测
全局注意力
时频注意力
Keywords
audio deepfake detection
attention mechanism
voice forgery detection
global attention
temporal-frequency attention
分类号
TP309
[自动化与计算机技术—计算机系统结构]
TN912.3
[电子电信—通信与信息系统]
题名 生成式伪造语音安全问题与解决方案
4
作者
冯畅
吴晓龙
赵熠扬
徐明星
郑方
机构
清华大学计算机科学与技术系
清华大学北京信息科学与技术国家研究中心
新疆大学计算机科学与技术学院
出处
《信息安全研究》
CSCD
北大核心
2024年第2期122-129,共8页
基金
国家自然科学基金项目(20121302173)。
文摘
生成式人工智能算法的发展使得生成式伪造语音更加自然流畅,人类听力难以分辨真伪.首先分析了生成式伪造语音不当滥用对社会造成的一系列威胁,如电信诈骗更加泛滥、语音应用程序安全性下降、司法鉴定公正性受到影响、综合多领域的伪造信息欺骗社会大众等.然后从技术发展角度,对生成式伪造语音的生成算法和检测算法分别进行总结与分类,阐述算法流程步骤及其中的关键点,并分析了技术应用的挑战点.最后从技术应用、制度规范、公众教育、国际合作4方面阐述了如何预防以及解决生成式伪造语音带来的安全问题.
关键词
生成式人工智能
伪造 语音
伪造 语音 安全问题
伪造 语音 检测
伪造 语音 威胁解决
Keywords
generative artificial intelligence
fake speech
security issue of fake speech
fake speech detection
solution to fake speech threat
分类号
TP309.1
[自动化与计算机技术—计算机系统结构]
题名 基于聚类中心的浅层特征融合伪造语音检测
5
作者
吴敦志
陈为真
机构
武汉轻工大学电气与电子工程学院
出处
《计算机工程与设计》
北大核心
2024年第10期2922-2928,共7页
基金
湖北省教育厅科学研究基金项目(B2020061)
湖北省自然科学基金项目(2022CFB449)。
文摘
针对现有检测系统在使用wav2vec2.0模型提取特征导致高计算资源消耗和传统打分方法限制泛化性能的问题,提出一种基于聚类中心的浅层特征融合伪造语音检测算法。裁剪wav2vec2.0模型的深层,将浅层特征通过注意力池化以缩短时序长度,用线性层确定融合权重;通过K-means++得到聚类中心,利用当前样本和相应类中心的表示余弦相似度进行训练和打分以判别真伪。实验采用ASVspoof2019和ASVspoof2021挑战赛的逻辑轨道数据集,wav2vec2.0模型参数量减少了60%,等错误率分别达到0.34%和3.67%,在模型精简和泛化性能方面明显优于同类wav2vec2.0模型和传统打分方法。
关键词
伪造 语音 检测
模型压缩
预训练模型
注意力池化
特征融合
聚类中心
余弦相似度
Keywords
spoofing speech detection
model compression
pre-trained model
attention pooling
feature fusion
clustering center
cosine similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP309
[自动化与计算机技术—计算机系统结构]
题名 基于自监督预训练和有监督微调的伪造语音检测方法
6
作者
夏翔
方磊
方四安
柳林
机构
合肥讯飞数码科技有限公司
出处
《计算机应用》
CSCD
北大核心
2023年第S01期263-268,共6页
文摘
随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而,当模型面对未知的伪造类型数据时,模型检测准确率急剧下降,特别是对于跨数据集评估测试场景。受到自监督学习框架在多种语音识别下游任务成功经验的启发,提出一种基于预训练和微调结合的伪造语音检测框架。预训练使用无标签数据学习通用的语音表征,之后利用有标签的真实伪造语音数据集来微调整个网络参数,达到区分真实自然音和伪造语音的目的。该方法在ASVspoof 2019逻辑攻击数据集上的联合检测代价函数值为0.0061,等错误率(EER)值为0.19%,同时在ASVspoof 2015和Fake or Real跨数据集评测上也展现了良好的泛化能力。
关键词
反欺骗
伪造 语音 检测
自监督
预训练
泛化能力
Keywords
anti-spoofing
spoofing speech detection
self-supervised
pre-training
generalization capability
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 语音合成及伪造、鉴伪技术综述
被引量:8
7
作者
杨帅
乔凯
陈健
王林元
闫镔
机构
中国人民解放军战略支援部队信息工程大学
出处
《计算机系统应用》
2022年第7期12-22,共11页
文摘
近年来随着移动智能设备的兴起,人们越来越频繁的接触和使用语音信息,语音伪造和鉴伪成为语音处理领域中愈加重要的技术.本文首先梳理了语音合成系统的一般流程,并对语音伪造领域中主要的文本到语音(textto-speech,TTS)和语音转换(voice conversion,VC)两项技术进行系统归纳;接着,对语音鉴伪技术中常见的算法进行介绍和分类;最后,针对语音伪造和鉴伪目前存在的问题,本文从数据、模型、训练方法以及应用场景等多个角度出发提出未来可能的发展方向.
关键词
语音伪造
神经网络
频谱转换
检测技术
语音 合成
Keywords
voice forgery
neural network
spectrum conversion
detection technique
speech synthesis
分类号
TN912.33
[电子电信—通信与信息系统]
题名 基于混合特征和多通道GRU的伪造语音鉴别方法
8
作者
潘孝勤
杜彦辉
机构
中国人民公安大学信息网络安全学院
出处
《信息网络安全》
CSCD
北大核心
2021年第10期1-7,共7页
基金
国家重点研发计划[2017YFB0802804]
中国人民公安大学基本科研业务费重大项目[2020JKF101]。
文摘
为了解决现有鉴伪模型存在的泛化能力不强、检测准确率较低等难题,文章提出基于混合特征融合的多通道GRU伪造语音鉴别模型。该模型利用多通道挖掘不同输入特征的多尺度信息,同时引入注意力机制对多尺度特征进行融合并决策分类。在ASVspoof2019数据集上进行验证,所提方法对Logical Access伪造样本的检测准确率达到了96.30%,对Physical Access达到了87.33%,优于其他算法。实验结果证明,时频域特征融合的伪造语音检测方法能够学习更有效的真伪鉴别特征,获得更高的检测准确率。
关键词
语音伪造 检测
多通道GRU
特征融合
深度学习
Keywords
speech forgery detection
multi-channel GRU
feature fusion
deep learning
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 基于深度卷积神经网络的伪造语音检测
被引量:2
9
作者
杨海涛
王华朋
楚宪腾
牛瑾琳
张琨瑶
机构
中国刑事警察学院
出处
《警察技术》
2022年第1期33-36,共4页
基金
国家重点研发计划项目(编号:2017YFC0821000)
辽宁网络安全执法协同创新中心、广州市科技计划项目(编号:2019030004)
+1 种基金
司法部司法鉴定重点实验室(司法鉴定科学研究院)开放基金
中国刑事警察学院研究生创新能力提升项目。
文摘
为快速准确的识别公安工作中常见的伪造语音,采用深度卷积神经网络(Convolutional Neural Network,CNN)进行伪造语音检测。模型中卷积层可以有效获取声学信息,池化层进行下采样处理防止网络过拟合,全连接层则进行真伪分类。提取英文及中文数据库中音频文件的梅尔倒谱系数(Mel-Frequency Cepstral,MFCC)、线性频率倒谱系数(Linear Frequency Cepstral,LFCC)、伽玛通频率倒谱系数(Gammatone Frequency Ceptral Coefficient,GFCC)3种语音声学特征用于模型训练及测试。结果表明MFCC特征在该网络模型上结果最优,且在实验中所提神经网络对99%的伪造语音能够正确区分,在伪造语音检测中表现优秀。
关键词
电信网络诈骗
卷积神经网络
伪造 语音 检测
声学特征
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TN912.3
[电子电信—通信与信息系统]
D631.1
[政治法律—中外政治制度]
题名 针对多种伪造操作的数字语音取证算法
10
作者
乌婷婷
机构
宁波大学信息科学与工程学院
出处
《无线通信技术》
2019年第3期37-40,45,共5页
文摘
现有的大多数语音取证算法都集中于某一种伪造操作的检测.如果使用这些检测算法对其他伪造的操作进行检测,通常会导致检测结果的误判.针对该问题,提出了一种基于残差特征的卷积神经网络(CNN)来检测包括变调、加噪等四种伪造操作的数字语音.在提出的方法中采用固定的模板来提取语音残差输入网络,然后经过卷积层组转换为残差特征在网络中进行训练,最后使用Softmax分类器对测试语音进行分类.通过在TIMIT语音库上的实验表明,该残差特征可达到99%的检测率,并且对MP3的压缩也有很好的鲁棒性.
关键词
语音 取证
语音伪造 操作
深度学习
卷积神经网络
Keywords
speech forensics
speech forgery operation
deep learning
Convolutional Neural Network(CNN)
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
题名 基于数字水印和模式恢复的语音认证系统
被引量:1
11
作者
黄文超
张威
葛琳琳
李易霖
机构
辽宁石油化工大学
大连海洋大学
出处
《辽宁石油化工大学学报》
CAS
2020年第1期91-96,共6页
基金
国家级大学生创新创业项目(201810148012)
抚顺市科学技术发展资金计划项目(FSKJHT201548)
文摘
通过数字音频水印和模式恢复技术检测语音伪造,数字水印模式已经用于语音信号伪造检测的三种方法为替换、插入和删除,如果在语音信号上做一些改变,则水印模式也会变化,通过模式恢复可以检测语音信号是否被修改和伪造。提出利用嵌入的循环模式的方法来解决检测技术的同步问题,此外,模式恢复对语音信号压缩增强鲁棒性,该方法使用6个用于收集语音数据的录音设备进行测试和验证,语音信号的采样速率为8 kHz,将语音信号数字化的分辨率设为16 bit,对速率为16 kbps的MP3和速率为11.5 bps的CELP中语音信号随机选择区域进行替换、删除和压缩处理。结果表明,三种方法的语音伪造信号完全可以检测到,证明了该方法的有效性。
关键词
语音 认证
数字音频水印
扩频
语音伪造
Keywords
Speech authentication
Digital audio watermarking
Spread spectrum
Speech forgery
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 语音深度伪造及其检测技术研究进展
12
作者
许裕雄
李斌
谭舜泉
黄继武
机构
广东省智能信息处理重点实验室
深圳市媒体信息内容安全重点实验室
深圳大学电子与信息工程学院
深圳大学计算机与软件学院
出处
《中国图象图形学报》
CSCD
北大核心
2024年第8期2236-2268,共33页
基金
国家自然科学基金项目(U23B2022,U22B2047,62272314)
广东省基础与应用基础研究基金项目(2019B151502001)
+1 种基金
深圳市基础研究重点项目(JCYJ20200109105008228)
亚马逊云科技——2022教育部就业育人项目(20221128)。
文摘
语音深度伪造技术是利用深度学习方法进行合成或生成语音的技术。人工智能生成内容技术的快速迭代与优化,推动了语音深度伪造技术在伪造语音的自然度、逼真度和多样性等方面取得显著提升,同时也使得语音深度伪造检测技术面临着巨大挑战。本文对语音深度伪造及其检测技术的研究进展进行全面梳理回顾。首先,介绍以语音合成(speech synthesis,SS)和语音转换(voice conversion,VC)为代表的伪造技术。然后,介绍语音深度伪造检测领域的常用数据集和相关评价指标。在此基础上,从数据增强、特征提取和优化以及学习机制等处理流程的角度对现有的语音深度伪造检测技术进行分类与深入分析。具体而言,从语音加噪、掩码增强、信道增强和压缩增强等数据增强的角度来分析不同增强方式对伪造检测技术性能的影响,从基于手工特征的伪造检测、基于混合特征的伪造检测、基于端到端的伪造检测和基于特征融合的伪造检测等特征提取和优化的角度对比分析各类方法的优缺点,从自监督学习、对抗训练和多任务学习等学习机制的角度对伪造检测技术的训练方式进行探讨。最后,总结分析语音深度伪造检测技术存在的挑战性问题,并对未来研究进行展望。本文汇总的相关数据集和代码可在https://github.com/media-sec-lab/Audio-Deepfake-Detection访问。
关键词
语音 深度伪造
语音 深度伪造 检测
语音 合成(SS)
语音 转换(VC)
人工智能生成内容(AIGC)
自监督学习
对抗训练
Keywords
speech deepfake
speech deepfake detection
speech synthesis(SS)
voice conversion(VC)
artificial intelligence-generated content(AIGC)
self-supervised learning
adversarial training
分类号
TN912
[电子电信—通信与信息系统]