题名 基于卷积循环神经网络的语音逻辑攻击检测
被引量:1
1
作者
杨海涛
王华朋
楚宪腾
牛瑾琳
林暖辉
张琨瑶
机构
中国刑事警察学院公安信息技术与情报学院
广州市刑事科学技术研究所
出处
《科学技术与工程》
北大核心
2022年第18期7937-7944,共8页
基金
国家重点研发计划(2017YFC0821000)
广州市科技计划(2019030004)
司法部司法鉴定重点实验室(司法鉴定科学研究院)开放基金。
文摘
语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险。为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN。模型中卷积神经网络(convolutional neural network,CNN)部分可以进行下采样,循环神经网络(recurrent neural network,RNN)部分解决语音中的时序问题,深度神经网络(deep neural network,DNN)部分则实现分类功能。每种混合网络模型包含20层网络层。对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%。比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstral coefficients,MFCCs)特征及混合梅尔倒谱系数线性频率倒谱系数(linear frequency cepstral coefficient,LFCC)特征更适合此模型。
关键词
CNN-RNN-DNN
混合网络模型
混合声学特征
等错误率
ASVspoof2019
Keywords
CNN-RNN-DNN
fusion model
fusion feature
EER
ASVspoof2019
分类号
TN912.3
[电子电信—通信与信息系统]
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 基于深度卷积神经网络的伪造语音检测
被引量:2
2
作者
杨海涛
王华朋
楚宪腾
牛瑾琳
张琨瑶
机构
中国刑事警察学院
出处
《警察技术》
2022年第1期33-36,共4页
基金
国家重点研发计划项目(编号:2017YFC0821000)
辽宁网络安全执法协同创新中心、广州市科技计划项目(编号:2019030004)
+1 种基金
司法部司法鉴定重点实验室(司法鉴定科学研究院)开放基金
中国刑事警察学院研究生创新能力提升项目。
文摘
为快速准确的识别公安工作中常见的伪造语音,采用深度卷积神经网络(Convolutional Neural Network,CNN)进行伪造语音检测。模型中卷积层可以有效获取声学信息,池化层进行下采样处理防止网络过拟合,全连接层则进行真伪分类。提取英文及中文数据库中音频文件的梅尔倒谱系数(Mel-Frequency Cepstral,MFCC)、线性频率倒谱系数(Linear Frequency Cepstral,LFCC)、伽玛通频率倒谱系数(Gammatone Frequency Ceptral Coefficient,GFCC)3种语音声学特征用于模型训练及测试。结果表明MFCC特征在该网络模型上结果最优,且在实验中所提神经网络对99%的伪造语音能够正确区分,在伪造语音检测中表现优秀。
关键词
电信网络诈骗
卷积神经网络
伪造语音检测
声学特征
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TN912.3
[电子电信—通信与信息系统]
D631.1
[政治法律—中外政治制度]
题名 基于深度卷积神经网络的语音降噪研究
被引量:2
3
作者
张琨瑶
王华朋
牛瑾琳
倪令格
刘元周
机构
中国刑事警察学院公安信息技术与情报学院
出处
《刑事技术》
2021年第5期457-463,共7页
基金
国家重点研发计划(2017YFC0821000)
上海市现场物证重点实验室开放课题基金项目(2018XCWZK09)
+2 种基金
重庆市高校刑事科学技术重点实验室开放基金项目(XKZDSYS2019-Z1)
广州市科技计划(2019030004)
中国刑事警察学院研究生创新能力提升项目(2020YCYB38)。
文摘
目的为了提高实际工作中获取到的音频资料中语音的质量,降低噪声对语音质量及可懂度的影响,提出了一种基于深度卷积神经网络的语音降噪模型。方法该模型通过卷积、加偏置、批量归一化、Relu激活的多层循环结构,能够有效地对低信噪比条件下语音中的洗衣机噪声、鼓掌噪声、汽车内部噪声等多种常见的环境噪声进行降噪处理。结果最终含噪语音经过模型处理后的MOS评分达到3.91分,其中最高分4.05分,最低分3.81分。结论该模型能够切实提高含噪语音的质量及可懂度,对于实际的公安工作、智慧警务建设、语音分析、语音文本识别等具有重要的意义和价值。
关键词
深度卷积神经网络
语音降噪
环境噪声
Keywords
deep convolutional neural network
noise reduction
environmental noise
分类号
DF793.2
[政治法律—诉讼法学]
题名 基于迁移学习的AI合成人脸图像鉴别研究
被引量:1
4
作者
牛瑾琳
王华朋
张琨瑶
倪令格
刘元周
机构
中国刑事警察学院公安信息技术与情报学院
出处
《中国司法鉴定》
2021年第4期72-76,共5页
基金
国家重点研发计划项目(2017YFC0821000)
上海市现场物证重点实验室开放课题基金(2018XCWZK09)
+2 种基金
重庆市高校刑事科学技术重点实验室(西南政法大学)开放基金(XKZDSYS2019-Z1)
辽宁网络安全执法协同创新中心(WXZX-201807003)
广州市科技计划项目(2019030004)
文摘
目的人工智能(Artificial Intelligence,AI)生成高质量人脸图像的伪造技术愈发成熟,使得人脸图像的真实性检验面临重大考验。利用一种深度学习的方法对真伪人脸图像进行二分类,以实现对伪造图像的识别。方法提出一种基于迁移学习的方法,构建MobileNetV2网络,保留其在ImageNet数据集上的预训练权值,并对采用FaceSwap技术生成的5274张假脸图像和6650张真脸图像进行辨识。结果迁移模型在测试集上预测的准确度能达到0.94,该网络架构对于真假人脸图像的辨别具有一定的稳健性。结论利用迁移学习的方法能够实现对真伪人脸图像的辨识,在一定程度上对AI合成人脸图像的真实性检验具有借鉴意义。
关键词
MobileNetV2网络
FaceSwap技术
AI合成人脸图像辨别
Keywords
MobileNetV2 network
FaceSwap technology
AI synthetic face image identification
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 翻录对语音真实性检验的影响研究
被引量:3
5
作者
倪令格
王华朋
刘元周
张琨瑶
牛瑾琳
机构
中国刑事警察学院公安信息技术与情报学院
出处
《中国人民公安大学学报(自然科学版)》
2020年第4期8-14,共7页
基金
2017国家重点研发计划项目(2017YFC0821000)
2016国家社会科学基金重点项目(16AYY015)
+3 种基金
上海市现场物证重点实验室开放课题基金(2018XCWZK09)
重庆市高校刑事科学技术重点实验室(西南政法大学)开放基金(XKZDSYS2019-Z1)
中国刑事警察学院研究生创新能力提升项目(2019YCYB42)
辽宁网络安全执法协同创新中心资助(LN2017005)。
文摘
目的深入研究在法庭语音证据的真实性检验中,翻录操作对常用声痕迹特征产生的影响。方法录制100段原始语音,其中20段语音经实验室、室外环境直接转录,80段语音进行篡改处理后利用不同采样设备转录,得到翻录后语音。然后使用声纹鉴定工作站及Adobe Audition软件对翻录前后的数字音频,分别在文件属性、听觉和图谱检验等方面进行比对和分析。结果翻录过程会留下操作本身产生的声痕迹特征,在声谱图上表现为语音的本底噪声增强、频响范围改变、动作声痕迹遗留;翻录时高采样率设备平滑篡改痕迹的效果优于低采样率设备。结论总结出翻录对文件属性、听觉分析,篡改点图谱等造成的影响及翻录后篡改痕迹的变化规律,实验结果对司法语音真实性检验具有重要借鉴价值。
关键词
翻录
法庭语音
真实性
声谱图
Keywords
replay attack
forensic speech
authenticity
spectrogram
分类号
D918.9
[政治法律—法学]
题名 不同语音特征对声音分类的有效性研究
被引量:3
6
作者
王华朋
牛瑾琳
刘元周
张琨瑶
机构
中国刑事警察学院公安信息技术与情报学院
出处
《中国刑警学院学报》
2020年第6期122-128,共7页
基金
2017国家重点研发计划项目(编号:2017YFC0821000)
上海市现场物证重点实验室开放课题(编号:2018XCWZK09)
+2 种基金
重庆市高校刑事科学技术重点实验室(西南政法大学)开放基金(编号:XKZDSYS2019-Z1)
辽宁网络安全执法协同创新中心项目(编号:WXZX-201807003)
广州市科技计划项目(编号:2019030004)。
文摘
声音信号分类是准确进行语音预测、解码和识别的基础工作。深度神经网络是目前音频分类的主流方法。选用19种不同语音特征,以3种噪声作为分类对象,采用深度长短时记忆神经网络作为分类算法,比较了不同语音特征及特征融合对噪声信号分类准确度的影响,总结了不同特征对信号分类的有效程度,并对实验结果进行了说话人识别验证。该研究对公安领域说话人身份识别具有一定的参考价值。
关键词
信号分类
语音特征
深度神经网络
LSTM
分类号
TN912.34
[电子电信—通信与信息系统]