-
题名基于堆叠式降噪自编码器的中文垃圾邮件过滤
被引量:3
- 1
-
-
作者
张柳艳
聂云峰
段生月
张贵昌
-
机构
南昌航空大学信息工程学院
-
出处
《数学的实践与认识》
北大核心
2020年第1期105-114,共10页
-
基金
国家自然科学基金(41101426).
-
文摘
针对传统特征选择方法在中文垃圾邮件过滤处理中出现的特征项提取不明确、过滤精度低的问题,提出了一种基于堆叠式降噪自编码器(Stacked Denoising Autoencoder,SDA)的中文垃圾邮件过滤方法.首先,对处理后的语料使用Word2vec工具集中的连续词袋(Continuous Bag-of-Words,CBOW)模型进行训练,得到对应的词向量;接着以词向量作为输入,采用堆叠式降噪自编码器深度网络以无监督学习方式对其进行有效的特征提取;最后,采用改进的Softmax分类器对网络进行有监督微调.该方法在TREC06C数据集上进行测试,将准确率、精确率、召回率、更能衡量二分类效果的f1得分值作为实验评价标准,实验结果表明,相比于贝叶斯模型、KNN分类算法、SVM以及传统的堆叠式降噪自编码器,方法的准确率、精确率、召回率及f1得分值达到了93.5%、94.8%、92%和93.2%,在中文垃圾邮件过滤中拥有更好的二分类效果和健壮性.
-
关键词
中文垃圾邮件
堆叠式降噪自编码器
无监督学习
词向量
-
Keywords
Chinese spam
stacked denoising autoencoder
unsupervised learning
word vectors
-
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名改进ADASYN-SDA的入侵检测模型研究
被引量:8
- 2
-
-
作者
陈虹
赵建智
肖成龙
陈建虎
肖越
-
机构
辽宁工程技术大学软件学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第2期97-105,共9页
-
基金
国家自然科学基金(No.61404069)
辽宁省教育厅科学技术研究项目(No.LJ2017QL032)
-
文摘
针对传统入侵检测模型在高维数据且数据不均衡环境下检测性能较差的问题,提出了一种自适应过采样算法(ADASYN)与改进堆叠式降噪自编码器(SDA)结合的入侵检测模型。使用ADASYN算法进行数据过采样处理。使用Adam优化算法,以及Dropout正则化对SDA深度学习模型进行改进,提取出低维数、高鲁棒性的集成特征。在softmax分类器中进行入侵检测识别。实验结果表明,ADASYN-SDA模型相较于SDA、AE-DNN和MSVM模型,在平均准确率、检测率和误判率上均有一定程度的提高。
-
关键词
堆叠式降噪自编码器(SDA)
自适应过采样算法(ADASYN)
深度学习
入侵检测
-
Keywords
Stacked Denoise Autoencoder(SDA)
Adaptive Synthetic Sampling Approach(ADASYN)
deep learning
intrusion detection
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-