期刊文献+

基于词嵌入与生成对抗网络的垃圾邮件分类算法 被引量:3

Spam Filter Algorithm based on Word Embedding and GAN
下载PDF
导出
摘要 包括朴素贝叶斯算法在内的现行较为有效的垃圾邮件分类算法大都依赖于大量的垃圾邮件样本.但是在一个邮件系统建立初期,往往不能够搜集到足够数量的垃圾邮件样本.针对这一问题,引入生成对抗网络的相关理论,提出一种能够快速训练垃圾邮件分类器的WE-GAN算法.该算法将词嵌入与生成对抗网络相结合.通过词嵌入获得邮件特征,利用生成对抗网络来训练一个辨别器和一个生成器,起到增大样本数据集、提高分类效率的目的.结果表明,在小数据集的情况下,其可以获得不低于朴素贝叶斯方法的分类效率与准确度. Most efficient spam classifier algorithms, including Native Bays (NB) are dependent on large numbers of spam samples in training dataset. But at the initial stage of the establishment of an email system, it is not easy to obtain such a number of spam samples. To solve this problem, WE-GAN algorithm which can train a spam classifier quickly is proposed by introducing GAN-related concept. Word embedding is used to obtain the feature of emails, which can be used in GAN to train a discriminator and a generator in order to boost dataset and improve classifier efficiency. As shown in the tests, when given a small dataset, WE-GAN is as efficient and accurate as Native Bayes algorithm.
作者 王琦 吴钟扬 黄陈蓉 潘磊 WANG Qi;wu Zhong-yang;HUANG Chen-rong;PAN Lei(School of Computer Engineering,Nanjing Institnte of Technology,Nanjing 211167,China)
出处 《南京工程学院学报(自然科学版)》 2018年第3期20-27,共8页 Journal of Nanjing Institute of Technology(Natural Science Edition)
基金 国家自然科学基金项目(61563036) 南京工程学院青年基金项目(QKJB201408) 南京工程学院校级基金基目(YKJ2014721)
关键词 垃圾邮件 生成对抗网络 词嵌入 spam generative adversarial networks word embedding
  • 相关文献

参考文献5

二级参考文献15

共引文献38

同被引文献32

引证文献3

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部