-
题名抗好词攻击的中文垃圾邮件过滤模型
被引量:5
- 1
-
-
作者
邓蔚
秦志光
刘峤
程红蓉
-
机构
电子科技大学计算机科学与工程学院
-
出处
《电子测量与仪器学报》
CSCD
2010年第12期1146-1152,共7页
-
基金
国家自然科学基金(编号:60903157
60973118)资助项目
国家"863"计划(编号:2009AA01Z422)资助项目
-
文摘
针对当前中文垃圾邮件过滤领域面临的好词攻击威胁,提出了一种鲁棒的中文垃圾邮件过滤模型。该模型基于多示例学习机制,并结合中文分词和特征选择方法,将一封邮件转化为若干示例的组合,然后应用多示例逻辑回归模型进行学习和分类。对多示例学习而言,当一封邮件中至少有一个示例为垃圾信息时,该邮件为垃圾邮件,否则为正常邮件。分别对训练数据集和测试数据集进行好词攻击,在多个大规模中文垃圾邮件过滤公开数据库上进行了测试。实验结果表明,在中文邮件过滤领域对抗好词攻击,分类器使用多示例反击策略较之于单示例反击策略有更强的鲁棒性。
-
关键词
中文垃圾邮件过滤
敌手学习
多示例学习
逻辑回归
好词攻击
鲁棒性
-
Keywords
Chinese spam filtering
adversarial learning
multiple instance learning
logistic regression
good word attacks
robustness
-
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
-