摘要
随着电子邮件数据量的不断增大,特征降维成为垃圾邮件检测研究中不可缺少的一环。目前常见的特征选择方法往往针对的是多分类问题,未能针对二分类问题进行特殊化的处理。因此,该文对传统的互信息特征选择方法进行了改进。除了针对其缺少词频信息,引入词频因子外,还针对二分类问题,引入了特征贡献比的概念。实验证明,采用改进的互信息特征选择方法大大提高了垃圾邮件的检测效果。
出处
《电脑知识与技术(过刊)》
2017年第5X期163-166,共4页
Computer Knowledge and Technology