针对现有贝叶斯算法应用于垃圾邮件过滤时,贝努利模型精度低、不能区分文本特征重要性、多项式模型计算量大、无关特征项浪费计算时间、对出现次数少的特征项反应敏感等缺点,提出RSSI(remove similar and sensitive items)特征模型。通...针对现有贝叶斯算法应用于垃圾邮件过滤时,贝努利模型精度低、不能区分文本特征重要性、多项式模型计算量大、无关特征项浪费计算时间、对出现次数少的特征项反应敏感等缺点,提出RSSI(remove similar and sensitive items)特征模型。通过计算并比较特征项出现的频率,去除无关和敏感特征项,减小运算量,增加正确率,减少过拟合。Matlab仿真结果表明,与现有的朴素贝叶斯算法(nave Bayes)和支持向量机(support vector machine,SVM)等算法相比,RSSI算法能显著减少分类时间,降低合法邮件被误判的概率。展开更多
文摘针对现有贝叶斯算法应用于垃圾邮件过滤时,贝努利模型精度低、不能区分文本特征重要性、多项式模型计算量大、无关特征项浪费计算时间、对出现次数少的特征项反应敏感等缺点,提出RSSI(remove similar and sensitive items)特征模型。通过计算并比较特征项出现的频率,去除无关和敏感特征项,减小运算量,增加正确率,减少过拟合。Matlab仿真结果表明,与现有的朴素贝叶斯算法(nave Bayes)和支持向量机(support vector machine,SVM)等算法相比,RSSI算法能显著减少分类时间,降低合法邮件被误判的概率。