期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
客户端中文邮件过滤算法研究
1
作者 包理群 马宏锋 李祥林 《兰州交通大学学报》 CAS 2010年第3期100-103,共4页
提出了改进的最小风险贝叶斯邮件过滤算法,将其应用于客户端中文邮件过滤,以适应邮件分类的个性化需求.实验结果表明,将改进算法应用于中文邮件过滤是可行的,且与传统贝叶斯算法相比,使垃圾邮件的误报率明显降低;实验测试了损失因子、... 提出了改进的最小风险贝叶斯邮件过滤算法,将其应用于客户端中文邮件过滤,以适应邮件分类的个性化需求.实验结果表明,将改进算法应用于中文邮件过滤是可行的,且与传统贝叶斯算法相比,使垃圾邮件的误报率明显降低;实验测试了损失因子、特征数量对过滤效果的影响,得出了较优的参数设定,对中文邮件过滤提出了有益的思路. 展开更多
关键词 贝叶斯算法 中文邮件过滤 特征数量 损失因子
下载PDF
一种改进自动更新的中文邮件过滤模型的设计
2
作者 苏艳刚 《电脑知识与技术(过刊)》 2013年第7X期4706-4709,共4页
该文提出了一种改进的基于用户操作信息自动学习的贝叶斯算法,该算法在最小风险贝叶斯算法的基础上,自动学习新样本,弥补了传统的贝叶斯分类器不能及时更新的缺陷。建立自动更新的中文邮件过滤模型,通过搭建实验平台测试对比分析改进的... 该文提出了一种改进的基于用户操作信息自动学习的贝叶斯算法,该算法在最小风险贝叶斯算法的基础上,自动学习新样本,弥补了传统的贝叶斯分类器不能及时更新的缺陷。建立自动更新的中文邮件过滤模型,通过搭建实验平台测试对比分析改进的基于用户操作信息自动学习的贝叶斯算法的综合性能。 展开更多
关键词 中文邮件过滤模型 贝叶斯分类算法 自动学习
下载PDF
基于贝叶斯算法的中文垃圾邮件过滤系统研究 被引量:15
3
作者 刘浩然 丁攀 +2 位作者 郭长江 常金凤 崔静闯 《通信学报》 EI CSCD 北大核心 2018年第12期151-159,共9页
目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提... 目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提取算法,增加了特征节点的表达能力,实现了特征降维。针对分类模型特征局限和属性间条件独立性假设不成立问题,提出一种基于GWO_GA(grey wolf optimizer-genetic algorithm)结构学习算法的3层贝叶斯网络模型,放松了条件独立性假设,增加了特征多样性,最终形成基于中心词扩展的TF-IDF特征提取及GWO_GA结构学习的3层贝叶斯算法。通过大量中文邮件数据验证,算法可明显提高中文垃圾邮件过滤效果。 展开更多
关键词 贝叶斯网络 TF-IDF 遗传算法 短文本分类 中文垃圾邮件过滤
下载PDF
抗好词攻击的中文垃圾邮件过滤模型 被引量:5
4
作者 邓蔚 秦志光 +1 位作者 刘峤 程红蓉 《电子测量与仪器学报》 CSCD 2010年第12期1146-1152,共7页
针对当前中文垃圾邮件过滤领域面临的好词攻击威胁,提出了一种鲁棒的中文垃圾邮件过滤模型。该模型基于多示例学习机制,并结合中文分词和特征选择方法,将一封邮件转化为若干示例的组合,然后应用多示例逻辑回归模型进行学习和分类。对多... 针对当前中文垃圾邮件过滤领域面临的好词攻击威胁,提出了一种鲁棒的中文垃圾邮件过滤模型。该模型基于多示例学习机制,并结合中文分词和特征选择方法,将一封邮件转化为若干示例的组合,然后应用多示例逻辑回归模型进行学习和分类。对多示例学习而言,当一封邮件中至少有一个示例为垃圾信息时,该邮件为垃圾邮件,否则为正常邮件。分别对训练数据集和测试数据集进行好词攻击,在多个大规模中文垃圾邮件过滤公开数据库上进行了测试。实验结果表明,在中文邮件过滤领域对抗好词攻击,分类器使用多示例反击策略较之于单示例反击策略有更强的鲁棒性。 展开更多
关键词 中文垃圾邮件过滤 敌手学习 多示例学习 逻辑回归 好词攻击 鲁棒性
下载PDF
高性能中文垃圾邮件过滤器 被引量:7
5
作者 齐浩亮 程晓龙 +3 位作者 杨沐昀 何晓宁 李生 雷国华 《中文信息学报》 CSCD 北大核心 2010年第2期76-83,共8页
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮... 设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC 06C数据上优于当年评测的最好成绩,在SEWM07立即反馈上1-ROCA值达到了0.000 0%,并明显优于SEWM08评测在线过滤任务中的所有其他方法。 展开更多
关键词 计算机应用 中文信息处理 中文垃圾邮件过滤 在线学习 逻辑回归模型 字节级n元文法 TONE
下载PDF
基于图正则化MNMF的中文垃圾邮件过滤
6
作者 刘遵雄 黄志强 +1 位作者 郑淑娟 石菲 《计算机应用研究》 CSCD 北大核心 2013年第9期2672-2676,共5页
利用向量空间模型表示的文本邮件数据具有高维性,不利于邮件过滤模型的建立,需要对数据进行降维处理。最大间隔Semi-NMF(max-margin semi-nonnegative matrix factorization,MNMF)能够同时实现维数约减和邮件分类,而图正则化NMF能保持... 利用向量空间模型表示的文本邮件数据具有高维性,不利于邮件过滤模型的建立,需要对数据进行降维处理。最大间隔Semi-NMF(max-margin semi-nonnegative matrix factorization,MNMF)能够同时实现维数约减和邮件分类,而图正则化NMF能保持数据空间的几何结构。基于以上两种NMF改进模型,提出了图正则化MNMF(graph regularized MNMF,GMNMF)算法,并设计了一个迭代的求解算法。将GMNMF算法及其他相关算法用于中文垃圾邮件过滤实验,结果表明GMNMF算法构建的过滤模型要优于其他较好的算法构建的过滤模型。 展开更多
关键词 向量空间模型 维数约减 最大间隔Semi—NMF 图正则化MNMF 中文垃圾邮件过滤
下载PDF
面向垃圾邮件过滤的典型机器学习算法比较研究
7
作者 丁华福 王莹莹 +2 位作者 韩咏 闵莉 邹钰 《黑龙江工程学院学报》 CAS 2012年第2期65-69,共5页
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为代表的判别学习模型。以往对两种模型的研究都是针对某一种语... 基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为代表的判别学习模型。以往对两种模型的研究都是针对某一种语言进行,对于模型的语言独立性与相关性研究较少。因此,在中文数据集和英文数据集上比较典型的生产模型和判别学习模型的过滤性能。比较Bogo(Bogo系统是基于贝叶斯算法的,它是典型的生成模型)、逻辑回归模型和松弛在线支持向量机(两种典型的判别学习模型)在中英文数据集上的过滤性能。其中:实验是在公开英文数据集TREC05p-1、TREC06p和公开中文数据集TREC06c、SEWM2011上进行。实验结果显示基于判别模型垃圾邮件过滤器性能明显优于基于生成模型,并且相同的模型在中文数据集上显示了较好的效果。 展开更多
关键词 生成模型 判别模型 中文垃圾邮件过滤
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部