题名 客户端中文邮件过滤算法研究
1
作者
包理群
马宏锋
李祥林
机构
兰州工业高等专科学校电子信息工程系
兰州交通大学电子信息工程学院
出处
《兰州交通大学学报》
CAS
2010年第3期100-103,共4页
基金
甘肃省自然科学基金(096RJZA084)
甘肃省教育厅研究生导师科研计划项目(0814-4
0914-02)
文摘
提出了改进的最小风险贝叶斯邮件过滤算法,将其应用于客户端中文邮件过滤,以适应邮件分类的个性化需求.实验结果表明,将改进算法应用于中文邮件过滤是可行的,且与传统贝叶斯算法相比,使垃圾邮件的误报率明显降低;实验测试了损失因子、特征数量对过滤效果的影响,得出了较优的参数设定,对中文邮件过滤提出了有益的思路.
关键词
贝叶斯算法
中文邮件过滤
特征数量
损失因子
Keywords
Bayesian algorithm
chinese e-mail filtering
characteristic number
loss weight
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
题名 一种改进自动更新的中文邮件过滤模型的设计
2
作者
苏艳刚
机构
武汉船舶职业技术学院图书信息中心
出处
《电脑知识与技术(过刊)》
2013年第7X期4706-4709,共4页
基金
2012年湖北省统计科研计划项目(编号41)
文摘
该文提出了一种改进的基于用户操作信息自动学习的贝叶斯算法,该算法在最小风险贝叶斯算法的基础上,自动学习新样本,弥补了传统的贝叶斯分类器不能及时更新的缺陷。建立自动更新的中文邮件过滤模型,通过搭建实验平台测试对比分析改进的基于用户操作信息自动学习的贝叶斯算法的综合性能。
关键词
中文邮件过滤 模型
贝叶斯分类算法
自动学习
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
题名 基于贝叶斯算法的中文垃圾邮件过滤系统研究
被引量:15
3
作者
刘浩然
丁攀
郭长江
常金凤
崔静闯
机构
燕山大学信息科学与工程学院
河北省特种光纤与光纤传感重点实验室
燕山大学里仁学院
出处
《通信学报》
EI
CSCD
北大核心
2018年第12期151-159,共9页
基金
国家自然科学基金资助项目(No.51641609)
河北省自然科学基金资助项目(No.F2016203354)
文摘
目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提取算法,增加了特征节点的表达能力,实现了特征降维。针对分类模型特征局限和属性间条件独立性假设不成立问题,提出一种基于GWO_GA(grey wolf optimizer-genetic algorithm)结构学习算法的3层贝叶斯网络模型,放松了条件独立性假设,增加了特征多样性,最终形成基于中心词扩展的TF-IDF特征提取及GWO_GA结构学习的3层贝叶斯算法。通过大量中文邮件数据验证,算法可明显提高中文垃圾邮件过滤效果。
关键词
贝叶斯网络
TF-IDF
遗传算法
短文本分类
中文 垃圾邮件 过滤
Keywords
Bayesian network
TF-IDF
Genetic Algorithm
short text classification
Chinese spam filtering
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 抗好词攻击的中文垃圾邮件过滤模型
被引量:5
4
作者
邓蔚
秦志光
刘峤
程红蓉
机构
电子科技大学计算机科学与工程学院
出处
《电子测量与仪器学报》
CSCD
2010年第12期1146-1152,共7页
基金
国家自然科学基金(编号:60903157
60973118)资助项目
国家"863"计划(编号:2009AA01Z422)资助项目
文摘
针对当前中文垃圾邮件过滤领域面临的好词攻击威胁,提出了一种鲁棒的中文垃圾邮件过滤模型。该模型基于多示例学习机制,并结合中文分词和特征选择方法,将一封邮件转化为若干示例的组合,然后应用多示例逻辑回归模型进行学习和分类。对多示例学习而言,当一封邮件中至少有一个示例为垃圾信息时,该邮件为垃圾邮件,否则为正常邮件。分别对训练数据集和测试数据集进行好词攻击,在多个大规模中文垃圾邮件过滤公开数据库上进行了测试。实验结果表明,在中文邮件过滤领域对抗好词攻击,分类器使用多示例反击策略较之于单示例反击策略有更强的鲁棒性。
关键词
中文 垃圾邮件 过滤
敌手学习
多示例学习
逻辑回归
好词攻击
鲁棒性
Keywords
Chinese spam filtering
adversarial learning
multiple instance learning
logistic regression
good word attacks
robustness
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
题名 高性能中文垃圾邮件过滤器
被引量:7
5
作者
齐浩亮
程晓龙
杨沐昀
何晓宁
李生
雷国华
机构
黑龙江工程学院计算机科学与技术系
哈尔滨工业大学计算机科学与技术学院
哈尔滨理工大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2010年第2期76-83,共8页
基金
国家自然科学基金重点资助项目(60736044)
国家自然科学基金资助项目(60873105)
黑龙江省科技攻关计划资助项目(GZ07A108)
文摘
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC 06C数据上优于当年评测的最好成绩,在SEWM07立即反馈上1-ROCA值达到了0.000 0%,并明显优于SEWM08评测在线过滤任务中的所有其他方法。
关键词
计算机应用
中文 信息处理
中文 垃圾邮件 过滤
在线学习
逻辑回归模型
字节级n元文法
TONE
Keywords
computer application
Chinese information processing
Chinese spam filtering
online learning
logistic regression model
byte N-gram
TONE
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于图正则化MNMF的中文垃圾邮件过滤
6
作者
刘遵雄
黄志强
郑淑娟
石菲
机构
华东交通大学信息工程学院
江西财经大学科研处
出处
《计算机应用研究》
CSCD
北大核心
2013年第9期2672-2676,共5页
基金
国家自然科学基金资助项目(61065003)
国家教育部人文社会科学研究规划基金资助项目(10YJC630379)
文摘
利用向量空间模型表示的文本邮件数据具有高维性,不利于邮件过滤模型的建立,需要对数据进行降维处理。最大间隔Semi-NMF(max-margin semi-nonnegative matrix factorization,MNMF)能够同时实现维数约减和邮件分类,而图正则化NMF能保持数据空间的几何结构。基于以上两种NMF改进模型,提出了图正则化MNMF(graph regularized MNMF,GMNMF)算法,并设计了一个迭代的求解算法。将GMNMF算法及其他相关算法用于中文垃圾邮件过滤实验,结果表明GMNMF算法构建的过滤模型要优于其他较好的算法构建的过滤模型。
关键词
向量空间模型
维数约减
最大间隔Semi—NMF
图正则化MNMF
中文 垃圾邮件 过滤
Keywords
vector space model (VSM)
dimensionality reduction
MNMF
GMNMF
Chinese spam filtering
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 面向垃圾邮件过滤的典型机器学习算法比较研究
7
作者
丁华福
王莹莹
韩咏
闵莉
邹钰
机构
哈尔滨理工大学计算机科学与技术学院
黑龙江工程学院计算机科学与技术学院
出处
《黑龙江工程学院学报》
CAS
2012年第2期65-69,共5页
基金
黑龙江省教育厅科学技术研究(面上)项目(12511444)
文摘
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为代表的判别学习模型。以往对两种模型的研究都是针对某一种语言进行,对于模型的语言独立性与相关性研究较少。因此,在中文数据集和英文数据集上比较典型的生产模型和判别学习模型的过滤性能。比较Bogo(Bogo系统是基于贝叶斯算法的,它是典型的生成模型)、逻辑回归模型和松弛在线支持向量机(两种典型的判别学习模型)在中英文数据集上的过滤性能。其中:实验是在公开英文数据集TREC05p-1、TREC06p和公开中文数据集TREC06c、SEWM2011上进行。实验结果显示基于判别模型垃圾邮件过滤器性能明显优于基于生成模型,并且相同的模型在中文数据集上显示了较好的效果。
关键词
生成模型
判别模型
中文 垃圾邮件 过滤
Keywords
generative model
discriminative model
Chinese spam filter
分类号
TP393
[自动化与计算机技术—计算机应用技术]