一种基于多模态特征融合的垃圾邮件过滤方法被引量：2

A Spam Filtering Method Based on Multi-modal Feature Fusion

下载PDF

导出

摘要近年来,垃圾邮件制造者为了逃避基于文本的垃圾邮件过滤系统的检测,将垃圾信息嵌入到图像中,并将其附着在邮件正文中进行传播。传统的基于文本的过滤方式无法处理此类包含垃圾信息的邮件图像。为了应对这种同时包含文本和图像的垃圾邮件,本文提出了一种基于多模态特征的融合文本、图像等多媒体信息的过滤方法。首先通过抽取邮件的文本特征和图像特征构建多个分类器,然后采用多分类器融合技术对各分类器的输出结果进行综合。通过对TREC垃圾邮件语料集的测试实验表明,本文提出多模态特征融合的方法获得了比单个分类器更好的效果,准确率达到90%以上。 In recent years,for escaping the text-based spam filtering detection system,the spammers insert junk information into the image and attach it to the message body.In order to deal with such spam that contains text and images,a new filtering method is proposed,which fuses text,image and other multi-modal features by extracting the text features and image features to build multiple classifiers,and by employing multiple classifier fusion technology to integrate the output of each classifier.The experimental result on TREC dataset show that the fusion method achieves a better result than that of a single classifier and can achieve over 90% in accuracy rate.

作者杨兴华封化民江超陈春萍

机构地区西安电子科技大学通信工程学院北京电子科技学院

出处《北京电子科技学院学报》 2011年第2期46-57,共12页 Journal of Beijing Electronic Science And Technology Institute

基金国家自然科学基金项目"基于多模态特征的多媒体语义分析关键理论与技术研究(No.60972139)" 北京市自然科学基金项目"基于网络多媒体信息语义的网络舆情分析研究"(No.4092041)"的资助

关键词垃圾邮件过滤多模态特征多分类器融合置信度 spam filtering multi-modal feature multiple classifier fusion degree of confidence

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献26

1MessageLabs. MessageLabs Intelligence: 2010 Annual Security Report[R]. 2010.
2中国互联网协会反垃圾邮件中心.2010年第三季度中国反垃圾邮件状况调查报告[R].2010.
3Sahami, M., Horvitz, E., Sahami, M., et al. A Bayesian approach to filtering junk email, AAAI Workshop on Learning for Text Categorization, 1998.
4Anayat, S., Ali, A., Ahmad, H. F. Using a probable weight based Bayesian approach for spam filtering[C]. In Proc of the 8th International Muhitopic Conference. 2004:340-345.
5KIM H J., SHRESTHA J., KIM H N., et al. User action based adaptive learning with weighted Bayesian classification for filtering spam mail[C]. In Proc of Advances in Artificial Intelligence. Springer-Verlag, 2006:790-798.
6YANG Zhen, NIE Xiang-fei, XU Wei-ran, et al. An approach to spare detection by naive Bayes ensemble based on decision induction[C]. In Proc of the 6th International Conference on Intelligent Systems Design and Applications. 2006:861-866.
7SASAKI M., SHINNOU H. Spam detection using text clustering[C]. In Proc of International Conference on Cyberworlds. 2005.
8HSIAO W F., CHANG T M., HUG H. A cluster2-based approach to filtering spare under skewed class distributions[C]. In Proc of the 40th Hawaii International Conference on System Sciences. 2007:53-60.
9ZHANG Peng-fei, SU Yu-jie, WANG Cong. Statistical machine learning used in integrated anti- spam system[C]. In Proc of the 6th International Conference on Machine Learning and Cybernetics. 2007:4055--4058.
10张秋余,张博,迟宁.自然语言语义理解在反垃圾邮件中的应用[J].计算机应用,2006,26(6):1315-1317. 被引量：5

二级参考文献7

1李良炎,何中市,易勇.基于词联接的语义分析原理及其算法[J].重庆大学学报（自然科学版）,2004,27(8):69-74. 被引量：2
2DELANY SJ. A case-ased technique for tracking concept drift in spam filtering [ J]. Knowledge-Based Systems, 2005, 18:187 -195.
3MCDOWELL LI, ETZIONI O, HALEVY A. Semantic email: theory and applications [ J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2004, 2(2): 153 -183.
4BAADER F. The description logic handbook [ M]. Cambridge University Press. 2003.
5李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
6张天庆,唐常杰,左劼.基于自然语言语义分析的Internet文件分类与过滤[J].计算机应用,2001,21(9):4-7. 被引量：5
7刘昌钰,唐常杰,于中华,杜永萍,郭颖.基于潜在语义分析的BBS文档Bayes鉴别器[J].计算机学报,2004,27(4):566-572. 被引量：17

共引文献129

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
3徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
4姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
5李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
6施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
7李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
8鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1
9王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
10刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5

同被引文献14

1严智敏,邵斌.基于模态逻辑的汉语信息过滤机制研究[J].微电子学与计算机,2004,21(11):96-98. 被引量：1
2丁鹏,杨永田,罗志云,郑可馨.一种独立于邮件服务器的垃圾邮件过滤系统的设计[J].计算机应用,2005,25(2):396-398. 被引量：1
3汤凯,刘济科.基于人工神经网络的复杂结构模态匹配[J].振动与冲击,2006,25(1):42-46. 被引量：5
4Carreras X ,Marquez L. Boosting trees for anti-spam email filtering[C]. Proceedings of F.uro Conference Recent Advances in NLP (RANLP-2001). 2001.58-64.
5Sahami M, Dumais S, Heckerman D,et al. A Bayesian approach to filtering junk email[C]. Proceedings of the AAAI Workshop on Learning for Text Categorization. 1998:55-62.
6潘文峰.[D].中国科学院计算技术研究所,2004.
7王杰,刘亚宾,孙珂珂.一种快速高效的模式匹配算法的应用研究[J].计算机工程与应用,2008,44(32):93-95. 被引量：6
8陈志贤.垃圾邮件过滤技术研究综述[J].计算机应用研究,2009,26(5):1612-1615. 被引量：13
9毛宏宇,王丰贵,王文良,王书士.基于数据流截获技术的仪器状态监测方案[J].计算机工程,2010,36(2):241-243. 被引量：2
10彭文惠,吴小刚,蒋华.基于柔性字符串匹配的校园BBS过滤系统[J].计算机与现代化,2011(2):145-147. 被引量：1

引证文献2

1李瑞华,李霞,曲文龙.客户端垃圾邮件过滤系统的设计[J].北京电子科技学院学报,2011,19(4):65-69.
2张新林,彭灿明.基于模态匹配的校园网信息实时过滤方法[J].计算机与现代化,2013(11):91-94. 被引量：2

二级引证文献2

1翟辰.计算机实时互联网信息过滤系统设计探讨[J].中国科技博览,2016,0(8):256-256.
2高凌洁.实时互联网信息过滤系统的设计及实现研究[J].电子设计工程,2016,24(19):51-53. 被引量：7

1张广鹏,王蕴红,张兆翔.基于多模态人脸与人耳融合的身份识别与认证[J].高技术通讯,2011,21(7):707-713.
2蒋雄文,茅洁.入侵检测系统中的多分类器融合技术[J].微型机与应用,2004,23(9):33-36. 被引量：1
3蒋呈明,蒋兴浩,孙锬锋.基于多特征的视频内容安全过滤方法[J].信息安全与通信保密,2012,10(3):76-77. 被引量：2
4江晟.基于多模态特征的光-SAR图像融合配准算法[J].吉林大学学报（信息科学版）,2015,33(2):208-213. 被引量：5
5王鹏,蔡锐,杨士强.“文本为主”的多模态特征融合的新闻视频分类算法[J].清华大学学报（自然科学版）,2005,45(4):475-478. 被引量：11
6闫建鹏,封化民,刘嘉琦.一种基于多模态特征的新闻视频语义提取框架[J].计算机应用研究,2012,29(7):2725-2729. 被引量：2
7杨金锋,孟凡胜,史玉坤,马永斌.嵌入式手指多模态特征同步采集系统设计[J].中国民航大学学报,2016,34(1):40-44. 被引量：2
8段喜萍,刘家锋,王建华,唐降龙.多模态特征联合稀疏表示的视频目标跟踪[J].哈尔滨工程大学学报,2015,36(12):1609-1613. 被引量：4
9叶婷婷,刘明霞,张道强.基于有效距离的多模态特征选择[J].模式识别与人工智能,2016,29(7):658-664. 被引量：6
10肖进.决策树分类器融合在CRM客户分类中的应用研究[J].软科学,2008,22(9):18-21. 被引量：1

北京电子科技学院学报

2011年第2期

浏览历史

内容加载中请稍等...

一种基于多模态特征融合的垃圾邮件过滤方法被引量：2

参考文献26

二级参考文献7

共引文献129

同被引文献14

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于多模态特征融合的垃圾邮件过滤方法 被引量：2

参考文献26

二级参考文献7

共引文献129

同被引文献14

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于多模态特征融合的垃圾邮件过滤方法被引量：2