一种基于朴素贝叶斯分类的特征选择方法被引量：24

A Feature Selection Method for NB-based Classifier

下载PDF

导出

摘要由于朴素贝叶斯文本分类中的独立假设前提,使得在特征选择步骤能否准确有效地选出能代表文本的特征显得尤为重要,而特征选择标准中的MI标准与TFIDF标准其优缺正好互补,因此在用朴素贝叶斯文本分类方法中的多项式模型实现了一个web页面分类系统———WEBCAT的基础上,提出将MI标准与TFIDF标准结合进行特征选择。实验显示:用改进的方法可以更准确地选出能代表文本的特征,文本分类结果也比单独使用TFIDF标准或单独使用MI标准进行特征选择的分类结果更加精确。 An effective feature selection is very important for an NB-based classifier which uses the conditional independence assumption. MI and TFIDF are two general feature selection methods in text categorization. Considering their each deficiency in representing documents or categories,they are combined into a two-stage selection method and applied to WEBCAT——a web page NB-based classifier using the multinomial model. Experiments show that this new method works more effectively than that only using MI or TFIDF in selecting those representative features and in categorizing.

作者余芳姜云飞

机构地区暨南大学计算机科学系中山大学软件研究所

出处《中山大学学报（自然科学版）》 CAS CSCD 北大核心 2004年第5期118-120,共3页 Acta Scientiarum Naturalium Universitatis Sunyatseni

基金国家自然科学基金资助项目(60173039) 暨南大学自然科学基金资助项目

关键词朴素贝叶斯分类特征选择 MI标准 TFIDF标准 Naive Bayes classifier feature selection MI TFIDF

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1LEWIS D D. Representation and learning in information retrieval[D]. Maassachusetts: Graduate School of the University of Maassachusetts, 1992.
2LEWIS D D, RINGUETIE M. A comparison of two learning algorithms for text categorization[ M]. Proceedings of SDAIR -94, 3rd Annual Symposium on Document Analysis and Information Retrieval , 1994: 81 - 93.
3MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
4YANG Yi-ming, PEDERSEN J O. A comparative study on feature selection in text categorization [ M ]. Proceedings of ICML- 97, 14th International Conference on Machine Learning, 1998.
5SALTON G, BUCKLEY C. Weighting approaches in automatic text retrieval [ J ]. Information Processing and Management, 1988, 24(5) :513 - 523.
6McCALLUM A, NIGAM K. A comparison of event models for Naive Bayes text classification [ M ]. Proceedings of AAAI 98 Workshop on Learning for Text Categorization, 1998.
7CRAVENM, DiPASQUOD, FREITAGD,etal. Leaming to extract symbolic knowledge from the World Wide Web [ M ].Proceedings of the Fifteenth National Conference on Artificial Intellligence (AAAI98), 1998: 509 - 516.

共引文献45

1张峡,黄团华,赵晓岩.基于遗传算法进行加速器自动调束[J].强激光与粒子束,2004,16(9):1222-1224. 被引量：4
2张辉,张浩,徐征,陆剑峰.基于支持向量机的供应链伙伴企业选择方法的研究[J].计算机集成制造系统,2004,10(7):796-800. 被引量：10
3孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
4巨同升.机器学习在汉字智能拼音输入中的应用[J].山东理工大学学报（自然科学版）,2005,19(3):86-88. 被引量：1
5杨金辉,易中华,王煦法.一种基于Straight的语音焦点合成方法[J].计算机工程,2005,31(13):46-47. 被引量：3
6黄健聪,万海,郝小卫,李磊.用近邻算法预测通信量时间序列[J].计算机科学,2005,32(7):31-33. 被引量：3
7杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
8费洪晓,巩艳玲,谢文彪,倪敏.基于混合学习策略的多Agent信息过滤系统[J].计算机应用,2006,26(2):267-269. 被引量：3
9阎铁,王长江,毕雪亮,陈要辉,刘维凯.石油钻井中钻具失效的支持向量机技术[J].大庆石油学院学报,2006,30(1):70-72.
10朱祥玉,侯德文.基于概念学习的过滤模板获取方法[J].计算机技术与发展,2006,16(5):53-55. 被引量：1

同被引文献128

1夏克俭,张涛.基于贝叶斯算法的垃圾邮件过滤的研究[J].微计算机信息,2008,24(9):179-180. 被引量：5
2李艳,刘信杰,胡学钢.数据挖掘中朴素贝叶斯分类器的应用[J].潍坊学院学报,2007(4):48-50. 被引量：2
3安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
4王俊英,郭景峰,霍峥.中文文本分类系统的设计与实现[J].微电子学与计算机,2006,23(z1):262-265. 被引量：3
5石洪波,王志海,黄厚宽.贝叶斯文本分类方法研究[J].高等财经教育研究,2002,8(S1):87-88. 被引量：2
6刘良斌,王小平.基于支持向量机和输出编码的文本分类器研究[J].计算机应用,2004,24(8):32-34. 被引量：8
7李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
8袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：47
9黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
10张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47

引证文献24

1李艳,刘信杰,胡学钢.数据挖掘中朴素贝叶斯分类器的应用[J].潍坊学院学报,2007(4):48-50. 被引量：2
2袁方,苑俊英.基于类别核心词的朴素贝叶斯中文文本分类[J].山东大学学报（理学版）,2006,41(3):111-114. 被引量：12
3任喜峰.基于朴素贝叶斯分类的考试成绩监测机制的研究[J].科技信息,2007(1):37-38. 被引量：1
4苑俊英,袁方,刘博.一种基于类别核心词的概念映射方法[J].广西师范大学学报（自然科学版）,2007,25(2):140-144. 被引量：1
5任喜峰.基于朴素贝叶斯分类的考试成绩监测机制研究[J].统计与决策,2007,23(22):163-164. 被引量：4
6庞秀丽,冯玉强,姜维.贝叶斯文本分类中特征词缺失的补偿策略[J].哈尔滨工业大学学报,2008,40(6):956-960. 被引量：5
7陈弋兰.基于朴素贝叶斯分类的图像消噪[J].安庆师范学院学报（自然科学版）,2008,14(3):34-36.
8陈弋兰,王鸣,孙书诚.朴素贝叶斯分类器的误差估计[J].安徽工程科技学院学报（自然科学版）,2008,23(4):48-51. 被引量：4
9苑俊英,陈海山.一种改进的特征选取方法[J].科技信息,2009(4):172-173.
10史瑞芳.贝叶斯文本分类器的研究与改进[J].计算机工程与应用,2009,45(12):147-148. 被引量：12

二级引证文献67

1李艳,刘信杰,胡学钢.数据挖掘中朴素贝叶斯分类器的应用[J].潍坊学院学报,2007(4):48-50. 被引量：2
2苑俊英,袁方,刘博.一种基于类别核心词的概念映射方法[J].广西师范大学学报（自然科学版）,2007,25(2):140-144. 被引量：1
3吕震宇,林永民,赵爽,陈景年,朱卫东.基于类信息的文本特征选择与加权算法研究[J].计算机工程与应用,2008,44(20):145-147. 被引量：8
4庞秀丽,冯玉强,姜维.贝叶斯文本分类中特征词缺失的补偿策略[J].哈尔滨工业大学学报,2008,40(6):956-960. 被引量：5
5苑俊英,陈海山.一种改进的特征选取方法[J].科技信息,2009(4):172-173.
6陈弋兰.基于模糊聚类的混合朴素贝叶斯分类模型[J].安徽建筑工业学院学报（自然科学版）,2009,17(3):88-91.
7吴为胜,武友新,游建平,万敏.一种基于线性的朴素贝叶斯分类器知识库的组织方法[J].计算机与现代化,2009(10):26-28.
8行情[J].现代计算机（中旬刊）,2010(2):81-84.
9姜沛佩,刘培玉,杨玉珍.一种改进的基于遗传禁忌优化的NB算法[J].计算机应用研究,2010,27(8):2892-2894. 被引量：1
10李永慈,余欣宁,王三强.朴素贝叶斯判别的判别效用分析[J].生物数学学报,2010,25(2):273-279.

1余芳.一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J].计算机工程与应用,2004,40(13):195-197. 被引量：9
2高凤娇,吴冈,费磊,杨洋.基于蜂群算法的人脸表情特征选择方法研究[J].自动化技术与应用,2013,32(3):74-76.
3周清清,刘勇.多目标优化微分进化改进算法的实现[J].自动化仪表,2009,30(12):6-8. 被引量：5
4陈豪杰.PLC机型的选择步骤与维护[J].科技视界,2013(25):100-100.
5周密,程闯闯,方盛.基于OpenMI技术的新安江模型开发与集成研究[J].三峡大学学报（自然科学版）,2014,36(2):24-27. 被引量：2
6陈静,葛超,朱开宇.基于正交最小二乘法的神经网络中心选取算法的研究[J].陶瓷研究与职业教育,2008,6(1):19-21. 被引量：2
7李锐,林艳萍,徐正全,冯蔚.空间数据存储对象的元数据可伸缩性管理[J].计算机应用研究,2011,28(12):4567-4571. 被引量：2
8刘彬.动态特性是控制阀选择的关键[J].中国科技纵横,2012(14):67-67.
9曹屹立,葛超,张景春,孙丽英,朱艺.最小二乘算法在RBF神经网络中的应用[J].山西电子技术,2008(1):62-63.
10赵敏,倪志伟,刘斌.K-means与朴素贝叶斯在商务智能中的应用[J].计算机技术与发展,2010,20(4):179-182. 被引量：6

中山大学学报（自然科学版）

2004年第5期

浏览历史

内容加载中请稍等...

一种基于朴素贝叶斯分类的特征选择方法被引量：24

参考文献7

共引文献45

同被引文献128

引证文献24

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

一种基于朴素贝叶斯分类的特征选择方法 被引量：24

参考文献7

共引文献45

同被引文献128

引证文献24

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

一种基于朴素贝叶斯分类的特征选择方法被引量：24