用于不完整数据的选择性贝叶斯分类器被引量：11

Selective Bayes Classifiers for Incomplete Data

下载PDF

导出

摘要选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些. Selective classifiers have been proved to be a kind of algorithms that can effectively improve the accuracy and efficiency of classification by deleting irrelevant or redundant attributes of a data set. Though some selective classifiers have been proposed, most of them deal with complete data, which is due to the complexity of dealing with incomplete data. Yet actual data sets are often incomplete and have many redundant or irrelevant attributes because of various kinds of reason. Similar to the case of complete data, irrelevant or redundant attributes of an incomplete data set can also sharply reduce the accuracy of a classifier established on this data set. So constructing selective classifiers for incomplete data is an important problem. With the analysis of main methods of processing incomplete data for classification, two selective Bayes classifiers for incomplete data, which are denoted as SRBC and CBSRBC respectively, are presented. While SRBC is constructed by using the robust Bayes classifiers, CBSRBC is based on SRBC and chisquared statistics. Experiments on twelve benchmark incomplete data sets show that these two algorithms can not only enormously reduce the number of attributes, but also greatly improve the accuracy and stability of classification as well. On the whole, CBSRBC is more efficient than SRBC and its classification accuracy is higher than that of SRBC. But some thresholds necessary to CBSRBC can be avoided by SRBC.

作者陈景年黄厚宽田凤占付树军

机构地区北京交通大学计算机与信息技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2007年第8期1324-1330,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目(60503017 60673089)

关键词贝叶斯方法分类特征选择不完整数据 X2统计量 Bayesian method classification feature selection incomplete data chi-squared statistics

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献17

1P Langley,S Sage.Induction of selective Bayesian classifiers[C].In:Proc of the 10th Conf on Uncertainty in Artificial Intelligence.San Francisco:Morgan Kaufmann,1994.399-406.
2M Singh,G M Provan.Efficient learning of selective Bayesian network classifiers[C].In:Proc of the 13th Int'l Conf on Machine Learning.San Francisco:Morgan Kaufman,1996.
3尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
4J R Quinlan.C4.5:Programs for Machine Learning[M].San Francisco:Morgan Kaufmann,1993.
5R Kohavi,B Becker,D Sommerfield.Improving simple Bayes[C].In:M van Someren,G Widmer,eds.Poster Papers of the ECML-97.Prague:Charles University,1997.78-87.
6N Friedman,D Geiger,M Goldszmidt.Bayesian network classifiers[J].Machine Learning,1997,29(2-3):131-163.
7S L Lauritzen.The EM algorithm for graphical association models with missing data[J].Computational Statistics and Data Analysis,1995,19(2):191-201.
8S Russell,J Binder,D Koller,et al.Local learning in probabilistic networks with hidden variables[C].In:Proc of IJCAI-95.San Francisco:Morgan Kaufmann,1995.1146-1151.
9S Geman,D Geman.Stochastic relaxation,Gibbs distributions and the Bayesian restoration of images[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1984,6(6):721-741.
10R J A Little,D B Rubin.Statistical Analysis with Missing Data[M].New York:Wiley,1987.

二级参考文献25

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2T M Cover,P E Hart.Nearest neighbor pattern classification[J].IEEE Trans on Information Theory,1967,IT-13(1):21-27
3Y Yang.An evaluation of statistical approaches to text categorization[J].Information Retrieval,1999,1(1/2):67 -88
4Y Yang,X Lin.A re-examination of text categorization methods[C].The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in the Information Retrieval,Berkeley,California,USA,1999
5B Masand,G Lino,D Waltz.Classifying news stories using memory based reasoning[C].The 15th Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval,Copenhagen,Denmark,1992
6D D Lewis.Naive (Bayes) at forty:The independence assumption in information retrieval[C].The 10th European Conf on Machine Learning,Heidelberg,Germany,1998
7A Mccallum,K Nigam.A comparison of event models for naive bayes text classification[C].AAAI-98 Workshop on Learning for Text Categorization,Madison,Wisconsin,1998
8D D Lewis,M Ringuette.Comparison of two learning algorithms for text categorization[C].The 3rd Annual Symp on Document Analysis and Information Retrieval,Las Vegas,1994
9C Apte,F Damerau,S Weiss.Text mining with decision rules and decision trees[C].The Conf on Automated Learning and Discovery,Workshop 6:Learning from Text and the Web,Pittsburgh,PA,1998
10T Joachims.Text categorization with support vector machines:Learning with many relevant features[C].The 10th European Conf on Machine Learning,Heidelberg,Germany,1998

共引文献37

1任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
2陈振洲,邹丽珊.基于改进SVM的特征选择[J].邵阳学院学报（自然科学版）,2007,4(1):58-63.
3林永民,朱卫东.基尼指数在文本特征选择中的应用研究[J].计算机应用,2007,27(10):2584-2586. 被引量：5
4徐燕,王斌,李锦涛,孙春明.知识增益：文本分类中一种新的特征选择方法[J].中文信息学报,2008,22(1):44-50. 被引量：6
5林永民,吕震宇,赵爽,朱卫东.向量空间模型中特征加权的研究[J].情报杂志,2008,27(3):5-7. 被引量：6
6徐燕,李锦涛,王斌,孙春明,张森.文本分类中特征选择的约束研究[J].计算机研究与发展,2008,45(4):596-602. 被引量：26
7吕震宇,林永民,赵爽,陈景年,朱卫东.基于类信息的文本特征选择与加权算法研究[J].计算机工程与应用,2008,44(20):145-147. 被引量：8
8赵长伟,孙素环,李晓培.基于语义相似度的文本表示降维方法[J].河南科技大学学报（自然科学版）,2008,29(5):36-39. 被引量：4
9张怡卓,刘亚秋,孙丽萍.基于自适应GA-SVR的中密度纤维板施胶比例辨识方法[J].东北林业大学学报,2008,36(9):56-58.
10皋军,王士同,邓赵红.广义的势支撑特征选择方法GPSFM[J].计算机研究与发展,2009,46(1):41-51. 被引量：6

同被引文献118

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2李敬兆,邓绘梅.自反馈BP网云计算信息融合算法及应用[J].华中科技大学学报（自然科学版）,2012,40(S1):316-319. 被引量：2
3王双成,苑森淼.具有丢失数据的贝叶斯网络结构学习研究[J].软件学报,2004,15(7):1042-1048. 被引量：62
4董明,屈彦明,周孟戈,严璋.基于组合决策树的油浸式电力变压器故障诊断[J].中国电机工程学报,2005,25(16):35-41. 被引量：41
5陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
6胡学钢,郭亚光.一种基于粗糙集的朴素贝叶斯分类算法[J].合肥工业大学学报（自然科学版）,2006,29(2):169-172. 被引量：11
7鲁明羽.Bayes文本分类器的改进方法研究[J].计算机工程,2006,32(17):63-65. 被引量：11
8陈景年,黄厚宽,田凤占,乔珠峰.一种基于不完整数据的朴素贝叶斯分类器[J].计算机工程,2006,32(17):86-88. 被引量：4
9邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007,34(2):204-206. 被引量：43
10NIGAM K,MCCSLLUM A K,THRN S,et al.Text classification from labeled and unlabeled documents using EM[J].Machine Learning,2000,39(2/3):103-134.

引证文献11

1陈景年,黄厚宽,杨莉萍,田凤占.基于分布不完整数据选择性分类器[J].北京交通大学学报,2008,32(2):26-29. 被引量：1
2赵文清.基于选择性贝叶斯分类器的变压器故障诊断[J].电工文摘,2011(5):34-37. 被引量：1
3蔡月红,朱倩,孙萍,程显毅.基于属性选择的半监督短文本分类算法[J].计算机应用,2010,30(4):1015-1018. 被引量：8
4赵文清.基于选择性贝叶斯分类器的变压器故障诊断[J].电力自动化设备,2011,31(2):44-47. 被引量：21
5陶永才,薛正元,石磊.基于MapReduce的贝叶斯垃圾邮件过滤机制[J].计算机应用,2011,31(9):2412-2416. 被引量：14
6许明英,尉永清,赵静.一种结合反馈信息的贝叶斯分类增量学习方法[J].计算机应用,2011,31(9):2530-2533. 被引量：5
7张亚萍,胡学钢,方振国,姜恩华.数据缺失条件下的贝叶斯优化算法[J].计算机工程与应用,2012,48(11):111-114. 被引量：3
8冷泳林,张清辰,鲁富宇.不完整数据的聚类研究[J].河南科学,2014,32(11):2259-2262.
9李凌霞,李冰冰,王建.物联网环境下智能应用的信息支持和决策技术研究[J].物联网技术,2017,7(10):70-73. 被引量：3
10程炜东,王洪亚,郭开彦.面向脏数据的贝叶斯统计建模研究[J].智能计算机与应用,2019,9(2):104-107. 被引量：1

二级引证文献57

1陈景年,黄厚宽,徐力,伊传环.利用增益率构建混合型选择性不完整数据分类器[J].北京交通大学学报,2009,33(5):117-120. 被引量：2
2刘建波,杨峰.面向舆情分析的短文本频繁模式聚类算法[J].北京电子科技学院学报,2010,18(4):6-11. 被引量：7
3刘建波.面向情感分析的短文本意义串发现及分析算法[J].武汉理工大学学报（信息与管理工程版）,2011,33(5):742-745.
4王细薇,张凯.一种改进的基于共现关系的短文本特征扩展算法研究[J].河南城建学院学报,2012,21(4):48-50. 被引量：4
5杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338. 被引量：7
6赵文清,李庆良,王德文.基于多模型的变压器故障组合诊断研究[J].高电压技术,2013,39(2):302-309. 被引量：36
7张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
8杨鹤标,黄文青,陈锦富.基于MapReduce的SVM改进算法及在邮件过滤中的实现[J].无线通信技术,2013,22(2):52-56. 被引量：1
9黄国伟,许昱玮.基于用户反馈的混合型垃圾邮件过滤方法[J].计算机应用,2013,33(7):1861-1865. 被引量：5
10武开有.基于邮件服务空间预留的电子邮件炸弹攻击防御研究[J].信息网络安全,2013(7):80-81.

1陈景年,黄厚宽,徐力,伊传环.利用增益率构建混合型选择性不完整数据分类器[J].北京交通大学学报,2009,33(5):117-120. 被引量：2
2陈景年,黄厚宽,田凤占,薛小平.一种基于特征选择的不完整数据分类方法[J].计算机工程与应用,2007,43(31):23-24. 被引量：2
3陈景年,黄厚宽,杨莉萍,田凤占.基于分布不完整数据选择性分类器[J].北京交通大学学报,2008,32(2):26-29. 被引量：1
4王娟.文本分类中特征提取方法的比较改进[J].兰州工业学院学报,2013,20(5):22-24. 被引量：1
5王倩倩,段震,张燕平.基于交叉覆盖算法的文本分类[J].计算机技术与发展,2007,17(6):113-115. 被引量：5
6赵文清.基于选择性贝叶斯分类器的变压器故障诊断[J].电力自动化设备,2011,31(2):44-47. 被引量：21
7侯艳钗,沈西挺.文本分类中基于改进的词语权重算法的研究[J].微计算机信息,2011,27(6):211-213. 被引量：1
8朱颢东,钟勇.基于改进的ID3信息增益的特征选择方法[J].计算机工程,2010,36(8):37-39. 被引量：8
9马勇,仝瑶瑶,程玉虎.一种改进的最大相关最小冗余选择性贝叶斯分类器[J].北京科技大学学报,2012,34(1):26-30.
10向卓元,张蕾.粗糙集理论对C4．5算法的优化研究[J].电脑知识与技术,2012,8(6):3782-3785. 被引量：1

计算机研究与发展

2007年第8期

浏览历史

内容加载中请稍等...

用于不完整数据的选择性贝叶斯分类器被引量：11

参考文献17

二级参考文献25

共引文献37

同被引文献118

引证文献11

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

用于不完整数据的选择性贝叶斯分类器 被引量：11

参考文献17

二级参考文献25

共引文献37

同被引文献118

引证文献11

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

用于不完整数据的选择性贝叶斯分类器被引量：11