一种近似Markov Blanket最优特征选择算法被引量：15

An Approximate Markov Blanket Feature Selection Algorithm

下载PDF

导出

摘要特征选择可以有效改善分类效率和精度,传统方法通常只评价单个特征,较少评价特征子集.在研究特征相关性基础上,进一步划分特征为强相关、弱相关、无关和冗余四种特征,建立起Markov Blanket理论和特征相关性之间的联系,结合Chi-Square检验统计方法,提出了一种基于前向选择的近似Markov Blanket特征选择算法,获得近似最优的特征子集.实验结果证明文中方法选取的特征子集与原始特征子集相比,以远小于原始特征数的特征子集获得了高于或接近于原始特征集的分类结果.同时,在高维特征空间的文本分类领域,与其它的特征选择方法OCFS,DF,CHI,IG等方法的分类结果进行了比较,在20Newsgroup文本数据集上的分类实验结果表明文中提出的方法获得的特征子集在分类时优于其它方法. Feature selection（FS） can effectively improve the speed and accuracy of classification. The traditional FS approaches usually score a single feature, do not evaluate feature subset. Based on the research in feature relevance, features can be further divided into four categories： Strong relevance, weak relevance, irrelevance and redundancy. The paper proposes a forward selection algorithm-An approximate Markov Blanket （MB） feature selection by theory of MB and Chi-Square test, which obtain an approximate optimal feature subset. Experiments on the datasets suggest that, compared with original feature set, the feature subset obtained by the proposed approach is much less than original feature set and performance on actual classification is better than or as good as that by original feature set. Meanwhile, when used in high dimension feature space such as text categorization, compared with other traditional feature selection approaches. OCFS, DF, CHI, IG, the performance obtained by the proposed method is obviously superior to that of others on 20 Newsgroup dataset.

作者崔自峰徐宝文张卫丰徐峻岭

机构地区东南大学计算机科学与技术学院南京邮电大学计算机学院

出处《计算机学报》 EI CSCD 北大核心 2007年第12期2074-2081,共8页 Chinese Journal of Computers

基金国家杰出青年科学基金(60425206) 国家自然科学基金(60503020) 江苏省高校自然科学研究计划项目基金(04kjb520096)资助~~

关键词特征选择相关性 MARKOV BLANKET CHI-Square检验分类 feature selection relevance Markov Blanket CHI- Square test categorization

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献17

1Mitchell T M. Machine Learning. New Jersey: McGraw Hill, 1997
2Duda R O, Hart P E, Stork D G. Pattern Classification. 2nd Edition. New York: John Wiley & Sons, 2000
3Rennie J D, Shih L, Teevan J, Karger D R. Tackling the poor assumptions of naive Bayes text classifiers//Proceedings of the 20th International Conference on Machine Learning. Washington DC, 2003 : 616-623
4Joachims T. Text categorization with support vector machines: Learning with many relevant features//Proceedings of the 10th European Conference on Machine Learning. Chemnitz, DE, 1998:137-142
5Dash M, Liu H. Feature selection for classification. International Journal of Intelligent data Analysis, 1997, 1:131-156
6Kohavi R, John R C. Wrappers for feature subset selection. Artificial Intelligence, 1997, 97 : 273-324
7Das S. Filters, wrappers and a boosting-based hybrid for feature seleetion//Proceedings of the 18th International Conference on Machine Learning. Williams College, 2001:74-81
8Yang Y, Pedersen J O. A comparative study on feature selection in text categorization//Proceedings of the 14th International Conference on Machine Learning. Nashville, 1997 : 412-420
9Yu L, Liu H. Efficient feature selection via analysis of relevance and redundancy. Journal of Machine Learning Research, 2004, 10:1205-1224
10Qu G, Hariri S, Yousif M. A new dependency and correlation analysis for features. IEEE Transactions on Knowledge and Data Engineering, 2005, 17 : 1199-1207

同被引文献111

1宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
2陈晋川,陈治璋,贾洪明,沈琦,杨巍.基于模式的贝叶斯垃圾邮件过滤的研究与实现[J].计算机工程与应用,2006,42(6):172-175. 被引量：3
3毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
4董梅,胡学钢.基于多特征选择的中文文本分类[J].计算机技术与发展,2007,17(7):117-119. 被引量：11
5陈友,程学旗,李洋,戴磊.基于特征选择的轻量级入侵检测系统[J].软件学报,2007,18(7):1639-1651. 被引量：78
6陈友,沈华伟,李洋,程学旗.一种高效的面向轻量级入侵检测系统的特征选择算法[J].计算机学报,2007,30(8):1398-1408. 被引量：46
7中国互联网协会反垃圾邮件中心.中国互联网协会2008年度第一次垃圾邮件调查报告[EB/OL].2008.http:///www.anti-spam.cn/pdf/2008_1_dc.pdf.
8Sahami M, Dnmais S, Heckerman D, et al. A Bayesian approach to filtering junk e-mail[ C ]// AAAI-98 Workshop on Learning for Text Categorization. [ s. l. ] : [ s. n. ], 1998.
9Androutsopoulos I. An Evaluation of Naive Bayesian Anti-Spam Filtering [ C ]// Proc. of the Workshop on MachineLearning in the New Information Age, 11th European Conference on Machine Learning. [ s. l.]: [ s. n. ] ,2002.
10Graham P. A Plan for Spare[ EB/OL]. 2002. http://www. paulgraham, com/spam, html.

引证文献15

1朱小培,位云朋,闫李,韩茜茜.基于多模态进化计算的特征选择策略[J].中原工学院学报,2021,32(4):71-76.
2任永功,林楠.DPFS:一种基于动态规划的文本特征选择算法[J].计算机科学,2009,36(6):188-191. 被引量：2
3林伟.一种基于成词概率的贝叶斯垃圾邮件过滤方法[J].计算机技术与发展,2011,21(9):242-244.
4张逸石,陈传波.基于最小联合互信息亏损的最优特征选择算法[J].计算机科学,2011,38(12):200-205. 被引量：9
5潘湑,顾宏斌,赵芷晴.术语定义抽取的特征选择框架[J].南京航空航天大学学报,2012,44(3):399-404. 被引量：1
6王玲,刘善军,陈兵林,姬长英.混合过滤器和封装器启发式判别籽棉成熟度[J].计算机研究与发展,2013,50(2):269-277. 被引量：2
7任永功,杨雪,杨荣杰,胡志冬.基于信息增益特征关联树的文本特征选择算法[J].计算机科学,2013,40(10):252-256. 被引量：9
8李敏,卡米力.木依丁.特征选择方法与算法的研究[J].计算机技术与发展,2013,23(12):16-21. 被引量：23
9孙广路,宋智超,刘金来,朱素霞,何勇军.基于最大信息系数和近似马尔科夫毯的特征选择方法[J].自动化学报,2017,43(5):795-805. 被引量：49
10叶明全,高凌云,伍长荣,万春圆.基于对称不确定性和SVM递归特征消除的信息基因选择方法[J].模式识别与人工智能,2017,30(5):429-438. 被引量：14

二级引证文献125

1Yanji Sun,Yanqiu Pan,Zhongliang Zhou,Xin Li.Fuzzy comprehensive assessment of running condition for a large-scale centrifugal compressor set[J].Chinese Journal of Chemical Engineering,2019,27(12):2979-2988. 被引量：5
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：41
3刘逸竹,李晴,吴文斌.遥感提取灌溉耕地的特征优选——以中国北方为例[J].中国农业资源与区划,2021,42(9):27-35. 被引量：2
4周金浛,于劲松,宋悦,梁思远.基于耦合自适应距离的高维异常检测算法[J].仪器仪表学报,2022,43(8):182-192.
5刘辉,曾鹏飞,巫乔顺,陈甫刚.基于改进遗传算法的转炉炼钢过程数据特征选择[J].仪器仪表学报,2019,40(12):185-195. 被引量：17
6张逸石,陈传波.基于最小联合互信息亏损的最优特征选择算法[J].计算机科学,2011,38(12):200-205. 被引量：9
7陈圣,熊钦.一种基于规范互信息和动态冗余信号识别技术的特征选择方法[J].电子设计工程,2012,20(18):142-144.
8李晓艳,张子刚,张逸石,张谧.一种基于KL散度和类分离策略的特征选择算法[J].计算机科学,2012,39(12):224-227. 被引量：10
9李晓艳,张子刚,张逸石.集成k-means聚类和有监督特征选择的混合式协同过滤推荐[J].管理学报,2013,10(9):1362-1367. 被引量：5
10刘飞飞.特征选择算法及应用综述[J].办公自动化,2018,23(21):47-49. 被引量：4

1张明辉,李俭,张秋芳.基于Chi-square检验的分布式网络入侵检测系统[J].微计算机信息,2010,26(15):98-99.
2姚旭,王晓丹,张玉玺,权文.基于近似Markov Blanket和动态互信息的特征选择算法[J].计算机科学,2012,39(8):220-223.
3姚旭,王晓丹,张玉玺,权文.基于Markov blanket和互信息的集成特征选择算法[J].系统工程与电子技术,2012,34(5):1046-1050. 被引量：7
4徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
5高飞,王晖.一种关联规则挖掘的优化算法[J].深圳大学学报（理工版）,2003,20(2):22-28.
6齐峰,谭建荣,张树有.基于径向基函数神经网络的特征识别技术研究[J].计算机辅助设计与图形学学报,2002,14(6):562-565. 被引量：6
7孙兴伟,张幼军,田国富.轴类零件特征建模CAD系统设计与开发[J].组合机床与自动化加工技术,2002(12):18-20. 被引量：3
8余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
9王晖,高飞.一种关联规则挖掘的优化算法[J].计算机工程与应用,2003,39(26):204-207.
10杨震霆.在Internet上畅所欲言——如何阅读Internet上的Newsgroup(分组讨论论坛)[J].电脑,1998(3):48-49.

计算机学报

2007年第12期

浏览历史

内容加载中请稍等...

一种近似Markov Blanket最优特征选择算法被引量：15

参考文献17

同被引文献111

引证文献15

二级引证文献125

相关作者

相关机构

相关主题

浏览历史

一种近似Markov Blanket最优特征选择算法 被引量：15

参考文献17

同被引文献111

引证文献15

二级引证文献125

相关作者

相关机构

相关主题

浏览历史

一种近似Markov Blanket最优特征选择算法被引量：15