结合类内集中度和最小集合覆盖的特征选择

Feature selection combined category concentration with minimal set covering

下载PDF

导出

摘要特征选择是文本分类中的核心研究课题之一。简单分析了词频和文档频,在此基础上提出了类内集中度,把集合覆盖的思想引入粗糙集并提出了一个基于最小集合覆盖的属性约简算法,把该属性约简算法同类内集中度结合起来,提出了一个新的特征选择方法。该方法利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。 Feature selection is one of the core research topics in text categorization.Word frequency and document frequency are analyzed simply.Category concentration based on word frequency and document frequency is presented.Set covering is in- troduced into rough sets and an attribute reduction algorithm based on minimal set covering is provided.A new feature selec- tion method combined the provided attribute reduction algorithm with the category concentration is proposed.The new method uses the category concentration to select feature and filter out some terms to reduce the sparsity of feature spaces,and then employs the proposed attribute reduction algorithm to eliminate redundancy, so that the more representative feature subset is acquired.The experimental results show that the new method is promising.

作者张文鹏李红婵王兴

机构地区南阳师范学院软件学院郑州轻工业学院计算机与通信工程学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第28期124-127,共4页 Computer Engineering and Applications

基金河南省基础与前沿技术研究计划项目(No.102300410266)

关键词特征选择文本分类词频文档频粗糙集属性约简 feature selection text categorization word frequency document frequency rough sets attribute reduction

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1Nguyen M H, Torte F D.Optimal feature selection for support vector machines[J].Pattern Recognition,2010,43(3) : 584-591.
2Liu Hua-Wen, Sun Ji-Gui, Liu Lei.Feature selection with dynamic mutual information[J].Pattem Recognition,2009,42(7) : 1330-1339.
3Zhu Hao-Dong, Zhao Xiang-Hui, Zhong Yong.Feature selection method combined optimized document frequency with improved RBF network[C]//Proc of 5th International Conference, ADMA 2009, Beijing, China, 2009 : 796-803.
4XU Yan.A formal study of feature selection in text categorization[J].通讯和计算机（中英文版）,2009,6(4):32-41. 被引量：15
5Kalousis A, Prados J, Hilario M.Stability of feature selection algorithms: a study on high-dimensional spaces[J].Knowledge and Information Systems, 2007,12 ( 1 ) : 95-116.
6Destrero A, Mosci S, Mol C D.Feature selection for high- dimensional data[J].Computational Management Science,2009, 6 ( 1 ) : 25-40.
7Bakus J,Kamel M S.Higher order feature selection for text classification[J].Knowledge and Information Systems, 2006, 9(4) : 468-491.
8苗夺谦,王珏.粗糙集理论中概念与运算的信息表示[J].软件学报,1999,10(2):113-116. 被引量：250
9陈彩云,李治国.关于属性约简和集合覆盖问题的探讨[J].计算机工程与应用,2004,40(2):44-46. 被引量：18
10陈端兵,黄文奇.一种求解集合覆盖问题的启发式算法[J].计算机科学,2007,34(4):133-136. 被引量：13

二级参考文献35

1郑丽英,王庆荣,刘丽艳.面向属性的粗集数据挖掘方法研究[J].兰州理工大学学报,2005,31(2):88-91. 被引量：8
2黄兵,周献中,张蓉蓉.基于信息量的不完备信息系统属性约简[J].系统工程理论与实践,2005,25(4):55-60. 被引量：41
3王珏,袁小红,石纯一,郝继刚.关于知识表示的讨论[J].计算机学报,1995,18(3):212-224. 被引量：54
4陈亮,任世军.一种遗传算法在集合覆盖问题中的应用研究[J].哈尔滨商业大学学报（自然科学版）,2006,22(2):67-70. 被引量：7
5王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
6苗夺谦.Rough Set理论及其在机器学习中的应用研究（博士学位论文）[M].北京:中国科学院自动化研究所,1997..
7Pawlak Z.Rough Sets[J].International Journal of Information and Computer Science,1982,11(5):341～356.
8Wang S K M,Ziarko W.On Optimal Decision Rulers in Decision Tables[J].Bulletin of Polish Academy of Science,1985,33(6):676～693.
9Lin Tsauyoung,Yin Ping.Heuristically Fast Finding of the Shortest Reducts[A].Proceedings of 2004 International Conferrence on Rough Sets and Current Trends in Computing[C].Berlin:Springer,2004.465～470.
10Wroblewski J.Finding Minimal Reducts Using Genetic Algorithm(ICS Research Report 16/95) [R].Warsaw:Warsaw University of Technology,1995.

共引文献298

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：10
2杨善林,刘业政,马溪骏.基于β-δ0粗糙集模型的属性约简算法[J].中国管理科学,2003,11(z1):41-45.
3易树鸿,樊林波,唐晔.基于Rough集理论的知识之间影响程度的一种度量[J].遵义师范学院学报,2003,5(3):62-64.
4刘方正,祁建清.网络雷达对抗系统侦察效能指标体系[J].火力与指挥控制,2012,37(S1):49-51. 被引量：4
5刘娟,唐玄.基于粗糙集的计算机文化基础课程成绩分析[J].商丘师范学院学报,2013,29(12):72-74.
6周永权,刘宣会.基于Rough集的牛顿迭代法求方程近似解算法[J].计算机工程与设计,2004,25(3):356-357.
7谢莹,陈琳.16位超前进位加法器的设计[J].合肥工业大学学报（自然科学版）,2004,27(4):450-454. 被引量：8
8张倩生.知识库中知识的信息表示及其上的粗动力系统[J].高校应用数学学报（A辑）,2004,19(3):369-375. 被引量：1
9王瑜,胡运发,张凯.基于粗集理论的知识含量度量研究[J].计算机研究与发展,2004,41(9):1500-1506. 被引量：12
10张化光,梁洪力.粗糙集的两种新型算子及其Boolean代数性质[J].应用科学学报,2004,22(4):503-508. 被引量：2

1冯朝,冯战申.基于集合覆盖的决策表约简方法及其应用[J].许昌学院学报,2009,28(5):85-87. 被引量：3
2王亮.一种模糊加权软子空间聚类[J].科技致富向导,2011(11):65-66.
3苏力华,朱章华,白文华,.基于向量空间模型的文本分类特征权重算法研究[J].电脑知识与技术（过刊）,2010,0(33):9327-9329. 被引量：4
4张锴赫.基于校园网下的多媒体网络教室的构建[J].辽宁教育行政学院学报,2006,23(5):171-172.
5李明江.结合类词频的文本特征选择方法的研究[J].计算机应用研究,2014,31(7):2024-2026. 被引量：6
6谢勤岚.结合类可分性和遗传算法的核ICA特征选择[J].武汉理工大学学报（交通科学与工程版）,2009,33(4):772-775. 被引量：2
7王加龙,朱颢东.结合类别相关性和辨识集的特征选择方法[J].微型机与应用,2009,28(23):65-68.
8刘敏,段富,刘超慧.基于最小集合覆盖的属性约简算法[J].电脑开发与应用,2008,21(8):53-55. 被引量：1
9刘凤娇,蒋永志.用于聚合组播的蚁群优化算法[J].软件导刊,2015,14(9):68-70. 被引量：1
10张馨,薛质,范磊.基于最小集合覆盖的网络连通性自动化测试[J].计算机工程,2012,38(24):65-69. 被引量：2

计算机工程与应用

2011年第28期

浏览历史

内容加载中请稍等...

结合类内集中度和最小集合覆盖的特征选择

参考文献12

二级参考文献35

共引文献298

相关作者

相关机构

相关主题

浏览历史