知识增益：文本分类中一种新的特征选择方法被引量：6

Knowledge Gain:An New Feature Selection Method in Text Categorization

下载PDF

导出

摘要特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能; Feature selection（FS） plays an important role methods such as document frequency thresholding （DF）, n text categorization（TC）. Automatic feature selection nformation gain （IG）, mutual information （MI）, and so on are commonly applied in text categorization [J]. Existing experiments show IG is one of the most effective methods. In this paper, a feature selection method is proposed based on Rough Set theory. According to Rough set theory, knowledge about a universe of objects may be defined as classifications based on certain properties of the objects, i.e. rough set theory assume that knowledge is an ability to partition objects. We quantify the ability of classify objects, and call the amount of this ability as knowledge quantity and then following this quantification, we put forward a notion ＂knowledge Gain＂ and put forward a knowledge gain-based feature selection method（KG method）. Experiments on NewsGroup collection and OHSUMEI） collection show that KG performs better than the IG method, specially, on extremely aggressive reduction.

作者徐燕王斌李锦涛孙春明

机构地区中同科学院计算技术研究所

出处《中文信息学报》 CSCD 北大核心 2008年第1期44-50,共7页 Journal of Chinese Information Processing

基金国家973资助项目(2004CB318109) 国家自然科学基金资金项目(60473002,60603094) 北京市自然科学基金资助项目(4051004)

关键词计算机应用中文信息处理文本分类特征选择粗糙集信息检索 computer application Chinese information processing feature selection text categorization rough set information retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
2Yiming Yang,Jan O.Pedersen.A Comparative Study on Feature Selection in Text Categorization[A].Proceedings of ICML-97[C].412-420.
3代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
4Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Computing Surveys,34(1):1-47.2002.
5单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148. 被引量：76
6C.E.Shannon,A mathematical theory of communication[J].Bell System Technical Journal,July and October,1948,27:379-423 and 623-656.
7Pawlak Z.Rough Sets[J].International Journal of Computer and Information Science,1982,11(5):341-356.
8徐燕,怀进鹏,王兆其.基于区分能力大小的启发式约简算法及其应用[J].计算机学报,2003,26(1):97-103. 被引量：39
9Stewart M.Yang,Xiao-Bin Wu,Zhi-Hong Deng,Ming Zhang,Dong-Qing Yang.2002 Relative termfrequency based feature selection for text categorization[A].Proceedings of ICMLC-2002[C].1432-1436.
10Andrew Moore.Statistical Data Mining Tutorials[DB/OL].http://www.autonlab.org/tutorials/.

二级参考文献44

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2冯是聪单松巍张志刚等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.
3黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
4[5]Starzyk J, Nelson D E, Sturtz K. Reducts. A mathematical foundation for improved reduct generation in information systems. Journal of Knowledge and Information Systems, 2000, 2(2):131～146
5[6]Bazan J G, Skowron A, Synak P. Dynamic reducts as a tool for extracting laws from decisions tables. In: Ras Z W, Zemankiva M eds. Methodologies for Intelligent Systems. Berlin: Springer-Verlag,1994. 346～355
6[7]Ziarko W. Variable precision rough sets model. Journal of Computer and Systems Sciences, 1993, 46(1):39～59
7[8]Pawlak Z. Grzymala-Busse J, Slowinski R etal. Rough sets.Communications of the ACM, 1995, 38(11): 89～95
8[11]Ying Wu, Thomas S Huang. Hand moeling, analysis, and recognition. IEEE Signal Processing Magazine, 2001(5):51～60
9[12]Lin J, Wu Y, Huang T S. Modeling human hand constraint. In: Proceedings of Workshop on Human Motion. Austin, Texas USA,2000. 121～126
10[1]Pawlak Z. Rough sets. International Journal of Computer and Information Science, 1982, 11(5): 341～356

共引文献366

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
7高博,朱东华,韩士雄.一种智能化的信息采集系统的研究与实现[J].兵工学报,2009,30(S1):130-134. 被引量：3
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9徐燕,怀进鹏,苏林萍,王兆其.粗糙集理论在中国手语合成中的应用[J].复旦学报（自然科学版）,2004,43(5):874-876.
10陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2

同被引文献73

1卢新国,林亚平,陈治平.一种改进的互信息特征选取预处理算法[J].湖南大学学报（自然科学版）,2005,32(1):104-107. 被引量：12
2李惠娟,高峰,管晓宏,黄亮.基于贝叶斯神经网络的垃圾邮件过滤方法[J].微电子学与计算机,2005,22(4):107-111. 被引量：21
3张铭锋,李云春,李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005,22(8):14-19. 被引量：23
4李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
5尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
6唐歆瑜,乐文忠,李志成,李军义.基于知网语义相似度计算的特征降维方法研究[J].科学技术与工程,2006,6(21):3442-3446. 被引量：16
7KUBAT M, HOLTE R C, MATWIN S. Machine learning for the detection of oil spills in satellite radar images [ J ]. Machine Learning, 1998 (30) : 195-215.
8PHUA C, ALAHAKOON D. Minority report in fraud detection: classification of skewed data [ J ]. ACM SIGKDD Explorations Newsletter, 2004 (6) :50-59.
9PEREZ J M, MUGUERZA J, ARBELAITZ O. Consolidated tree classifier learning in a car insurance fraud detection domain with class imbalance pattern recognition and data mining[M]. Berlin:Springer Press, 2005:381-389.
10CASTILLO M D, SERRANO J I. A multistrategy approach for digital text categorization from imbalanced documents [ J ]. ACM SIGKDD Explorations Newsletter, 2004 (6) :70-79.

引证文献6

1赵长伟,孙素环,李晓培.基于语义相似度的文本表示降维方法[J].河南科技大学学报（自然科学版）,2008,29(5):36-39. 被引量：4
2尤鸣宇,陈燕,李国正.不均衡问题中的特征选择新算法:Im-IG[J].山东大学学报（工学版）,2010,40(5):123-128. 被引量：9
3刘金岭.基于降维的短信文本语义分类及主题提取[J].计算机工程与应用,2010,46(23):159-161. 被引量：18
4赵晓丹,徐燕.垃圾邮件分类技术对比研究[J].信息网络安全,2014(2):75-80. 被引量：6
5赵一,何克清,陈荆亮,黄贻望,黄颖.面向维基百科服务计算领域的演化知识树[J].武汉大学学报（理学版）,2015,61(4):331-338. 被引量：3
6杨欣.学校课程开发中地方性知识的社会语境呈现[J].教育理论与实践,2017,37(32):42-44. 被引量：3

二级引证文献43

1裴亚辉,张兵利.一种基于贝叶斯方法的多分类器组合优化算法[J].河南科技大学学报（自然科学版）,2010,31(1):34-37. 被引量：2
2熊忠阳,付玲玲,张玉芳,蒋健.结合语义的特征选择方法[J].计算机应用,2010,30(10):2621-2623. 被引量：3
3陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
4刘金岭,严云洋.基于上下文的短信文本分类方法[J].计算机工程,2011,37(10):41-43. 被引量：13
5李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报（工学版）,2011,41(3):7-11. 被引量：5
6杨金柱,刘金岭.基于词语上下文的文本分类研究[J].计算机技术与发展,2011,21(8):145-148. 被引量：4
7张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
8刘金岭,冯万利,张永军.基于词汇链的中文短信主题语句抽取方法[J].计算机工程与应用,2012,48(7):132-134. 被引量：3
9刘金岭,冯万利,高丽.基于词汇链的中文变异垃圾短信文本语义识别[J].计算机工程与应用,2012,48(19):135-139. 被引量：3
10刘金岭,王新功,周泓.基于手机短信信息流的热点事件识别[J].计算机应用与软件,2012,29(10):200-204. 被引量：3

1徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
2科技名词解释[J].阳煤科技,1989(2):54-54.
3赵全禄,姜潞,秦光戎.关于教学系统的信息分析[J].北京师范大学学报（自然科学版）,1988,24(2):95-96.
4杨震霆.在Internet上畅所欲言——如何阅读Internet上的Newsgroup(分组讨论论坛)[J].电脑,1998(3):48-49.
5江汉,尹浩,李学军,曹可劲.基于Agent作战仿真的信息共享效能评估研究[J].系统仿真学报,2007,19(1):160-163. 被引量：7
6刘海波,张国印,顾国昌.Internet信息涉密检查系统的设计与实现[J].应用科技,2004,31(11):39-41.
7李鸿.基于知识粒度的知识约简研究[J].宿州学院学报,2010,25(2):16-18. 被引量：1
8朱鸽昀.BIOSCI/Bionet上的生物学家电子论坛及其利用[J].医学信息学杂志,1998,25(4):52-55. 被引量：2
9张金燕,陈军,曹晓红.国际互联网络在医学领域中的应用[J].中华普通外科杂志,2001,16(9):576-576.
10阎晋屯,康凤举,方光统.武器装备效能分析中的信息优势评估建模方法研究[J].系统仿真学报,2005,17(8):1813-1815. 被引量：10

中文信息学报

2008年第1期

浏览历史

内容加载中请稍等...

知识增益：文本分类中一种新的特征选择方法被引量：6

参考文献13

二级参考文献44

共引文献366

同被引文献73

引证文献6

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

知识增益：文本分类中一种新的特征选择方法 被引量：6

参考文献13

二级参考文献44

共引文献366

同被引文献73

引证文献6

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

知识增益：文本分类中一种新的特征选择方法被引量：6