基于类别分布的特征选择框架被引量：18

Category Distribution-Based Feature Selection Framework

下载PDF

导出

摘要目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro和Micro F1效果都优于IG,CHI和OCFS. Text categorization is an important technique in data mining domain. Extremely high dimension of features makes text categorization processing complex and expensive, and thus effective dimension reduction methods are extraordinarily desired. Feature selection is widely used to reduce dimension. Many feature selection methods have been proposed in recent years. But to the authors＇ best knowledge, there is no method that performs very well on unbalanced datasets. This paper proposes a feature selection framework based on the category distribution difference of features named category distribution-based feature selection （CDFS）. This approach selects features that have strong discriminative power using distribution information of features. At the same time, weights can be flexibly assigned to categories. If larger weights are assigned to rare categories, the performance on rare categories can be improved. So this framework is suitable for unbalanced data and highly extensible. Besides, OCFS and feature filter based on category distribution difference can be viewed as special cases of this framework. A number of implementations of CDFS are given. The experimental results on Reuters-21578 corpus and Fudan corpus （unbalanced datasets） show that both MacroF1 and MicroF1 by implementations of CDFS given in this paper are better than those by IG, CHI and OCFS.

作者靖红芳王斌杨雅辉徐燕

机构地区中国科学院计算技术研究所中国科学院研究生院北京大学软件与微电子学院北京语言大学网络信息与教育技术中心

出处《计算机研究与发展》 EI CSCD 北大核心 2009年第9期1586-1593,共8页 Journal of Computer Research and Development

基金国家"九七三"重点基础研究发展计划基金项目(2007CB311103) 国家自然科学基金项目(60873166 60603094) 国家"八六三"高技术研究发展计划基金项目(2006AA010105)~~

关键词特征选择非平衡语料特征降维文本分类数据挖掘 feature selection unbalanced data set feature deduction text categorization data mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Mladenic D, Grobelnik M. Feature selection for unbalanced class distribution and Naive Bayes [C]//Proc of ICML'09. San Francisco: Morgan Kaufmann, 1999:258-267.
2周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
3Yang Y, Pedersen J O. A comparative study on feature selection in text categorization [C] // Proc of ICML'97. San Francisco: Morgan Kaufmann, 1997: 412-420.
4Yan J, Liu N, Zhang B, et al. OCFS: Optimal orthogonal centroid feature selection for text categorization [C]//Proc of SIGIR'05. New York: ACM, 2005: 122-129.
5Zheng Z, Wu X, Srihari R. Feature selection for text categorization on imbalanced data [C] //Proc of ACM SIGKDD Explorations Newsletter. New York: ACM, 2004: 80-89.
6徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
7吴迪,张亚平,殷福亮,李明.基于类别分布差异和VPRS特征选择的文本分类方法[J].电子与信息学报,2007,29(12):2880-2884. 被引量：5
8刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
9徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
10Li S, Zong C. A new approach to feature selection for text categorization[C]//Proc of IEEE NLP-KE. Beijing: Beijing University of Posts and Telecommunications Press, 2005: 626-630.

二级参考文献52

1胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
2赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
3宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
4徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
6[1]Sebastiani F. Machine learning in automated text categorization [J]. ACM Computing Survey, 2002,34 (1):1 -47.
7[2]Deerwester S,Dumais S T,Furnas G W,et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990,41 (6) :391 - 407.
8[3]Dumais S T. Using LSI for information filtering [A].Harman D. The Third Text Retrieval Conference ( TREC - 3) [C]. USA: National Institute of Standards and Technology Special Publication, 1995.
9[4]Baker L D,McCallum A K. Distributional clustering of words for text classification [A]. Proc. ACM-SIGIR-98[C]. Australia: ACM Press, 1998. 96 - 103.
10[5]Park H,Howland P,Jeon M. Cluster structure preserving dimension reduction based on the generalized singular value decompositon [J]. SIAM Journal on Matrix Analysis and Applications ,2003,25 (1): 165 - 179.

共引文献308

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
3叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
4王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
5蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
6黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
7尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
8庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
9王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
10陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.

同被引文献222

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
5罗丹,刘万军,罗超,操龙兵,戴汝为.电信欺诈综合分析与系统架构研究[J].计算机科学,2005,32(5):17-22. 被引量：3
6马东霞,杨殿,郭立.矿业项目投资风险分析的实用方法及其应用[J].金属矿山,2005,34(8):5-6. 被引量：7
7唐雪梅,杨殿,唐军峰.模糊综合评判在矿业投资决策中的应用[J].中国矿业,2005,14(8):29-32. 被引量：6
8申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
9余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
10李森,马军,赵嫣,雷景生.对数字化科技论文的自动分类研究[J].山东大学学报（理学版）,2006,41(3):14-16. 被引量：5

引证文献18

1郑敏姜.基于数据立方体的特征提取方法[J].福建电脑,2010,26(3):18-20.
2徐红国,王素格.基于改进的类别分布特征选择方法[J].中北大学学报（自然科学版）,2011,32(2):139-142.
3李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报（工学版）,2011,41(3):7-11. 被引量：5
4赵静,刘培玉,许明英.邮件过滤中特征选择方法的性能评价与分析[J].计算机应用研究,2012,29(2):693-697. 被引量：7
5陈铁明,马继霞,Samuel H.Huang,蔡家楣.一种新的快速特征选择和数据分类方法[J].计算机研究与发展,2012,49(4):735-745. 被引量：20
6张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543. 被引量：36
7潘湑,顾宏斌,赵芷晴.术语定义抽取的特征选择框架[J].南京航空航天大学学报,2012,44(3):399-404. 被引量：1
8廖一星,潘雪增.面向不平衡文本的特征选择方法[J].电子科技大学学报,2012,41(4):592-595. 被引量：5
9董元元,陈基漓,唐小侠.基于潜在狄利克雷分配模型和互信息的无监督特征选取法[J].计算机应用,2012,32(8):2250-2252. 被引量：3
10蒋盛益,王连喜.不平衡数据的无监督特征选择方法[J].小型微型计算机系统,2013,34(1):63-67. 被引量：8

二级引证文献186

1田之魁,王东军,李生启,关媛媛,孙璇,朱青青,王泓午.一种糖尿病足Wagner分级的舌图像识别方法[J].世界科学技术-中医药现代化,2023,25(4):1442-1446. 被引量：2
2贾巨涛,张鹏,唐杰,吴伟,詹培旋.智能语音交互中的语义引导回复技术研究[J].家电科技,2022(S01):608-611. 被引量：2
3高云泽,王莉莉,董文睿,冯紫君,胡祖容,赵中楠.基于前后端分离算法的ACM智能管家系统[J].智能计算机与应用,2022,12(3):80-86. 被引量：3
4范仕伦,薛天俊,夏玮.基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现[J].信息网络安全,2012(9):18-22. 被引量：11
5赵春生,冯林,何志勇.基于DTRS模型的邮件过滤方法研究[J].计算机应用与软件,2013,30(5):152-154.
6朱田华,周军,刘旭华.一种基于数据分布特征的模糊规则提取[J].辽宁工业大学学报（自然科学版）,2013,33(2):83-85. 被引量：1
7杨鹤标,黄文青,陈锦富.基于MapReduce的SVM改进算法及在邮件过滤中的实现[J].无线通信技术,2013,22(2):52-56. 被引量：1
8王连喜.图书馆个性化推荐面临的问题与挑战[J].现代情报,2013,33(6):3-5. 被引量：7
9姚旭,王晓丹,张玉玺,薛爱军.基于正则化互信息和差异度的集成特征选择[J].计算机科学,2013,40(6):225-228. 被引量：3
10胡昌平,陈果.共词分析中的词语贡献度特征选择研究[J].现代图书情报技术,2013(7):89-93. 被引量：15

1高阳,田生伟,吐尔根.依不拉音.非平衡语料下改进的SVM-KNN算法[J].新疆大学学报（自然科学版）,2012,29(1):100-103. 被引量：1
2黄伟,范磊.基于多分类器投票集成的半监督情感分类方法研究[J].中文信息学报,2016,30(2):41-49. 被引量：9
3崔彩霞,王素格.基于类内频率的文本分类特征选择方法[J].计算机工程与设计,2007,28(17):4249-4251. 被引量：5
4王飞,程威,余斌.基于人脸识别的智能门禁系统[J].常熟理工学院学报,2016,30(4):64-69. 被引量：2
5余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
6谭学清,周通,罗琳.一种基于类平均相似度的文本分类算法[J].现代图书情报技术,2014(9):66-73. 被引量：4
7石聪聪,张涛,余勇,林为民.一种新的SQL注入防护方法的研究与实现[J].计算机科学,2012,39(B06):60-64. 被引量：10
8樊存佳,汪友生,王雨婷.一种改进的CHI文本特征选择方法[J].计算机与现代化,2016(11):7-11. 被引量：5
9刘秉权,王晓龙.一种面向用户的语言模型及其机器学习方法[J].哈尔滨工业大学学报,2004,36(2):150-153. 被引量：4
10潘立.搭建高可用性的韶钢MES系统基础构架[J].黑龙江科技信息,2008(28):75-75.

计算机研究与发展

2009年第9期

浏览历史

内容加载中请稍等...

基于类别分布的特征选择框架被引量：18

参考文献13

二级参考文献52

共引文献308

同被引文献222

引证文献18

二级引证文献186

相关作者

相关机构

相关主题

浏览历史

基于类别分布的特征选择框架 被引量：18

参考文献13

二级参考文献52

共引文献308

同被引文献222

引证文献18

二级引证文献186

相关作者

相关机构

相关主题

浏览历史

基于类别分布的特征选择框架被引量：18