基于邻域粗糙集的多标记分类特征选择算法被引量：108

Feature Selection for Multi-Label Classification Based on Neighborhood Rough Sets

下载PDF

导出

摘要多标记学习是一类复杂的决策任务,同一个对象可能同时属于多个类别.此类任务在文本分类、图像识别、基因功能分析等领域广泛存在.多标记分类任务往往由高维特征描述,存在大量无关和冗余的信息.目前已经提出了大量的单标记特征选择算法以应对维数灾难问题,但对于多标记的属性约简和特征选择却鲜有研究.将粗糙集应用于多标记数据的特征选择中,针对多标记分类任务,重新定义了邻域粗糙集的下近似和依赖度计算方法,探讨了这一模型的性质,进而构造了基于邻域粗糙集的多标记分类任务的特征选择算法,并给出了在公开数据上的实验结果.实验分析证明算法的有效性. Multi-label classification is a kind of complex decision making tasks, where one object may be assigned with more than one decision label. This kind of tasks widely exist in text categorization, image recognition, gene function analysis. Multi label classification is usually described with high- dimensional vectors, and some of the features are superfluous and irrelevant. A great number of feature selection algorithms have been developed for single-label classification to conquer the curse of dimensionality. However, as to multi-label classification, fewer researches have been reported for designing feature selection algorithms. In this work, we introduce rough sets to multi label classification for constructing a feature selection algorithm. We redefine the lower approximation and dependency, and discuss the properties of the model. After that, we design a neighborhood rough sets based feature selection algorithm for multi-label classification. Experimental results show the effectiveness of the proposed algorithm.

作者段洁胡清华张灵均钱宇华李德玉

机构地区天津大学计算机科学与技术学院山西大学计算机与信息技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2015年第1期56-65,共10页 Journal of Computer Research and Development

基金国家自然科学基金优秀青年科学基金项目(61222210) 国家自然科学基金重点项目(61432011) 国家自然科学基金面上项目(61272095)

关键词多标记分类特征选择邻域粗糙集依赖度 multi-label classification feature selection neighborhood rough sets dependency

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献18

1李宇峰,黄圣君,周志华.一种基于正则化的半监督多标记学习方法[J].计算机研究与发展,2012,49(6):1272-1278. 被引量：18
2郑伟,王朝坤,刘璋,王建民.一种基于随机游走模型的多标签分类算法[J].计算机学报,2010,33(8):1418-1426. 被引量：57
3Sun Liang,Ji Shuiwang,Ye Jieping.Multi-Label Dimensionality Reduction[M].Florida:CRC Press,2013:20-22.
4Fisher R A.The use of multiple measurements in taxonomicproblems[J].Annals of Eugenics,1936,7(2):179-188.
5Wold H.Estimation of principal components and related models by iterative least squares[J].Multivariate Analysis,1966,1:391-420.
6Zhang Yin,Zhou Zhihua.Multi-label dimensionality reduction via dependence maximization[J].ACM Trans on Knowledge Discovery from Data(TKDD),2010,4(3):14.
7Zhang Minling,Pena J M,Robles V.Feature selection formulti-label naive Bayes classification[J].Information Sciences,2009,179(19):3218-3229.
8葛雷,李国正,尤鸣宇.多标记学习的嵌入式特征选择[J].南京大学学报（自然科学版）,2009,45(5):671-676. 被引量：12
9张振海,李士宁,李志刚,陈昊.一类基于信息熵的多标签特征选择算法[J].计算机研究与发展,2013,50(6):1177-1184. 被引量：62
10胡清华,赵辉,于达仁.基于邻域粗糙集的符号与数值属性快速约简算法[J].模式识别与人工智能,2008,21(6):732-738. 被引量：81

二级参考文献94

1徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
2李丹,李国正,陆文聪.用于药物活性预报的Co-Training方法[J].计算机科学,2006,33(12):159-161. 被引量：3
3Wilson D R, Martinez T R. Improved Heterogeneous Distance Functions. Journal of Artificial Intelligence Research, 1997, 6( 1 ) : 1 - 34
4Hu Qinghua, Yu Daren, Xie Zongxia. Neighborhood Classifiers. Expert Systems with Applications: An International Journal, 2008, 34 (2) : 866 - 876
5Schapire R E, Singer Y. Boostexter: A boosting-based system for text categorization. Machine Learning, 2000, 39 (2--3):135-168.
6McCallum A. Multi-label text classification with a mixture model trained by EM. Working Notes of the AAAI' 99 Workshop on Text Learning. Orlando: AAAI, 1999.
7Boutell M R, Luo J, Shen X, et al. Learning multi-label scene classification. Pattern Recognition, 2004, 37(9): 1757-1771.
8Yin Z, Zhou Z H. Multi-label dimensionality reduction via dependency maximization. Proceedings of the 23^rd AAAI Conference on Artificial Intelligence, Chicago, IL: AAAI, 2008, 1503-1505.
9Yu K, Yu S P, Tresp V. Multi-label informed latent semantic indexing. Proceedings of the 28^th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, NY:ACM, 2005, 258--265.
10Moody J, Utans J. Principled architecture selection for neural networks: Application to corporate bond rating prediction. Moody J E, Hanson S J, Lippmann R P. Neural Information Processing Systems 4. Morgan Kaufmann Publishers, Inc. 1992, 683-690.

共引文献215

1鄢凡松,崔灿,刘伟祺,杨田.基于覆盖度的银行客户分类模型[J].模糊系统与数学,2023,37(1):152-164.
2储文强,陈功,胡鸿昊.结合粗糙集属性约简和夜间用水量分析的漏损识别研究[J].科技通报,2021,37(9):94-98. 被引量：2
3孙泽金,赵荣珍.基于EEMD能量矩与邻域粗糙集的转子故障数据集分类方法[J].计算机应用研究,2020,37(2):460-464. 被引量：4
4ZHAO Rong-zhen,LIAN Jin.基于邻域粗糙集概念的一种滚动轴承特征提取方法[J].兰州理工大学学报,2019,45(6):34-39. 被引量：2
5喻金平,郑杰,朱桂祥.基于多关系网络的社区检测算法[J].系统仿真学报,2015,27(1):147-154. 被引量：1
6汤建国,祝峰,佘堃,陈文.粗糙集与其他软计算理论结合情况研究综述[J].计算机应用研究,2010,27(7):2404-2410. 被引量：15
7杜殿发,李冬冬,石达友,王青.基于粗糙集理论的超稠油油藏水平井吞吐效果评价及其影响因素分析[J].数学的实践与认识,2010,40(17):72-79. 被引量：1
8张煜东,霍元铠,吴乐南,董正超.降维技术与方法综述[J].四川兵工学报,2010,31(10):1-7. 被引量：28
9黄恒秋,曾玲.混合值不完备信息系统中一种拓展粗糙集模型[J].计算机工程与应用,2010,46(30):30-32. 被引量：3
10汤建国,佘堃,祝峰,李凯.集值映射下的覆盖粗糙集模型[J].计算机工程与应用,2011,47(10):30-34. 被引量：1

同被引文献675

1徐久成,孟祥茹,瞿康林,孙元豪,杨杰.基于模糊邻域相对依赖互信息的特征选择方法[J].模糊系统与数学,2023,37(1):121-135. 被引量：2
2吴迪,郭嗣琮.改进的Fisher Score特征选择方法及其应用[J].辽宁工程技术大学学报（自然科学版）,2019,38(5):472-479. 被引量：9
3陈振宇,刘金波,李晨,季晓慧,李大鹏,黄运豪,狄方春,高兴宇,徐立中.基于LSTM与XGBoost组合模型的超短期电力负荷预测[J].电网技术,2020,44(2):614-620. 被引量：205
4李毅,陆百川,刘春旭.车辆路径问题的混沌粒子群算法研究[J].重庆交通大学学报（自然科学版）,2012,31(4):842-845. 被引量：7
5瞿金秀,张周锁,何正嘉.基于多小波包和邻域粗糙集的故障诊断模型[J].振动．测试与诊断,2013,33(S1):137-140. 被引量：8
6崔文岩,孟相如,李纪真,王明鸣,陈天平,王坤.基于粗糙集粒子群支持向量机的特征选择方法[J].微电子学与计算机,2015,32(1):120-123. 被引量：9
7于达仁,胡清华,鲍文.融合粗糙集和模糊聚类的连续数据知识发现[J].中国电机工程学报,2004,24(6):205-210. 被引量：70
8张贤勇,莫智文.变精度粗糙集[J].模式识别与人工智能,2004,17(2):151-155. 被引量：43
9庞新生.缺失数据处理中相关问题的探讨[J].统计与信息论坛,2004,19(5):29-32. 被引量：19
10刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24

引证文献108

1李敏,章国豪,陈梓樑,郭志勇,胡晓敏.基于差分进化的多目标粒子群特征选择算法[J].计算机应用研究,2020,37(1):76-79. 被引量：8
2余鹰.多标记学习研究综述[J].计算机工程与应用,2015,51(17):20-27. 被引量：12
3朱全银,潘禄,刘文儒,李翔,张永军,刘金岭.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24. 被引量：3
4唐朝辉,朱清新,洪朝群,祝峰.基于自编码器及超图学习的多标签特征提取[J].自动化学报,2016,42(7):1014-1021. 被引量：13
5明阳,周俊.基于邻域粗糙集和并行神经网络的故障诊断[J].计算机测量与控制,2016,24(7):42-44. 被引量：2
6董红斌,滕旭阳,杨雪.一种基于关联信息熵度量的特征选择方法[J].计算机研究与发展,2016,53(8):1684-1695. 被引量：39
7张扩,续欣莹,阎高伟,任密蜂.信息观下批增量式属性约简算法[J].山西大学学报（自然科学版）,2016,39(3):357-370. 被引量：2
8王宇,杨志荣,杨习贝.决策粗糙集属性约简:一种局部视角方法[J].南京理工大学学报,2016,40(4):444-449. 被引量：17
9吴德,刘三阳,梁锦锦.多类文本分类算法GS-SVDD[J].计算机科学,2016,43(8):190-193. 被引量：4
10赵静,蒋芸,李志磊,胡学伟.变精度复合粗糙集模型及其应用[J].计算机应用研究,2016,33(11):3223-3227.

二级引证文献483

1Yanji Sun,Yanqiu Pan,Zhongliang Zhou,Xin Li.Fuzzy comprehensive assessment of running condition for a large-scale centrifugal compressor set[J].Chinese Journal of Chemical Engineering,2019,27(12):2979-2988. 被引量：5
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：38
3周金浛,于劲松,宋悦,梁思远.基于耦合自适应距离的高维异常检测算法[J].仪器仪表学报,2022,43(8):182-192.
4刘辉,曾鹏飞,巫乔顺,陈甫刚.基于改进遗传算法的转炉炼钢过程数据特征选择[J].仪器仪表学报,2019,40(12):185-195. 被引量：15
5池亚平,岳梓岩,赵伦.密码算法识别技术研究进展与展望[J].北京电子科技学院学报,2022,30(4):1-14.
6骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
7金铭,陈锦坤,孙亚超.基于边界域条件熵的最优尺度约简[J].南京大学学报（自然科学版）,2023,59(6):1034-1047.
8王生玉.基于多维相似度的网络传输通道恶意入侵检测方法[J].科技通报,2021,37(11):57-60. 被引量：2
9李承霖.基于模糊多目标规划法的农村征地补偿模型[J].湖北农业科学,2019,0(S02):492-495.
10技术创新是经济增长的根本动力[J].理论学习（浙江）,2000(2):28-30.

1王晨曦,林梦雷,刘景华,王娟,林耀进.融合特征排序的多标记特征选择算法[J].计算机工程与应用,2016,52(17):93-100. 被引量：3
2马文,计华.一种基于邻域粗糙集的多标记加权分类算法[J].山东师范大学学报（自然科学版）,2015,30(4):30-33.
3付博,刘挺.社会媒体中用户的隐式消费意图识别[J].软件学报,2016,27(11):2843-2854. 被引量：6
4许朝阳.多标记文本分类中信息增益特征选择方法研究[J].廊坊师范学院学报（自然科学版）,2012,12(5):46-48.
5李雅林,张化祥,张顺.基于近邻加权及多示例的多标记学习改进算法[J].计算机工程与应用,2013,49(16):113-116.
6李哲,王志海,何颖婧,付彬.一种启发式多标记分类器选择与排序策略[J].中文信息学报,2013,27(4):119-126. 被引量：2
7吴云峰,冯筠,孙霞,李展,冯宏伟,贺小伟.基于多分类器的迁移Bagging习题推荐[J].计算机应用,2013,33(7):1950-1954. 被引量：5
8余鹰.多标记学习研究综述[J].计算机工程与应用,2015,51(17):20-27. 被引量：12
9许朝阳.基于多标记文本分类的ML-KNN改进算法[J].江苏师范大学学报（自然科学版）,2012,30(3):27-30. 被引量：1
10陈晓峰,王士同,曹苏群.半监督多标记学习的基因功能分析[J].智能系统学报,2008,3(1):83-90. 被引量：5

计算机研究与发展

2015年第1期

浏览历史

内容加载中请稍等...

基于邻域粗糙集的多标记分类特征选择算法被引量：108

参考文献18

二级参考文献94

共引文献215

同被引文献675

引证文献108

二级引证文献483

相关作者

相关机构

相关主题

浏览历史

基于邻域粗糙集的多标记分类特征选择算法 被引量：108

参考文献18

二级参考文献94

共引文献215

同被引文献675

引证文献108

二级引证文献483

相关作者

相关机构

相关主题

浏览历史

基于邻域粗糙集的多标记分类特征选择算法被引量：108