基于标签关系改进的多标签特征选择算法被引量：2

Multi-label Feature Selection Algorithm Based on Improved Label Correlation

下载PDF

导出

摘要多标签特征选择是应对数据维度灾难现象的主要方法之一,可以在降低特征维度的同时提高学习效率,优化分类性能。针对目前特征选择算法没有考虑标签间的相互关系,以及信息量的衡量范围存在偏差的问题,提出一种基于标签关系改进的多标签特征选择算法。首先引入对称不确定性对信息量进行归一化处理,然后用归一化的互信息量作为相关性的衡量方法,并据此定义标签的重要性权重,对依赖度和冗余度中的标签相关项进行加权处理;进而提出一种特征评分函数作为特征重要性的评价指标,并依次选择出评分最高的特征组成最佳特征子集。实验结果表明,与其他算法相比,该算法在提取出更加精确的低维特征子集后,不仅能够有效提高面向实体信息挖掘的多标签学习算法的性能,也能提高基于离散特征的多标签学习算法的效率。 Multi-label feature selection is one of the essential methods to overcome the curse of dimensionality.It reduces the feature dimension,improves the learning efficiency,and optimizes the classification performance.However,many existing feature selection algorithms hardly take label correlation into consideration,and the range of information entropies are biased within different data sets.To address those problems,this paper proposed a multi-label feature selection algorithm based on the improved label correlation.The algorithm firstly uses symmetrical uncertainty to normalize the information entropy,and takes normalized mutual information as relationship measurement to define the label importance,with which the label-related items in dependency and redundancy are weighted.In the end,the score function is put forward to evaluate the feature importance,and the best feature subset is selected with the highest score.Experiments demonstrate that after selecting out the concise and accurate feature subset,the multi-label classification is accelerated in terms of the performance and the efficiency with disperse features.

作者陈福才李思豪张建朋黄瑞阳 CHEN Fu-cai;LI Si-hao;ZHANG Jian-peng;HUANG Rui-yang(National Digital Switching System Engineering and Technological R＆D Cente)

机构地区国家数字交换系统工程技术研究中心

出处《计算机科学》 CSCD 北大核心 2018年第6期228-234,共7页 Computer Science

基金国家重点研发计划项目(2016YFB0800101) 国家自然科学基金创新研究群体项目(61521003)资助

关键词多标签特征选择标签关系依赖度冗余度特征评分 Multi-label feature selection Label correlation Dependency Redundancy；Feature score

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1SHAO Huan,LI GuoZheng,LIU GuoPing,WANG YiQin.Symptom selection for multi-label data of inquiry diagnosis in traditional Chinese medicine[J].Science China(Information Sciences),2013,56(5):233-245. 被引量：8
2谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：64
3张振海,李士宁,李志刚,陈昊.一类基于信息熵的多标签特征选择算法[J].计算机研究与发展,2013,50(6):1177-1184. 被引量：62
4张宇翔,孙菀,杨家海,周达磊,孟祥飞,肖春景.新浪微博反垃圾中特征选择的重要性分析[J].通信学报,2016,37(8):24-33. 被引量：8

二级参考文献101

1王学伟,瞿海斌,王阶.一种基于数据挖掘的中医定量诊断方法[J].北京中医药大学学报,2005,28(1):4-7. 被引量：40
2李国春,李春婷,黄蓝平,单兆伟,陈启光.结构方程模型探讨慢性萎缩性胃炎证候分型规律[J].南京中医药大学学报,2006,22(4):217-220. 被引量：27
3毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
4Tsoumakas G, Katakis I, Vlahavas I. Data Mining and Knowledge Discovery Handbook [M]. Berlin: Springer, 2010:667-685.
5Zhang Y, Zhou Z H. Multi label dimensionality reduction via dependence maximization [C] // Proe of the 2Srd AAAI Conf on Artificial Intelligence and the 20th Innovative Applications of Artificial Intelligence Conference. Menlo Park~ American Association for Artificial Intelligence, 2008: 150:3-1505.
6Li G Z, You M, Ge L, et al. Feature selection for semi- supervised multi label learning with application to gene function analysis [C] // Proc of the 2010 ACM Int Conf on Bioinformatics and Computational Biology. New York: Association for Computing Machinery, 2010:354-357.
7You M Y, Liu J M, Li G Z, et al. Embedded feature selection for multi-label classification of music emotions [J]. International Journal of Computational Intelligence Systems, 2012, 5(4): 668-678.
8Shao H. H G. l.iu G, et al. lahel data of inquiry diagnosis Symptom selection for multi n traditional Chinese medicioe [J]. Science China Information Sciences, 2012, 54(1): 1-13.
9Lee J, I.im H, Kim D W. Approximating mutual information for multi label feature selection [J].Electronics Le'tters, 2012, 48(15): 929-930.
10Zhang M I., Pena J M, Rohles V. Feature selection for muhi-lahel naive Bayes classification [J].Information Seienees, 2009, 179( 19): 3218-3229.

共引文献135

1李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：8
2盖超会,王成刚.基于改进布谷鸟算法与SVM的矿用变压器故障诊断[J].煤炭工程,2019,51(11):134-137. 被引量：6
3李敏,章国豪,陈梓樑,郭志勇,胡晓敏.基于差分进化的多目标粒子群特征选择算法[J].计算机应用研究,2020,37(1):76-79. 被引量：8
4张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
5吴建升.全方位培养中学生的语文兴趣[J].石油教育,2000(6):53-55.
6成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报（自然科学版）,2013,33(5):63-68. 被引量：14
7叶玲,彭皓月,高怡,吴咏梅,蒙明波,肖洋洋.基于客户能量使用大数据的能效评价体系构建[J].电力大数据,2019,22(1):41-47. 被引量：5
8潘果.基于正则化互信息改进输入特征选择的分类算法[J].计算机工程与应用,2014,50(15):25-29. 被引量：3
9谢娟英,高红超.基于统计相关性与K-means的区分基因子集选择算法[J].软件学报,2014,25(9):2050-2075. 被引量：56
10张振尧,白瑞林,过志强,姜利杰.磁瓦表面缺陷的机器视觉检测方法[J].光学技术,2014,40(5):434-439. 被引量：8

同被引文献27

1邵欢,李国正,刘国萍,王忆勤.多标记中医问诊数据的症状选择[J].中国科学：信息科学,2011,41(11):1372-1387. 被引量：9
2付彬,王志海.基于树型依赖结构的多标记分类算法[J].模式识别与人工智能,2012,25(4):573-580. 被引量：4
3张敏灵.一种新型多标记懒惰学习算法[J].计算机研究与发展,2012,49(11):2271-2282. 被引量：39
4张晨光,张燕,张夏欢.从希尔伯特-施密特独立性中学习的多标签半监督学习方法[J].中国科技论文,2013,8(10):998-1002. 被引量：4
5陈红,杨小飞,万青,马盈仓.基于相关熵和流形学习的多标签特征选择算法[J].山东大学学报（工学版）,2018,48(6):27-36. 被引量：4
6吴磊,张敏灵.基于类属属性的多标记学习算法[J].软件学报,2014,25(9):1992-2001. 被引量：11
7胡学钢,许尧,李培培,张玉红.一种过滤式多标签特征选择算法[J].南京大学学报（自然科学版）,2015,51(4):723-730. 被引量：8
8徐苏平,杨习贝,祁云嵩.基于类属属性约简的多标记学习[J].计算机应用,2015,35(11):3218-3221. 被引量：7
9马晶莹,宣恒农.扩展ReliefF的两种多标签特征选择算法[J].计算机应用与软件,2017,34(7):298-302. 被引量：9
10张俐,王枞.基于最大相关最小冗余联合互信息的多标签特征选择算法[J].通信学报,2018,39(5):111-122. 被引量：42

引证文献2

1秦梦莹,秦锋.基于类属特征和依赖标记的多标记分类算法[J].现代计算机,2020,26(35):13-20.
2周慧颖,汪廷华,张代俐.多标签特征选择研究进展[J].计算机工程与应用,2022,58(15):52-67. 被引量：6

二级引证文献6

1高志炜,吴电明,陈曦,潘月鹏.机器学习在氮循环领域的应用研究进展[J].土壤,2023,55(4):689-698.
2利铭,卓志权,张军徽.基于应变场的卷积神经网络岩石裂缝识别方法[J].煤炭科技,2023,44(5):17-23.
3刘蓉,谢红.基于服装结构特征识别的相似样板匹配技术[J].纺织学报,2023,44(10):134-142. 被引量：1
4刘勇,杜建强,罗计根,李清,于梦波,郑奇民.基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究[J].现代信息科技,2023,7(19):123-128. 被引量：2
5张海翔,李培培,胡学钢.基于自适应密度邻域关系的多标签在线流特征选择[J].计算机技术与发展,2024,34(1):23-29.
6李仂,周孝明,张梅.基于高分影像特征优选的黄土高原撂荒耕地遥感监测方法[J].农业工程学报,2023,39(22):226-235. 被引量：4

1魏霖静,宁璐璐,郭斌,侯振兴.大数据中基于熵加权的稀疏分数特征选择聚类算法[J].计算机应用研究,2018,35(8):2293-2294. 被引量：5
2付鑫,王洪国,邵增珍,杜秋霞.不平衡数据集下特征词两面性的新型降维算法[J].计算机应用研究,2018,35(7):1947-1949. 被引量：1
3王建国,陈肖洁,张文兴.核极化的特征选择算法在LSSVM中的应用[J].机械设计与制造,2018,0(7):19-22. 被引量：1
4史雪静,吴飞,荆晓远.基于改进MDS的软件缺陷预测[J].计算机技术与发展,2017,27(12):20-22.
5甘尕莲.青海省阳康地区岩石地球化学特征[J].四川地质学报,2017,37(4):696-699. 被引量：1
6翁景德,唐维萍,许哲毓.基于糖尿病犯者医疗管理数据改进血糖控制研究[J].世界最新医学信息文摘,2017,17(56):55-55.
7宋智超,康健,孙广路,何勇军.特征选择方法中三种度量的比较研究[J].哈尔滨理工大学学报,2018,23(1):111-116. 被引量：9
8蔡瑞初,郑聪,郝志峰,乔杰,温雯.基于加性噪声模型的缺失数据因果推断[J].计算机应用研究,2018,35(1):69-73.
9蔡绍峰,刘世军.基于xml关键字的检索系统关键技术研究[J].当代教育实践与教学研究（电子版）,2018,0(1):129-130.
10阿丽亚·艾尔肯.改进的期望交叉熵算法在维吾尔文垃圾短信分类上的应用[J].名城绘,2018,0(8):704-705.

计算机科学

2018年第6期

浏览历史

内容加载中请稍等...

基于标签关系改进的多标签特征选择算法被引量：2

参考文献4

二级参考文献101

共引文献135

同被引文献27

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于标签关系改进的多标签特征选择算法 被引量：2

参考文献4

二级参考文献101

共引文献135

同被引文献27

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于标签关系改进的多标签特征选择算法被引量：2