基于互信息的粒化特征加权多标签学习k近邻算法被引量：22

Mutual Information Based Granular Feature Weighted k-Nearest Neighbors Algorithm for Multi-Label Learning

下载PDF

导出

摘要传统基于k近邻的多标签学习算法,在寻找近邻度量样本间的距离时,对所有特征给予同等的重要度.这些算法大多采用分解策略,对单个标签独立预测,忽略了标签间的相关性.多标签学习算法的分类效果跟输入的特征有很大的关系,不同的特征含有的标签分类信息不同,故不同特征的重要度也不同.互信息是常用的度量2个变量间关联度的重要方法之一,能够有效度量特征含有标签分类的知识量.因此,根据特征含有标签分类知识量的大小,赋予相应的权重系数,提出一种基于互信息的粒化特征加权多标签学习k近邻算法(granular feature weighted k-nearest neighbors algorithm for multi-label learning,GFWML-kNN),该算法将标签空间粒化成多个标签粒,对每个标签粒计算特征的权重系数,以解决上述问题和标签组合爆炸问题.在计算特征权重时,考虑到了标签间可能的组合,把标签间的相关性融合进特征的权重系数.实验表明:相较于若干经典的多标签学习算法,所提算法GFWML-kNN整体上能取得较好的效果. All features contribute equally to compute the distance between any pair of instances when finding the nearest neighbors in traditional ^NN based multi-label learning algorithms. Furthermore, most of these algorithms transform the multi-label problem into a set of single-label binary problems, which ignore the label correlation. The performance of multi-label learning algorithm greatly depends on the input features, and different features contain different knowledge about the label classification, so the features should be given different importance. Mutual information is one of the widely used measures of dependency of variables, and can evaluate the knowledge contained in the feature about the label classification. Therefore, we propose a granular feature weighted 是 -nearest neighbors algorithm for multi-label learning based on mutual information, which gives the feature weights according to the knowledge contained in the feature. The proposed algorithm firstly granulates the label space into several label information granules to avoid the problem of label combination explosion problem, and then calculates feature weights for each label information granule, which takes label combinations into consideration to merge label correlations into feature weights. The experimental results show that the proposed algorithm can achieve better performance than other common multi-label learning algorithms.

作者李峰苗夺谦张志飞张维

机构地区同济大学计算机科学与技术系嵌入式系统与服务计算教育部重点实验室(同济大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2017年第5期1024-1035,共12页 Journal of Computer Research and Development

基金国家自然科学基金项目(61273304 61573255) 高等学校博士学科点专项科研基金项目(20130072130004) 上海市自然科学基金项目(14ZR1442600)~~

关键词互信息特征权重粒化多标签学习 K-近邻 mutual information feature weight granulation multi-label learning k-nearest neighbors

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1张钢,钟灵,黄永慧.一种病理图像自动标注的机器学习方法[J].计算机研究与发展,2015,52(9):2135-2144. 被引量：6
2张敏灵.一种新型多标记懒惰学习算法[J].计算机研究与发展,2012,49(11):2271-2282. 被引量：39

二级参考文献66

1Schapire R E, Singer Y. BoosTcxter: A boostnlg bsed syslem for text categorizaion[J]. Machine Lcarning . 39(2/3): 135- 168.
2McCallum A. Muhi-lahcl lext classification with a micture model trained by EM[C] //Proc of *he Working Nolcs of 11/ AAAI'99 Workshop on Text I.earning. Menlo Park, CA: AAAI Press, 1999.
3Elissecff A, Weston J. A kcrtxel method for multi -labeclledclassification [C] //Advances in Neural Informalion Processing Systcms 14. Cambridge, MA: M1T Press, 2002: 681 -687.
4QiGJ, HuaX S, Rui Y, et al. Corrclaativcmulti label vidco annotation [C] //Proc of the 15th ACM Int Conf on Muhimedia. New York: ACM, 2007:17- 26.
5Aha D W. Specied A1 review issoe on lazy learning [J ]. Artificial Intelligcnce Review, 1997. 11(1/2/3/4/5): 7 -10.
6Zhang M L,, Zhou Z H. ML-hNN: A lazy lcarning approach to multi label learning [J]. Paltern Recognition, 2007. 10 (7): 2038 -2048.
7Freund Y, Sc:hapire R E. A dccision theoretic gcncralization of on-linc learning and an applocation to boosting[G]//Lecture Notcs in Computer Scicnce 904.Bcrlin:Springer.1995:23-37.
8Dempstcr A P, 1.aird N M, Rubin D B+ Maxitnuntlikclihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistics Socicty B, 1977, 39(1): 1-38.
9Ueda N, Saito K. Parametric mixturc models for multi label text [C] //Advances in Neural Information Processing Systems 15. Cambridge, MA= MITPress, 2003:721-728.
10Dumais S T, Platt J, Heckerman D, et al. Inductive learning algorithm and representation for text categorization [C]// Proc of the 7th ACM Int Conf on Information and Knowledge Management. New York: ACM, 1998= 148-155.

共引文献43

1何志芬,杨明,刘会东.多标记分类和标记相关性的联合学习[J].软件学报,2014,25(9):1967-1981. 被引量：21
2赵玉丹,王倩,范九伦,刘颖,高梓铭.基于模糊KNN的刑侦图像场景分类[J].计算机应用研究,2014,31(10):3158-3160. 被引量：9
3赵海峰,余强,曹俞旦.基于粒计算的多标签懒惰学习算法[J].计算机科学,2014,41(12):160-163. 被引量：2
4吕静,何志芬.一种基于正则化最小二乘的多标记分类算法[J].南京大学学报（自然科学版）,2015,51(1):139-147. 被引量：3
5高嘉伟,梁吉业,刘杨磊,李茹.一种基于Tri-training的半监督多标记学习文档分类算法[J].中文信息学报,2015,29(1):104-110. 被引量：8
6李书玲,刘蓉,刘红.改进型RBF神经网络的多标签算法研究[J].计算机科学,2015,42(4):316-320. 被引量：8
7张钢,钟灵,黄永慧.一种病理图像自动标注的机器学习方法[J].计算机研究与发展,2015,52(9):2135-2144. 被引量：6
8檀何凤,刘政怡.基于标签相关性的K近邻多标签分类方法[J].计算机应用,2015,35(10):2761-2765. 被引量：10
9徐晓丹,刘华文,姚明海,刘日仙.一种基于局部加权回归的分类方法[J].计算机工程与科学,2015,37(10):1959-1964. 被引量：4
10杨莹,王庆文.面向制造领域文本的多标签分类方法[J].制造业自动化,2016,38(2):10-13. 被引量：2

同被引文献164

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：10
2熊志辉,李思昆,陈吉华.遗传算法与蚂蚁算法动态融合的软硬件划分[J].软件学报,2005,16(4):503-512. 被引量：87
3郝春风,王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用,2007,43(15):170-172. 被引量：12
4平雪良,徐荣礼,孔俊,刘胜兰.基于空间划分的海量数据K邻近新算法[J].华南理工大学学报（自然科学版）,2007,35(5):65-69. 被引量：12
5胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008,19(3):640-649. 被引量：289
6广凯,潘金贵.一种基于向量夹角的k近邻多标记文本分类算法[J].计算机科学,2008,35(4):205-206. 被引量：6
7李勇,陈贺新,赵刚,孙中华,陈绵书.基于可变k近邻LLE数据降维的图像检索方法[J].吉林大学学报（工学版）,2008,38(4):946-949. 被引量：10
8周东华,胡艳艳.动态系统的故障诊断技术[J].自动化学报,2009,35(6):748-758. 被引量：301
9肖汉光,蔡从中.特征向量的归一化比较性研究[J].计算机工程与应用,2009,45(22):117-119. 被引量：49
10胡斌,宫宁生,郇洪江.改进的RBF学习算法及其相似性应用[J].计算机工程与设计,2009,30(18):4287-4289. 被引量：5

引证文献22

1曹鸿猷,孙文.基于马氏距离及K最近邻算法的结构优化设计[J].武汉理工大学学报,2022,44(10):60-71. 被引量：1
2仝茵,刘丽.基于Ada Boost的核素识别方法[J].中国电子科学研究院学报,2019,14(1):101-106. 被引量：1
3柴瑞敏,闫婷.基于模糊C均值改进的粒化特征加权多标签分类算法[J].计算机应用与软件,2018,35(6):286-291. 被引量：6
4刘诚诚,姜瑛.一种改进模糊kNN的云计算故障检测方法[J].小型微型计算机系统,2018,39(10):2285-2290. 被引量：6
5马鸿超,张坤丽,赵悦淑,昝红英,庄雷.基于特征融合的产科多标记辅助诊断研究[J].中文信息学报,2018,32(5):128-136. 被引量：3
6李靖靖,王玉德.基于CNN多层融合特征与Fisher准则的分类算法[J].激光杂志,2019,40(3):96-99. 被引量：3
7王凤芹,李瑛,韩庆龙.基于k-近邻优化算法慕课学习成绩预测研究[J].计算机与数字工程,2019,47(4):785-788. 被引量：7
8吕庆莉.基于信息增益的中医体质多标记分类方法研究[J].中国中医药信息杂志,2019,26(6):97-100.
9许建飞.基于依存句法与情感极性融合的商品评论特征标签抽取研究[J].江苏科技信息,2019,36(13):36-40. 被引量：1
10邱宁佳,贺金彪,赵建平,李岩芳.基于PSO的支持向量机改进算法研究[J].长春理工大学学报（自然科学版）,2019,42(3):120-127. 被引量：2

二级引证文献84

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2曾泽前.高分辨率航空影像特征匹配SIFT-AKAZE算法的设计与改进[J].江西测绘,2022(1):33-36.
3谢鑫.基于数据特征提取的线上电商用户潜在购买力挖掘方法[J].哈尔滨师范大学自然科学学报,2022,38(3):67-72.
4许建飞.基于依存句法与情感极性融合的商品评论特征标签抽取研究[J].江苏科技信息,2019,36(13):36-40. 被引量：1
5惠子青,刘晓燕.基于高斯新分布的软件可靠性增长模型研究[J].数据通信,2019(4):41-43.
6王奕翔,陈济颖,王晟全,李昂.基于改进型RF-BP神经网络的房地产价格预测[J].工业控制计算机,2019,32(10):122-124. 被引量：4
7王奕翔,李昂,王晟全.基于改进型BP神经网络的房地产预警[J].物联网技术,2019,9(12):39-42. 被引量：1
8裴若辰,李敬兆,王诗兵.基于CPS的电力设备在线监测预警系统[J].阜阳师范学院学报（自然科学版）,2020,37(1):80-85. 被引量：3
9金程笑,潘乔,张敬谊,俞春儒.一种基于树搜索的层次多标签乳腺疾病分类诊断方法[J].智能计算机与应用,2020,10(2):34-39. 被引量：1
10吴阳波,董昌谨.基于Python语言的图片爬虫程序设计研究[J].新一代信息技术,2019,2(22):46-52. 被引量：1

1王念春.工控组态软件GFW在啤酒厂的应用[J].工业控制计算机,1999,12(6):44-45. 被引量：6
2钱燕燕,李永忠,余西亚.基于多标记与半监督学习的入侵检测方法研究[J].计算机科学,2015,42(2):134-136. 被引量：14
3王霄,周李威,陈耿,朱玉全.一种基于标签相关性的多标签分类算法[J].计算机应用研究,2014,31(9):2609-2612. 被引量：8
4陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
5冯平,黄名选.特征词抽取和相关性融合的伪相关反馈查询扩展[J].现代图书情报技术,2011(1):52-56. 被引量：6
6朱燕平.MPLS中的标签空间及其度量[J].计算机应用研究,2002,19(10):105-108.
7许朝阳.基于多标记文本分类的ML-KNN改进算法[J].江苏师范大学学报（自然科学版）,2012,30(3):27-30. 被引量：1
8张永,孟晓飞.基于投影寻踪的kNN文本分类算法的加速策略[J].科学技术与工程,2014,22(36):92-96. 被引量：5
9李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
10王平,张贵生.时间相关性经验知识与SVM的融合方法研究[J].计算机仿真,2012,29(3):29-32.

计算机研究与发展

2017年第5期

浏览历史

内容加载中请稍等...

基于互信息的粒化特征加权多标签学习k近邻算法被引量：22

参考文献2

二级参考文献66

共引文献43

同被引文献164

引证文献22

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

基于互信息的粒化特征加权多标签学习k近邻算法 被引量：22

参考文献2

二级参考文献66

共引文献43

同被引文献164

引证文献22

二级引证文献84

相关作者

相关机构

相关主题

浏览历史

基于互信息的粒化特征加权多标签学习k近邻算法被引量：22