一种基于多视图数据的半监督特征选择和聚类算法被引量：8

Semi-supervised Feature Selection and Clustering for Multi-view Data

下载PDF

导出

摘要高维数据中许多特征之间互不相关或冗余,这给传统的学习算法带来了巨大的挑战。为了解决该问题,特征选择应运而生。与此同时,许多实际问题中数据存在多个视图而且数据的标签难以获取,多视图学习和半监督学习成为机器学习中的热点问题。本文研究怎样从"部分标签"的多视图数据中选择最大相关最小冗余的特征子集,提出一种基于多视图的半监督特征选择方法。为了剔除冗余和无关的特征,探索蕴含于多视图数据中的互补信息以及每个视图中不同特征之间的冗余关系,并利用少量标签数据蕴含的信息协同未标签数据同时进行特征选择。实验结果验证了本算法能够获得很好的特征选择效果及聚类效果。 Lots of features in high-dimensional data are redundant or irrelevant.To tackle this problem,the concept of feature selection is introduced.In the meantime,many problems in machine learning involve examples that are naturally comprised of multiple views and with a limited number of labels.Multiview learning and semi-supervised learning become the hotspots in machine learning.Hence authors investigate how to select relevant features with minimum redundancy from multi-view data with a limited number of labels,and propose a semi-supervised feature selection and clustering framework.To remove redundant and irrelevant features,authors exploit relations among views and relations among features in each view,and use a limited number of labeled data to help feature selection.The proposed framework in multi-view datasets is systematically evalated,and the results demonstrate the effectiveness and potential of the proposed method.

作者汪荆琪徐林莉

机构地区中国科学技术大学计算机科学与技术学院

出处《数据采集与处理》 CSCD 北大核心 2015年第1期106-116,共11页 Journal of Data Acquisition and Processing

基金国家自然科学基金(61375060)资助项目中央高校基本科研业务费专项资金(WK0110000036)资助项目

关键词聚类半监督特征选择多视图 clustering semi-supervised feature selection multi-view

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献21

1Ding C, Peng H. Minimum redundancy feature selection from microarray gene expression data[J]. Journal of Bioinformatics and Computational Biology, 2005, 3(02):185-205.
2Yang Y, Pedersen J O. A comparative study on feature selection in text categorization[C] // ICML. [S. 1]: Morgan Kauf- mann Publishers, 1997: 412-420.
3李士进,仇建斌,於慧.基于视觉单词选择的高分辨率遥感图像飞机目标检测[J].数据采集与处理,2014,29(1):60-65. 被引量：5
4Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the Eleventh Annual Con- ference on Computational Learning Theory. [S. 1. ]: ACM, 1998: 92-100.
5Heckmann M, Berthommier F, Kroschel K. Noise adaptive stream weighting in audio-visual speech recognition[J]. EUR- ASIP Journal on Applied Signal Processing, 2002, 2002(1) : 1260-1273.
6La Cascia M, Sethi S, Sclaroff S. Combining textual and visual cues for content-based image retrieval on the world wide web [C]//Content-Based Access of Image and Video Libraries. [S. 1. ]: IEEE, 1998: 24-28.
7Wu Y, Chang E Y, Chang K C C, et ai. Optimal multimodal fusion for multimedia data analysis[C]//Proceedings of the 12th Annual ACM International Conference on Multimedia. [S. 1]: ACM, 2004: 572-579.
8Peng H, Long F, Ding C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2005, 27(8): 1226-1238.
9He X, Cai D, Niyogi P. Laplacian score for feature selection[C]//Advances in Neural Information Processing Systems 18. [S.1]: MIT Press, 2005: 507-514.
10Zhao Z, Liu H. Spectral feature selection for supervised and unsupervised learning[C]//Proceedings of the 24th international conference on Machine learning. [S. 1. ] : ACM, 2007 : 1151-1157.

二级参考文献17

1杨桄,张柏,王宗明,刘岩鹤.基于阴影搜索法的飞机目标遥感图像分割研究[J].地理与地理信息科学,2006,22(1):48-50. 被引量：5
2徐大琦,倪国强,许廷发.中高分辨力遥感图像中飞机目标自动识别算法研究[J].光学技术,2006,32(6):855-858. 被引量：9
3蔡红苹,耿振伟,粟毅.遥感图像飞机检测新方法——圆周频率滤波法[J].信号处理,2007,23(4):539-543. 被引量：9
4L6pez-Sastre R J, Tuytelaars T, Aeevedo-Rodriguez F J, et al. Towards a more discriminative and se- mantic visual vocabulary[J]. Computer Vision and Image Understanding, 2011, 115(3): 415-425.
5Elsayad I, Martinet J, Urruty T, et al. A new spa- tial weighting scheme for bag-of-visual-words[C]// 2010 International Workshop on Content-Based Mul-timedia Indexing (CBMI). [S. 1.]:IEEE, 2010.. 1-6.
6Lowe D G. Distinctive image features from scale-in- variant key points[J]. International Journal of Com- puter Vision, 2004, 60(2):91-110.
7MacQueen J. Some methods for classification and a- nalysis of multivariate observations[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. [S. 1] ; University of Calif. Press, 1967,(1) : 281-297.
8Dash M, Liu H. Feature selection for classification [J]. Intelligent Data Analysis, 1997, 1(3).. 131- 156.
9Jurie F, Triggs B. Creating efficient codebooks for visual recognition [C]//Tenth IEEE International Conference on Computer Vision, ICCV 2005. [S. I. ]..IEEE, 2005, 1: 604-610.
10Wang L. Toward a discriminative codebook: code- word selection across multi-resolution [ C]//IEEE Conference on Computer Vision and Pattern Recogni- tion, CVPR'07. [S. 1.]:IEEE, 2007:1-8.

共引文献4

1沈忱,祁昆仑,刘文轩,吴华意.基于FSFDP-BoV模型的遥感影像检索[J].地理与地理信息科学,2016,32(1):55-59. 被引量：2
2周治平,李文慧,周明珠.基于词包和特征融合的目标识别算法[J].数据采集与处理,2017,32(3):489-496. 被引量：2
3冯珂垚,饶鹏,陆福星,朱含露.基于神经网络的高分辨率快速目标检测方法[J].电子设计工程,2018,26(22):169-173. 被引量：7
4唐玮,赵保军,龙腾.基于轻量化网络的光学遥感图像飞机目标检测[J].信号处理,2019,35(5):768-774. 被引量：17

同被引文献85

1李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
2李颖新,阮晓钢.基于基因表达谱的肿瘤亚型识别与分类特征基因选取研究[J].电子学报,2005,33(4):651-655. 被引量：18
3张文修 ,仇国芳 ,吴伟志 .粗糙集属性约简的一般理论[J].中国科学（E辑）,2005,35(12):1304-1313. 被引量：37
4王洪春,彭宏.一种基于主成分分析的异常点挖掘方法[J].计算机科学,2007,34(10):192-194. 被引量：14
5周昉,何洁月.生物信息学中基因芯片的特征选择技术综述[J].计算机科学,2007,34(12):143-150. 被引量：20
6Golub T R,Slonim D K, Tamayo P, et al. Class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286: 531-537.
7Zhao Y H,Yu X J, Wang G R, et al. Maximal subspace coregulated gene clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20 (1):83-98.
8Chen X W. Margin-based wrapper methods for gene identification using microarray[J].Neurocomputing, 2006,69(18) 2236-2243.
9Ram6n D U, Sara A A. Gene selection and classification of microarray data using random forest[J]. BMC Bioinformatics 2006(7)t3-4.
10Ma Shuangge, Song Xiao, Huang Jian. Supervised group Lasso with applications to microarray data analysls[J]. BMC Bioin- formatics, 2007(8): 60.

引证文献8

1徐久成,李涛,孙林,李玉惠.基于信噪比与邻域粗糙集的特征基因选择方法[J].数据采集与处理,2015,30(5):973-981. 被引量：13
2苏志远,刘慧,尹义龙.基于弱监督ECOC算法的肺结节辅助检测[J].数据采集与处理,2015,30(5):1003-1010. 被引量：3
3杜烨宇,陶大鹏,梁虹,林旭.基于局部自适应核回归的仪表定位方法[J].数据采集与处理,2016,31(3):490-501. 被引量：1
4田荣.不同运动优化下肥胖人群心肺耐力建模仿真[J].计算机仿真,2016,33(12):342-345. 被引量：2
5潘大胜.不确定噪声下海量文本数据的模糊挖掘算法研究[J].微电子学与计算机,2017,34(9):129-132. 被引量：2
6万月,陈秀宏,何佳佳.利用稀疏自编码的局部谱聚类映射算法[J].传感器与微系统,2018,37(1):145-148. 被引量：2
7徐久成,黄方舟,穆辉宇,王云,徐战威.基于PCA和信息增益的肿瘤特征基因选择方法[J].河南师范大学学报（自然科学版）,2018,46(2):104-110. 被引量：10
8Jie Ni,Fan Wu,Meixiang Jin,Yixing Bai,Yunfei Guo.Cancer Gene Extraction Based on Stepwise Regression[J].数学计算（中英文版）,2016,5(1):6-10.

二级引证文献33

1伍长荣,接标,叶明全.CT图像肺结节计算机辅助检测与诊断技术研究综述[J].数据采集与处理,2016,31(5):868-881. 被引量：21
2杨霁琳,张贤勇,唐孝.基于三支决策的模糊信息系统OWA算子参数选择[J].数据采集与处理,2016,31(6):1156-1163. 被引量：6
3徐久成,冯森,穆辉宇.基于信噪比与随机森林的肿瘤特征基因选择[J].河南师范大学学报（自然科学版）,2017,45(2):87-92. 被引量：11
4姜婷,袭肖明,岳厚光.基于分布先验的半监督FCM的肺结节分类[J].智能系统学报,2017,12(5):729-734. 被引量：6
5谢娟英,樊雯.结肠癌患者诊断的基因标志物识别算法[J].模式识别与人工智能,2017,30(11):1019-1029. 被引量：1
6喻德旷,杨谊.肿瘤特征基因选择的互信息最值过滤原则与粒子群优化算法[J].计算机应用,2018,38(2):421-426. 被引量：3
7董红斌,石丽,李涛.一种改进的microRNA预测模型集成方法[J].计算机科学,2018,45(2):69-75. 被引量：1
8徐久成,黄方舟,穆辉宇,王云,徐战威.基于PCA和信息增益的肿瘤特征基因选择方法[J].河南师范大学学报（自然科学版）,2018,46(2):104-110. 被引量：10
9杨艳丽.粗糙集数据的高精度分类算法研究[J].现代电子技术,2018,41(10):154-156. 被引量：1
10叶明全,高凌云,伍长荣,黄道斌,胡学钢.基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择[J].数据采集与处理,2018,33(3):426-435. 被引量：5

1武永成.基于多视图未标记数据的机器学习[J].计算机与现代化,2013(3):96-98.
2邓强,杨燕,王浩.一种改进的多视图聚类集成算法[J].计算机科学,2017,44(1):65-70. 被引量：8
3薛晖,陈松灿,刘洁,黄继建.基于跨视图约束的多视图分类方法[J].模式识别与人工智能,2014,27(2):97-102.
4伍国鑫,刘秉权,刘铭.一种改进的多视图K-均值聚类算法[J].智能计算机与应用,2014,4(3):11-14. 被引量：4
5田锡宇,王友仁,崔江.基于克隆选择和聚类的模拟电路故障诊断技术[J].传感器与微系统,2009,28(4):43-46.
6朱震宇,荆晓远.基于多视图核鉴别分析的图像识别[J].计算机技术与发展,2016,26(12):92-95. 被引量：1
7张磊.基于教与学优化算法的特征选择[J].软件导刊,2015,14(11):36-39. 被引量：1
8陈景年,黄厚宽,田凤占,瞿有利.一种用于贝叶斯分类器的文本特征选择方法[J].计算机工程与应用,2008,44(13):24-26. 被引量：6
9卜道成,陈飞,纪传舜.MVP:基于CCA的多视图数据相关性预测方法[J].计算机应用与软件,2011,28(8):251-253.
10李晓旭,李睿凡,冯方向,曹洁,王小捷.多视图有监督的LDA模型[J].电子学报,2014,42(10):2040-2044. 被引量：2

数据采集与处理

2015年第1期

浏览历史

内容加载中请稍等...

一种基于多视图数据的半监督特征选择和聚类算法被引量：8

参考文献21

二级参考文献17

共引文献4

同被引文献85

引证文献8

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

一种基于多视图数据的半监督特征选择和聚类算法 被引量：8

参考文献21

二级参考文献17

共引文献4

同被引文献85

引证文献8

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

一种基于多视图数据的半监督特征选择和聚类算法被引量：8