高维数据空间的性质及度量选择被引量：8

Properties of High-dimensional Data Space and Metric Choice

下载PDF

导出

摘要高维数据分析是机器学习和数据挖掘研究中的主要内容,降维算法通过寻找数据表示的最优子空间来约减维数,在降低计算代价的同时,也提高了后续分类或者聚类算法的性能,从而成为高维数据分析的有效手段。然而,目前缺乏高维数据分析的理论指导。对高维数据空间的统计和几何性质进行了综述,从不同的角度给出了高维数据空间中"度量集中"现象的直观解释,并讨论了通过度量选择的方式来提高经典的基于距离度量的机器学习算法在分析高维数据时的性能。实验表明,分数距离度量方式可以显著提高K近邻和Kmeans算法的性能。 High-dimesional data analysis is the core task of machine learning and data mining.By finding optimal subspace for data representation,dimensionality reduction algorithms can reduce computational cost and improve the performance of subsequent classification or clustering algorithms,leading to effective techniques for high-dimensional data analysis.However,there is very little guidance for theoretical analysis on high-dimensional data.This paper reviewed some statistical and geometrical properties of high-dimensional data space,and gave some intuitive explanations on ＂concentration of measure＂ phenomenon from different perspectives.In order to improve performances of classical machine learning algorithms based on distance metric,this paper discussed the effects of metric choice on high-dimensional data analysis.Empirical results show that fractional distance metric can improve performances of K Nearest Neighbor and Kmeans significantly.

作者何进荣丁立新胡庆辉李照奎

机构地区武汉大学计算机学院软件工程国家重点实验室

出处《计算机科学》 CSCD 北大核心 2014年第3期212-217,共6页 Computer Science

基金中央高校基本科研业务费专项资金(2012211020209) 广东省省部产学研结合专项(2011B090400477) 珠海市产学研合作专项资金(2011A050101005 2012D0501990016) 珠海市重点实验室科技攻关项目(2012D0501990026)资助

关键词高维数据维数灾难度量集中 High-dimensional data Curse of dimensionality Concentration of measure

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献29

1Skillicom D B.Understanding High-Dimensional Spaces[M].Springer-Verlag New York Incorporated,2013.
2Donoho D L.High-dimensional data analysis:The curses and blessings of dimensionality[J].AMS Math Challenges Lecture,2000:1-32.
3Bellman R.Adaptive Control Process:A Guide Tour[M].Princeton University Press,Princeton,New Jersey,1961.
4Fukunaga K.Introduction to Statistical Pattern Recognition(2nd ed)[M].New York:Academic,1990,39-40(31-34):220-221.
5Mil'man V D.New proof of the theorem of A.Dvoretzky on intersections of convex bodics[J].Functional Analysis and its Applications,1971,5 (4):288-295.
6Weber R,Schek H-J,Blott S.A quantitative analysis and performance study for similarity-sesrch methods in high-dimensional spaces[C] //Proceedings of the 24rd International Conference on Very Large Data Bases,ser.VLDB' 98.San Francisco,CA,USA:Morgan Kaufmanm Publishers Inc,1998:194-205.
7Gaede V,Günther O.Multidimensional access methods[J].ACM Computing Surveys (CSUR),1998,30(2):170-231.
8Francois D,Wertz V,Verleysen M.Non-euclidean metrics for similarity search in noisy datasets[C] //Proc.of ESANN.2005.
9Kouiroukidis N,Evangelidis G.The Effects of Dimensionality Curse in High Dimensional kNN Search[C] //Informatics(PCI),2011 15th Panhellenic Conference on.IEEE,2011:41-45.
10Clarke R,Ressom H W,Wang A,et al.The properties of highdimensional data spaces:implications for exploring gene and protein expression data[J].Nature Reviews Cancer,2008,8 (1):37-49.

共引文献4

1高滢,刘大有,齐红,刘赫.一种半监督K均值多关系数据聚类算法[J].软件学报,2008,19(11):2814-2821. 被引量：22
2涂淑琴,张义青,王美华,万华.一种量子神经网络模型及改进学习算法[J].现代计算机,2010,16(11):3-6. 被引量：1
3陆慧娟,张金伟,马小平,杨小兵.基于特征选择的过抽样算法的研究[J].电信科学,2012,28(1):87-91. 被引量：1
4胡德敏,赵瑞可.一种改进的最大频繁项集挖掘算法[J].计算机应用与软件,2012,29(12):186-188. 被引量：2

同被引文献77

1邓军,余忠华,杨基平,丁鼎,吴昭同.面向产品生命周期的全面质量管理系统[J].浙江大学学报（工学版）,2005,39(4):500-505. 被引量：17
2贾小勇,徐传胜,白欣.最小二乘法的创立及其思想方法[J].西北大学学报（自然科学版）,2006,36(3):507-511. 被引量：137
3陆汝华,杨胜跃,朱颖,樊晓平.基于DHMM的轴承故障音频诊断方法[J].计算机工程与应用,2007,43(17):218-220. 被引量：12
4Buhlmann p, Van De Geer S. Statistics for High-Dimensional Data: Methods, Theory and Applications[M]. Berlin: Springer Science &. Business Media, 2011.
5TenenbaumJ B, De Silva V, LangfordJ C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-2323.
6Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326.
7Belkin M, Niyogi P. Laplacian eigenmaps for dimensionality reduction and data representation[J]. Neural Computation, 2003, 15(6): 1373-1396.
8Weinberger K Q, Saul L K. Unsupervised learning of image manifolds by semidefinite programming[J]. InternationalJournal of Computer Vision, 2006, 70 (1): 77-90.
9Donoho D L, Grimes C. Hessian eigenmaps , Locally linear embedding techniques for high-dimensional data[J]. Proceedings of the National Academy of Sciences, 2003, 100(0): 5591-5596.
10Coifman R R, Lafon S, Lee A B, et al. Geometric diffusions as a tool for harmonic analysis and structure definition of data: Diffusion maps[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(21): 7426-7431.

引证文献8

1周考,丁立新,何进荣.比迹准则下的边界判别投影[J].武汉大学学报（理学版）,2015,61(6):537-544.
2梁路,龚奔龙,黎剑,滕少华.一种缓解分类面交错的样本点扩散方法[J].计算机科学,2017,44(9):286-289.
3冯艳红,于红,孙庚,彭松.基于非对称多值特征杰卡德系数的高维语义向量差异性度量方法[J].计算机科学,2018,45(6):57-66. 被引量：3
4李永飞,郭晓欣,田立勤.基于聚类的物联网监测点相邻关系的判定与分析[J].计算机工程与科学,2019,41(7):1291-1296. 被引量：4
5周宇昊,贾文琦,潘毅群,谢玉荣,黄治钟.基于最近邻搜索的区域建筑负荷预测方法[J].建筑科学,2021,37(6):28-35. 被引量：3
6陈圆圆,王志海.基于聚类分区的多维数据流概念漂移检测方法[J].计算机科学,2022,49(7):25-30. 被引量：2
7袁冬阳,顾冲时,顾昊.严寒地区混凝土重力坝变形行为分析与预测模型[J].水利学报,2022,53(6):733-746. 被引量：16
8张宇鹏,邱常卿,田煜,方夏,苗强.基于混合倒谱与LSTM网络的轴承故障诊断[J].组合机床与自动化加工技术,2023(6):87-92. 被引量：3

二级引证文献31

1王冠男,孙睿.基于光纤复用技术的物联网数据监测研究[J].激光杂志,2020,41(9):77-81.
2张明珠,曹杰,王斌.基于精英集的多目标差分进化聚类算法[J].计算机工程与科学,2021,43(1):170-179. 被引量：1
3苑迎春,雒明雪,陈江薇.基于机器学习的高校学生评教信度分类分析[J].河北农业大学学报（社会科学版）,2021,23(3):127-132. 被引量：1
4王艳松,高鑫,胡彩娥,王健,张禄.基于核主成分分析和AP聚类算法的电力系统态势感知技术[J].电测与仪表,2022,59(1):25-36. 被引量：14
5佟冬,张珠玲.基于孪生神经网络的物联网通信异常数据捕获[J].计算机仿真,2021,38(12):304-307. 被引量：3
6谢国荣.民用建筑新能源照明供电负荷预测方法分析[J].光源与照明,2022(5):39-41. 被引量：1
7罗璐,李志,张启灵.大坝变形预测的最优因子长短期记忆网络模型[J].水力发电学报,2023,42(2):24-35. 被引量：6
8李振兴,佘双喜,徐浩,崔晓琳,李振华,张萌萌.基于杰卡德相似度一体化判据的柔直线路纵联保护[J].电力工程技术,2023,42(2):94-102. 被引量：1
9刘伟琪,陈波.NGO-GPR与投影寻踪联合驱动的大坝变形预测模型[J].水力发电学报,2023,42(4):126-136. 被引量：10
10王瑞婕,包腾飞,李扬涛,宋宝钢,向镇洋.基于多因子融合和Stacking集成学习的大坝变形组合预测模型[J].水利学报,2023,54(4):497-506. 被引量：9

1马福民,张腾飞.一种基于知识粒度的启发式属性约简算法[J].计算机工程与应用,2012,48(36):31-33. 被引量：4
2李继才.教学软件质量模型度量选择与权重实例[J].信息技术与标准化,2008(4):57-60. 被引量：5
3张小峰,周凤翔,宋丽华,孙玉娟.一致性分类问题中规则提取的新方法[J].计算机工程与应用,2007,43(1):178-180. 被引量：1
4孙细明,张晓鹏.基于信息熵的决策树算法实现[J].计算机与数字工程,2005,33(11):94-95. 被引量：11
5刘远琳,孙细明.客户分类系统的ID3算法流程及实现[J].计算机与数字工程,2009,37(3):88-90. 被引量：4
6李郁林.高维数据分析中的降维研究[J].计算机光盘软件与应用,2012,15(17):47-48. 被引量：3
7何田中,黄再祥.基于多置信度的不平衡数据分类算法[J].闽南师范大学学报（自然科学版）,2014,27(4):26-30.
8卢世军.基于Curvelet及LPP的人脸识别算法[J].现代计算机,2013,19(23):30-33.
9陈黎飞,郭躬德,姜青山.自适应的软子空间聚类算法[J].软件学报,2010,21(10):2513-2523. 被引量：33
10郑成文,韩柯,张海粟.一种改进的软件自适应随机测试策略[J].计算机工程,2011,37(16):82-83. 被引量：1

计算机科学

2014年第3期

浏览历史

内容加载中请稍等...

高维数据空间的性质及度量选择被引量：8

参考文献29

共引文献4

同被引文献77

引证文献8

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

高维数据空间的性质及度量选择 被引量：8

参考文献29

共引文献4

同被引文献77

引证文献8

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

高维数据空间的性质及度量选择被引量：8