基于维度扩展重排的高维数据降维挖掘技术

Dimension Reduction Mining Technology of High Dimension Data Based on Dimension Expansion and Rearrangement

下载PDF

导出

摘要针对高维数据特征占用空间较大,导致挖掘精准度不高、完整程度较低的问题,提出基于维度扩展重排的高维数据降维挖掘技术。明确高维数据结构对数据挖掘的影响,在特定区间内对数据进行预处理变换;利用奇异值分解法选择首维度,使用皮尔森相关系数计算维度相似性,建立相似性结果矩阵,结合首维度找出第二维度,以此类推实现维度扩展重排;将高维数据通过某种组合投影到低维子空间中,降低数据维度,通过数据聚类及特征压缩转换建立高维数据降维挖掘模型。仿真结果表明,所提方法能够改善挖掘精准度、减少时间消耗,大幅度提高数据完整性。 The high-dimensional data feature that takes up large space causes low accuracy and integrity of mining. Therefore, a dimensionality reduction mining technology based on dimension extension rearrangement is presented in this paper. Firstly, the influence of high-dimensional data structure on data mining was investigated, and the data was preprocessed and transformed in a specific interval. Secondly, the singular value decomposition method was applied to select the first dimension. Pearson correlation coefficient was used to calculate the dimension similarity and establish the similarity result matrix. Then, according to the first dimension, the second dimension was found, achieving the dimension expansion and rearrangement. And then, the high-dimensional data were projected into the low-dimensional subspace to reduce the data dimension by the specific combination. Finally, according to the data clustering and feature compression transformation, the dimensionality reduction mining model of high-dimensional data was established. Simulation results show that the method has high mining accuracy and data integrity, and short time consumption.

作者邓慧谭乐婷 DENG Hui;TAN Le-ting(Southwest Petroleum University,Nanchong Sichuan 637000,China)

机构地区西南石油大学

出处《计算机仿真》北大核心 2022年第6期434-438,共5页 Computer Simulation

基金南充市市校科技战略合作项目“基于扩展云计算的高维数据降维研究”(18SXHZ0027)。

关键词维度扩展重排降维处理数据挖掘奇异值分解 Dimension extension rearrangement Dimension reduction processing Data mining Singular value decomposition

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1许力分,倪志伟,朱旭辉,贾凯,伍章俊.融合基于MapReduce并行改进二元蚁群算法与分形维数的属性选择方法[J].系统科学与数学,2019,39(6):918-933. 被引量：11
2郭峰,张继福.一种基于枢纽现象和加权离群分数的离群数据挖掘算法[J].小型微型计算机系统,2018,39(10):2248-2253. 被引量：6
3何兴高,李蝉娟,王瑞锦,邓伏虎,刘行.基于信息熵的高维稀疏大数据降维算法研究[J].电子科技大学学报,2018,47(2):235-241. 被引量：19
4杨敬民,张文杰.物联网环境下移动高维异常数据自动挖掘仿真[J].计算机仿真,2018,35(1):441-444. 被引量：10
5杨秋兰,万晓霞,肖根生.基于偏最小二乘法的多光谱降维算法[J].激光与光电子学进展,2020,57(1):252-258. 被引量：6
6潘晓,马昂,郭景峰,吴雷,刘风阳.基于时间序列的轨迹数据相似性度量方法研究及应用综述[J].燕山大学学报,2019,43(6):531-545. 被引量：18
7费贤举,李虹,田国忠.基于特征加权理论的数据聚类算法[J].沈阳工业大学学报,2018,40(1):77-81. 被引量：40
8余立苹,李云飞,朱世行.基于高维数据流的异常检测算法[J].计算机工程,2018,44(1):51-55. 被引量：22
9张定祥,张跃进.基于改进多层次模糊关联规则的定量数据挖掘算法[J].计算机应用研究,2019,36(12):3619-3622. 被引量：13
10张凯斐,刘继华,张菊芳.大规模高维数据集中局部异常数据挖掘算法[J].微电子学与计算机,2018,35(3):116-119. 被引量：13

二级参考文献78

1熊伟清,周扬,魏平.具有灾变的动态蚁群算法[J].电路与系统学报,2005,10(6):98-101. 被引量：8
2陈伏兵,高秀梅,张生亮,杨静宇.基于分块PCA的人脸识别方法[J].小型微型计算机系统,2006,27(10):1943-1947. 被引量：10
3闫光辉.一种高效的分形属性选择算法[J].兰州交通大学学报,2007,26(1):6-10. 被引量：4
4周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21
5陈伏兵,杨静宇.分块PCA及其在人脸识别中的应用[J].计算机工程与设计,2007,28(8):1889-1892. 被引量：26
6曹冬磊,曹建农,金蓓弘.一种无线传感器网络中事件区域检测的容错算法[J].计算机学报,2007,30(10):1770-1776. 被引量：29
7王海文,李杰,万晓霞,甘朝华.基于光谱的印刷颜色复制技术研究[J].包装工程,2008,29(4):40-42. 被引量：12
8张继福,蒋义勇,胡立华,蔡江辉,张素兰.基于概念格的天体光谱离群数据识别方法[J].自动化学报,2008,34(9):1060-1066. 被引量：24
9尹飞,冯大政.基于PCA算法的人脸识别[J].计算机技术与发展,2008,18(10):31-33. 被引量：42
10陈冠华,马秀莉,杨冬青,唐世渭,帅猛,谢昆青.面向高维数据的低冗余top-k异常点发现方法[J].计算机研究与发展,2010,47(5):788-795. 被引量：2

共引文献139

1李洪波.物联网环境下舰船监控网络高维异常数据挖掘方法[J].舰船科学技术,2019,0(20):154-156. 被引量：1
2苑津莎,甘斌斌,李中,万利,李灿.基于改进离群算法的多元时间序列异常检测[J].黑龙江电力,2020,42(2):113-118.
3杨雄,郭佳豪,方鑫,张旭辉.基于改进动态时间规整算法的终端波形比对方法[J].电子测量技术,2023,46(6):178-184.
4刘婷.基于粒子群和K-均值聚类算法的学生心理分析方法研究[J].电子设计工程,2018,26(19):75-79. 被引量：8
5尹志强.基于数据挖掘的高校图书馆图书借阅流量建模与分析[J].微电子学与计算机,2018,35(11):95-99. 被引量：18
6吕正萍,纪汉霖.数种基于SPSS统计工具的聚类算法效率对比[J].软件导刊,2018,17(11):81-85. 被引量：8
7谢志远,王晶.一种适合电力线信道传输的图像压缩算法[J].电力科学与工程,2019,35(3):45-51. 被引量：3
8刘冬冬.基于密度异常因子的武器装备故障检测方法[J].舰船电子工程,2019,39(5):120-123. 被引量：1
9朱云丽,张继福.基于逆k近邻计数和权值剪枝的离群数据挖掘算法[J].小型微型计算机系统,2019,40(8):1627-1632. 被引量：10
10张素智,杨芮,陈小妮.基于独立区域划分和压缩感知的数据融合方法[J].计算机技术与发展,2019,29(8):63-66.

1何睿琳,刘子妤,杨欣怡,李晨,李晓燕.基于矩阵计算的组织病理学图像压缩储存算法[J].协和医学杂志,2022,13(4):620-625.
2魏小琴,何汶静,李杨,杜勇.基于奇异值分解的改进GRAPPA算法研究[J].实验室研究与探索,2022,41(3):139-143.

计算机仿真

2022年第6期

浏览历史

内容加载中请稍等...

基于维度扩展重排的高维数据降维挖掘技术

参考文献10

二级参考文献78

共引文献139

相关作者

相关机构

相关主题

浏览历史