基于Spark的并行ISOMAP算法被引量：2

Parallel ISOMAP algorithm based on Spark

下载PDF

导出

摘要为了实现大数据环境下非线性高维数据的降维,提出了基于Spark的并行ISOMAP算法.在该方法中,为了快速求解大规模矩阵的特征值和特征向量,设计并实现了基于Spark的并行块Davidson方法;同时,针对大规模矩阵计算和传输困难的问题,提出了基于RDD分区的行块式矩阵乘法策略,该策略把每个分区中的矩阵行转换成块矩阵,行块式矩阵可不受map算子对RDD逐条计算的限制,并可以利用Spark中的线性代数库参与矩阵级别的运算.实验结果表明,行块式矩阵乘法策略有效提高了矩阵运算的效率,并行块Davidson方法能够快速求解大规模矩阵特征值和特征向量,有效提高了并行ISOMAP算法的性能,表明并行ISOMAP算法可以适应大数据环境下的降维处理. To reduce the dimension of the nonlinear high-dimensional data in the big data environment,a parallel ISOMAP algorithm based on Spark is proposed,where a Spark-based parallel block Davidson method is designed and implemented to quickly solve eigenvalues and eigenvectors of the large scale matrices.Simultaneously,a row-block matrix multiplication strategy based on RDD partition is proposed for the difficulty of computation and transmission of the large scale matrices,which converts the matrix rows in each partition into block matrices.The row-block matrices are not restricted by the map operator to RDD calculation one by one,and can treat operations at the matrix level by using linear algebraic Library in Spark.The experimental results show that the row-block matrix multiplication strategy effectively improves the efficiency of matrix operations;the parallel block Davidson method can quickly solve the eigenvalues and eigenvectors of the large scale matrices and effectively improve the performance of parallel ISOMAP algorithm;and the parallel ISOMAP algorithm can adapt to dimensionality reduction in the big data environment.

作者石陆魁郭林林房子哲张军 SHI Lukui;GUO Linlin;FANG Zizhe;ZHANG Jun(School of Artificial Intelligence, Hebei University of Technology, Tianjin 300401, China;Hebei Province Bigdata Computation Key Laboratory, Tianjin 300401, China)

机构地区 .河北工业大学人工智能与数据科学学院河北省大数据计算重点实验室

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2019年第10期842-850,共9页 JUSTC

基金河北省自然科学基金(F2017202145)资助。

关键词 ISOMAP 行块式矩阵块Davidson方法 SPARK ISOMAP row-block matrix block Davidson method Spark

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1王顺绪,戴华.求解大型矩阵特征值问题的并行块Davidson方法[J].南京航空航天大学学报,2007,39(6):814-818. 被引量：2
2薛永坚,倪志伟.基于MapReduce的大规模数据集流形学习降维研究[J].系统工程理论与实践,2014,34(S1):151-157. 被引量：3

二级参考文献16

1程建钢,李明瑞,黄文彬.有限元分析的并行计算方法[J].力学与实践,1995,17(4):6-12. 被引量：9
2将尔雄.对称矩阵计算[M].上海:上海科学技术出版社,1984.
3Davidson E R. The iterative calculation of a few lowest eigenvalues and corresponding eigenvectors of large real-symmetric matrices[J]. Journal of Computational Physics, 1975, 17(1): 87-94.
4Sleijpen G L G, Van der Vorst H A. A JacobiDavidson iteration method for linear eigenvalue problem[J]. SIAM J Matrix Anal Appl, 1996, 17(2): 401-425.
5Underwood R. An iterative block Lanczos method for the solution of large sparse symmetric eigenproblems[D]. Stanford: Computer Science Department, Stanford University, 1975.
6Crouzeix M, Philippe B, Sadkane M. The Davidson method[J]. SIAM J Sci Comput, 1994, 15(1):62-76.
7Sadkane M, Sidje R B. Implementation of a variable block Davidson method with deflation for solving large sparse eigenproblems [J]. Numerical Algorithms, 1999, 20(2):217-240.
8Balle S, Cullum J. A parallel algorithm for computing eigenvalues of very large real symmetric matrices on message passing architectures [J]. Applied Numerical Mathematics, 1999, 30 (2) : 341-365.
9Nool M, Van der Ploeg A. A parallel Jacobi-Davidson-type method for solving large generalized elgenvalue problems in magnetohydrodynamics[J]. SIAM Journal on Scientific Computing, 2000, 22 (1) : 95-112.
10Olsen J, Jorgensen P, Simons J. Passing the onebillion limit in full configuration-interaction (FCI) calculations [J]. Chemical Physics Letters, 1990, 169(6): 463-472.

共引文献3

1琚春华,梅铮,许翀寰.一种基于主成分和密度的改进型动态数据流聚类算法[J].情报学报,2010,29(4):579-585. 被引量：1
2沈江,余海燕,徐曼.实体异构性下证据链融合推理的多属性群决策[J].自动化学报,2015,41(4):832-842. 被引量：9
3石陆魁,袁彬,刘文浩.基于Spark的ISOMAP算法并行化[J].中国科学技术大学学报,2016,46(9):711-718.

同被引文献13

1彭岩,赵梓如,吴婷娴,王洁.PM2.5浓度预测与影响因素分析[J].北京邮电大学学报,2019,42(6):162-169. 被引量：7
2张成成,陈求稳,徐强,张晓晴.基于支持向量机的太湖梅梁湾叶绿素a浓度预测模型[J].环境科学学报,2013,33(10):2856-2861. 被引量：22
3屈太国,蔡自兴.基于分而治之的多维标度算法[J].模式识别与人工智能,2014,27(11):961-969. 被引量：6
4钟龙申,高学军,王振友.一种新的基于K-means改进SMOTE算法在不平衡数据集分类中的应用[J].数学的实践与认识,2015,45(19):198-206. 被引量：12
5李锋,汤宝平,王家序,林建辉.基于图嵌入概率半监督判别分析的故障辨识[J].机械工程学报,2017,53(9):92-100. 被引量：5
6李娟,张志薇,于庚康,周连,陈晓东.气象要素对南京市呼吸系统疾病的影响研究[J].气象科学,2017,37(3):409-415. 被引量：11
7崔鸿雁,徐帅,张利锋,Roy E.Welsch,Berthold K.P.Horn.机器学习中的特征选择方法研究及展望[J].北京邮电大学学报,2018,41(1):1-12. 被引量：44
8石怀涛,赵纪宗,宋文丽,李颂华,刘建昌.基于人工蜂群优化核主元分析故障检测方法[J].控制工程,2018,25(9):1686-1691. 被引量：9
9曹中义,吉根林,谈超.改进的多流形LLE学习算法[J].计算机工程与应用,2018,54(24):156-163. 被引量：4
10牛晓健,凌飞.基于组合学习的个人信用风险评估模型研究[J].复旦学报（自然科学版）,2021,60(6):703-719. 被引量：10

引证文献2

1郭方方,吕宏武,任威霖,王瑞妮.基于有监督判别投影的网络安全数据降维算法[J].通信学报,2021,42(6):84-93. 被引量：15
2冯婷婷,彭岩,王洁.ISGS:一种面向滞后效应的组合模型研究[J].电子学报,2023,51(9):2504-2509. 被引量：1

二级引证文献16

1高怀鑫,陈政翰,王嘉昕,刘书荣.基于深度学习的信息安全防御系统研究与设计[J].通信电源技术,2022,39(2):38-40. 被引量：1
2韩路.基于改进阻塞判别算法的局域网数据安全交换方法[J].现代电子技术,2022,45(17):90-94. 被引量：2
3丁绪东,杨东润,刘慧,赵星凯,张迎,孙梅.数据驱动的蒸发器在线建模方法[J].计算机与现代化,2022(11):22-31.
4张莉,丁毛毛,李玮,王颖,吕静贤,王笑一.基于决策树算法的客服终端冗余数据迭代消除方法[J].计算技术与自动化,2022,41(4):118-122. 被引量：6
5陈波红,祝金明.统计向量分析下大规模网络流量异常检测仿真[J].计算机仿真,2023,40(4):373-376. 被引量：2
6彭建祥.改进RBF模型的医院网络异常信息入侵意图预测[J].吉林大学学报（信息科学版）,2023,41(2):352-358.
7汤松梅.高校数字图书馆嵌入式移动学习模型构建[J].北华大学学报（社会科学版）,2023,24(4):139-149. 被引量：3
8宋世军,樊敏.基于谱聚类的多维数据集异常数据检测方法[J].吉林大学学报（工学版）,2023,53(10):2917-2922. 被引量：1
9陈坤定,林木辉.能耗均衡约束下的多源异质传感器数据动态汇聚算法[J].传感技术学报,2023,36(11):1814-1819. 被引量：1
10吴晓丹,王博威.基于朴素贝叶斯的大数据模糊随机挖掘仿真[J].计算机仿真,2023,40(11):501-505.

1施莹,庄哲,林建辉.基于卷积稀疏表示及等距映射的轴承故障诊断[J].振动．测试与诊断,2019,39(5):1081-1088. 被引量：4
2赵祥龙,陈捷,洪荣晶,王华,李媛媛.基于Wavelet leader和优化的等距映射算法的回转支承自适应特征提取[J].浙江大学学报（工学版）,2019,53(11):2092-2101. 被引量：3
3刘祥,李高明,马鹏,李林阳.基于边界点的L-ISOMAP算法研究[J].信息技术与信息化,2020(2):71-74.
4梁京章,黄星舒,吴丽娟,熊小萍.基于KPCA和改进K-means的电力负荷曲线聚类方法[J].华南理工大学学报（自然科学版）,2020,48(6):143-150. 被引量：23
5赵楠,皮文超,许长桥.一种面向多维特征分析过滤的视频推荐算法[J].计算机科学,2020,47(4):103-107. 被引量：5
6何炼坚,冷国俊,蒲春霞.基于决策概率逼近的矩阵对策近似求解方法[J].数学学习与研究,2020(3):116-118. 被引量：1
7刘绪娇.基于加权稀疏与加权核范数最小化的图像去噪[J].海峡科技与产业,2020(2):55-58.
8赵莉华,金浩文,黄小龙,王仲.基于电机电流的负荷开关操作机构状态诊断研究[J].高压电器,2020,56(6):302-308. 被引量：8
9胡琦玉,肖雅琴,瞿庆玲,郑玉虎.基于Matlab的三维矩阵运算在地表水风险预测中的应用研究[J].环境科学与管理,2020,45(6):82-86.
10王从徐.分块矩阵在行列式及逆矩阵计算中的应用研究[J].吉林化工学院学报,2020,37(5):65-69. 被引量：3

中国科学技术大学学报

2019年第10期

浏览历史

内容加载中请稍等...

基于Spark的并行ISOMAP算法被引量：2

参考文献2

二级参考文献16

共引文献3

同被引文献13

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行ISOMAP算法 被引量：2

参考文献2

二级参考文献16

共引文献3

同被引文献13

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行ISOMAP算法被引量：2