MapReduce框架下PCA算法的并行实现

The Parallel Implementation of PCA Algorithm in MapReduce Framework

下载PDF

导出

摘要大数据处理项目中,随着采集到的高维数据指数式增长,数据预处理工作已经成为数据分析和知识挖掘的瓶颈。主成分分析PCA是目前使用最广泛的数据维规约算法,特别是对大型稀疏矩阵,处理效果良好,但通常伴随着大规模复杂运算。基于大数据平台Hadoop的MapReduce并行处理框架的PCA并行处理算法,通过映射和规约将复杂运算分配到多个处理器并行处理,算法验证实验结果表明,数据集规模增大,选取适当的分布计算节点数量,并行PCA方法的加速比可提高约30%,时间消耗可降低约21%。 In the project of big data processing project,with the high-dimensional data growing exponentially,the data preprocessing has become a bottleneck in data analysis and knowledge mining.The Principal Component Analysis(PCA)is the most widely used data dimensioning reduction algorithm,especially,it is good at processing the large sparse matrices,but it accompanied by large-scale complex operations.The PCA parallel processing algorithm based on MapReduce parallel processing framework,assign the operations to multiple processors based on mapping and specification.The experimental results of the algorithm show that the larger data set and the appropriate number of distributed computing nodes,the acceleration ratio can be increased by about 30%and the time consumption can be reduced by about 21%.

作者陈燕陈亚林郑军 CHEN Yan;CHEN Ya-lin;Zhen Jun(School of Mathematics and Information Science of Guiyang University,Guiyang,550002,Guizhou China;School of Management Science,Nanjing University of Finance&Economics,Nanjing,210046,Jiangsu China)

机构地区贵阳学院数学与信息科学学院南京财经大学管理科学与工程学院

出处《贵阳学院学报（自然科学版）》 2019年第4期92-96,共5页 Journal of Guiyang University：Natural Sciences

基金 2019年度市科技局贵阳学院科技专项资金[项目编号:GYU-KYZ[2019~2020]PT06-02] 教育部青年基金项目:“水资源约束下的涉煤产业政策研究:机理、模型与仿真”[项目编号:18YJCZH016]

关键词主成分分析PCA 数据预处理 MAPREDUCE 并行处理 the Principal Component Analysis(PCA) Data Preprocessing MapReduce Parallel Processing

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1高强,张凤荔,王瑞锦,周帆.轨迹大数据:数据处理关键技术研究综述[J].软件学报,2017,28(4):959-992. 被引量：130
2刘小虎,李生.决策树的优化算法[J].软件学报,1998,9(10):797-800. 被引量：130
3易秀双,刘勇,李婕,王兴伟.基于MapReduce的主成分分析算法研究[J].计算机科学,2017,44(2):65-69. 被引量：8
4夏慧明,周永权.求解矩阵特征值及特征向量的新方法[J].计算机工程,2008,34(11):83-85. 被引量：3
5李志平,付冬梅,穆志纯.基于稀疏数据规约的CMAC大气腐蚀数据补偿方法[J].计算机应用研究,2016,33(9):2645-2647. 被引量：4
6耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：62

二级参考文献32

1林翠,王凤平,李晓刚.大气腐蚀研究方法进展[J].中国腐蚀与防护学报,2004,24(4):249-256. 被引量：76
2杨廷俊.矩阵特征值与特征向量的同步求解法[J].甘肃联合大学学报（自然科学版）,2006,20(3):20-22. 被引量：4
3Tu Peilei，Proceedings of the 1992 IEEE International Conference on Tools for Artificial Intelligence，1992年
4Hong J R，Internat J Comput Infor-mation Sci，1985年，14卷，6期，421页
5Back T, Schwefel H E Evolution Strategies I: Variants and Their Computational Implementation[M]. [S. l.]: Wiley, 1995.
6Schwefel H P, Back T. Evolution Strategies II: Theoretical Aspects[M]. [S. l.]: Wiley, 1995.
7Mathews J H, Firk K D. Numerical Methods Using MATLAB[M]. 4th ed. Beijing: Publishing House of Electronics Industry, 2005.
8YANG Yi-ming,PEDERSEN J O.A comparative study on feature selection in text categorization[C]//Proc of the 14th International Conference on Machine Learning.1997:412-420.
9CHAKRABARTI S,DOM B,AGRAEAL R,et al.Using taxonomy,discriminants,and signature for navigating in text databases[C]//Proc of the 23rd VLDB Conference.1997:446-455.
10NG H T,GOH W B,LOW K L.Feature selection,perceptron learning,and a usability case study for text categorizaion[C]//Proc of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1997:67-73.

共引文献331

1冯蕴天,王国良,韩慧,许雄,陈翔,吴若无,邰宁.面向电磁大数据的未知雷达辐射源智能识别[J].太赫兹科学与电子信息学报,2021,19(4):589-595. 被引量：4
2施珠妹.论审前非羁押监管模式的数字化转型[J].刑事法评论,2023(1):476-491. 被引量：1
3郑钊,李科峰,赵晋琴,郑明才.泛在车联网环境下的交通状况智能监测与标记[J].中国交通信息化,2023(S01):232-236.
4孟蕾.化学检验软件对于精密数据的处理[J].化学工程与装备,2020(12):275-276.
5郭玉滨.决策树ID3算法研究及其改进[J].菏泽学院学报,2005,27(5):44-46. 被引量：2
6吴宣为,史斌宁.一种新的简化ID3决策树的算法[J].合肥工业大学学报（自然科学版）,2004,27(12):1565-1569. 被引量：3
7张伟.数据挖掘中的ID3算法研究与实现[J].软件导刊,2010,9(5):176-178. 被引量：2
8张仁伟,王洪斌.一种基于行为检测的垃圾邮件过滤技术[J].哈尔滨职业技术学院学报,2008(4):123-125. 被引量：1
9徐远纯,盛昭瀚,柳炳祥.一种基于决策树的客户流失危机分析方法[J].计算机与现代化,2004(8):1-4. 被引量：10
10丁华,张少中,王秀坤.基于改进ID3算法的轨迹化决策研究[J].计算机工程与设计,2004,25(10):1721-1723. 被引量：8

1李凯,曹可凡.受限玻尔兹曼机的步态特征提取及其识别[J].河北大学学报（自然科学版）,2019,39(6):657-665. 被引量：3
2罗芳贵.PLC在皂河第二抽水泵站自动化中的应用[J].信息周刊,2019,0(45):0454-0454.
3陈大扬,朱艺,陈科.危险废物处理项目工艺概述及环评技术要点[J].中国资源综合利用,2019,37(12):74-78. 被引量：11
4陈燕,陈亚林,郑军.一种改进的基于PCA的数据预处理方法[J].电子技术应用,2020,46(1):96-99. 被引量：8
5乔红洁.浅析九年级数学教学中学生创造性思维能力的培养[J].数码设计,2019,8(13):166-166. 被引量：1
6朱小渊,郝红花,张崇岐.缺失项二阶混料模型I最优设计[J].高校应用数学学报（A辑）,2019,34(4):379-388. 被引量：7
7欧阳陈华,李向秀,夏晓.求解动态TSP问题的化学反应算法研究[J].数字技术与应用,2019,37(11):115-116.
8赵蕾,白雪梅,胡超.酒精脑电信号降维去噪方法的研究[J].长春理工大学学报（自然科学版）,2019,42(6):78-82. 被引量：1
9姜照昶,苏宇,丁凯孟.群体智能计算的多学科方法研究进展[J].计算机与数字工程,2019,47(12):3053-3058. 被引量：2
10王小铭,陈江亮,谷萌,焦秀瑶,蔡洪英,张莹,周怡然,魏云梅,Nemanja Stanisavljevic,刘元元.“无废城市”建设背景下我国餐厨垃圾管理现状、问题与建议[J].环境卫生工程,2019,27(6):1-10. 被引量：54

贵阳学院学报（自然科学版）

2019年第4期

浏览历史

内容加载中请稍等...

MapReduce框架下PCA算法的并行实现

参考文献6

二级参考文献32

共引文献331

相关作者

相关机构

相关主题

浏览历史