期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
Deep LearningModel for Big Data Classification in Apache Spark Environment
1
作者 T.M.Nithya R.Umanesan +2 位作者 T.Kalavathidevi C.Selvarathi A.Kavitha 《Intelligent Automation & Soft Computing》 SCIE 2023年第9期2537-2547,共11页
Big data analytics is a popular research topic due to its applicability in various real time applications.The recent advent of machine learning and deep learning models can be applied to analyze big data with better p... Big data analytics is a popular research topic due to its applicability in various real time applications.The recent advent of machine learning and deep learning models can be applied to analyze big data with better performance.Since big data involves numerous features and necessitates high computational time,feature selection methodologies using metaheuristic optimization algorithms can be adopted to choose optimum set of features and thereby improves the overall classification performance.This study proposes a new sigmoid butterfly optimization method with an optimum gated recurrent unit(SBOA-OGRU)model for big data classification in Apache Spark.The SBOA-OGRU technique involves the design of SBOA based feature selection technique to choose an optimum subset of features.In addition,OGRU based classification model is employed to classify the big data into appropriate classes.Besides,the hyperparameter tuning of the GRU model takes place using Adam optimizer.Furthermore,the Apache Spark platform is applied for processing big data in an effective way.In order to ensure the betterment of the SBOA-OGRU technique,a wide range of experiments were performed and the experimental results highlighted the supremacy of the SBOA-OGRU technique. 展开更多
关键词 Big data apache spark classification feature selection gated recurrent unit adam optimizer
下载PDF
基于Apache Spark的配电网大数据预处理技术研究 被引量:11
2
作者 徐宁 王艳芹 +1 位作者 董祯 王勇 《华北电力大学学报(自然科学版)》 CAS 北大核心 2021年第2期40-46,54,共8页
随着配电网采集的数据规模日益增大,如何高效地预处理配电网数据成为目前配电网数据分析面临的重要问题之一。考虑到配电网大数据的复杂性,提出了基于Apache Spark的大规模数据并行预处理的方法。首先,为了更有效地处理配电网大数据,以S... 随着配电网采集的数据规模日益增大,如何高效地预处理配电网数据成为目前配电网数据分析面临的重要问题之一。考虑到配电网大数据的复杂性,提出了基于Apache Spark的大规模数据并行预处理的方法。首先,为了更有效地处理配电网大数据,以Spark为计算引擎搭建了大数据并行计算平台;接着,分析了目前配电网大数据面临的一些普遍性问题,提出了针对这些问题的数据治理方案;然后,结合Spark计算引擎,介绍了配电网大数据预处理的具体流程;最后通过实验验证了数据预处理对配电网数据预测的精确度提升,以及分布式计算平台在数据预处理方面的速度优势。 展开更多
关键词 配电网大数据 数据预处理 并行计算 apache spark
下载PDF
Applying Apache Spark on Streaming Big Data for Health Status Prediction
3
作者 Ahmed Ismail Ebada Ibrahim Elhenawy +3 位作者 Chang-Won Jeong Yunyoung Nam Hazem Elbakry Samir Abdelrazek 《Computers, Materials & Continua》 SCIE EI 2022年第2期3511-3527,共17页
Big data applications in healthcare have provided a variety of solutions to reduce costs,errors,and waste.This work aims to develop a real-time system based on big medical data processing in the cloud for the predicti... Big data applications in healthcare have provided a variety of solutions to reduce costs,errors,and waste.This work aims to develop a real-time system based on big medical data processing in the cloud for the prediction of health issues.In the proposed scalable system,medical parameters are sent to Apache Spark to extract attributes from data and apply the proposed machine learning algorithm.In this way,healthcare risks can be predicted and sent as alerts and recommendations to users and healthcare providers.The proposed work also aims to provide an effective recommendation system by using streaming medical data,historical data on a user’s profile,and a knowledge database to make themost appropriate real-time recommendations and alerts based on the sensor’s measurements.This proposed scalable system works by tweeting the health status attributes of users.Their cloud profile receives the streaming healthcare data in real time by extracting the health attributes via a machine learning prediction algorithm to predict the users’health status.Subsequently,their status can be sent on demand to healthcare providers.Therefore,machine learning algorithms can be applied to stream health care data from wearables and provide users with insights into their health status.These algorithms can help healthcare providers and individuals focus on health risks and health status changes and consequently improve the quality of life. 展开更多
关键词 Big data streaming processing healthcare data machine learning IoT data processing apache spark
下载PDF
大数据环境下的分布式机器学习框架比较研究
4
作者 马威 李振亚 《计算机应用文摘》 2024年第12期108-110,共3页
在大数据环境下,处理庞大的数据集与实现复杂的机器学习算法愈发关键。为解决这一挑战,分布式机器学习框架应运而生。通过分布式计算资源的协同工作,可以提高机器学习模型的训练效率和性能。
关键词 大数据环境 机器学习 apache spark MLlib TensorFlow PyTorch
下载PDF
Sports Prediction Model through Cloud Computing and Big Data Based on Artificial Intelligence Method
5
作者 Aws I. Abu Eid Achraf Ben Miled +9 位作者 Ahlem Fatnassi Majid A. Nawaz Ashraf F. A. Mahmoud Faroug A. Abdalla Chams Jabnoun Aida Dhibi Firas M. Allan Mohammed Ahmed Elhossiny Salem Belhaj Imen Ben Mohamed 《Journal of Intelligent Learning Systems and Applications》 2024年第2期53-79,共27页
This article delves into the intricate relationship between big data, cloud computing, and artificial intelligence, shedding light on their fundamental attributes and interdependence. It explores the seamless amalgama... This article delves into the intricate relationship between big data, cloud computing, and artificial intelligence, shedding light on their fundamental attributes and interdependence. It explores the seamless amalgamation of AI methodologies within cloud computing and big data analytics, encompassing the development of a cloud computing framework built on the robust foundation of the Hadoop platform, enriched by AI learning algorithms. Additionally, it examines the creation of a predictive model empowered by tailored artificial intelligence techniques. Rigorous simulations are conducted to extract valuable insights, facilitating method evaluation and performance assessment, all within the dynamic Hadoop environment, thereby reaffirming the precision of the proposed approach. The results and analysis section reveals compelling findings derived from comprehensive simulations within the Hadoop environment. These outcomes demonstrate the efficacy of the Sport AI Model (SAIM) framework in enhancing the accuracy of sports-related outcome predictions. Through meticulous mathematical analyses and performance assessments, integrating AI with big data emerges as a powerful tool for optimizing decision-making in sports. The discussion section extends the implications of these results, highlighting the potential for SAIM to revolutionize sports forecasting, strategic planning, and performance optimization for players and coaches. The combination of big data, cloud computing, and AI offers a promising avenue for future advancements in sports analytics. This research underscores the synergy between these technologies and paves the way for innovative approaches to sports-related decision-making and performance enhancement. 展开更多
关键词 Artificial Intelligence Machine Learning spark apache Big Data SAIM
下载PDF
基于Apache Spark的大数据电能质量干扰源分析
6
作者 胡长武 李鹏 侯凯 《自动化与仪器仪表》 2024年第9期365-369,共5页
电能质量监测规模的日益扩大导致电能质量数据的海量增加,现有的配电网电能质量监测系统难以实现大数据电能质量的有效分析。在此背景下,研究利用Apache Spark构建电能质量大数据计算框架,并以此设计了针对电能质量干扰源分析的大数据... 电能质量监测规模的日益扩大导致电能质量数据的海量增加,现有的配电网电能质量监测系统难以实现大数据电能质量的有效分析。在此背景下,研究利用Apache Spark构建电能质量大数据计算框架,并以此设计了针对电能质量干扰源分析的大数据电能质量干扰源分析系统。系统验证分析显示,配电网电压变化主要是因为短时间的越限电压事件影响。不同方法对比显示,研究提出的系统精确率、召回率和F1值分别增加了0.37%、2.28%、1.32%。结果表明,研究提出的电能质量干扰源分析系统具有良好的分析能力,且0~4点的越上限电压事件和越下限电压事件是导致配电网电压变化的主要因素,电网公司应加强对该时段越限电压事件的关注并制定合理的防治与维护措施。 展开更多
关键词 大数据 apache spark 电能电量 电压变化 干扰源分析 配电网
原文传递
基于Spark的车联网分布式组合深度学习入侵检测方法 被引量:9
7
作者 俞建业 戚湧 王宝茁 《计算机科学》 CSCD 北大核心 2021年第S01期518-523,共6页
随着5G等技术在车联网领域中被广泛应用,入侵检测作为车联网信息安全重要的检测工具发挥着越来越重要的作用。由于车联网结构变化快,数据流量大,入侵形式复杂多样,传统检测方法无法确保其准确性和实时性要求,不能直接被应用到车联网。... 随着5G等技术在车联网领域中被广泛应用,入侵检测作为车联网信息安全重要的检测工具发挥着越来越重要的作用。由于车联网结构变化快,数据流量大,入侵形式复杂多样,传统检测方法无法确保其准确性和实时性要求,不能直接被应用到车联网。针对这些问题,提出了一种基于Apache Spark框架的车联网分布式组合深度学习入侵检测方法,通过构建Spark集群,将深度学习卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(LSTM)组合,进行车联网入侵特征提取和数据检测,从大规模车联网数据流量中发现异常行为。实验结果证明,与其他现有模型相比,该模型算法在时间上最快达到20.1s,准确率最高可达99.7%,具有较好的检测效果。 展开更多
关键词 入侵检测 车联网 CNN LSTM apache spark
下载PDF
Spark作业性能建模及参数优化 被引量:3
8
作者 崔晓龙 张敏 +1 位作者 刘祥 郭茜 《实验技术与管理》 CAS 北大核心 2021年第3期146-152,共7页
Apache Spark分布式大数据计算框架应用广泛,但是其配置参数繁多导致使用难度较大,且不合理的配置将严重影响作业执行性能,研究Spark参数对性能的影响并进一步对参数进行自动优化具有重要意义。该文分析了Spark作业中影响系统行为的关... Apache Spark分布式大数据计算框架应用广泛,但是其配置参数繁多导致使用难度较大,且不合理的配置将严重影响作业执行性能,研究Spark参数对性能的影响并进一步对参数进行自动优化具有重要意义。该文分析了Spark作业中影响系统行为的关键参数,建立了性能模型,并进一步探索了Spark参数自动优化的方法和策略。通过提取作业执行过程中对性能有影响的参数,对主流的19种回归模型进行了对比测试,获得通用性和拟合效果都比较好的6种回归模型,并针对不同类型的Spark任务在特定集群上建立性能模型,最后依据建立的性能模型在参数空间中利用改进的多起点爬山搜索算法寻找最优的参数组合。实验证明经参数优化后Spark作业性能有较大提升。 展开更多
关键词 apache spark 性能建模 机器学习 参数调优 搜索算法
下载PDF
基于Spark的分布式健康大数据分析系统设计与实现 被引量:1
9
作者 吴磊 欧阳赫明 《软件导刊》 2020年第7期99-102,共4页
随着各类医疗健康信息数量的增长,如何利用医疗健康大数据辅助临床诊疗和科研,已经成为各医疗科研机构普遍关注的问题。针对该问题,设计并实现了一种基于Spark的分布式健康大数据分析系统。系统采用大数据分析技术并基于随机森林模型,... 随着各类医疗健康信息数量的增长,如何利用医疗健康大数据辅助临床诊疗和科研,已经成为各医疗科研机构普遍关注的问题。针对该问题,设计并实现了一种基于Spark的分布式健康大数据分析系统。系统采用大数据分析技术并基于随机森林模型,应用多个弱分类器将多个决策树获得的结果进行集成,基于该模型实现了睡眠质量预测,同时还研究了权重较高的影响因子。最终实验预测准确率达96.84%。实验结果对于睡眠质量分析具有一定参考意义,且系统能够较好地满足健康大数据的分析处理需求。 展开更多
关键词 大数据 大数据分析 apache spark 智能健康 机器学习 随机森林
下载PDF
基于特征转移概率的网络日志聚类分析算法 被引量:1
10
作者 齐文 朱曦源 宋杰 《小型微型计算机系统》 CSCD 北大核心 2023年第3期514-520,共7页
随着信息化建设,互联网行业的发展,各种信息设备在运行和通信中,会产生大量的网络日志数据.网络日志的内容是非结构化的格式,获取相关信息具有一定难度,并且这种数据正在迅速增长为庞大的体量,所以从中获得所需的信息并对相关信息进行处... 随着信息化建设,互联网行业的发展,各种信息设备在运行和通信中,会产生大量的网络日志数据.网络日志的内容是非结构化的格式,获取相关信息具有一定难度,并且这种数据正在迅速增长为庞大的体量,所以从中获得所需的信息并对相关信息进行处理,是一个非常具有挑战性的任务.数据挖掘的技术是非常传统的技术,实施往往耗费太多时间,并产生过多的数据,大数据环境下,传统的串行的网络日志聚类方法存在性能的局限性,不再适合处理网络日志这样的海量数据,目前比较常用的对于网络日志的并行处理方法在计算时间、并行效率、准确率等方面存在一定改进空间.因而,本文提出了一种基于特征转移概率改进的网络日志聚类处理技术,并在Apache Spark平台上实现了用于提取频繁的庞大的网络日志的模式.实验结果表明,所提出的方法能够在大数据环境下对完整的网络日志提取所需信息并实现高效的分析,相对于目前常见的聚类分析算法,本文提出的基于特征转移概率的处理方式将执行时间降低到了75.97%. 展开更多
关键词 日志分析 大数据 apache spark 聚类算法 并行处理
下载PDF
基于形态相似度识别的大数据分析方法在测井岩性识别中的研究 被引量:2
11
作者 郭林 沈东义 +1 位作者 毛火明 袁秋霞 《电脑知识与技术》 2023年第3期54-56,共3页
随着石油行业数据量爆炸性增长,大数据已经引起石油行业的极大关注,通过利用大数据的新技术、新方法可降低采油成本,提高工作效率。文章通过对大数据基本理念与方法的探讨,论述了如何通过Apache Spark平台利用并行计算分析测井曲线数据... 随着石油行业数据量爆炸性增长,大数据已经引起石油行业的极大关注,通过利用大数据的新技术、新方法可降低采油成本,提高工作效率。文章通过对大数据基本理念与方法的探讨,论述了如何通过Apache Spark平台利用并行计算分析测井曲线数据,通过测井曲线形态识别进行岩性预测的方法,并开发了相关自动分析功能。 展开更多
关键词 大数据 测井 数据挖掘 apache spark 并行计算
下载PDF
大数据环境下的文旅多维数据分析系统设计与开发 被引量:3
12
作者 陈永海 《电子测试》 2021年第4期62-64,共3页
针对现有大型多维数据分析和可视化工具分析单一场景、生命周期不完善的问题,利用Apache Spark、Apache Kylin等分布式处理技术,设计并实现了一个基于场景的文化旅游大数据分析系统,提供了数据预处理、混合多场景等全生命周期分析功能,... 针对现有大型多维数据分析和可视化工具分析单一场景、生命周期不完善的问题,利用Apache Spark、Apache Kylin等分布式处理技术,设计并实现了一个基于场景的文化旅游大数据分析系统,提供了数据预处理、混合多场景等全生命周期分析功能,并且可视化功能可以使数据在各种计算平台之间自由流通,打破单一数据计算平台的功能限制,整合面向不同文本旅的场景分析功能及其性能优势,可以为不同的文化和旅游业务场景提供高效的查询服务,并通过不同的分布式处理技术达到优化大数据查询和分析性能的效果。 展开更多
关键词 大数据 多维分析 apache spark apache Kylin
下载PDF
一种面向大数据分析的快速并行决策树算法 被引量:20
13
作者 陆旭 陈毅红 +1 位作者 熊章瑞 廖彬宇 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期244-251,共8页
为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间... 为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升. 展开更多
关键词 决策树 apache spark 数据并行 大数据 连续属性
下载PDF
基于动态分布式聚类算法的大数据查询处理方法 被引量:13
14
作者 唐运乐 韦杏琼 《西南师范大学学报(自然科学版)》 CAS 2021年第5期134-139,共6页
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组... 针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式聚类;最后通过K近邻查询方式获得高精度和高效率查询结果.实验结果表明,本文提出的方法具有可扩展性,可为空间查询处理提供高质量的结果,比其他查询方法更具优势. 展开更多
关键词 大数据 动态分布式聚类 查询处理 apache spark
下载PDF
A hierarchical indexing strategy for optimizing Apache Spark with HDFS to efficiently query big geospatial raster data 被引量:5
15
作者 Fei Hu Chaowei Yang +5 位作者 Yongyao Jiang Yun Li Weiwei Song Daniel Q.Duffy John L.Schnase Tsengdar Lee 《International Journal of Digital Earth》 SCIE 2020年第3期410-428,共19页
Earth observations and model simulations are generating big multidimensional array-based raster data.However,it is difficult to efficiently query these big raster data due to the inconsistency among the geospatial ras... Earth observations and model simulations are generating big multidimensional array-based raster data.However,it is difficult to efficiently query these big raster data due to the inconsistency among the geospatial raster data model,distributed physical data storage model,and the data pipeline in distributed computing frameworks.To efficiently process big geospatial data,this paper proposes a three-layer hierarchical indexing strategy to optimize Apache Spark with Hadoop Distributed File System(HDFS)from the following aspects:(1)improve I/O efficiency by adopting the chunking data structure;(2)keep the workload balance and high data locality by building the global index(k-d tree);(3)enable Spark and HDFS to natively support geospatial raster data formats(e.g.,HDF4,NetCDF4,GeoTiff)by building the local index(hash table);(4)index the in-memory data to further improve geospatial data queries;(5)develop a data repartition strategy to tune the query parallelism while keeping high data locality.The above strategies are implemented by developing the customized RDDs,and evaluated by comparing the performance with that of Spark SQL and SciSpark.The proposed indexing strategy can be applied to other distributed frameworks or cloud-based computing systems to natively support big geospatial data query with high efficiency. 展开更多
关键词 Big data hierarchical indexing multi-dimensional apache spark HDFS distributed computing GIS
原文传递
路况大数据分析平台的设计与实现 被引量:2
16
作者 康耀龙 冯丽露 张景安 《电子技术与软件工程》 2020年第6期200-201,共2页
本文基于当下路况信息的预测问题,设计了一种路况大数据分析平台系统,本系统主要分为四个模块,可以对道路车流量、卡口状态、车辆行驶轨迹进行分析。系统主要技术是采用开源的Apache Spark计算引擎,底层使用HDFS存储数据,在Spark集群中... 本文基于当下路况信息的预测问题,设计了一种路况大数据分析平台系统,本系统主要分为四个模块,可以对道路车流量、卡口状态、车辆行驶轨迹进行分析。系统主要技术是采用开源的Apache Spark计算引擎,底层使用HDFS存储数据,在Spark集群中计算,运用Spark算子对Hive中数据进行分析,最后的分析结果录入MySQL数据库中。 展开更多
关键词 大数据分析平台 路况分析 apache spark
下载PDF
Efficient Feature Extraction Using Apache Spark for Network Behavior Anomaly Detection 被引量:2
17
作者 Xiaoming Ye Xingshu Chen +4 位作者 Dunhu Liu Wenxian Wang Li Yang Gang Liang Guolin Shao 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2018年第5期561-573,共13页
Extracting and analyzing network traffic feature is fundamental in the design and implementation of network behavior anomaly detection methods. The traditional network traffic feature method focuses on the statistical... Extracting and analyzing network traffic feature is fundamental in the design and implementation of network behavior anomaly detection methods. The traditional network traffic feature method focuses on the statistical features of traffic volume. However, this approach is not sufficient to reflect the communication pattern features. A different approach is required to detect anomalous behaviors that do not exhibit traffic volume changes, such as low-intensity anomalous behaviors caused by Denial of Service/Distributed Denial of Service (DoS/DDoS) attacks, Internet worms and scanning, and BotNets. We propose an efficient traffic feature extraction architecture based on our proposed approach, which combines the benefit of traffic volume features and network communication pattern features. This method can detect low-intensity anomalous network behaviors and conventional traffic volume anomalies. We implemented our approach on Spark Streaming and validated our feature set using labelled real-world dataset collected from the Sichuan University campus network. Our results demonstrate that the traffic feature extraction approach is efficient in detecting both traffic variations and communication structure changes. Based on our evaluation of the MIT-DRAPA dataset, the same detection approach utilizes traffic volume features with detection precision of 82.3% and communication pattern features with detection precision of 89.9%. Our proposed feature set improves precision by 94%. 展开更多
关键词 feature extraction graph theory network behavior anomaly detection apache spark
原文传递
基于云计算的智能电网电力大数据分析技术 被引量:12
18
作者 陈清明 徐欢 叶佩珊 《自动化技术与应用》 2020年第11期162-165,共4页
智能电网是一个完整的自动化系统,现有的电网系统中嵌入了大量传感器,利用现代信息技术对其进行控制和监控。从这些传感器收集的数据量非常庞大,具备了大数据的所有特征,因此提出采用大数据手段对智能电网的电力数据进行处理、分析,从... 智能电网是一个完整的自动化系统,现有的电网系统中嵌入了大量传感器,利用现代信息技术对其进行控制和监控。从这些传感器收集的数据量非常庞大,具备了大数据的所有特征,因此提出采用大数据手段对智能电网的电力数据进行处理、分析,从而使智能电网更加智能化。本文以Apache spark作为一个统一的集群计算平台,用于智能电网电力数据存储以及数据分析阶段,为电力企业、终端用户提供准确、实时的数据支持。 展开更多
关键词 智能电网 传感器 电力大数据 apache spark
下载PDF
大数据平台上的并行CART决策树算法 被引量:2
19
作者 杜小芳 陈毅红 +1 位作者 王登辉 卢思阳 《西华师范大学学报(自然科学版)》 2021年第2期196-201,共6页
决策树是机器学习中最流行、应用最广泛的分类模型之一。针对Spark-MLlib决策树算法(MLDT)训练树模型效率较低的问题,提出了一种基于Spark平台的并行CART决策树算法(SPC-DT)。首先从数据并行优化的角度出发,采用数据垂直划分,该方法使... 决策树是机器学习中最流行、应用最广泛的分类模型之一。针对Spark-MLlib决策树算法(MLDT)训练树模型效率较低的问题,提出了一种基于Spark平台的并行CART决策树算法(SPC-DT)。首先从数据并行优化的角度出发,采用数据垂直划分,该方法使每次参与基尼值计算的都是一个完整的属性列,以减少数据节点之间信息交流造成的网络资源占用;其次采用Fayyad算法对连续属性进行离散化,以降低决策树训练过程中基尼值的计算频次;最后使用基尼指数来训练决策树模型以降低计算复杂度。实验结果表明,在分类精度方面,SPC-DT和MLDT差距不大,在树的训练效率上优于MLDT算法。 展开更多
关键词 决策树 apache spark Fayyad算法 数据并行 连续属性
下载PDF
Multi-Aspect Incremental Tensor Decomposition Based on Distributed In-Memory Big Data Systems
20
作者 Hye-Kyung Yang Hwan-Seung Yong 《Journal of Data and Information Science》 CSCD 2020年第2期13-32,共20页
Purpose:We propose In Par Ten2,a multi-aspect parallel factor analysis three-dimensional tensor decomposition algorithm based on the Apache Spark framework.The proposed method reduces re-decomposition cost and can han... Purpose:We propose In Par Ten2,a multi-aspect parallel factor analysis three-dimensional tensor decomposition algorithm based on the Apache Spark framework.The proposed method reduces re-decomposition cost and can handle large tensors.Design/methodology/approach:Considering that tensor addition increases the size of a given tensor along all axes,the proposed method decomposes incoming tensors using existing decomposition results without generating sub-tensors.Additionally,In Par Ten2 avoids the calculation of Khari–Rao products and minimizes shuffling by using the Apache Spark platform.Findings:The performance of In Par Ten2 is evaluated by comparing its execution time and accuracy with those of existing distributed tensor decomposition methods on various datasets.The results confirm that In Par Ten2 can process large tensors and reduce the re-calculation cost of tensor decomposition.Consequently,the proposed method is faster than existing tensor decomposition algorithms and can significantly reduce re-decomposition cost.Research limitations:There are several Hadoop-based distributed tensor decomposition algorithms as well as MATLAB-based decomposition methods.However,the former require longer iteration time,and therefore their execution time cannot be compared with that of Spark-based algorithms,whereas the latter run on a single machine,thus limiting their ability to handle large data.Practical implications:The proposed algorithm can reduce re-decomposition cost when tensors are added to a given tensor by decomposing them based on existing decomposition results without re-decomposing the entire tensor.Originality/value:The proposed method can handle large tensors and is fast within the limited-memory framework of Apache Spark.Moreover,In Par Ten2 can handle static as well as incremental tensor decomposition. 展开更多
关键词 PARAFAC Tensor decomposition Incremental tensor decomposition apache spark Big data
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部