期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
分布式并行化数据流频繁模式挖掘算法 被引量:4
1
作者 马可 李玲娟 孙杜靖 《计算机技术与发展》 2016年第7期75-79,共5页
为了提高数据流频繁模式挖掘的效率,文中基于经典的数据流频繁模式挖掘算法FP-Stream和分布式并行计算原理,设计了一种分布式并行化数据流频繁模式挖掘算法—DPFP-Stream(Distributed Parallel Algorithm of Mining Frequent Pattern on... 为了提高数据流频繁模式挖掘的效率,文中基于经典的数据流频繁模式挖掘算法FP-Stream和分布式并行计算原理,设计了一种分布式并行化数据流频繁模式挖掘算法—DPFP-Stream(Distributed Parallel Algorithm of Mining Frequent Pattern on Data Stream)。该算法将建立频繁模式树的任务分为local和global两部分,并设置了参数"当前时间";将到达的流数据平均分配到多个不同的local节点,各local节点使用FP-Growth算法产生该单位时间内本节点的候选频繁项集,并按照单位时间将候选频繁项集及其支持度计数打包发送至global节点;global节点按"当前时间"合并各local节点的中间结果并更新模式树Pattern-Tree。在分布式数据流计算平台Storm上进行的算法实现和性能测试结果表明,DPFP-Stream算法的计算效率能够随着local节点或local bolt线程的增加而提高,适用于高效挖掘数据流中的频繁模式。 展开更多
关键词 数据流 频繁模式 分布式并行 STORM
下载PDF
基于Spark的并行分布式过程挖掘算法 被引量:7
2
作者 胡小强 吴翾 +1 位作者 闻立杰 王建民 《计算机集成制造系统》 EI CSCD 北大核心 2019年第4期791-797,共7页
针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为... 针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为活动关系矩阵。然后利用关系矩阵,按算法原本的后续步骤,挖掘出过程模型。利用Spark实现分布式α-Mine算法和分布式Flexible Heuristic Miner算法,结果表明:所提方法在时间消耗上优于目前最好的算法,挖掘效率明显提升。 展开更多
关键词 过程挖掘算法 Spark集群 大数据 并行分布式化
下载PDF
基于MapReduce框架的分布式软K段主曲线算法 被引量:1
3
作者 胡作梁 张红云 《数据采集与处理》 CSCD 北大核心 2017年第3期507-515,共9页
传统的主曲线算法在小规模数据集上能获得良好的效果,但单节点的计算和存储能力都不能满足海量数据主曲线的提取要求,而算法分布式并行化是目前解决该类问题最有效的途径之一。本文提出基于MapReduce框架的分布式软K段主曲线算法(Distri... 传统的主曲线算法在小规模数据集上能获得良好的效果,但单节点的计算和存储能力都不能满足海量数据主曲线的提取要求,而算法分布式并行化是目前解决该类问题最有效的途径之一。本文提出基于MapReduce框架的分布式软K段主曲线算法(Distributed soft k-segments principal curve,DisSKPC)。首先,基于分布式K-Means算法,采用递归粒化方法对数据集进行粒化,以确定粒的大小并保证粒中数据的关联性。然后调用软K段主曲线算法计算每个粒数据的局部主成分线段,并提出用噪声方差来消除在高密集、高曲率的数据区域可能产生的过拟合线段。最后借助哈密顿路径和贪婪算法连接这些局部主成分线段,形成一条通过数据云中间的最佳曲线。实验结果表明,本文所提出的DisSKPC算法具有良好的可行性和扩展性。 展开更多
关键词 分布式并行 主曲线 数据粒 MAPREDUCE
下载PDF
稀疏多元逻辑回归问题优化算法研究 被引量:4
4
作者 雷大江 杜萌 +1 位作者 李智星 吴渝 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2019年第3期354-366,共13页
稀疏多元逻辑回归(sparse multinomial logistic regression,SMLR)因为具有在分类的同时嵌入特征选择的作用而被广泛应用于生物信息学、高光谱图像分类、图像中的多类物体识别等领域。SMLR问题最早采用迭代重加权最小二乘法(iterative r... 稀疏多元逻辑回归(sparse multinomial logistic regression,SMLR)因为具有在分类的同时嵌入特征选择的作用而被广泛应用于生物信息学、高光谱图像分类、图像中的多类物体识别等领域。SMLR问题最早采用迭代重加权最小二乘法(iterative reweighted least squares,IRLS)的方式进行求解。但IRLS算法在处理高维数据集或者类别数较多的数据集时具有较高的计算复杂度。为了提高SMLR的可用性,提出采用一些高级优化算法如快速迭代收缩阈值法(fast iterative shrinkage threshold method,FISTA)、快速自适应收缩阈值法(fast adaptive shrinkage threshold method,FASTA)、交替方向乘子法(alternating direction multiplier method,ADMM)等来对SMLR问题进行求解。此外,为提高SMLR的适用性,还考虑了SMLR问题的分布式优化求解。对提出的几种SMLR优化求解算法的性能在不同数据集下进行了综合比较。实验结果表明,提出的算法在求解速度和准确率指标上都优于目前最先进的基于IRLS的SMLR优化算法。 展开更多
关键词 稀疏优 交替方向乘子法 分布式并行 稀疏多元逻辑回归
下载PDF
云计算环境下舰船控制系统大数据有效存储方法 被引量:1
5
作者 王颖 《舰船科学技术》 北大核心 2023年第13期170-173,共4页
船舶控制系统大数据存储节点数量较多,节点分布不均,影响负载均衡性,导致数据存储过程中存在安全性与容错性差等问题,为此研究云计算环境下舰船控制系统大数据有效存储方法。构建云计算环境下船舶控制系统大数据存储架构,利用分布式大... 船舶控制系统大数据存储节点数量较多,节点分布不均,影响负载均衡性,导致数据存储过程中存在安全性与容错性差等问题,为此研究云计算环境下舰船控制系统大数据有效存储方法。构建云计算环境下船舶控制系统大数据存储架构,利用分布式大数据存储层中的管理引擎采集舰船控制系统数据;通过MapReduce分布式并行模型将所采集的数据划分至分布式数据库内;针对分布式数据库内的数据,采用安全容错存储算法将待存储的数据均匀地划分至相应的硬件层中计算机服务器节点内,完成舰船控制系统数据有效存储。实验结果显示该方法能够实现不同存储节点负载均衡,且具有较好的大数据存储性能。 展开更多
关键词 云计算环境 舰船控制系统 大数据存储 MAPREDUCE 分布式并行 安全容错
下载PDF
生产制造企业大数据分析平台技术 被引量:2
6
作者 孙也 《电子技术与软件工程》 2021年第16期178-179,共2页
本文为了满足海量数据处理需求,提高生产制造企业的数据分析和处理能力,设计了一款功能完善、适用性强大的大数据分析平台。首先,在完成调频发射机N+1自动切换控制系统框架设计的基础上,从数据的获取和存储模块、大数据分析模块、大数... 本文为了满足海量数据处理需求,提高生产制造企业的数据分析和处理能力,设计了一款功能完善、适用性强大的大数据分析平台。首先,在完成调频发射机N+1自动切换控制系统框架设计的基础上,从数据的获取和存储模块、大数据分析模块、大数据集群功能模块、平台课时化模块等方面入手,完成对大数据分析平台的功能模块设计和实现。结果表明:大数据分析平台运行正常、可靠、稳定,各个功能模块实现满足设计相关要求,符合实际应用需求。希望通过这次研究,为技术人员提供有效的借鉴和参考。 展开更多
关键词 大数据平台 分布式并行 STKmeans 不均衡数据
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部