期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
动态在线Map/Reduce流数据处理模型及作业拓扑管理协议
1
作者 魏晓辉 李翔 +2 位作者 李洪亮 李聪 庄园 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第5期950-955,共6页
针对海量流数据的在线处理需求,提出一种不同于传统Map/Reduce流数据处理的系统模型Flexible workflow.该模型对workflow处理单元进行在线Map/Reduce并行化,实现了SPATE系统;同时为该系统定义一组关于作业的建立、管理和维护的通信规程... 针对海量流数据的在线处理需求,提出一种不同于传统Map/Reduce流数据处理的系统模型Flexible workflow.该模型对workflow处理单元进行在线Map/Reduce并行化,实现了SPATE系统;同时为该系统定义一组关于作业的建立、管理和维护的通信规程,即拓扑管理协议.SPATE系统解决了在线Map/Reduce流数据处理过程中要求实时性及可扩展性的问题.实验验证了拓扑管理协议的有效性,拓扑管理协议能有效管理Flexible workflow流数据处理模型. 展开更多
关键词 流数据处理 FLEXIBLE workflow模型 map/reduce 拓扑管理
下载PDF
一种改进的基于遗传算法的Map/Reduce模型 被引量:1
2
作者 邹华 《铜仁学院学报》 2013年第2期134-137,共4页
为了解决数据存储的安全性问题,提出了一种云计算环境下的改进型Map/Reduce模型。模型改进了传统Map/Reduce模型没有考虑集群中大量异构节点的计算性能差异问题,通过采用最小化最大计算时间的目标函数进行建模,实现了一种更高效、更合... 为了解决数据存储的安全性问题,提出了一种云计算环境下的改进型Map/Reduce模型。模型改进了传统Map/Reduce模型没有考虑集群中大量异构节点的计算性能差异问题,通过采用最小化最大计算时间的目标函数进行建模,实现了一种更高效、更合理利用资源的分配算法。 展开更多
关键词 数据存储 map reduce模型 云安全 异构节点
下载PDF
聚类算法的Map/Reduce并行编程框架
3
作者 郑欣阳 王艳 《信息与电脑》 2016年第5期74-75,共2页
数据挖掘算法在经济学中的应用显示了其商业潜力。聚类算法的Map/Reduce并行程序能处理大数据,因此,研究Map/Reduce针对某一个具体问题的编程过程具有现实意义。笔者提供了聚类算法的Map/Reduce编程方式和C++语言并行程序。
关键词 聚类算法 map/reduce编程 簇中心
下载PDF
基于Map/Reduce的朴素贝叶斯数据分类算法研究 被引量:12
4
作者 崔良中 郭福亮 宋建新 《海军工程大学学报》 CAS 北大核心 2019年第4期7-10,共4页
针对目前机器学习研究领域中的数据分类问题,选择朴素贝叶斯算法作为研究对象。首先,通过对样本数据特征属性的权重进行加权调整,提高算法处理的准确率;然后,改进朴素贝叶斯算法分类器模型,使其能够利用Map/Reduce并行编程模型,采用多... 针对目前机器学习研究领域中的数据分类问题,选择朴素贝叶斯算法作为研究对象。首先,通过对样本数据特征属性的权重进行加权调整,提高算法处理的准确率;然后,改进朴素贝叶斯算法分类器模型,使其能够利用Map/Reduce并行编程模型,采用多计算资源节点并行处理,进一步提高处理速度。最后,对UCI dataset数据库进行实验验证,结果表明:改进后的算法在海量数据分类处理中具有更好的性能表现。 展开更多
关键词 map/reduce并行编程模型 数据分类算法 贝叶斯算法 海量数据处理
下载PDF
一种基于MapReduce的短时交通流预测方法 被引量:11
5
作者 梁轲 谭建军 李英远 《计算机工程》 CAS CSCD 北大核心 2015年第1期174-179,共6页
非参数回归方法是短时交通流预测常用的方法,但现有非参数回归方法存在预测速度与精度之间的矛盾。为此,提出一种适用于海量历史数据、基于Map Reduce与遗传算法的非参数回归短时交通流预测方法。通过引入Map Reduce并行计算框架,加快K... 非参数回归方法是短时交通流预测常用的方法,但现有非参数回归方法存在预测速度与精度之间的矛盾。为此,提出一种适用于海量历史数据、基于Map Reduce与遗传算法的非参数回归短时交通流预测方法。通过引入Map Reduce并行计算框架,加快K最近邻算法的搜索速度。在数据预处理阶段利用遗传算法优化关键参数的设置,并采用Map Reduce加速参数优化过程,以解决遗传算法迭代运算时间长的问题。实验结果表明,该方法在保证交通流预测精度的前提下,明显提高了预测速度,并且具有较好的可伸缩性。 展开更多
关键词 交通流预测 非参数回归 K最近邻搜索 遗传算法 map reduce编程模型 并行计算
下载PDF
基于Map/Reduce的民航高价值旅客发现方法 被引量:5
6
作者 曹卫东 白亮 聂笑盈 《计算机工程与设计》 北大核心 2015年第4期1078-1083,共6页
为解决常旅客计划模型评价指标单一,不能准确识别高价值旅客的问题,提出一种将Map/Reduce并行处理与数据挖掘知识相结合的发现方法。利用Map/Reduce数据处理模型,在Hadoop分布式平台上并行处理海量PNR数据;根据改进的RFD模型,确定客户... 为解决常旅客计划模型评价指标单一,不能准确识别高价值旅客的问题,提出一种将Map/Reduce并行处理与数据挖掘知识相结合的发现方法。利用Map/Reduce数据处理模型,在Hadoop分布式平台上并行处理海量PNR数据;根据改进的RFD模型,确定客户价值指标,利用AHP层次分析法将专家经验值量化为指标权重;利用聚类分析技术识别高价值旅客,采用真实的PNR数据集进行实验。实验结果表明,该方法能够有效识别民航高价值旅客,为航空公司做出有效决策提供有利依据。 展开更多
关键词 map/reduce映射归约 数据挖掘 RFD模型 AHP层次分析法 客户价值
下载PDF
基于Map Reduce的Bagging贝叶斯文本分类 被引量:2
7
作者 冀素琴 石洪波 卫洁 《计算机工程》 CAS CSCD 2012年第16期203-206,211,共5页
集中式系统框架难以进行海量文本数据分类。为此,提出一种基于Map Reduce的Bagging贝叶斯文本分类算法。介绍朴素贝叶斯文本分类算法,将其与Bagging算法结合,运用Map Reduce并行编程模型,在Hadoop平台上实现算法。实验结果表明,该算法... 集中式系统框架难以进行海量文本数据分类。为此,提出一种基于Map Reduce的Bagging贝叶斯文本分类算法。介绍朴素贝叶斯文本分类算法,将其与Bagging算法结合,运用Map Reduce并行编程模型,在Hadoop平台上实现算法。实验结果表明,该算法分类准确率较高,运行时间较短,适用于大规模文本数据集的分类学习。 展开更多
关键词 分布式 map reduce模型 文本分类 集成学习 朴素贝叶斯 BAGGING算法
下载PDF
基于Map Reduce的序列模式挖掘算法 被引量:2
8
作者 刘栋 尉永清 薛文娟 《计算机工程》 CAS CSCD 2012年第15期43-45,共3页
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构... 传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。 展开更多
关键词 云计算 并行处理 map reduce模型 PREFIXSPAN算法 序列模式 HADOOP平台
下载PDF
基于模拟退火的Map Reduce调度算法 被引量:9
9
作者 遆鸣 陈俊杰 强彦 《计算机工程》 CAS CSCD 2012年第19期45-48,共4页
在计算能力作业调度算法的基础上,提出一种基于模拟退火的Map Reduce作业调度算法。利用带记忆功能的模拟退火算法选择最优作业,从而避免陷入局部最优解。在Hadoop平台上的实验结果表明,该算法能减少所有作业的运行时间以及每个作业的... 在计算能力作业调度算法的基础上,提出一种基于模拟退火的Map Reduce作业调度算法。利用带记忆功能的模拟退火算法选择最优作业,从而避免陷入局部最优解。在Hadoop平台上的实验结果表明,该算法能减少所有作业的运行时间以及每个作业的等待响应时间,具有较高的作业调度效率及用户满意度。 展开更多
关键词 云计算 作业调度 HADOOP平台 模拟退火 map reduce模型 局部最优
下载PDF
基于MapReduce的SQL查询优化分析 被引量:2
10
作者 张首正 周凯东 《计算机应用》 CSCD 北大核心 2014年第A02期63-65,共3页
对SQL翻译成Map Reduce程序的性能进行分析,并对影响翻译性能的原因进行阐述。结合Map Reduce作业间输入相关性、数据转换相关性和作业流相关性的分析,通过合并冗余的作业,减少资源消耗,从而达到提高SQL查询性能的目的,给出了优化条件... 对SQL翻译成Map Reduce程序的性能进行分析,并对影响翻译性能的原因进行阐述。结合Map Reduce作业间输入相关性、数据转换相关性和作业流相关性的分析,通过合并冗余的作业,减少资源消耗,从而达到提高SQL查询性能的目的,给出了优化条件和优化规则。通过对优化前后的性能进行对比,证明改进后的SQL过程有更高的执行效率。 展开更多
关键词 大数据 SQL查询 性能优化 map reduce模型
下载PDF
基于MAP/REDUCE的移动目标连续轨迹模式挖掘的研究 被引量:1
11
作者 彭茗菁 马传香 李伟亮 《物联网技术》 2014年第10期59-60,63,共3页
针对传统序列模式挖掘算法都是针对单机环境、静态实例以及非连续轨迹的不足,提出了Map/Reduce系统与经过优化的PrefixSpan序列模式挖掘算法相结合的改进型算法。该算法在生成投影数据库时,只有当待投影序列的第一个元素和前缀的最后一... 针对传统序列模式挖掘算法都是针对单机环境、静态实例以及非连续轨迹的不足,提出了Map/Reduce系统与经过优化的PrefixSpan序列模式挖掘算法相结合的改进型算法。该算法在生成投影数据库时,只有当待投影序列的第一个元素和前缀的最后一个元素相同时才会被选中,保证了挖掘出的都是连续轨迹片段。同时采用并行处理的方法,使用Map函数构建每个频繁序列前缀对应的投影数据库,使用Reduce函数整合所有的中间键值对得到需要的结果。 展开更多
关键词 map/reduce模型 改进型PrefixSpan算法 轨迹模式 数据挖掘
下载PDF
基于改进遗传算法的云计算平台负载均衡优化模型 被引量:1
12
作者 秦建军 《生活教育》 2016年第21期123-125,共3页
云计算是一种由网格计算、分布式计算以及并行计算发展起来的新型计算模式。针对标准遗传算法在云计算资源调度的应用中往往会出现负载不均的问题,本文提出了一种基于Map/Reduce编程模型实现对诸多任务的分配功能的改进的多任务调度算法。
关键词 负载均衡 遗传算法 map/reduce编程模型 适应度函数
下载PDF
基于海量搜索历史数据的用户兴趣模型 被引量:3
13
作者 詹天晟 陈德华 +1 位作者 乐嘉锦 王梅 《计算机应用》 CSCD 北大核心 2014年第A02期126-129,139,共5页
针对互联网搜索引擎环境中,基于海量搜索历史数据分析用户兴趣的问题,提出一种改进的用户兴趣模型。该模型根据用户搜索的历史数据,结合向量空间模型(VSM)和TF-IDF算法,递归地回溯出用户兴趣权重列表。为解决用户兴趣变化和时间性能的问... 针对互联网搜索引擎环境中,基于海量搜索历史数据分析用户兴趣的问题,提出一种改进的用户兴趣模型。该模型根据用户搜索的历史数据,结合向量空间模型(VSM)和TF-IDF算法,递归地回溯出用户兴趣权重列表。为解决用户兴趣变化和时间性能的问题,该模型引入时间遗忘机制进行动态更新,并在Hadoop分布式系统架构下利用Map Reduce分布式编程模型进行实现。实验结果表明,改进的用户兴趣模型的查准率和召回率都能达到50%,具有较好的可行性和可用性。 展开更多
关键词 向量空间模型 TF-IDF HADOOP map reduce 用户兴趣模型
下载PDF
基于大数据技术调度端电网模型管理和分析架构 被引量:23
14
作者 赵林 张令涛 +4 位作者 马仲佳 郭子明 张浩 李新鹏 沈国辉 《电网技术》 EI CSCD 北大核心 2017年第12期3750-3756,共7页
为了实现大运行体系下的共享多标准电网模型的统计和分析,提出了一种应用于调度端的基于大数据技术的电网模型管理和分析的架构。首先分析了大数据存储结构的特点,根据电网模型特点采用文本式结构保存电网模型,设计出结构化的主键值表... 为了实现大运行体系下的共享多标准电网模型的统计和分析,提出了一种应用于调度端的基于大数据技术的电网模型管理和分析的架构。首先分析了大数据存储结构的特点,根据电网模型特点采用文本式结构保存电网模型,设计出结构化的主键值表征电网模型的时间、空间和应用多维度的扩展。然后研究了多源异构电网模型的ETL(extract,transform,load)技术,将调度端电网模型提取转存至分布式大数据平台。采用Map Reduce并行计算框架对模型数据进行分布式计算,为了提高分布式计算的效率,降低I/O消耗,采用索引技术对模型数据进行处理,减少各节点对全表数据进行扫描的次数。最后在调度端图形编辑器中,利用所提出的模型分析技术实现了电网图形模型的搜索,利用热度图实现了大数据搜索结果的可视化展示,并通过实例证明了所提方法的有效性。 展开更多
关键词 ETL map reduce 复合索引 大数据 电网模型
下载PDF
基于大数据聚类的电力系统中长期负荷预测 被引量:47
15
作者 徐源 程潜善 +3 位作者 李阳 张浩 余伟 何冰 《电力系统及其自动化学报》 CSCD 北大核心 2017年第8期43-48,共6页
随着电网数据收集能力的提升,积累了海量的负荷及相关数据,为负荷预测开辟了新的思路。提出了一种应用大数据技术的中长期负荷预测新方法。首先通过历史负荷序列的增长趋势、波动性等变化特性的参数化表达,实现负荷的标准化处理,形成大... 随着电网数据收集能力的提升,积累了海量的负荷及相关数据,为负荷预测开辟了新的思路。提出了一种应用大数据技术的中长期负荷预测新方法。首先通过历史负荷序列的增长趋势、波动性等变化特性的参数化表达,实现负荷的标准化处理,形成大数据聚类的样本;然后结合大数据分析平台的数据处理能力设计了基于Map Reduce并行编程模型的改进模糊K-means聚类方法,实现对负荷大数据的聚类划分;最后综合相同聚类负荷,并建立预测模型。计算结果表明,大数据聚类算法能有效地进行大量负荷数据的聚类划分,实现不同增长特性负荷的区分预测,具有较高的预测精度。 展开更多
关键词 大数据 中长期负荷预测 聚类分析 map reduce 并行编程
下载PDF
基于Hadoop的Web日志挖掘 被引量:64
16
作者 程苗 陈华平 《计算机工程》 CAS CSCD 北大核心 2011年第11期37-39,共3页
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。... 基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。 展开更多
关键词 云计算 Hadoop架构 map/reduce编程模式 WEB日志挖掘 遗传算法 偏爱访问路径
下载PDF
基于并行Adaboost-BP网络的大规模在线学习行为评价 被引量:4
17
作者 曹建芳 郝耀军 《计算机应用与软件》 2017年第7期267-272,共6页
针对传统的在线学习行为评价方法在处理大规模数据集时面临的问题,提出一种基于并行AdaboostBP神经网络的在线学习行为评价方法。将BP神经网络作为弱预测器,由Adaboost算法组合15个BP神经网络的输出,构建了强预测器;充分利用了Hadoop平... 针对传统的在线学习行为评价方法在处理大规模数据集时面临的问题,提出一种基于并行AdaboostBP神经网络的在线学习行为评价方法。将BP神经网络作为弱预测器,由Adaboost算法组合15个BP神经网络的输出,构建了强预测器;充分利用了Hadoop平台下Map Reduce并行编程模型,提出了大规模在线学习行为的自动评价模型,设计了并行Adaboost-BP神经网络算法的Map和Reduce任务。多组实验表明,提出的算法准确率高、运行耗时少,取得了良好的加速比,效率大于0.5,适合大规模在线学习行为的自动评价。 展开更多
关键词 Adaboost-BP 神经网络 在线学习行为 特征提取 map reduce 并行编程模型
下载PDF
云计算下的一种数据挖掘算法的研究 被引量:5
18
作者 刘继华 强彦 《科技通报》 北大核心 2016年第12期133-137,共5页
如何进行云计算下的数据挖掘一直以来都是研究的重点,本文针对传统挖掘算法K-meas的不足,提出基于数据采样和分布密度的改进方法来获取算法的中心点,在聚类中构造函数提高了聚类效果,并对云计算下的Map/Reduce模型进行了函数改进,仿真... 如何进行云计算下的数据挖掘一直以来都是研究的重点,本文针对传统挖掘算法K-meas的不足,提出基于数据采样和分布密度的改进方法来获取算法的中心点,在聚类中构造函数提高了聚类效果,并对云计算下的Map/Reduce模型进行了函数改进,仿真实验通过对不同的数据集进行实验,从聚类分析比较,系统运行时间,加速比等方面说明了本文的算法适合在云计算下的数据挖掘具有一定的优越性。 展开更多
关键词 云计算 K-meas map/reduce模型 中心点 聚类
下载PDF
Hadoop平台下计算能力调度算法的改进与实现 被引量:4
19
作者 戴小平 张宜力 《计算机工程与应用》 CSCD 北大核心 2015年第19期61-65,共5页
在计算能力调度算法中没有全面考虑各资源特征的分配是否满足作业多样的服务要求,提出一种基于优先级的计算能力加权调度算法,根据作业的优先级以及提交时间等因素来计算作业的权重。依据作业的权重对作业队列进行排序并分配空闲的slot... 在计算能力调度算法中没有全面考虑各资源特征的分配是否满足作业多样的服务要求,提出一种基于优先级的计算能力加权调度算法,根据作业的优先级以及提交时间等因素来计算作业的权重。依据作业的权重对作业队列进行排序并分配空闲的slot给队首的作业,从而避免调度陷入局部最优也能更好地满足作业的多样性服务要求。在搭建的Hadoop平台上进行实验表明,改进后的算法能较均衡地分配系统资源减少一些作业的等待时间,并且运行全部作业的用时有所减少。 展开更多
关键词 云计算 作业调度 HADOOP 加权 map reduce编程模型
下载PDF
面向大数据系统的检测器快速筛选算法 被引量:1
20
作者 蔡涛 倪晓蓉 +1 位作者 王伟生 牛德姣 《计算机工程》 CAS CSCD 北大核心 2015年第9期45-50,共6页
筛选成熟检测器是决定人工免疫系统性能和效率的关键因素,在大数据环境下由于初始检测器的数量极其庞大,会造成现有检测器筛选算法时间开销过大。针对该问题,提出一种新的海量初始检测器快速筛选算法。设计海量初始检测器的分布存储模式... 筛选成熟检测器是决定人工免疫系统性能和效率的关键因素,在大数据环境下由于初始检测器的数量极其庞大,会造成现有检测器筛选算法时间开销过大。针对该问题,提出一种新的海量初始检测器快速筛选算法。设计海量初始检测器的分布存储模式,利用Map/Reduce模型,给出混合式初始检测器快速筛选架构、海量初始检测器分区检查策略和成熟检测器集优化策略,以提高筛选初始检测器的效率,优化成熟检测器。在Hadoop集群中实现面向大数据系统检测器快速筛选算法原型系统,使用CERT synthethic sendmail data数据集进行测试与分析,结果表明,与传统算法相比,该算法能减少58.87%的时间开销,并在初始检测器数量不断增加时保持时间开销的稳定。 展开更多
关键词 检测器生成算法 大数据系统 人工免疫系统 map/reduce模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部