期刊文献+
共找到729篇文章
< 1 2 37 >
每页显示 20 50 100
基于Map/Reduce的改进选择算法在云计算的Web数据挖掘中的研究 被引量:13
1
作者 方少卿 周剑 张明新 《计算机应用研究》 CSCD 北大核心 2013年第2期377-379,395,共4页
针对目前在搜索方面的数据量大、搜索延迟的特点,提出了基于云计算的Web挖掘的搜索模型。采用提出的基于Map/Reduce模型的改进型算法,通过仿真实验验证了该算法的可行性,在一定程度上减少了搜索的代价,提高了搜索效率。
关键词 云计算 WEB数据挖掘 map reduce
下载PDF
基于MapReduce与相关子空间的局部离群数据挖掘算法 被引量:41
2
作者 张继福 李永红 +1 位作者 秦啸 荀亚玲 《软件学报》 EI CSCD 北大核心 2015年第5期1079-1095,共17页
针对高维海量数据,在Map Reduce编程模型下,提出了一种基于相关子空间的局部离群数据挖掘算法.该算法首先利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密... 针对高维海量数据,在Map Reduce编程模型下,提出了一种基于相关子空间的局部离群数据挖掘算法.该算法首先利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了相关子空间中的局部离群因子计算公式,有效地体现了相关子空间中数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据;在此基础上,采用LSH分布式策略,提出了一种Map Reduce编程模型下的局部离群数据挖掘算法;最后,采用人工数据集和恒星光谱数据集,实验验证了该算法的有效性、可扩展性和可伸缩性. 展开更多
关键词 局部离群数据 相关子空间 map reduce 局部稀疏度 概率密度
下载PDF
基于MapReduce的Web日志挖掘 被引量:15
3
作者 李彬 刘莉莉 《计算机工程与应用》 CSCD 2012年第22期95-98,共4页
针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Ha... 针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。 展开更多
关键词 云计算 map/reduce HADOOP平台 WEB日志挖掘 蚁群算法
下载PDF
基于Map/Reduce的民航高价值旅客发现方法 被引量:5
4
作者 曹卫东 白亮 聂笑盈 《计算机工程与设计》 北大核心 2015年第4期1078-1083,共6页
为解决常旅客计划模型评价指标单一,不能准确识别高价值旅客的问题,提出一种将Map/Reduce并行处理与数据挖掘知识相结合的发现方法。利用Map/Reduce数据处理模型,在Hadoop分布式平台上并行处理海量PNR数据;根据改进的RFD模型,确定客户... 为解决常旅客计划模型评价指标单一,不能准确识别高价值旅客的问题,提出一种将Map/Reduce并行处理与数据挖掘知识相结合的发现方法。利用Map/Reduce数据处理模型,在Hadoop分布式平台上并行处理海量PNR数据;根据改进的RFD模型,确定客户价值指标,利用AHP层次分析法将专家经验值量化为指标权重;利用聚类分析技术识别高价值旅客,采用真实的PNR数据集进行实验。实验结果表明,该方法能够有效识别民航高价值旅客,为航空公司做出有效决策提供有利依据。 展开更多
关键词 map/reduce映射归约 数据挖掘 RFD模型 AHP层次分析法 客户价值
下载PDF
基于Map/Reduce的海量视频图像检索系统设计 被引量:7
5
作者 杨曼 何鹏 +1 位作者 齐怀琴 安井然 《电视技术》 北大核心 2015年第4期33-36,共4页
齐齐哈尔市公安视频监控系统中每天所产生的大量视频数据对视频图像的检索、管理及安全产生了迫切的需求,视频图像的检索存在两个急需解决的问题,一是视频检索的准确度问题,二是检索效率的问题。面对海量的视频数据库,提出了基于Map/Red... 齐齐哈尔市公安视频监控系统中每天所产生的大量视频数据对视频图像的检索、管理及安全产生了迫切的需求,视频图像的检索存在两个急需解决的问题,一是视频检索的准确度问题,二是检索效率的问题。面对海量的视频数据库,提出了基于Map/Reduce分布式计算模型与关键帧算法结合的方法,既提高了检索效率,又提高了检索准确率。 展开更多
关键词 map/reduce 关键帧 视频检索
下载PDF
基于Map/Reduce的朴素贝叶斯数据分类算法研究 被引量:12
6
作者 崔良中 郭福亮 宋建新 《海军工程大学学报》 CAS 北大核心 2019年第4期7-10,共4页
针对目前机器学习研究领域中的数据分类问题,选择朴素贝叶斯算法作为研究对象。首先,通过对样本数据特征属性的权重进行加权调整,提高算法处理的准确率;然后,改进朴素贝叶斯算法分类器模型,使其能够利用Map/Reduce并行编程模型,采用多... 针对目前机器学习研究领域中的数据分类问题,选择朴素贝叶斯算法作为研究对象。首先,通过对样本数据特征属性的权重进行加权调整,提高算法处理的准确率;然后,改进朴素贝叶斯算法分类器模型,使其能够利用Map/Reduce并行编程模型,采用多计算资源节点并行处理,进一步提高处理速度。最后,对UCI dataset数据库进行实验验证,结果表明:改进后的算法在海量数据分类处理中具有更好的性能表现。 展开更多
关键词 map/reduce并行编程模型 数据分类算法 贝叶斯算法 海量数据处理
下载PDF
MapReduce框架下支持差分隐私保护的k-means聚类方法 被引量:24
7
作者 李洪成 吴晓平 陈燕 《通信学报》 EI CSCD 北大核心 2016年第2期124-130,共7页
针对传统隐私保护方法无法应对任意背景知识下恶意分析的问题,提出了分布式环境下满足差分隐私的k-means算法。该算法利用Map Reduce计算框架,由主任务控制k-means迭代执行;指派Mapper分任务独立并行计算各数据片中每条记录与聚类中心... 针对传统隐私保护方法无法应对任意背景知识下恶意分析的问题,提出了分布式环境下满足差分隐私的k-means算法。该算法利用Map Reduce计算框架,由主任务控制k-means迭代执行;指派Mapper分任务独立并行计算各数据片中每条记录与聚类中心的距离并标记其属于的聚类;指派Reducer分任务计算同一聚类中的记录数量num和属性向量之和sum,并利用Laplace机制产生的噪声扰动num和sum,进而实现隐私保护。根据差分隐私的组合特性,从理论角度证明整个算法满足ε-差分隐私保护。实验结果证明了该方法在提高隐私性和时效性的情况下,保证了较好的可用性。 展开更多
关键词 数据挖掘 K-均值聚类 map reduce 差分隐私保护 Laplace机制
下载PDF
一种基于MapReduce的短时交通流预测方法 被引量:11
8
作者 梁轲 谭建军 李英远 《计算机工程》 CAS CSCD 北大核心 2015年第1期174-179,共6页
非参数回归方法是短时交通流预测常用的方法,但现有非参数回归方法存在预测速度与精度之间的矛盾。为此,提出一种适用于海量历史数据、基于Map Reduce与遗传算法的非参数回归短时交通流预测方法。通过引入Map Reduce并行计算框架,加快K... 非参数回归方法是短时交通流预测常用的方法,但现有非参数回归方法存在预测速度与精度之间的矛盾。为此,提出一种适用于海量历史数据、基于Map Reduce与遗传算法的非参数回归短时交通流预测方法。通过引入Map Reduce并行计算框架,加快K最近邻算法的搜索速度。在数据预处理阶段利用遗传算法优化关键参数的设置,并采用Map Reduce加速参数优化过程,以解决遗传算法迭代运算时间长的问题。实验结果表明,该方法在保证交通流预测精度的前提下,明显提高了预测速度,并且具有较好的可伸缩性。 展开更多
关键词 交通流预测 非参数回归 K最近邻搜索 遗传算法 map reduce编程模型 并行计算
下载PDF
基于MapReduce的并行抽样路径K-匿名隐私保护算法 被引量:3
9
作者 刘杰 沈微微 +1 位作者 戈军 王学军 《电子技术应用》 北大核心 2017年第9期132-136,共5页
K-匿名算法及现存K-匿名改进算法大多使用牺牲时间效率降低发布数据信息损失量的方法实现数据的匿名化,但随着数据量的急剧增长,传统的数据匿名化方法已不适用于对较大数据的处理。针对K-匿名算法在单机执行过程中产生大量频繁项集和重... K-匿名算法及现存K-匿名改进算法大多使用牺牲时间效率降低发布数据信息损失量的方法实现数据的匿名化,但随着数据量的急剧增长,传统的数据匿名化方法已不适用于对较大数据的处理。针对K-匿名算法在单机执行过程中产生大量频繁项集和重复搜索数据表的缺点,将MapReduce模型引入到抽样泛化路径K-匿名算法中对其进行优化。该方法兼具MapReduce及抽样泛化算法的优点,高效分布式匿名化数据集,降低发布数据集信息损失量,提高数据的可用性。实验结果表明:当数据量较大时,该优化算法在时间效率及数据精度方面有显著提高。 展开更多
关键词 map reduce K-匿名 抽样
下载PDF
基于Map Reduce的Bagging贝叶斯文本分类 被引量:2
10
作者 冀素琴 石洪波 卫洁 《计算机工程》 CAS CSCD 2012年第16期203-206,211,共5页
集中式系统框架难以进行海量文本数据分类。为此,提出一种基于Map Reduce的Bagging贝叶斯文本分类算法。介绍朴素贝叶斯文本分类算法,将其与Bagging算法结合,运用Map Reduce并行编程模型,在Hadoop平台上实现算法。实验结果表明,该算法... 集中式系统框架难以进行海量文本数据分类。为此,提出一种基于Map Reduce的Bagging贝叶斯文本分类算法。介绍朴素贝叶斯文本分类算法,将其与Bagging算法结合,运用Map Reduce并行编程模型,在Hadoop平台上实现算法。实验结果表明,该算法分类准确率较高,运行时间较短,适用于大规模文本数据集的分类学习。 展开更多
关键词 分布式 map reduce模型 文本分类 集成学习 朴素贝叶斯 BAGGING算法
下载PDF
基于Map Reduce的序列模式挖掘算法 被引量:2
11
作者 刘栋 尉永清 薛文娟 《计算机工程》 CAS CSCD 2012年第15期43-45,共3页
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构... 传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。 展开更多
关键词 云计算 并行处理 map reduce模型 PREFIXSPAN算法 序列模式 HADOOP平台
下载PDF
基于Map-Reduce的海量数据高效Skyline查询处理 被引量:44
12
作者 丁琳琳 信俊昌 +1 位作者 王国仁 黄山 《计算机学报》 EI CSCD 北大核心 2011年第10期1785-1796,共12页
Skyline查询已成为现今数据库和信息检索领域的研究热点之一,伴随着人类可以采集和利用的数据信息的急剧增长,使得如何处理海量数据的Skyline查询成为急需解决的问题.近年来兴起的Map-Reduce编程框架能够有效地处理基于海量数据的应用,... Skyline查询已成为现今数据库和信息检索领域的研究热点之一,伴随着人类可以采集和利用的数据信息的急剧增长,使得如何处理海量数据的Skyline查询成为急需解决的问题.近年来兴起的Map-Reduce编程框架能够有效地处理基于海量数据的应用,该文既是研究如何运用Map-Reduce编程框架解决海量数据的Skyline查询问题.在Map-Reduce框架下处理Skyline查询的直接方法是扫描整个数据集进而得到查询结果,但是在海量数据Skyline查询问题中,查询结果的数量远小于原始数据集的数据量,对此该文提出了一系列的Skyline查询算法及优化,有效地过滤掉部分不能成为Skyline查询结果的数据对象,大幅度提高了在Map-Reduce框架下处理Skyline查询的效率.大量运行在Hadoop平台上的实验验证了该文所提出的Skyline查询处理算法具有良好的有效性、准确性和可用性. 展开更多
关键词 云计算 SKYLINE查询 map-reduce 海量数据 HADOOP
下载PDF
基于Map-Reduce的大数据缺失值填充算法 被引量:18
13
作者 金连 王宏志 +1 位作者 黄沈滨 高宏 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期312-321,共10页
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性... 缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度. 展开更多
关键词 缺失值填充 概率推理 map-reduce
下载PDF
温度感知的MapReduce节能任务调度策略 被引量:8
14
作者 廖彬 张陶 +3 位作者 于炯 刘继 尹路通 郭刚 《通信学报》 EI CSCD 北大核心 2016年第1期61-75,共15页
现有的FIFO、Fair、Capacity、LATE及Deadline Constraint等Map Reduce任务调度器的主要区别在于队列与作业选择策略的不同,而任务选择策略基本相同,都是将数据的本地性(data-locality)作为选择的主要因素,忽略了对Task Tracker当前温... 现有的FIFO、Fair、Capacity、LATE及Deadline Constraint等Map Reduce任务调度器的主要区别在于队列与作业选择策略的不同,而任务选择策略基本相同,都是将数据的本地性(data-locality)作为选择的主要因素,忽略了对Task Tracker当前温度状态的考虑。实验表明,当Task Tracker处于高温状态时,一方面使CPU利用率变高,导致节点能耗增大,任务处理速度下降,导致任务完成时间增加;另一方面,易发的宕机现象将直接导致任务的失败,推测执行(speculative execution)机制容易使运行时任务被迫中止。继而提出温度感知的节能任务调度策略,将节点CPU温度纳入任务调度的决策信息,以避免少数高温任务执行节点对作业整体进度的影响。实验结果表明,算法能够避免任务分配到高温节点,从而有效地缩短作业完成时间,减小作业执行能耗,提高系统稳定性。 展开更多
关键词 绿色计算 mapreduce 任务调度 温度感知
下载PDF
基于MapReduce的SimRank算法在图聚类中的应用 被引量:3
15
作者 冷泳林 鲁富宇 《电子设计工程》 2015年第6期9-11,15,共4页
由Jeh和Widom提出的Sim Rank算法是一种普适"结构相似度"计算模型。由于Sim Rank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本... 由Jeh和Widom提出的Sim Rank算法是一种普适"结构相似度"计算模型。由于Sim Rank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于Map Reduce计算模型的分布式Sim Rank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。 展开更多
关键词 SIM RANK map reduce RDF AP聚类
下载PDF
一种基于MapReduce的知识聚类与统计机制 被引量:1
16
作者 徐小龙 李永萍 《电子与信息学报》 EI CSCD 北大核心 2016年第1期202-208,共7页
网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于Map Reduce的知识聚类与统计机制:首先,提出基于Map Reduce的共现矩阵构建算法MR-Co Matrix;其次,将共... 网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于Map Reduce的知识聚类与统计机制:首先,提出基于Map Reduce的共现矩阵构建算法MR-Co Matrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过Z Scores对相似度矩阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;基于聚类结果,提出基于Map Reduce的知识文献统计算法MR-Statistics,对每个分类的知识属性进行统计。实验结果表明:将MR-Co Matrix和MR-Statistics方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。 展开更多
关键词 数据挖掘 聚类 知识 共现矩阵 统计 map reduce
下载PDF
异构环境下作业时间感知的MapReduce调度策略 被引量:1
17
作者 石磊 丁雷道 +1 位作者 陶永才 卫琳 《小型微型计算机系统》 CSCD 北大核心 2017年第8期1757-1761,共5页
MapReduce是一个流行的并行处理大规模数据计算模型.为提升异构环境下的MapReduce性能,提出一种异构环境下基于节点作业时间感知的动态MapReduce调度策略:DTHE(Dynamic Map Reduce scheduling based on the Time-aware of node jobs in ... MapReduce是一个流行的并行处理大规模数据计算模型.为提升异构环境下的MapReduce性能,提出一种异构环境下基于节点作业时间感知的动态MapReduce调度策略:DTHE(Dynamic Map Reduce scheduling based on the Time-aware of node jobs in Heterogeneous Environments).DTHE在作业执行前,首先标记部分任务作为节点样本任务并优先处理,在执行其他任务时分析样本任务,预测节点性能和数据分布特征,动态采取相应的调度策略;在作业运行中实时监测节点任务状态,提前拉取节点下一个任务数据到本地内存.实验结果表明:在异构环境下,DTEH能够缩短5.1%的作业执行时间并减少磁盘I/O,有效提升MapReduce性能. 展开更多
关键词 map reduce 任务调度 HADOOP 性能优化
下载PDF
基于MapReduce的K_means并行算法及改进 被引量:4
18
作者 衣治安 王月 《计算机系统应用》 2015年第6期188-192,共5页
针对传统k_means聚类算法在处理海量数据时所面临的内存不足、运算速度慢等问题,提出了一种基于Map Reduce的K_means并行算法,同时为了改善k_means算法在初始值确定方面的盲目性,采用canopy算法进行改进.实验结果表明,基于Map Reduce的K... 针对传统k_means聚类算法在处理海量数据时所面临的内存不足、运算速度慢等问题,提出了一种基于Map Reduce的K_means并行算法,同时为了改善k_means算法在初始值确定方面的盲目性,采用canopy算法进行改进.实验结果表明,基于Map Reduce的K_means并行算法和改进后的算法均能产生良好的聚类效果,不仅提高了聚类质量,而且在处理大数据集方面,改进后的算法的还能够得到趋近于线性的加速比. 展开更多
关键词 map reduce K-MEANS算法 canopy算法 并行计算 聚类
下载PDF
采用Map-Reduce模型的海量电能质量数据交换格式文件快速解析方案 被引量:16
19
作者 曲广龙 杨洪耕 张逸 《电网技术》 EI CSCD 北大核心 2014年第6期1705-1711,共7页
针对现有方案对电能质量监测系统中海量PQDIF文件解析效率低、解析时间长等问题,研究实现了一种基于集群计算架构的海量PQDIF文件快速解析方案。通过Map-Reduce模型来实现海量PQDIF文件的快速并行解析。Map-Reduce模型将数据集的大规模... 针对现有方案对电能质量监测系统中海量PQDIF文件解析效率低、解析时间长等问题,研究实现了一种基于集群计算架构的海量PQDIF文件快速解析方案。通过Map-Reduce模型来实现海量PQDIF文件的快速并行解析。Map-Reduce模型将数据集的大规模操作任务拆分成若干子任务分配给网络上的每一个计算节点(如PC机),实现多计算节点共同协调处理任务,达到提高运行效率的目的。方案采用Java和C++编写,在异构平台间具有较强的可移植性,并且可以通过增加计算节点来提高解析效率,具有较强的可扩展性。通过对海量PQDIF文件进行解析测试,结果表明该方案可以显著提高文件解析效率。 展开更多
关键词 电能质量 PQDIF文件 map-reduce模型 海量数据解析 HADOOP
下载PDF
基于R-树索引的Map-Reduce空间连接聚集操作 被引量:5
20
作者 刘义 陈荦 +1 位作者 景宁 熊伟 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第1期136-141,共6页
空间连接聚集是一种常用并且非常耗时的空间数据库操作,特别是在面对大规模空间数据集时,单机运行环境难以满足其对时空开销的需求,如何设计高效的面向云计算环境中的分布式空间连接聚集算法越来越受到人们关注。Map-Reduce作为云计算... 空间连接聚集是一种常用并且非常耗时的空间数据库操作,特别是在面对大规模空间数据集时,单机运行环境难以满足其对时空开销的需求,如何设计高效的面向云计算环境中的分布式空间连接聚集算法越来越受到人们关注。Map-Reduce作为云计算的核心模式受限于其扁平化的串行扫描操作模型,常被用来加速非索引的空间连接操作,现有工作尚无将Map-Reduce和R-树索引结合来处理空间连接聚集。因此,提出了基于R-树索引的Map-Reduce空间连接聚集算法(RSJA-MR)来更高效地返回连接聚集结果。提出一种分布式R-树索引结构以支持大规模空间数据的索引,RSJA-MR算法利用分布式R-树生成任务集,任务集的执行满足无依赖并行计算模式,很容易在Map-Reduce框架中进行表达。文中提出一种实时缓存策略以支持索引并发访问。实验结果表明:相比非索引的Map-Reduce连接聚集算法,在空间交叠连接聚集查询上,时间性能最少提升8%,在空间包含连接聚集查询上,时间性能最少提升近35%。 展开更多
关键词 云计算 map-reduce 空间连接聚集 R-树
下载PDF
上一页 1 2 37 下一页 到第
使用帮助 返回顶部