期刊文献+
共找到268篇文章
< 1 2 14 >
每页显示 20 50 100
基于Hadoop平台的灾害大数据处理及可视化
1
作者 汤笛 吴长梦涛 +3 位作者 张欣悦 尹茂鹏 张子涵 陈新房 《电脑与电信》 2024年第4期80-84,共5页
随着监测技术的进步,地震数据量不断增加,增长速度日渐加快。数据处理过程中原始数据可能存在缺失、异常值和格式问题,需要进行细致处理。HBase是一个适合存储和处理大规模数据的分布式数据库,通过使用MapReduce的Bulk-Load方法,可以更... 随着监测技术的进步,地震数据量不断增加,增长速度日渐加快。数据处理过程中原始数据可能存在缺失、异常值和格式问题,需要进行细致处理。HBase是一个适合存储和处理大规模数据的分布式数据库,通过使用MapReduce的Bulk-Load方法,可以更高效地将海量数据导入到HBase中。这样结合Hadoop平台分布式的优势,可以提高运算分析的速度,便于对数据进行研究。通过可视化展示,可以更好地利用数据进行研究分析,为灾害应对提供有力支持。 展开更多
关键词 灾害大数据处理 hadoop平台 HBase数据库 可视化
下载PDF
基于Hadoop平台的分布式文件云存储系统设计
2
作者 袁宏涛 《软件》 2024年第6期172-174,共3页
数据量的激增促进了分布式文件系统的迅速发展,Hadoop作为一个开源框架,以其高效的数据存储与处理能力在分布式系统中占据重要地位。通过Hadoop Distributed File System(HDFS)实现大规模数据集的分布式存储,YARN为资源管理提供了弹性调... 数据量的激增促进了分布式文件系统的迅速发展,Hadoop作为一个开源框架,以其高效的数据存储与处理能力在分布式系统中占据重要地位。通过Hadoop Distributed File System(HDFS)实现大规模数据集的分布式存储,YARN为资源管理提供了弹性调度,使得Hadoop成为处理大数据问题的理想平台。本文探讨了基于Hadoop平台的分布式文件云存储系统设计,旨在提供一种高效可靠的分布式文件云存储解决方案,以支持大数据时代下的数据存储与处理需求。 展开更多
关键词 hadoop平台 分布式文件云存储系统 系统设计
下载PDF
Hadoop平台下基于优化X-means算法的大数据聚类研究 被引量:1
3
作者 张鹏飞 江岸 熊念 《计算机测量与控制》 2023年第12期284-289,309,共7页
针对现有聚类方法对数据处理规模的局限性,解决数据聚类效果差的问题,在Hadoop平台的支持下提出基于优化X-means算法的大数据聚类方法;利用Hadoop平台架构与函数采集大数据样本,通过缺失补偿、噪声滤波、归一化等步骤,实现初始样本数据... 针对现有聚类方法对数据处理规模的局限性,解决数据聚类效果差的问题,在Hadoop平台的支持下提出基于优化X-means算法的大数据聚类方法;利用Hadoop平台架构与函数采集大数据样本,通过缺失补偿、噪声滤波、归一化等步骤,实现初始样本数据的预处理;选择大数据聚类中心,分别提取聚类中心数据与其他所有数据样本的特征,计算数据样本与聚类中心之间的特征相似度;以相似度度量结果为聚类判定条件,利用优化X-means算法确定数据所属类型,最终实现大数据的聚类处理工作;通过聚类效果测试实验得出结论:在有、无两种实验条件下,与传统聚类方法相比,优化设计方法的查全率和查准率分别提升了4.75%和4.5%,同时优化聚类方法得出数据具有更高利用率。 展开更多
关键词 hadoop平台 优化X-means算法 大数据聚类
下载PDF
基于Hadoop平台的日志分析模型 被引量:14
4
作者 于兆良 张文涛 +2 位作者 葛慧 艾伟 孙运乾 《计算机工程与设计》 北大核心 2016年第2期338-344,428,共8页
为提高企业网络内海量日志数据的分析效率,构建基于Hadoop平台的日志分析模型。对模型框架进行总体设计,提出一种MapReduce编程模式的Apriori并行化算法,基于该算法对历史日志进行数据挖掘分析,计算用户行为的频繁模式,建立用户正常行... 为提高企业网络内海量日志数据的分析效率,构建基于Hadoop平台的日志分析模型。对模型框架进行总体设计,提出一种MapReduce编程模式的Apriori并行化算法,基于该算法对历史日志进行数据挖掘分析,计算用户行为的频繁模式,建立用户正常行为规则库,将实时日志与规则库中的规则进行模式匹配,实现对用户异常行为的检测。实验结果表明,该模型算法明显提高了日志分析效率。 展开更多
关键词 hadoop平台 日志分析 MapReduce编程模式 APRIORI算法 数据挖掘 并行化
下载PDF
基于Hadoop平台的改进关联规则挖掘算法 被引量:15
5
作者 王英博 马菁 +1 位作者 柴佳佳 赵彬 《计算机工程》 CAS CSCD 北大核心 2016年第10期69-74,79,共7页
数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调... 数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调度完成频繁项集挖掘,在强关联挖掘中通过Sqoop组件将外部表Hive中的数据迁移到Redis,实现数据的高速读取。实验结果表明,该方法可有效提高挖掘效率,提高幅度随数据集规模同步增大,并且具有较好的加速比和扩展性。 展开更多
关键词 hadoop平台 MapReduce编程 关联规则 大数据 数据挖掘
下载PDF
一种基于Hadoop平台的新聚类算法 被引量:6
6
作者 缪裕青 张锦杏 +2 位作者 刘少兵 文益民 明媚 《计算机科学》 CSCD 北大核心 2014年第4期269-272,共4页
针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结... 针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结果。实验结果表明,bigKClustering算法不仅具有良好的时间效率和聚类效果,而且具有良好的可伸缩性、加速比和时间稳定性。 展开更多
关键词 微簇 等价连接 hadoop平台 聚类
下载PDF
Hadoop平台下基于资源预测的Delay调度算法 被引量:6
7
作者 魏晓辉 付庆午 李洪亮 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2013年第1期101-106,共6页
针对Delay算法的不合理等待问题,提出一种基于资源预测的Delay调度算法(RFD),该算法基于对资源可用性的预测方法合理地调度作业.实验结果表明,在Hadoop机群一般应用场景下,该调度算法与已有算法相比,在保证作业本地化计算Map任务比例相... 针对Delay算法的不合理等待问题,提出一种基于资源预测的Delay调度算法(RFD),该算法基于对资源可用性的预测方法合理地调度作业.实验结果表明,在Hadoop机群一般应用场景下,该调度算法与已有算法相比,在保证作业本地化计算Map任务比例相近的同时,将作业平均运行效率提高28.8%,明显提高了Mapreduce作业的执行效率. 展开更多
关键词 hadoop平台 MAPREDUCE模型 资源调度 资源预测 Delay调度
下载PDF
Hadoop平台下基于内容的医学图像检索 被引量:3
8
作者 郝娟 吕晓琪 +2 位作者 温秀梅 谷宇 黄显武 《现代电子技术》 北大核心 2017年第4期115-119,共5页
针对海量医学图像存储及检索效率低的问题,该文提出利用Hadoop平台分别实现大量医学图像的分布式存储以及并行处理模式下的基于内容的医学图像检索。利用HIPI图像处理接口将医学图像上传到分布式文件系统(HDFS)中;然后,分别提取图像的... 针对海量医学图像存储及检索效率低的问题,该文提出利用Hadoop平台分别实现大量医学图像的分布式存储以及并行处理模式下的基于内容的医学图像检索。利用HIPI图像处理接口将医学图像上传到分布式文件系统(HDFS)中;然后,分别提取图像的形状以及纹理特征,并将其特征向量存储到HDFS中;最后,利用Map Reduce模型实现并行式检索并将图像检索结果按照相似度大小进行排序及显示。实验结果表明,在Hadoop云平台下大量医学图像的存储效率以及检索效率较高,且图像数量越多效率优势越明显。 展开更多
关键词 hadoop平台 分布式存储 并行处理 医学图像检索
下载PDF
基于Hadoop平台的并行线损分析系统研究与实现 被引量:6
9
作者 崔蔚 周力 +4 位作者 吴凯峰 陈建 王志强 肖政 裴旭斌 《电力信息与通信技术》 2014年第2期60-63,共4页
大数据是当今IT重要的发展趋势,其发展将对电力企业的信息化建设产生深远的影响,而Hadoop作为大数据领域最有影响力的开源产品,被国内外各厂商广泛使用。随着电力用电信息采集系统建设的进展,不断增加的数据量使得传统的线损分析方法已... 大数据是当今IT重要的发展趋势,其发展将对电力企业的信息化建设产生深远的影响,而Hadoop作为大数据领域最有影响力的开源产品,被国内外各厂商广泛使用。随着电力用电信息采集系统建设的进展,不断增加的数据量使得传统的线损分析方法已经无法满足业务要求。文章通过并行计算技术,采用Hadoop平台实现台区线损分析系统的并行化改造,用以提升台区线损应用的计算效率。通过选取某省电力公司线损分析系统实际数据进行对比,实验证实新的并行线损分析系统性能远远超出传统Oracle架构的线损系统,为未来并行计算技术在电量与线损管理系统的应用提供依据。 展开更多
关键词 hadoop平台 台区线损分析 并行计算
下载PDF
云计算Hadoop平台的异常数据检测算法研究 被引量:3
10
作者 黄富平 梁卓浪 +1 位作者 邢英俊 杨春丽 《计算机测量与控制》 2017年第7期260-263,268,共5页
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效... 近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。 展开更多
关键词 云计算 大数据 异常数据 hadoop平台
下载PDF
一种基于Hadoop平台CloudSVM的网络流量分类方法 被引量:2
11
作者 邓河 唐一韬 +1 位作者 贺宗梅 袁爱平 《太赫兹科学与电子信息学报》 北大核心 2020年第5期918-923,共6页
大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结... 大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结果。本文基于Hadoop云计算平台,采用MapReduce技术对SVM网络流量分类器进行分布式学习和训练,构建CloudSVM网络流量分类器。通过对来自校园网出口镜像的近2 T的大规模网络流量的跟踪文件的分布式存储和处理,对抽取的样本数据集进行分类,实验验证了基于Hadoop平台分布式存储和并行处理大规模网络数据集的高效率性,也验证了CloudSVM分类器在不降低分类准确度的情况下可以快速收敛到最佳,并随着大规模网络流样本的增加,SVM分类器训练的时间趋近平稳。 展开更多
关键词 网络流量分类 hadoop平台 CloudSVM分类器
下载PDF
基于Hadoop平台的图像分类 被引量:12
12
作者 朱义明 《西南科技大学学报》 CAS 2011年第2期70-73,共4页
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实... 随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。 展开更多
关键词 hadoop平台 图像分类 kNN运算
下载PDF
基于Hadoop平台下SVM的图像识别技术 被引量:5
13
作者 白灵 《现代电子技术》 北大核心 2016年第16期98-101,共4页
针对海量图像的识别技术进行研究,使用SVM算法作为图像识别模型,考虑到随着图像训练样本数据量逐步增大,训练样本呈现指数上升这一问题,在此对基于Hadoop云平台的并行运算SVM方法进行研究,缩短训练时间,加快图像识别效率。使用Corel图... 针对海量图像的识别技术进行研究,使用SVM算法作为图像识别模型,考虑到随着图像训练样本数据量逐步增大,训练样本呈现指数上升这一问题,在此对基于Hadoop云平台的并行运算SVM方法进行研究,缩短训练时间,加快图像识别效率。使用Corel图像库中图像进行实验研究,结果表明,常规单机SVM图像识别系统以及基于Hadoop平台SVM的图像识别系统的识别准确率相差不大。当Hadoop平台中拥有超过2个节点时,加速比明显上升,训练时间下降,Hadoop平台中使用SVM进行图像识别的效率优势体现出来。 展开更多
关键词 hadoop平台 图像识别 SVM 云计算 加速比
下载PDF
一种用于非法图像检测的云计算Hadoop平台设计 被引量:1
14
作者 史建政 于东敏 《计算机测量与控制》 北大核心 2013年第6期1628-1630,1633,共4页
互联网中存在着大量的非法图片严重影响了正常的网络生活,传统的非法图像识别主要是经过图像与样本库中的图像进行对比,工作量巨大,实时性能较差;提出基于云计算Hadoop平台的非法图像检测方法,将非法图像特征提取以后通过统计分析构造... 互联网中存在着大量的非法图片严重影响了正常的网络生活,传统的非法图像识别主要是经过图像与样本库中的图像进行对比,工作量巨大,实时性能较差;提出基于云计算Hadoop平台的非法图像检测方法,将非法图像特征提取以后通过统计分析构造贝叶斯分类网络,将贝叶斯判断的方法MapReduce后部署在Hadoop云计算平台进行非法图像的分类;实验结果证明,这种方法的加速比效果明显增加,图像分类识别的准确率也大大地提高。 展开更多
关键词 非法图像检测 云计算hadoop平台 贝叶斯网络
下载PDF
基于Hadoop平台的评价系统设计与实现 被引量:1
15
作者 周宁宁 李爱群 钟苏阳 《计算机技术与发展》 2018年第8期180-185,共6页
在Hadoop分布式系统上,设计并实现了一个基于SSM框架的评价系统,对评价系统构建的技术路线及实现方案以及基于中介真值程度度量的评价规则进行了详细阐述。系统采用接口编程技术,对每个模块的基本功能进行抽象,可以接入并修改任意的功... 在Hadoop分布式系统上,设计并实现了一个基于SSM框架的评价系统,对评价系统构建的技术路线及实现方案以及基于中介真值程度度量的评价规则进行了详细阐述。系统采用接口编程技术,对每个模块的基本功能进行抽象,可以接入并修改任意的功能模块,增强了系统的可扩展性和维护性。系统中定义了基于中介真值程度的评价规则,分别采用距离比率函数和距离比率和函数建立了单维度测度模型和多维度综合测度模型。除此之外,系统也可以自定义评价规则集,增强了系统的可用性。在学生成绩评价中的应用结果表明,基于中介真值程度的评价规则,使评价结果更为科学和合理。 展开更多
关键词 评价系统 hadoop平台 SSM框架 中介真值程度度量 评价规则
下载PDF
基于HADOOP平台的云GIS构架研究 被引量:8
16
作者 郝伟姣 周世健 彭大为 《江西科学》 2013年第1期109-112,共4页
介绍开源Hadoop云平台的一些主要特点及其数据存储的优势。通过把云平台自身特点与地理系信息系统的构架设计相结合,提出了基于Hadoop云平台的地理信息系统构架,使地理信息系统具有云的相关特性。该地理信息系统能解决地理信息数据量大... 介绍开源Hadoop云平台的一些主要特点及其数据存储的优势。通过把云平台自身特点与地理系信息系统的构架设计相结合,提出了基于Hadoop云平台的地理信息系统构架,使地理信息系统具有云的相关特性。该地理信息系统能解决地理信息数据量大、种类繁多的数据在计算等方面有一定的优势,从而大大提高了云GIS系统的效率。 展开更多
关键词 云GIS架构 hadoop平台 云计算 分布式
下载PDF
基于Hadoop平台的网络安全趋势大数据挖掘算法 被引量:4
17
作者 唐建海 《工业加热》 CAS 2022年第7期67-70,共4页
为了进一步提高网络安全趋势大数据的挖掘性能,提出一种基于Hadoop平台的网络安全趋势大数据深度挖掘方法。考虑网络安全趋势大数据信息缺失的情况,在Hadoop平台中筛选数据特征,剔除无用特征以降低数据维度。选择数据覆盖节点,重新确定... 为了进一步提高网络安全趋势大数据的挖掘性能,提出一种基于Hadoop平台的网络安全趋势大数据深度挖掘方法。考虑网络安全趋势大数据信息缺失的情况,在Hadoop平台中筛选数据特征,剔除无用特征以降低数据维度。选择数据覆盖节点,重新确定聚类质心,改进大数据挖掘算法。融合Hadoop平台与改进大数据挖掘算法,将网络安全趋势大数据按照体量顺序排列,实现深度挖掘。实验结果证明,该算法在挖掘过程中未偏离数据密集区域,并在查全率与查准率方面均具有优势。 展开更多
关键词 hadoop平台 网络安全 K-均值算法 数据覆盖节点
下载PDF
基于云计算Hadoop平台的文本挖掘预处理方法 被引量:1
18
作者 张爱科 《上海工程技术大学学报》 CAS 2017年第2期115-119,共5页
随着信息社会的快速发展,网络数据正在指数级地增长,其中大部分都是文本数据.如何在有限的时间内完成大规模的文本数据挖掘分析,已成为当前的热点研究问题.文本预处理是整个挖掘过程中最耗时的环节,分布式并行处理可以缩短该过程的挖掘... 随着信息社会的快速发展,网络数据正在指数级地增长,其中大部分都是文本数据.如何在有限的时间内完成大规模的文本数据挖掘分析,已成为当前的热点研究问题.文本预处理是整个挖掘过程中最耗时的环节,分布式并行处理可以缩短该过程的挖掘时间.设计分析了基于云计算Hadoop平台的文本预处理MapReduce并行化过程,并对预处理的Map函数和Reduce函数进行了详细介绍.通过实验证明,和单节点运行相比,改进后的并行化方法具有更好的性能. 展开更多
关键词 云计算 hadoop平台 文本挖掘 文本预处理 分布式并行处理
下载PDF
基于hadoop平台的分布式数据挖掘系统的设计探讨 被引量:6
19
作者 陈志雄 《数字技术与应用》 2017年第1期179-179,共1页
在社会经济快速发展的情况下,网络信息技术的更新速度越来越快,如今,促进了大数据时代的进一步发展,而Hadoop作为分布式系统的代表,也成为大数据挖掘系统的重要组成部分之一。分布式数据挖掘系统的主要任务是利用Hadoop搭建分布式集群环... 在社会经济快速发展的情况下,网络信息技术的更新速度越来越快,如今,促进了大数据时代的进一步发展,而Hadoop作为分布式系统的代表,也成为大数据挖掘系统的重要组成部分之一。分布式数据挖掘系统的主要任务是利用Hadoop搭建分布式集群环境,然后在该环境上部署相应的数据挖掘任务,前提是要对分布式文件系统HDFS和Map Reduce的并行编程模式原理进行深入的分析研究,同时选择运用K-means聚类算法,使Hadoop平台的数据挖掘系统的任务具有良好的发展效率,同时也能显示其计算能力的扩展性能。下面就Hadoop平台的分布式数据挖掘系统的设计进行深入的分析探讨,进而促进信息数据系统的进一步发展。 展开更多
关键词 hadoop平台 数据挖掘 系统设计 K-MEANS
下载PDF
Hadoop平台下全局扩散性分组排列算法研究与实现
20
作者 周庆 王宏 《计算机工程与应用》 CSCD 2014年第20期91-95,129,共6页
随着云计算技术的蓬勃发展,各种应用产生的数据量日益庞大,然而目前大规模数据集的安全并未得到充分保障。密码学是确保数据安全的有效手段,但是将传统加密方法直接应用于大数据加密存在安全隐患。提出了针对大规模数据集加密的排列算法... 随着云计算技术的蓬勃发展,各种应用产生的数据量日益庞大,然而目前大规模数据集的安全并未得到充分保障。密码学是确保数据安全的有效手段,但是将传统加密方法直接应用于大数据加密存在安全隐患。提出了针对大规模数据集加密的排列算法,包括两方面工作:提出一种适用于大规模数据集的分组加密排列算法,对数据规模为2mN<2m+1的数据集,经过m+2轮加密可实现全局扩散;基于MapReduce编程模型,在Hadoop平台上实现了分组加密排列算法。理论分析与实验结果表明,该排列算法具有优异的全局扩散性。 展开更多
关键词 云计算 密码学 排列 扩散 hadoop平台 MAPREDUCE
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部