期刊文献+
共找到270篇文章
< 1 2 14 >
每页显示 20 50 100
基于云计算平台Hadoop的并行k-means聚类算法设计研究 被引量:84
1
作者 赵卫中 马慧芳 +1 位作者 傅燕翔 史忠植 《计算机科学》 CSCD 北大核心 2011年第10期166-168,176,共4页
随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策... 随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。 展开更多
关键词 云计算 hadoop平台 并行k-means MAPREDUCE
下载PDF
基于云计算平台Hadoop的线路参数并行辨识算法研究
2
作者 左剑 向萌 +4 位作者 张可人 胡迪军 邓小亮 蔡如昕 张瑞 《湖南电力》 2017年第3期7-10,15,共5页
随着作为电网动态监测技术平台的广域量测系统(WAMS)在电网的应用普及,电网运行人员对于电网动态变化有了实时监测与分析的手段,但WAMS所产生的海量数据以及对于分析平台的高效率要求是WAMS应用的一大挑战。本文深入研究了基于Hadoop云... 随着作为电网动态监测技术平台的广域量测系统(WAMS)在电网的应用普及,电网运行人员对于电网动态变化有了实时监测与分析的手段,但WAMS所产生的海量数据以及对于分析平台的高效率要求是WAMS应用的一大挑战。本文深入研究了基于Hadoop云计算平台的线路参数并行辨识算法,并提出算法的设计思路以及实现方法,为高效利用WAMS数据辨识线路参数给出了解决方法。对比实验证明基于云计算平台Hadoop的线路参数并行辨识算法大大提高线路参数辨识算法的计算效能,适合处理该应用中的WAMS海量数据。 展开更多
关键词 hadoop平台 云计算 广域量测系统 线路参数辨识
下载PDF
一种基于分布式平台Hadoop的矩阵相乘算法 被引量:1
3
作者 冯健 倪明 赵建波 《计算机系统应用》 2013年第12期149-154,共6页
为了解决单节点上大矩阵相乘运算量过大的问题,提出了一种基于分布式平台Hadoop的矩阵相乘算法.算法采用了字节文件作为输入以及最优化的分片方式,去掉了不必要的Reduce过程,极大地减少了输入数据量,拥有简洁的算法流程和可拓展性.实验... 为了解决单节点上大矩阵相乘运算量过大的问题,提出了一种基于分布式平台Hadoop的矩阵相乘算法.算法采用了字节文件作为输入以及最优化的分片方式,去掉了不必要的Reduce过程,极大地减少了输入数据量,拥有简洁的算法流程和可拓展性.实验结果表明该算法很好地解决了矩阵相乘运算量过大的问题,当输入数据量接近集群最佳负载量的情况下取得了很好的加速比. 展开更多
关键词 hadoop平台 分布式矩阵乘法 输入格式 分片方式
下载PDF
基于云计算平台Hadoop的HKM聚类算法设计研究 被引量:9
4
作者 张淑芬 董岩岩 陈学斌 《应用科学学报》 CAS CSCD 北大核心 2018年第3期524-534,共11页
为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优... 为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题. 展开更多
关键词 K-MEANS算法 样本密度 最大化最小距离 hadoop平台 并行化计算
下载PDF
基于Hadoop平台的灾害大数据处理及可视化
5
作者 汤笛 吴长梦涛 +3 位作者 张欣悦 尹茂鹏 张子涵 陈新房 《电脑与电信》 2024年第4期80-84,共5页
随着监测技术的进步,地震数据量不断增加,增长速度日渐加快。数据处理过程中原始数据可能存在缺失、异常值和格式问题,需要进行细致处理。HBase是一个适合存储和处理大规模数据的分布式数据库,通过使用MapReduce的Bulk-Load方法,可以更... 随着监测技术的进步,地震数据量不断增加,增长速度日渐加快。数据处理过程中原始数据可能存在缺失、异常值和格式问题,需要进行细致处理。HBase是一个适合存储和处理大规模数据的分布式数据库,通过使用MapReduce的Bulk-Load方法,可以更高效地将海量数据导入到HBase中。这样结合Hadoop平台分布式的优势,可以提高运算分析的速度,便于对数据进行研究。通过可视化展示,可以更好地利用数据进行研究分析,为灾害应对提供有力支持。 展开更多
关键词 灾害大数据处理 hadoop平台 HBase数据库 可视化
下载PDF
基于Hadoop平台的分布式文件云存储系统设计
6
作者 袁宏涛 《软件》 2024年第6期172-174,共3页
数据量的激增促进了分布式文件系统的迅速发展,Hadoop作为一个开源框架,以其高效的数据存储与处理能力在分布式系统中占据重要地位。通过Hadoop Distributed File System(HDFS)实现大规模数据集的分布式存储,YARN为资源管理提供了弹性调... 数据量的激增促进了分布式文件系统的迅速发展,Hadoop作为一个开源框架,以其高效的数据存储与处理能力在分布式系统中占据重要地位。通过Hadoop Distributed File System(HDFS)实现大规模数据集的分布式存储,YARN为资源管理提供了弹性调度,使得Hadoop成为处理大数据问题的理想平台。本文探讨了基于Hadoop平台的分布式文件云存储系统设计,旨在提供一种高效可靠的分布式文件云存储解决方案,以支持大数据时代下的数据存储与处理需求。 展开更多
关键词 hadoop平台 分布式文件云存储系统 系统设计
下载PDF
Hadoop大数据平台自动化运维工具Ambari部署研究
7
作者 金晓波 王科杰 《长江信息通信》 2024年第7期223-225,共3页
近几年,我国网民数量随着互联网的发展而快速增加,网络平台的数据量也因此而呈井喷式增长,为解决计算、存储海量数据难度大的问题,Hadoop应运而生。作为典型的开源分布框架,Hadoop的优点在于可以高效、可靠地处理数据,通过部署具Ambari... 近几年,我国网民数量随着互联网的发展而快速增加,网络平台的数据量也因此而呈井喷式增长,为解决计算、存储海量数据难度大的问题,Hadoop应运而生。作为典型的开源分布框架,Hadoop的优点在于可以高效、可靠地处理数据,通过部署具Ambari对其进行自动运维,能够有效提升工作效率,使该系统的作用得到充分发挥。文章以此为背景,首先说明了Ambari的原理和安装步骤,其次介绍了Ambari服务测试的具体形式及内容,最后围绕Ambari的实际应用展开了讨论,以供参考。 展开更多
关键词 hadoop平台 自动运维工具 Ambari
下载PDF
基于云计算平台Hadoop的并行k-means聚类算法设计研究 被引量:2
8
作者 李莉 《网络安全技术与应用》 2017年第12期46-47,共2页
随着信息化时代的到来,也相应提升了科技的发展。现阶段网络技术的发展也不断为数据库的发展提供技术支持。在实际应用网络技术时常常会出现大量的数据需要处理,人们开始致力于探讨致聚类研究课题,但是随着不断深入的盐分分析也显现出... 随着信息化时代的到来,也相应提升了科技的发展。现阶段网络技术的发展也不断为数据库的发展提供技术支持。在实际应用网络技术时常常会出现大量的数据需要处理,人们开始致力于探讨致聚类研究课题,但是随着不断深入的盐分分析也显现出较多的问题,例如出现了新的计算环境还有海量数据等。本文主要是探讨分析了基于云计算平台Hadoop的并行k-means聚类算法设计研究,并且在此基础之上提供了新的设计算法方式以及应对策略。根据大量的数据研究显示,并行k-means聚类算法设计的加速比较为良好,并且具有优质的数据伸缩率性能以及扩展率,有效作用于挖掘和分析海量数据。 展开更多
关键词 云计算 平台hadoop 并行k-means 聚类算法设计 研究探讨
原文传递
基于Hadoop平台的改进关联规则挖掘算法 被引量:15
9
作者 王英博 马菁 +1 位作者 柴佳佳 赵彬 《计算机工程》 CAS CSCD 北大核心 2016年第10期69-74,79,共7页
数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调... 数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调度完成频繁项集挖掘,在强关联挖掘中通过Sqoop组件将外部表Hive中的数据迁移到Redis,实现数据的高速读取。实验结果表明,该方法可有效提高挖掘效率,提高幅度随数据集规模同步增大,并且具有较好的加速比和扩展性。 展开更多
关键词 hadoop平台 MapReduce编程 关联规则 大数据 数据挖掘
下载PDF
基于Hadoop平台的日志分析模型 被引量:14
10
作者 于兆良 张文涛 +2 位作者 葛慧 艾伟 孙运乾 《计算机工程与设计》 北大核心 2016年第2期338-344,428,共8页
为提高企业网络内海量日志数据的分析效率,构建基于Hadoop平台的日志分析模型。对模型框架进行总体设计,提出一种MapReduce编程模式的Apriori并行化算法,基于该算法对历史日志进行数据挖掘分析,计算用户行为的频繁模式,建立用户正常行... 为提高企业网络内海量日志数据的分析效率,构建基于Hadoop平台的日志分析模型。对模型框架进行总体设计,提出一种MapReduce编程模式的Apriori并行化算法,基于该算法对历史日志进行数据挖掘分析,计算用户行为的频繁模式,建立用户正常行为规则库,将实时日志与规则库中的规则进行模式匹配,实现对用户异常行为的检测。实验结果表明,该模型算法明显提高了日志分析效率。 展开更多
关键词 hadoop平台 日志分析 MapReduce编程模式 APRIORI算法 数据挖掘 并行化
下载PDF
一种基于Hadoop平台的新聚类算法 被引量:6
11
作者 缪裕青 张锦杏 +2 位作者 刘少兵 文益民 明媚 《计算机科学》 CSCD 北大核心 2014年第4期269-272,共4页
针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结... 针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结果。实验结果表明,bigKClustering算法不仅具有良好的时间效率和聚类效果,而且具有良好的可伸缩性、加速比和时间稳定性。 展开更多
关键词 微簇 等价连接 hadoop平台 聚类
下载PDF
Hadoop平台下基于资源预测的Delay调度算法 被引量:6
12
作者 魏晓辉 付庆午 李洪亮 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2013年第1期101-106,共6页
针对Delay算法的不合理等待问题,提出一种基于资源预测的Delay调度算法(RFD),该算法基于对资源可用性的预测方法合理地调度作业.实验结果表明,在Hadoop机群一般应用场景下,该调度算法与已有算法相比,在保证作业本地化计算Map任务比例相... 针对Delay算法的不合理等待问题,提出一种基于资源预测的Delay调度算法(RFD),该算法基于对资源可用性的预测方法合理地调度作业.实验结果表明,在Hadoop机群一般应用场景下,该调度算法与已有算法相比,在保证作业本地化计算Map任务比例相近的同时,将作业平均运行效率提高28.8%,明显提高了Mapreduce作业的执行效率. 展开更多
关键词 hadoop平台 MAPREDUCE模型 资源调度 资源预测 Delay调度
下载PDF
一种基于Hadoop云计算平台的聚类算法优化的研究 被引量:29
13
作者 张石磊 武装 《计算机科学》 CSCD 北大核心 2012年第S2期115-118,共4页
随着信息技术的飞速发展,需要处理的数据量急剧增长,聚类算法的研究面临着海量数据分析和处理的挑战。对K-means聚类算法的优化进行了深入的研究,提出了首先选定初始聚类中心的并行K-means聚类算法。对不同大小的数据集进行测试实验,证... 随着信息技术的飞速发展,需要处理的数据量急剧增长,聚类算法的研究面临着海量数据分析和处理的挑战。对K-means聚类算法的优化进行了深入的研究,提出了首先选定初始聚类中心的并行K-means聚类算法。对不同大小的数据集进行测试实验,证明该优化算法具有更好的时间性、正确性和稳定性,适合于海量数据的分析和处理。 展开更多
关键词 云计算 hadoop平台 并行K-means MapReudce 初始化聚类中心
下载PDF
Hadoop平台下基于内容的医学图像检索 被引量:3
14
作者 郝娟 吕晓琪 +2 位作者 温秀梅 谷宇 黄显武 《现代电子技术》 北大核心 2017年第4期115-119,共5页
针对海量医学图像存储及检索效率低的问题,该文提出利用Hadoop平台分别实现大量医学图像的分布式存储以及并行处理模式下的基于内容的医学图像检索。利用HIPI图像处理接口将医学图像上传到分布式文件系统(HDFS)中;然后,分别提取图像的... 针对海量医学图像存储及检索效率低的问题,该文提出利用Hadoop平台分别实现大量医学图像的分布式存储以及并行处理模式下的基于内容的医学图像检索。利用HIPI图像处理接口将医学图像上传到分布式文件系统(HDFS)中;然后,分别提取图像的形状以及纹理特征,并将其特征向量存储到HDFS中;最后,利用Map Reduce模型实现并行式检索并将图像检索结果按照相似度大小进行排序及显示。实验结果表明,在Hadoop云平台下大量医学图像的存储效率以及检索效率较高,且图像数量越多效率优势越明显。 展开更多
关键词 hadoop平台 分布式存储 并行处理 医学图像检索
下载PDF
基于Hadoop平台的并行线损分析系统研究与实现 被引量:6
15
作者 崔蔚 周力 +4 位作者 吴凯峰 陈建 王志强 肖政 裴旭斌 《电力信息与通信技术》 2014年第2期60-63,共4页
大数据是当今IT重要的发展趋势,其发展将对电力企业的信息化建设产生深远的影响,而Hadoop作为大数据领域最有影响力的开源产品,被国内外各厂商广泛使用。随着电力用电信息采集系统建设的进展,不断增加的数据量使得传统的线损分析方法已... 大数据是当今IT重要的发展趋势,其发展将对电力企业的信息化建设产生深远的影响,而Hadoop作为大数据领域最有影响力的开源产品,被国内外各厂商广泛使用。随着电力用电信息采集系统建设的进展,不断增加的数据量使得传统的线损分析方法已经无法满足业务要求。文章通过并行计算技术,采用Hadoop平台实现台区线损分析系统的并行化改造,用以提升台区线损应用的计算效率。通过选取某省电力公司线损分析系统实际数据进行对比,实验证实新的并行线损分析系统性能远远超出传统Oracle架构的线损系统,为未来并行计算技术在电量与线损管理系统的应用提供依据。 展开更多
关键词 hadoop平台 台区线损分析 并行计算
下载PDF
云计算Hadoop平台的异常数据检测算法研究 被引量:3
16
作者 黄富平 梁卓浪 +1 位作者 邢英俊 杨春丽 《计算机测量与控制》 2017年第7期260-263,268,共5页
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效... 近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。 展开更多
关键词 云计算 大数据 异常数据 hadoop平台
下载PDF
一种基于Hadoop平台CloudSVM的网络流量分类方法 被引量:2
17
作者 邓河 唐一韬 +1 位作者 贺宗梅 袁爱平 《太赫兹科学与电子信息学报》 北大核心 2020年第5期918-923,共6页
大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结... 大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结果。本文基于Hadoop云计算平台,采用MapReduce技术对SVM网络流量分类器进行分布式学习和训练,构建CloudSVM网络流量分类器。通过对来自校园网出口镜像的近2 T的大规模网络流量的跟踪文件的分布式存储和处理,对抽取的样本数据集进行分类,实验验证了基于Hadoop平台分布式存储和并行处理大规模网络数据集的高效率性,也验证了CloudSVM分类器在不降低分类准确度的情况下可以快速收敛到最佳,并随着大规模网络流样本的增加,SVM分类器训练的时间趋近平稳。 展开更多
关键词 网络流量分类 hadoop平台 CloudSVM分类器
下载PDF
基于Hadoop平台的SVM_WNB分类算法的研究 被引量:5
18
作者 黄刚 李正杰 《计算机应用研究》 CSCD 北大核心 2016年第11期3215-3218,共4页
SVM算法和朴素贝叶斯分类算法是对大量复杂数据分类中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提... SVM算法和朴素贝叶斯分类算法是对大量复杂数据分类中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提出了SVM_WNB分类算法,并且在Hadoop云平台上对算法实现并行化处理,使其能够对大数据进行处理。实验验证,改进后的算法在准确性和效率等方面有明显提升,在大数据的分类上将会起到显著的效果。 展开更多
关键词 大数据 数据挖掘 SVM_WNB算法 hadoop平台 并行化
下载PDF
基于Hadoop分布式平台的Web文本关键词提取方案 被引量:5
19
作者 姚卫国 张东波 《湘潭大学自然科学学报》 CAS 北大核心 2016年第2期79-83,共5页
针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,... 针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词. 展开更多
关键词 WEB文本 关键词提取 hadoop平台 自然语言处理 分布式
下载PDF
基于云计算的Web数据挖掘Hadoop仿真平台研究 被引量:11
20
作者 王勃 徐静 《电子设计工程》 2018年第2期22-25,共4页
自2007年以来,随着云计算被广泛的应用到互联网,大量的服务器终端数据如何有效的组织,以便稳定、高效的运行已成为当前亟待解决的问题,基于云计算的web数据挖掘Hadoop仿真平台能够较快速的通过相关的网络结构,解决服务器地域分布较为分... 自2007年以来,随着云计算被广泛的应用到互联网,大量的服务器终端数据如何有效的组织,以便稳定、高效的运行已成为当前亟待解决的问题,基于云计算的web数据挖掘Hadoop仿真平台能够较快速的通过相关的网络结构,解决服务器地域分布较为分散,数据流量大等网络关键难题,最终实现仿真运算,从而提高网络平台的性能,最终达到云计算环境下的高速分布式计算的目标。 展开更多
关键词 云计算 WEB数据挖掘 hadoop仿真平台
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部