期刊文献+
共找到226篇文章
< 1 2 12 >
每页显示 20 50 100
大数据Hadoop集群下Sqoop数据传输技术研究
1
作者 周少珂 郭璇 +1 位作者 张振平 付媛冰 《河南科技》 2024年第6期25-28,共4页
【目的】Hadoop系统是大数据分布式集群系统,其开源的生态圈中有众多功能组件,通过在大数据Hadoop集群系统上部署Sqoop组件,将本地关系型Mysql数据库中的数据和Hive数据仓库中存储的数据进行快速导入导出,进一步研究数据传输性能。【方... 【目的】Hadoop系统是大数据分布式集群系统,其开源的生态圈中有众多功能组件,通过在大数据Hadoop集群系统上部署Sqoop组件,将本地关系型Mysql数据库中的数据和Hive数据仓库中存储的数据进行快速导入导出,进一步研究数据传输性能。【方法】首先在企业服务器上部署配置Hadoop分布式集群系统,其次在该集群上部署Sqoop组件并测试与Mysql数据库和Hive数据仓库的连通性,最后使用Sqoop技术测试本地Mysql数据库和Hive数据仓库之间的导入和导出。【结果】通过Sqoop技术能够更加便捷快速地从本地Mysql数据库上传到Hadoop集群系统,与传统方式下先将本地Mysql数据库中数据导出TXT文档格式后再使用Hive数据仓库的Load数据批量加载功能相比,在时间和效率方面大为提升。【结论】验证了Sqoop组件在Hadoop集群中部署运行的正确性,为大数据技术学习者提供一定程度的参考借鉴。 展开更多
关键词 大数据 hadoop 分布式集群 Sqoop
下载PDF
Hadoop集群部署实验的设计与实现 被引量:20
2
作者 孟永伟 黄建强 +1 位作者 曹腾飞 王晓英 《实验技术与管理》 CAS 北大核心 2015年第1期145-149,共5页
阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出... 阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出了实现过程。通过该实验能够让学生从理论和实践上掌握Hadoop有关的技术知识。 展开更多
关键词 hadoop 集群部署 HDFS MAPREDUCE NameNode DataNode JobTrack TaskTrack
下载PDF
基于节点能力的Hadoop集群任务自适应调度方法 被引量:31
3
作者 郑晓薇 项明 +1 位作者 张大为 刘青昆 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期618-626,共9页
针对当前Hadoop集群固有的任务级调度分配方法在运行中存在的负载分布不均的现象,着重对集群节点的执行能力进行了分析与研究.提出了一种基于节点能力的任务自适应调度分配方法.该方法根据节点历史和当前的负载状态,以节点性能、任务特... 针对当前Hadoop集群固有的任务级调度分配方法在运行中存在的负载分布不均的现象,着重对集群节点的执行能力进行了分析与研究.提出了一种基于节点能力的任务自适应调度分配方法.该方法根据节点历史和当前的负载状态,以节点性能、任务特征、节点失效率等作为节点任务量调度分配的依据,并使各节点能自适应地对运行的任务量进行调整.实验结果表明集群的总任务完成时间明显地缩减,各节点的负载更加均衡,节点资源的利用更为合理. 展开更多
关键词 hadoop集群 任务级调度方法 执行能力 节点能力 自适应
下载PDF
基于改进Hadoop挖掘框架的电力通信异常数据提取研究
4
作者 姚宬丞 蒋何 《通信电源技术》 2024年第20期44-46,共3页
电力通信系统异常数据往往隐藏在海量数据当中,导致Hadoop挖掘框架在异常数据提取中的覆盖度较低。因此,提出基于改进Hadoop挖掘框架的电力通信异常数据提取研究。通过预处理策略如标准化、滤波及复数信号归一化提高数据质量。引入本地... 电力通信系统异常数据往往隐藏在海量数据当中,导致Hadoop挖掘框架在异常数据提取中的覆盖度较低。因此,提出基于改进Hadoop挖掘框架的电力通信异常数据提取研究。通过预处理策略如标准化、滤波及复数信号归一化提高数据质量。引入本地数据聚合优化组件优化数据传输,采用多NameNode Hadoop架构解决单节点瓶颈问题,并结合K-Means聚类算法进行数据挖掘。通过特征评估与筛选和并行聚类分析,有效识别出关键的异常数据特征。实验结果显示,该方法能显著提高异常数据的提取覆盖度。 展开更多
关键词 改进hadoop挖掘框架 电力通信系统 异常数据 特征提取 聚类分析
下载PDF
一种基于Hadoop平台的新聚类算法 被引量:6
5
作者 缪裕青 张锦杏 +2 位作者 刘少兵 文益民 明媚 《计算机科学》 CSCD 北大核心 2014年第4期269-272,共4页
针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结... 针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结果。实验结果表明,bigKClustering算法不仅具有良好的时间效率和聚类效果,而且具有良好的可伸缩性、加速比和时间稳定性。 展开更多
关键词 微簇 等价连接 hadoop平台 聚类
下载PDF
Hadoop分布式集群的自动化容器部署研究 被引量:16
6
作者 李杰 刘广钟 《计算机应用研究》 CSCD 北大核心 2016年第11期3404-3407,3445,共5页
针对Hadoop集群部署过程繁琐复杂、耗时费力、运维难度大,且不利于快速扩展的问题,提出一种结合Docker容器技术部署集群的解决方法。该方法把Ambari及其运行环境和配置构建成Docker镜像,并把多节点容器的运行和Hadoop集群的部署过程写成... 针对Hadoop集群部署过程繁琐复杂、耗时费力、运维难度大,且不利于快速扩展的问题,提出一种结合Docker容器技术部署集群的解决方法。该方法把Ambari及其运行环境和配置构建成Docker镜像,并把多节点容器的运行和Hadoop集群的部署过程写成Shell脚本,只需一条命令,即可实现集群的自动化部署。实验结果表明,该方法简单可靠并极大地提高了集群部署的效率。因此,对海量数据的处理和分析具有重要的推动作用。 展开更多
关键词 hadoop集群 镜像 自动化部署 Docker容器 大数据
下载PDF
Hadoop下基于聚类协同过滤推荐算法优化的研究 被引量:18
7
作者 田保军 胡培培 +1 位作者 杜晓娟 苏依拉 《计算机工程与科学》 CSCD 北大核心 2016年第8期1615-1624,共10页
作为重要的个性化推荐算法之一,协同过滤推荐算法有其独特的优势,但同时存在数据稀疏性、冷启动和扩展性问题。针对数据稀疏性问题,对项目相似度进行改进,利用基于项目的协同过滤对原始评分矩阵进行填充,以此降低数据稀疏性对推荐质量... 作为重要的个性化推荐算法之一,协同过滤推荐算法有其独特的优势,但同时存在数据稀疏性、冷启动和扩展性问题。针对数据稀疏性问题,对项目相似度进行改进,利用基于项目的协同过滤对原始评分矩阵进行填充,以此降低数据稀疏性对推荐质量的影响。针对冷启动问题,采用基于用户和项目属性分别进行聚类的方法,通过聚类模型建立新用户和新项目与现有用户和现有项目之间的联系,根据对现有用户和现有项目的推荐预测新用户和新项目的推荐。针对扩展性问题,利用云平台Hadoop的MapReduce框架完成相关算法的并行化,以此解决传统协同过滤推荐算法面临的严重扩展性问题。实验表明,改进后的算法较好地解决了以上问题。 展开更多
关键词 协同过滤 数据稀疏性 扩展性 聚类 hadoop
下载PDF
基于Hadoop的高校学生行为预警决策系统研究 被引量:14
8
作者 葛苏慧 万泉 白成杰 《计算机应用与软件》 北大核心 2021年第1期6-12,共7页
通过智慧校园各种智能终端、可感知设备,获取学生校园动态行为轨迹数据,构建多维数据存储中心。利用Hadoop框架分布式文件系统HDFS和MapReduce,将多维数据进行关联、分类、降维、聚类分析与可视化呈现。使学生特征标签化,生成基于特征... 通过智慧校园各种智能终端、可感知设备,获取学生校园动态行为轨迹数据,构建多维数据存储中心。利用Hadoop框架分布式文件系统HDFS和MapReduce,将多维数据进行关联、分类、降维、聚类分析与可视化呈现。使学生特征标签化,生成基于特征矩阵的学生画像,从而分离出偏离中心点的学生异常,建立动态的预警决策机制,从而进行前置预警和智慧决策;使高校管理机构及教师主动掌握学生的生活情况、学习状态及行为规律,从而对不良思想行为做到事先警示教育、事后跟踪管理,实现以学生为视角的智能管控及智慧管理。基于Hadoop的预警决策系统,开创了智慧校园教育管理决策科学化、管理智能化、监督过程化的新模式,具有较高的经济效益与推广应用价值。 展开更多
关键词 hadoop 聚类 降维 预警决策
下载PDF
基于Hadoop分布式改进聚类协同过滤推荐算法研究 被引量:21
9
作者 孙天昊 黎安能 +1 位作者 李明 朱庆生 《计算机工程与应用》 CSCD 北大核心 2015年第15期124-128,共5页
为了改善协同过滤推荐算法在大数据下的稀疏性和可扩展性问题,提出一种基于Hadoop平台的分布式改进聚类协同过滤推荐算法。在分布式平台下,离线对高维稀疏数据采用矩阵分解算法预处理,改善数据稀疏性后通过改进项目聚类算法构建聚类模型... 为了改善协同过滤推荐算法在大数据下的稀疏性和可扩展性问题,提出一种基于Hadoop平台的分布式改进聚类协同过滤推荐算法。在分布式平台下,离线对高维稀疏数据采用矩阵分解算法预处理,改善数据稀疏性后通过改进项目聚类算法构建聚类模型,根据聚类模型和相似性计算形成推荐候选空间,在线完成推荐。实验验证该算法能够有效改善推荐系统的推荐质量并大大提高推荐效率,同时在云环境中具有良好可扩展性。 展开更多
关键词 协同过滤 hadoop 矩阵分解 聚类 分布式计算
下载PDF
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析 被引量:11
10
作者 谌超 强保华 石龙 《桂林电子科技大学学报》 2012年第4期307-312,共6页
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集... 为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强。可见,网络通信带宽对Hadoop集群性能有一定影响,高速集群链路有利于发挥集群的性能。 展开更多
关键词 MAPREDUCE 倒排索引 hadoop集群
下载PDF
基于Hadoop的Nutch网页排序算法研究与实现 被引量:4
11
作者 陶林 谌超 +1 位作者 强保华 王勇 《桂林电子科技大学学报》 2013年第2期139-143,共5页
为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布... 为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。 展开更多
关键词 hadoop集群 MAPREDUCE NUTCH 网页排序算法 PAGERANK
下载PDF
Hadoop集群性能参数自动调优信息库系统构建 被引量:2
12
作者 郑晓薇 项明 +1 位作者 张大为 刘青昆 《小型微型计算机系统》 CSCD 北大核心 2014年第3期538-542,共5页
为了使Hadoop集群系统能够应对多变的任务及系统本身节点差异对集群性能带来的影响,采用TaskConfigure服务器构建Hadoop集群参数信息库系统实现对集群参数的自动调优配置.通过对集群节点及任务的分类,提出集群按类分配配置参数及采用节... 为了使Hadoop集群系统能够应对多变的任务及系统本身节点差异对集群性能带来的影响,采用TaskConfigure服务器构建Hadoop集群参数信息库系统实现对集群参数的自动调优配置.通过对集群节点及任务的分类,提出集群按类分配配置参数及采用节点资源利用效率生成集群系统参数的优化配置值.实验结果表明,参数信息库系统的自动调优保证了集群工作性能的充分发挥,有效地缩短了集群执行任务的工作时间,使集群具有良好的稳定性和扩展性. 展开更多
关键词 TaskConfigure服务器 hadoop集群 参数信息库系统 自动调优
下载PDF
基于和声算法异构Hadoop集群资源分配优化 被引量:5
13
作者 李锋刚 魏炎炎 杨龙 《计算机工程与应用》 CSCD 2014年第9期98-102,共5页
异构Map-Reduce环境中资源分配策略直接影响其响应时间,如何利用有效的策略将计算任务分配到计算资源是亟待解决的问题。利用和声搜索算法对异构Hadoop集群中的计算资源分配问题进行优化。对问题进行建模时考虑了异构计算机集群中各节... 异构Map-Reduce环境中资源分配策略直接影响其响应时间,如何利用有效的策略将计算任务分配到计算资源是亟待解决的问题。利用和声搜索算法对异构Hadoop集群中的计算资源分配问题进行优化。对问题进行建模时考虑了异构计算机集群中各节点的处理能力、带宽和线路质量和源数据位置等因素对计算资源分配的影响,利用和声搜索算法优化资源分配策略,以期在满足用户需求的前提下提高系统的响应时间。并用Gridsim对算法进行仿真实验,实验结果表明利用和声搜索算法可以达到减少系统响应时间的目的。 展开更多
关键词 云计算 hadoop 异构集群 和声搜索算法 资源分配
下载PDF
异构Hadoop集群下自适应平衡数据存储的大数据放置策略 被引量:3
14
作者 张少辉 张中军 于来行 《现代电子技术》 北大核心 2016年第10期49-53,57,共6页
Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,... Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,根据反馈的任务完成时间信息,动态更新节点的能力比例,自适应调整数据分配,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间的数据移动量,提高了节点利用率。实验结果表明,该策略能够有效缩减任务完成时间,提高了系统的整体性能。 展开更多
关键词 异构hadoop集群 大数据放置 数据存储平台 平衡数据存储
下载PDF
基于Hadoop的分布式财务异常数据分析系统设计 被引量:6
15
作者 王金元 王宇 +4 位作者 张亚松 林昊 龚致富 李盼 安新艳 《信息技术》 2022年第1期21-25,31,共6页
传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构建了Hadoop分布式财务异常数据分析模型。该模型采用Hadoop中的MapReduce框架作为并行计算框架,同时在数... 传统的异常数据监测算法依靠单台计算机对异常数据进行识别,识别速度慢,且无法满足对数据处理的精确性要求。针对上述问题,文中构建了Hadoop分布式财务异常数据分析模型。该模型采用Hadoop中的MapReduce框架作为并行计算框架,同时在数据异常检测算法方面引入了邻域关系的LOF算法,有效避免了数据集元素边缘可能会出现误判的情况。数值实验结果表明,文中所提算法的准确率相比其他3种同类算法提升了5%以上,且算法的总运行时间也明显缩短。由此可见,文中所提模型可快速、准确地检测出财务异常数据,保障医疗系统的平稳运行。 展开更多
关键词 hadoop集群 并行算法 LOF算法 异常数据检测 MAPREDUCE框架
下载PDF
基于Hadoop平台的KNN分类器的优化和实现 被引量:2
16
作者 王江涛 陈锻生 温新竹 《太原理工大学学报》 CAS 北大核心 2016年第4期513-517,526,共6页
分析了KNN分类算法的流程,然后在K值的动态获取和分类加权两个方面对分类算法进行改进;利用MapReduce编程思想完成KNN分类算法在Hadoop集群环境下的移植和实现。实验数据证明,改进后的KNN分类算法在人脸识别精度、识别效率和稳定性3个... 分析了KNN分类算法的流程,然后在K值的动态获取和分类加权两个方面对分类算法进行改进;利用MapReduce编程思想完成KNN分类算法在Hadoop集群环境下的移植和实现。实验数据证明,改进后的KNN分类算法在人脸识别精度、识别效率和稳定性3个方面得到了有效提高。 展开更多
关键词 MapReduce K-Neaurest NEIGHBOR 欧式距离 hadoop集群 加速比
下载PDF
基于Hadoop的交互式大数据分析查询处理方法 被引量:5
17
作者 李聪颖 王瑞刚 梁小江 《计算机技术与发展》 2016年第8期134-137,142,共5页
基于Hadoop的交互式大数据分析查询处理方法旨在快速分析查询大数据集的信息,最重要的特征就是查询速度快。该方法能够运行在上千节点的集群上,适于半结构化/嵌套数据的分析、兼容现有的SQL环境和Apache Hive。文中主要利用此方法实现连... 基于Hadoop的交互式大数据分析查询处理方法旨在快速分析查询大数据集的信息,最重要的特征就是查询速度快。该方法能够运行在上千节点的集群上,适于半结构化/嵌套数据的分析、兼容现有的SQL环境和Apache Hive。文中主要利用此方法实现连接HDFS、Hive以及Hbase进行查询测试,还完成了同时从不同数据源上关联查询数据。在同一Hadoop集群环境中,将该方法与Spark SQL对于10万、20万、50万、100万、500万条数据进行查询速度对比测试。经过多次实验后得出,基于Hadoop的交互式大数据分析查询处理方法速度快、效率高,能够帮助企业用户快速、高效地进行Hadoop数据查询和企业级大数据分析。 展开更多
关键词 hadoop集群 大数据处理 交互式查询 快速 SQL
下载PDF
一种Hadoop集群下的行为异常检测方法 被引量:4
18
作者 蔡武越 王珂 +1 位作者 郝玉洁 段晓冉 《计算机工程与科学》 CSCD 北大核心 2017年第12期2185-2191,共7页
随着分布式计算技术的发展,Hadoop成为大规模数据处理领域的典型代表,由于安全机制相对薄弱,缺少用户行为活动的监控,容易受到隐藏的安全威胁,如数据泄露等。结合主成分分析计算的特点,基于MapReduce对其做并行化处理,克服了传统主成分... 随着分布式计算技术的发展,Hadoop成为大规模数据处理领域的典型代表,由于安全机制相对薄弱,缺少用户行为活动的监控,容易受到隐藏的安全威胁,如数据泄露等。结合主成分分析计算的特点,基于MapReduce对其做并行化处理,克服了传统主成分分析计算的缺点,提高了模型训练效率。提出了一种基于并行化主成分分析的异常行为检测方法,即比较当前用户的行为模式是否与历史行为模式相匹配作为判定用户行为异常与否的度量标准。实验表明该方法能够较好地发现用户的异常行为。 展开更多
关键词 hadoop集群 主成分分析 异常检测 MAPREDUCE 行为模式
下载PDF
基于C4.5算法和Hadoop云计算平台的购物意愿分析方法 被引量:2
19
作者 褚治广 颜飞 +1 位作者 张兴 李畅 《辽宁工业大学学报(自然科学版)》 2017年第4期225-229,共5页
为适应大数据背景下的计算需求,首先根据C4.5算法计算原理的特点,对C4.5进行数据处理并行化改进。然后根据Hadoop云平台的特点,对数据处理流程进行简要说明。最后,通过搭建Hadoop云平台环境,使用随机生成的测试数据集对算法进行验证。... 为适应大数据背景下的计算需求,首先根据C4.5算法计算原理的特点,对C4.5进行数据处理并行化改进。然后根据Hadoop云平台的特点,对数据处理流程进行简要说明。最后,通过搭建Hadoop云平台环境,使用随机生成的测试数据集对算法进行验证。分析消费者可能购买的商品,实现数据的利用率最大化、提高交易成交率和挖掘潜在交易。通过实验分析得出,基于C4.5算法和Hadoop云计算平台的购物意愿分析方法可以应用到大型电商平台对消费者的购物意愿进行分析中。 展开更多
关键词 C4.5 hadoop 计算集群 购物意愿 数据挖掘
下载PDF
基于异构Hadoop集群的负载均衡策略研究 被引量:2
20
作者 秦军 冯亮亮 孙蒙 《计算机技术与发展》 2017年第6期110-113,共4页
异构Hadoop环境中,每个节点的处理能力各不相同,且集群中的节点会不断增加和删除,随着作业量的增大,负载倾斜会越来越明显。显然,负载均衡也成为影响Hadoop集群性能的重要因素之一。针对异构Hadoop环境中MapReduce任务调度,提出了一种... 异构Hadoop环境中,每个节点的处理能力各不相同,且集群中的节点会不断增加和删除,随着作业量的增大,负载倾斜会越来越明显。显然,负载均衡也成为影响Hadoop集群性能的重要因素之一。针对异构Hadoop环境中MapReduce任务调度,提出了一种新的负载均衡算法。该算法充分利用节点性能和当前的计算资源,根据集群负载平衡度量值进行任务分配,将任务分配给适合的节点,使集群负载逐渐趋于平衡,以提高集群节点利用率。由于Hadoop集群中各节点通过网络连接,以节省网络传输代价,因此在负载均衡调度时,根据数据分布特点,优先考虑数据的本地性,以缩短任务执行时间。仿真实验结果表明,所提出的负载均衡算法能明显改善系统性能,有效缩短MapReduce作业执行时间。 展开更多
关键词 hadoop集群 MAPREDUCE 节点性能 任务调度 负载均衡
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部