期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于MapReduce操作HBase中数据 被引量:3
1
作者 田燕军 王莉 《电子技术与软件工程》 2021年第21期131-132,共2页
本文针对如何快速进行处理HBase表中数据的问题,提出了使用MapReduce并行处理HBase表中数据的关键技术,可利用集群资源,达到快速批量完成数据的处理结果。
关键词 hadoop mapreduce 分布式存储 hbase
下载PDF
基于Hadoop和HBase的Nutch网页排序算法研究 被引量:1
2
作者 施磊磊 施化吉 +1 位作者 宋玉平 束长波 《软件导刊》 2014年第10期53-55,共3页
针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检... 针对Nutch网页排序算法和中文分词的不足以及单机运行的效率问题,在Nutch综合网页排序中添加用户点击率、网页发布时间以及主题内容相关度3个影响因子,同时添加JE中文分词器,最后利用基于HDFS的HBase技术使Nutch能够实时高效地索引和检索海量数据。通过对实验结果数据的分析发现,Nutch的爬取和索引效率提高了7.93%,用户检索效率与查询准确度分别提高了11.11%与19.51%。 展开更多
关键词 hadoop集群 mapreduce NUTCH hbase
下载PDF
基于MapReduce的个性化课程推荐系统设计与实现 被引量:1
3
作者 徐伟 许鹏 《通化师范学院学报》 2021年第2期103-108,共6页
新一代信息技术促进了教学方式的变革,涌现出很多优秀的线上教学平台,如职教云、腾讯课堂等.线上课程具有不受时空限制、授课形式灵活多样的特点,在新冠肺炎疫情期间得到广泛应用,但大量线上课程的出现也给学生选课带来了困扰,为便于学... 新一代信息技术促进了教学方式的变革,涌现出很多优秀的线上教学平台,如职教云、腾讯课堂等.线上课程具有不受时空限制、授课形式灵活多样的特点,在新冠肺炎疫情期间得到广泛应用,但大量线上课程的出现也给学生选课带来了困扰,为便于学生在众多的课程中选择适合自身特点的课程,设计开发了一款个性化课程推荐系统,系统采用协同过滤推荐算法,根据学生对课程的历史评分数据,使用大数据Hadoop离线计算框架MapReduce技术计算课程之间的相似度并生成课程推荐列表,在一定程度上满足了学生个性化需求. 展开更多
关键词 hadoop mapreduce 协同过滤算法 个性化推荐系统
下载PDF
基于HBase的矢量空间数据分布式存储研究 被引量:39
4
作者 范建永 龙明 熊伟 《地理与地理信息科学》 CSCD 北大核心 2012年第5期39-42,共4页
分析了分布式数据库HBase的存储模型;结合对HBase集群技术的研究,设计了基于HBase的矢量空间数据存储模型和一种基于MapReduce的并行构建网格空间索引方法,使得海量空间矢量数据的网格索引构建分配到各子节点进行,大大加快索引构建的处... 分析了分布式数据库HBase的存储模型;结合对HBase集群技术的研究,设计了基于HBase的矢量空间数据存储模型和一种基于MapReduce的并行构建网格空间索引方法,使得海量空间矢量数据的网格索引构建分配到各子节点进行,大大加快索引构建的处理速度;最后,利用HBase集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率。 展开更多
关键词 hadoop hbase 矢量数据 存储模型 分布式存储 mapreduce
下载PDF
基于Hadoop的微博舆情监控系统 被引量:27
5
作者 陈彦舟 曹金璇 《计算机系统应用》 2013年第4期18-22,9,共6页
随着在线社会网络如社交网站、微博、在线社区等的快速发展,一个真正的双向传播和新媒体时代逐步形成.在线社会网络让每个用户都能创造自己的内容,并且快速传播出去.据不完全统计,新浪微博平均每秒有超过1000条的新微博产生,日增量数据... 随着在线社会网络如社交网站、微博、在线社区等的快速发展,一个真正的双向传播和新媒体时代逐步形成.在线社会网络让每个用户都能创造自己的内容,并且快速传播出去.据不完全统计,新浪微博平均每秒有超过1000条的新微博产生,日增量数据为5TB,因此海量数据给舆情监控带来了严峻的挑战.将介绍一种基于Hadoop的微博舆情监控系统,能够对大规模采集数据进行挖掘、分析,实现对舆情热点话题的发现及追踪、对微博的社会网络分析,分析结果可视化呈现,为党政机关、大型企业等单位和组织及时发现敏感信息、掌握舆情热点、把握舆情趋势、应对舆论危机提供自动化、系统化、科学化的信息支持. 展开更多
关键词 舆情监控 hadoop hbase mapreduce 在线社会网络 云计算
下载PDF
基于Hadoop云计算平台的海量文本处理研究 被引量:11
6
作者 张学亮 陈金勇 陈勇 《无线电通信技术》 2014年第1期54-57,共4页
针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词... 针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理。实验结果表明,Hadoop框架为大规模数据的分布式并行处理提供了很好的解决方案。 展开更多
关键词 海量文本处理 hadoop HDFS hbase mapreduce 分布式并行处理
下载PDF
基于Hadoop平台协同过滤推荐算法 被引量:7
7
作者 杨志文 刘波 《计算机系统应用》 2013年第7期108-112,共5页
针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题,在分析研究Hadoop分布式平台与协同过滤推荐算法后,提出了一种基于Hadoop平台实现协同过滤推荐算法的优化方案.实验证明,在Hadoop平台上通过MapReduce结合Hbas... 针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题,在分析研究Hadoop分布式平台与协同过滤推荐算法后,提出了一种基于Hadoop平台实现协同过滤推荐算法的优化方案.实验证明,在Hadoop平台上通过MapReduce结合Hbase数据库实现算法,能够有效地提高协同过滤推荐算法在大数据规模下的执行效率,从而能够进一步地搭建低成本高性能、动态扩展的分布式推荐引擎. 展开更多
关键词 hadoop mapreduce hbase 协同过滤推荐算法
下载PDF
基于hadoop的电网大数据处理探究 被引量:17
8
作者 李伟 张爽 +2 位作者 康建东 赵晓东 焦龙 《电子测试》 2014年第1期74-77,共4页
由于我国电网发展迅速、日趋壮大、大量新设备投入使用,需要对海量的设备状态数据和动态信息进行在线收集并在指定的时间内完成处理,这就对海量数据储存与处理提出了更高的要求、带来了严峻的挑战。为了处理这些海量数据设计并实现了基... 由于我国电网发展迅速、日趋壮大、大量新设备投入使用,需要对海量的设备状态数据和动态信息进行在线收集并在指定的时间内完成处理,这就对海量数据储存与处理提出了更高的要求、带来了严峻的挑战。为了处理这些海量数据设计并实现了基于Hadoop技术的数据储存处理系统,包括Hadoop集群、HBase、集群管理客户端。通过基准测试、IO处理性能验证和查询性能分析,验证了该系统具有分布式海量储存及高效查询的优势,适合电网大数据的储存与处理。 展开更多
关键词 hadoop HDFS mapreduce hbase电网大数据
下载PDF
Hadoop平台在图书推荐应用中的性能分析 被引量:5
9
作者 赵彦辉 刘树春 《现代情报》 CSSCI 2014年第10期157-161,共5页
构建基于分布式平台及大量借阅数据的图书推荐算法,是实现图书馆个性化信息推送服务的关键环节。本文从搭建Hadoop分布式平台和运用Mahout的MapReduce实现算法入手,针对读者借阅记录的分类号进行频数统计和借阅时间统计,依据借阅次数和... 构建基于分布式平台及大量借阅数据的图书推荐算法,是实现图书馆个性化信息推送服务的关键环节。本文从搭建Hadoop分布式平台和运用Mahout的MapReduce实现算法入手,针对读者借阅记录的分类号进行频数统计和借阅时间统计,依据借阅次数和借阅时间获得偏好值。并使用Mahout基于图书的推荐器,测试伪分布式单节点模式和完全分布式MapReduce计算框架下的推荐效果。测试表明:在MapReduce运算中增加DataNode的数量同时优化BlockSize参数能显著缩短运算时间,是实现个性化荐书服务自动推送的可行方法。 展开更多
关键词 hadoop mapreduce Mahout 个性化图书推荐 信息推送
下载PDF
分布式存储系统HBase关键技术研究 被引量:12
10
作者 张智 龚宇 《现代计算机(中旬刊)》 2014年第11期33-37,共5页
HBase是一个面向列的非关系型的开源分布式存储系统,它基于Hadoop HDFS文件存储系统,使用MapReduce来处理海量数据,利用Zookeeper作为协同服务,它使用简单的键值对映像关系为超大规模和高并发的海量数据实时响应系统提供一个很好的解决... HBase是一个面向列的非关系型的开源分布式存储系统,它基于Hadoop HDFS文件存储系统,使用MapReduce来处理海量数据,利用Zookeeper作为协同服务,它使用简单的键值对映像关系为超大规模和高并发的海量数据实时响应系统提供一个很好的解决方案。对HBase的体系结构、数据模型、MapReduce算法设计等几个方面进行详细阐述,并对HBase的未来发展做出展望。 展开更多
关键词 分布式存储系统 hbase hadoop hadoop文件系统 mapreduce
下载PDF
基于Hadoop的分布式云计算/云存储方案的研究与设计 被引量:29
11
作者 成静静 《数据通信》 2012年第5期14-18,共5页
通过介绍云计算技术的发展背景以及目前云计算技术的几种技术架构,对分布式云计算/云存储技术进行了详尽的研究,包括分布式云计算/云存储的整体架构、分布式文件系统、分布式数据库、分布式数据仓库、分布式同步软件等,并通过与并行关... 通过介绍云计算技术的发展背景以及目前云计算技术的几种技术架构,对分布式云计算/云存储技术进行了详尽的研究,包括分布式云计算/云存储的整体架构、分布式文件系统、分布式数据库、分布式数据仓库、分布式同步软件等,并通过与并行关系型数据库、MPP数据库的对比,分析了基于Hadoop的分布式云计算/云存储架构的竞争优势,基于Hadoop的分布式云计算/云存储将更有效支撑未来电信运营商业务的发展。 展开更多
关键词 云计算 终端桌面云 分布式云计算 云存储 hadoop 分布式文件系统(HDFS) 分布式数据库(hbase) 并行计算框架(mapreduce) 分布式同步软件(Zookeeper)
下载PDF
大数据环境下Hadoop分布式系统的研究与设计 被引量:10
12
作者 廖锋 成静静 《广东通信技术》 2013年第10期22-27,共6页
随着互联网应用的飞速发展和信息的社会化数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展性的瓶颈,通过介绍目前大数据时代面临的挑战,分析了大数据对IT系统的挑战以及针对大数据业务特点的应对策略... 随着互联网应用的飞速发展和信息的社会化数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展性的瓶颈,通过介绍目前大数据时代面临的挑战,分析了大数据对IT系统的挑战以及针对大数据业务特点的应对策略。目前大数据技术目前还没形成统一标准,但业界已经广泛使用Hadoop分布式系统作为其大数据处理平台,对大数据环境下Hadoop分布式系统进行了详尽的研究与设计,包括分布式文件系统、并行计算模型、分布式数据库、分布式锁服务等各个功能模块,大数据环境下的Hadoop分布式系统将更有效支撑未来电信运营商业务的发展。 展开更多
关键词 大数据 高并发 高存储 高扩展性和可用性 MPP架构 NOSQL数据库 hadoop分布式系统分布式文件系统(HDFS) 并行数据处理模型(mapreduce) 分布式数据库(hbase BigTable) 分布式锁服务(ZooKeeper Chubby)
下载PDF
基于 Hadoop的Apriori算法与实现 被引量:10
13
作者 孙赵旭 谢晓兰 +2 位作者 周国清 倪金生 胡莘 《桂林理工大学学报》 CAS 北大核心 2014年第3期584-588,共5页
针对传统Aprion数据挖掘算法平台的硬件瓶颈以及算法运算耗时、需要重复扫描数据库等缺点,提出了一种基于Hadoop平台应用MapReduce模型与Hbase,对Apriori进行云端的迁移和优化的算法,并与其他的改进Apriori算法进行了分析与比较。实验... 针对传统Aprion数据挖掘算法平台的硬件瓶颈以及算法运算耗时、需要重复扫描数据库等缺点,提出了一种基于Hadoop平台应用MapReduce模型与Hbase,对Apriori进行云端的迁移和优化的算法,并与其他的改进Apriori算法进行了分析与比较。实验结果表明:新的云端算法降低了时间复杂度,使其可以更好的进行数据处理。 展开更多
关键词 数据挖掘 云计算
下载PDF
基于Hadoop的高性能集群状态监测分析 被引量:1
14
作者 刘树仁 冯超敏 +2 位作者 文玲 蔡长宁 赵书贵 《计算机工程与设计》 CSCD 北大核心 2014年第11期4049-4053,共5页
油气勘探对高性能集群的稳定性提出了更高的要求,为解决其与传统管理技术间的矛盾,设计并实现基于Hadoop技术的集群状态数据存储与分析平台。该方案包括状态数据收集、HBase存储与通过MapReduce实现的k-means聚类算法。通过对HBase的压... 油气勘探对高性能集群的稳定性提出了更高的要求,为解决其与传统管理技术间的矛盾,设计并实现基于Hadoop技术的集群状态数据存储与分析平台。该方案包括状态数据收集、HBase存储与通过MapReduce实现的k-means聚类算法。通过对HBase的压力测试以及k-means算法的聚类效果分析验证了该方案的实用性,其适用于高性能集群的主动方式故障管理。 展开更多
关键词 hadoop hbase mapreduce K-MEANS 集群 状态监测
下载PDF
面向HBase的大规模数据加载研究 被引量:4
15
作者 贺正红 周娅 +1 位作者 文缔尧 吴清霞 《计算机系统应用》 2016年第6期231-237,共7页
分布式数据库HBase在大规模数据加载中较传统关系型数据库有较大的优势但也存在很大的优化空间.基于Hadoop分布式平台搭建HBase环境,并优化自定义数据加载算法.首先,分析HBase底层数据存储,实验得出HBase自带数据加载方式在效率和灵活... 分布式数据库HBase在大规模数据加载中较传统关系型数据库有较大的优势但也存在很大的优化空间.基于Hadoop分布式平台搭建HBase环境,并优化自定义数据加载算法.首先,分析HBase底层数据存储,实验得出HBase自带数据加载方式在效率和灵活性方面存在不足;进而,提出了自定义并行数据加载算法,并针对集群进行优化.实验结果表明,优化后的自定义并行数据加载方式能充分发挥集群性能,具有较好的加载效率和数据操作能力. 展开更多
关键词 hbase hadoop mapreduce 数据加载 性能优化
下载PDF
基于Hadoop的葡萄种植环境数据处理及性能测试 被引量:2
16
作者 袁伟 罗丽琼 +3 位作者 赵路 张军情 付思芮 鲁绍坤 《山东农业科学》 2015年第8期119-122,126,共5页
随着农业大数据时代的来临,传统串行程序及关系数据库已经不能满足对大数据处理的需求,使用分布式平台对数据进行处理逐渐取代传统的数据处理技术。本文使用Hadoop分布式平台,结合非关系型数据库Hbase和并行编程模型MapReduce,对香格里... 随着农业大数据时代的来临,传统串行程序及关系数据库已经不能满足对大数据处理的需求,使用分布式平台对数据进行处理逐渐取代传统的数据处理技术。本文使用Hadoop分布式平台,结合非关系型数据库Hbase和并行编程模型MapReduce,对香格里拉地区酿酒葡萄种植区的环境数据的存储和计算进行了设计,测试了Hbase对数据的存储性能以及MapReduce用于回归分析的性能,并将MapReduce并行计算程序与单机串行程序进行了性能对比。结果表明,通过对Hbase进行合适的配置,数据写入时间随着节点的增加而减少,存储性能具有良好的扩展性;MapReduce在处理少量数据时效率低于串行程序,但随着数据量增加,其计算效率明显优于串行程序。 展开更多
关键词 hadoop hbase mapreduce 性能测试 农业大数据
下载PDF
基于Hadoop的云GIS体系结构研究 被引量:13
17
作者 范建永 龙明 熊伟 《测绘通报》 CSCD 北大核心 2013年第11期93-97,共5页
在研究现有云GIS体系结构的基础上,基于开源云计算平台Hadoop设计并实现了一种云GIS体系结构。本结构分为物理层、云平台层、服务层、应用层4层。其特点包括利用HBase对海量空间数据及部门业务数据进行分布式存储,以解决HDFS不善管理小... 在研究现有云GIS体系结构的基础上,基于开源云计算平台Hadoop设计并实现了一种云GIS体系结构。本结构分为物理层、云平台层、服务层、应用层4层。其特点包括利用HBase对海量空间数据及部门业务数据进行分布式存储,以解决HDFS不善管理小文件的缺点;运用MapReduce技术将GIS的分析任务分布于集群节点进行处理,以提高计算效率。最后设计并实现了基于云平台的空间数据分布式存储与标准地图服务发布。实践表明,本文提出的体系结构是合理和可行的。 展开更多
关键词 云GIS 体系结构 hadoop mapreduce HDFS hbase
下载PDF
一种基于HBase的海量微博数据高效存储方案 被引量:3
18
作者 焦冬冬 徐新国 《微型机与应用》 2014年第11期75-78,共4页
通过分析HBase的特点,提出了一种基于HBase的海量微博数据高效存储方案。该方案通过建立合适的数据存储模型、预建Region,提出行关键字生成规则和跳过坏记录的方法,使得数据能够利用MapReduce模型高效且不间断地导入HBase数据库。实验... 通过分析HBase的特点,提出了一种基于HBase的海量微博数据高效存储方案。该方案通过建立合适的数据存储模型、预建Region,提出行关键字生成规则和跳过坏记录的方法,使得数据能够利用MapReduce模型高效且不间断地导入HBase数据库。实验结果表明,该方法能够提高海量数据导入HBase的效率。 展开更多
关键词 hadoop hbase mapreduce 微博 行关键字 跳过坏记录
下载PDF
基于Hadoop云计算平台的数据处理系统的研究与设计 被引量:3
19
作者 潘梦云 李国玉 李燕 《通讯世界(下半月)》 2015年第7期224-225,共2页
目前,全世界处在一个数据量成倍增长的环境下,大数据的到来给很多企业带来了挑战,如何应对大数据成了制约企业发展的重要瓶颈。而云计算的提出为大数据的存储和处理带来了生机。本文采用当下广泛使用的开源框架Hadoop+HBase并配合jsp来... 目前,全世界处在一个数据量成倍增长的环境下,大数据的到来给很多企业带来了挑战,如何应对大数据成了制约企业发展的重要瓶颈。而云计算的提出为大数据的存储和处理带来了生机。本文采用当下广泛使用的开源框架Hadoop+HBase并配合jsp来搭建一个数据处理系统。Hadoop的两大核心部件HDFS分布式文件系统和Map Reduce编程模型能很好的存储和处理数据;HBase是一个可靠的、面向列的、可伸缩的分布式存储系统,利用它在大规模结构化集群上部署数据库;利用JSP技术设计可视化的管理界面。该系统的设计为应对大数据提供了基础性平台,并且能够应用到如传感系统、交通系统、气象系统等多种的实际应用中,具有很好的应用价值。 展开更多
关键词 大数据 hadoop hbase mapreduce
下载PDF
Hadoop在人员定位软件系统中的应用研究 被引量:4
20
作者 王维 《工矿自动化》 北大核心 2017年第1期66-68,共3页
针对现有人员定位系统难以满足大型煤矿大数据量访问需求的问题,提出将Hadoop应用于人员定位软件系统中,利用并行计算模型MapReduce和非关系型数据库HBase实现人员定位数据的并行化访问。Hadoop的应用显著提升了人员定位软件系统的数据... 针对现有人员定位系统难以满足大型煤矿大数据量访问需求的问题,提出将Hadoop应用于人员定位软件系统中,利用并行计算模型MapReduce和非关系型数据库HBase实现人员定位数据的并行化访问。Hadoop的应用显著提升了人员定位软件系统的数据处理性能、实时性和可扩展性。 展开更多
关键词 人员定位 hadoop 精确定位 对称双边双向算法 mapreduce hbase
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部