期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
基于Hadoop的离线电商数据分析系统的设计与实现 被引量:1
1
作者 潘杰恒 蔡群英 《现代计算机》 2024年第3期112-116,共5页
随着互联网的普及和人们不断增长的消费需求,电子商务平台已成为人们生活不可或缺的一部分,由此产生大量数据。基于Hadoop,设计并实现一个离线电商数据分析系统,从系统架构、数据采集、传输、存储、分析处理和可视化等方面作了介绍,系... 随着互联网的普及和人们不断增长的消费需求,电子商务平台已成为人们生活不可或缺的一部分,由此产生大量数据。基于Hadoop,设计并实现一个离线电商数据分析系统,从系统架构、数据采集、传输、存储、分析处理和可视化等方面作了介绍,系统具有一定的数据分析能力,能将原本无用的数据进行整理利用,发挥数据本身的价值。 展开更多
关键词 电商 离线 分析系统 大数据 hadoop hive FLUME Kafka
下载PDF
基于Hadoop/Hive的web日志分析系统的设计 被引量:24
2
作者 刘永增 张晓景 李先毅 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第A01期314-317,共4页
互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大。如何存储、处理大规模数据就成了新的挑战。云计算技术的出现,为这类问题的解决提供了一种思路。云计算将数据通过网络分布到集群的... 互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大。如何存储、处理大规模数据就成了新的挑战。云计算技术的出现,为这类问题的解决提供了一种思路。云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算。Hadoop是一个用于构建云计算平台的流行的开源框架,广泛应用于海量数据的处理。但利用Hadoop处理数据,用户必须自己开发Map/Reduce程序。这种程序处于比较低的层次,用户不容易掌握,而且难于维护。Hive是一个基于Hadoop的开源数据仓库工具,它能够将文件映射成数据表,并提供类SQL语句,简化了用户的开发。利用Hadoop、Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度。通过与单机实验的对比,证明系统是有效的和有价值的。 展开更多
关键词 WEB日志 云计算 hadoop hive
下载PDF
基于Hadoop/Hive的乳制品溯源数据计算及性能优化 被引量:4
3
作者 朱淑鑫 李悦 +3 位作者 袁培森 徐焕良 王康 谢忠红 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第4期99-108,共10页
为了提升传统乳制品溯源系统应对大规模企业生产数据的性能,本文分析了乳制品相关企业供应链业务流程、关键溯源单元和溯源信息,结合Hadoop/Hive大数据技术和分布式数据库技术,设计并构建了基于Hadoop/Hive的乳制品溯源框架.搭建模拟大... 为了提升传统乳制品溯源系统应对大规模企业生产数据的性能,本文分析了乳制品相关企业供应链业务流程、关键溯源单元和溯源信息,结合Hadoop/Hive大数据技术和分布式数据库技术,设计并构建了基于Hadoop/Hive的乳制品溯源框架.搭建模拟大数据环境并使用实际生产数据对系统性能进行测试,实验结果表明,引入Hadoop/Hive技术后,系统的平均数据存储速度、平均数据访问速度、平均数据交互速度分别提升了87.43%、27.10%、58.16%.改进后的乳制品溯源系统存储和处理大规模数据的能力明显优于传统的乳制品溯源系统. 展开更多
关键词 hadoop/hive 乳制品溯源 数据计算 性能优化
下载PDF
基于hadoop子项目——Hive的云计算性能测试 被引量:6
4
作者 沙恒 帖军 《软件导刊》 2012年第11期14-16,共3页
针对信息化时代海量数据的问题,神秘大象——hadoop的出现给云计算领域带来了新的浪潮。针对hadoop框架,采用基于Hadoop的子项目Hive对其性能进行测试,并总结了决定MapReduce分布式计算性能的因素。
关键词 hadoop MAPREDUCE hive 分布式 云计算 性能测试
下载PDF
Hadoop云计算基础架构的搭建和hbase和hive的整合应用 被引量:14
5
作者 谭洁清 毛锡军 《贵州科学》 2013年第5期32-35,共4页
本论文介绍一种常见的云计算分布式hadoop架构及其子项目分布式的hbase数据库和hive数据仓库,真实搭建一个hadoop云计算实验平台,并整合hbase和hive,通过创建数据表并验证实现了两数据库之间的访问,为以后的大规模的数据的存储,计算和... 本论文介绍一种常见的云计算分布式hadoop架构及其子项目分布式的hbase数据库和hive数据仓库,真实搭建一个hadoop云计算实验平台,并整合hbase和hive,通过创建数据表并验证实现了两数据库之间的访问,为以后的大规模的数据的存储,计算和应用创造基础。 展开更多
关键词 hadoop 云计算 HBASE hive
下载PDF
基于Hadoop的电商大数据可视化设计与实现 被引量:1
6
作者 李威 邱永峰 《现代信息科技》 2023年第17期46-49,共4页
为满足众多电商对电商大数据可视化的迫切需求,基于Hadoop开源大数据处理平台,依托FineBi大数据分析工具设计一款大数据可视化分析系统,该系统可提供数据预处理、存储、分析、可视化等一整套流程。测试结果表明,该系统能够实现电商大数... 为满足众多电商对电商大数据可视化的迫切需求,基于Hadoop开源大数据处理平台,依托FineBi大数据分析工具设计一款大数据可视化分析系统,该系统可提供数据预处理、存储、分析、可视化等一整套流程。测试结果表明,该系统能够实现电商大数据的可视化分析,可为用户提供高效、实用的信息处理,为其未来的业务经营指明方向,提高店铺运营效率。 展开更多
关键词 hadoop hive HDFS 可视化分析 电商大数据
下载PDF
基于数据仓库的高校岗位业绩管理系统设计
7
作者 金悦奇 《浙江国际海运职业技术学院学报》 2024年第3期15-19,共5页
为解决高校管理中各种信息系统存在的数据冗余、信息孤岛、一致性差等问题,提出基于数据仓库的高校岗位业绩管理系统构建。着眼于集成复用现有信息系统数据,而非简单增加一套信息管理系统,为今后高校类似信息管理系统的数据复用设计提... 为解决高校管理中各种信息系统存在的数据冗余、信息孤岛、一致性差等问题,提出基于数据仓库的高校岗位业绩管理系统构建。着眼于集成复用现有信息系统数据,而非简单增加一套信息管理系统,为今后高校类似信息管理系统的数据复用设计提供一种实践方案。使用基于Apache Hive开源软件的数据仓库构建系统数据存储平台,通过Flume、SeaTunnel等工具采集数据,最后使用Django Web框架来完成高校岗位业绩管理的业务应用。 展开更多
关键词 数据仓库 hive hadoop DJANGO
下载PDF
基于Hadoop的VPN访问日志分析平台的研究与实现 被引量:3
8
作者 武凌 杨家桂 +1 位作者 陈劲松 王平水 《沈阳大学学报(自然科学版)》 CAS 2016年第6期488-496,共9页
采用Hadoop分布式计算框架和数据仓库Hive构建一个日志分析平台,将VPN环境下不同系统或应用程序产生的多个相关的日志进行关联分析,以还原出通过VPN存取资源的轨迹行为,用以改善使用单机进行大量日志处理效率低下而且扩充性差的问题.平... 采用Hadoop分布式计算框架和数据仓库Hive构建一个日志分析平台,将VPN环境下不同系统或应用程序产生的多个相关的日志进行关联分析,以还原出通过VPN存取资源的轨迹行为,用以改善使用单机进行大量日志处理效率低下而且扩充性差的问题.平台产生的轨迹数据可以协助系统管理者找出数据外泄轨迹,了解资源是否被滥用,以及发现潜在的安全性威胁. 展开更多
关键词 VPN 日志 审核跟踪 hadoop hive
下载PDF
基于Hadoop的高校公共数据平台的构建 被引量:15
9
作者 胡锐 胡伏原 陈丽春 《苏州科技学院学报(自然科学版)》 CAS 2015年第3期52-55,共4页
随着高校信息化建设的发展,数据资源出现了快速的增长。现有的存储平台已难以满足信息化数据增长的要求。文中提出一种基于云存储的公共数据平台,该平台以Hadoop为基础,通过Hive、HBase和HDFS等技术实现数据资源的统一存储和共享。实验... 随着高校信息化建设的发展,数据资源出现了快速的增长。现有的存储平台已难以满足信息化数据增长的要求。文中提出一种基于云存储的公共数据平台,该平台以Hadoop为基础,通过Hive、HBase和HDFS等技术实现数据资源的统一存储和共享。实验证明,该平台性能基本可以代替传统的数据库系统和文件存储系统。 展开更多
关键词 hive hadoop 公共数据平台
下载PDF
基于Hadoop的SQL查询引擎性能研究 被引量:8
10
作者 吴黎兵 邱鑫 +2 位作者 叶璐瑶 王晓栋 聂雷 《华中师范大学学报(自然科学版)》 CAS 北大核心 2016年第2期174-182,共9页
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各... Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构. 展开更多
关键词 大数据 SQL-on-hadoop 数据仓库 SPARK SQL IMPALA hive
下载PDF
基于Hadoop的海量电费数据处理模型 被引量:4
11
作者 谌章义 毕伟 +2 位作者 向万红 王国安 吴爱国 《计算机系统应用》 2014年第5期37-42,共6页
随着电费数据量的快速增长,某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈.Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于海量数据处理领域.本文在对电... 随着电费数据量的快速增长,某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈.Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于海量数据处理领域.本文在对电费业务和Hadoop进行分析和研究的基础上,提出了电费数据新的处理模型,建立了基于Hadoop和Hive的电费明细数据处理平台.实验证明该模型可以有效解决目前海量电费数据处理面临的性能瓶颈,提高电费数据处理的速度和效率,并且可以提供高性能的明细数据查询功能. 展开更多
关键词 hadoop hive 海量数据 电费数据处理 财务管理系统
下载PDF
基于Hadoop平台的用户行为挖掘 被引量:6
12
作者 曾志浩 姚贝 +1 位作者 张琼林 孙琪 《计算技术与自动化》 2015年第2期100-103,共4页
随着互联网发展带来的数据爆炸,使得Web日志的数据量也越来越大,如何从海量的Web日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于Hadoop集群框架对Web日志进行挖掘。实验结果表明,该集群系统既可以处理海量的web日志,同时也... 随着互联网发展带来的数据爆炸,使得Web日志的数据量也越来越大,如何从海量的Web日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于Hadoop集群框架对Web日志进行挖掘。实验结果表明,该集群系统既可以处理海量的web日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在Hive仓库和传统数据库之间数据迁移的可行性。 展开更多
关键词 WEB日志 hadoop Sqoop hive 数据迁移
下载PDF
基于Hadoop的心电数据库存储研究 被引量:4
13
作者 熊艳 陈宇 +2 位作者 蒋文涛 王冠石 舒敬恒 《生物医学工程研究》 北大核心 2016年第3期175-177,共3页
本文旨在研究远程监控心血管疾病时,产生的心电大数据的存储方式。采用Hadoop分布式集群技术,设计基于HBase非关系型(NoSQL)心电数据库,测试存储时间和访问效率,解决心电大数据的存储问题。经测试,HBase数据库的存储时间、访问时间、存... 本文旨在研究远程监控心血管疾病时,产生的心电大数据的存储方式。采用Hadoop分布式集群技术,设计基于HBase非关系型(NoSQL)心电数据库,测试存储时间和访问效率,解决心电大数据的存储问题。经测试,HBase数据库的存储时间、访问时间、存储的高可靠性,均满足心电数据的存储要求。本研究为后续进行心血管大数据分析、统计、数据挖掘打下基础。 展开更多
关键词 NOSQL hadoop 心电数据 HBASE 存储技术 hive
下载PDF
基于Hive的高可用双引擎数据仓库 被引量:10
14
作者 李翀 张彤彤 +1 位作者 杜伟静 刘学敏 《计算机系统应用》 2019年第9期65-71,共7页
打破信息孤岛,整合异构数据,汇聚共享交换,深度分析挖掘,提供行业领域辅助决策和态势分析具有深远的理论和应用价值.本文以中国科学院教育科研态势感知服务的实际需求为牵引,设计并实现了一套基于Hive的Hadoop/Spark双计算引擎大数据仓... 打破信息孤岛,整合异构数据,汇聚共享交换,深度分析挖掘,提供行业领域辅助决策和态势分析具有深远的理论和应用价值.本文以中国科学院教育科研态势感知服务的实际需求为牵引,设计并实现了一套基于Hive的Hadoop/Spark双计算引擎大数据仓库,支持多种方式OLAP分析,进行了可用性、负载均衡、资源管理的优化设计,为后续进行全院数据汇聚挖掘、知识图谱构建、学科态势分析提供了平台支撑.实验表明,系统灵活高效,高可用可扩展,资源调度科学,负载均衡效果明显. 展开更多
关键词 数据仓库 hive 高可用 OLAP hadoop
下载PDF
基于Hadoop高性能查询的空间数据库设计与实现 被引量:2
15
作者 李运兴 马骏 《中原工学院学报》 CAS 2014年第4期58-63,共6页
在探讨Hadoop技术原理的基础上,提出了"Hadoop Spatial"分布式空间数据库系统的建设方案。基于原有的空间数据库设计方案,依托GIS方法和数据库技术以及对Hive的扩展形成了一个完整的分布式空间数据库系统。对比实验表明,Hadoo... 在探讨Hadoop技术原理的基础上,提出了"Hadoop Spatial"分布式空间数据库系统的建设方案。基于原有的空间数据库设计方案,依托GIS方法和数据库技术以及对Hive的扩展形成了一个完整的分布式空间数据库系统。对比实验表明,Hadoop Spatial系统的性能不逊于SDBMS,更适用于分布式的计算密集型的查询。 展开更多
关键词 空间数据库 GIS hadoop hive
下载PDF
基于Hadoop的电商用户行为分析系统设计与实现 被引量:7
16
作者 陈伟 《宿州教育学院学报》 2021年第3期120-125,共6页
电商行业的飞速发展使得用户行为数据规模爆炸式增长,传统的IT架构模式已无法满足持续增长的数据处理需求。针对海量数据处理问题,提出一种基于Hadoop平台的电商用户行为分析模型,通过对Hadoop平台相关技术的研究,设计了包含数据采集、... 电商行业的飞速发展使得用户行为数据规模爆炸式增长,传统的IT架构模式已无法满足持续增长的数据处理需求。针对海量数据处理问题,提出一种基于Hadoop平台的电商用户行为分析模型,通过对Hadoop平台相关技术的研究,设计了包含数据采集、处理、分析及可视化一整套流程的电商用户行为分析系统,并对系统进行功能实现。最后,对该系统进行实际场景测试,结果表明,该系统能够根据不同分析需求快速得到目标数据,实现对用户行为的深度分析与挖掘,为企业调整营销策略,实现精准营销提供数据支撑。 展开更多
关键词 hadoop 用户行为 hive 数据分析 可视化
下载PDF
QAR数据仓库在Hive中的构建 被引量:6
17
作者 冯兴杰 吴稀钰 +2 位作者 赵杰 贺阳 房戍 《计算机工程与应用》 CSCD 北大核心 2017年第11期90-94,共5页
分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有... 分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有数据仓库的不足,提出基于Hive的QAR数据仓库。通过对Hive特点及QAR数据结构分析,设计了基于Hive的QAR数据仓库的总体架构和存储结构。通过将现有数据仓库中的数据移植到基于Hive的QAR数据仓库,实现了对已有数据仓库的兼容。实验结果表明基于Hive的QAR数据仓库在面对QAR数据剧增的情况下,处理所需时间依然保持着线性增长。 展开更多
关键词 hive 快速存取记录器(QAR) 数据仓库 数据处理 hadoop
下载PDF
基于Hadoop的大数据解决方案的设计及应用 被引量:1
18
作者 苏树鹏 《河池学院学报》 2017年第2期89-93,共5页
随着信息化技术和终端智能的迅猛发展,系统需要处理的数据呈现海量化,使得海量数据的存储、挖掘成为当前亟待解决的问题。使用云计算技术构建集群系统,可有效地解决海量数据的存储、共享和深度挖掘问题。首先,采用平台Hadoop构建主框架... 随着信息化技术和终端智能的迅猛发展,系统需要处理的数据呈现海量化,使得海量数据的存储、挖掘成为当前亟待解决的问题。使用云计算技术构建集群系统,可有效地解决海量数据的存储、共享和深度挖掘问题。首先,采用平台Hadoop构建主框架,并采用异构存储的方式将各部门的业务数据转储到集群系统各节点上存储,有效地解决了大数据的存储和备份问题。最后借鉴Hive和Hbase优点设计数据挖掘子系统,提高了集群系统对海量数据的分析能力。实时性分析实验结果表明此次采用的方法较之以往的方法再获得了30%的提升。 展开更多
关键词 hadoop HBASE hive
下载PDF
基于Hadoop平台的新闻云方案设计
19
作者 尚凤军 谈娅 《重庆邮电大学学报(社会科学版)》 2014年第4期115-120,共6页
社会进步离不开新闻传播,新闻的传播和共享是提高人类素质的重要方法。为改善新闻的服务水平,采用云计算的先进理念和先进技术,设计了一个新闻云原型平台,为新闻行业提供服务。该平台引入Hadoop作为新闻数据的存储核心,使用Hive数据库... 社会进步离不开新闻传播,新闻的传播和共享是提高人类素质的重要方法。为改善新闻的服务水平,采用云计算的先进理念和先进技术,设计了一个新闻云原型平台,为新闻行业提供服务。该平台引入Hadoop作为新闻数据的存储核心,使用Hive数据库解决数据转换和查找,能够完成海量数据的检索。对设计的方案进行了部分测试,达到了设计要求。 展开更多
关键词 hadoop hive 云计算 新闻
下载PDF
基于Hadoop的ADS-B数据解析与存储方法
20
作者 冯兴杰 刘芳 《航天控制》 CSCD 北大核心 2017年第5期80-86,97,共8页
广播式自动相关监视系统(Automatic Dependent Surveillance-Broadcast,ADS-B)是国际民航组织(ICAO)推荐使用的集数据通信、卫星导航和监视技术于一体的新一代航空器运行监视系统,可以自动的接收和发送飞机及其周围的信息。随着监视区... 广播式自动相关监视系统(Automatic Dependent Surveillance-Broadcast,ADS-B)是国际民航组织(ICAO)推荐使用的集数据通信、卫星导航和监视技术于一体的新一代航空器运行监视系统,可以自动的接收和发送飞机及其周围的信息。随着监视区域内航班数量的增加,对于以秒为单位进行收发信息的ADSB而言,单机环境已经无法满足海量ADS-B数据的解析、存储与分析,本文利用Mapreduce模型提供的高效分布式编程和运行框架对ADS-B数据进行解析,将解析后的数据存储到基于Hive的ADS-B数据仓库,并通过Mysql建立的索引表联合Hive中的分桶操作对信息种类进行划分,有效提高了数据解析效率并避免了Hive中索引不完善引起的查询效率低的问题。实验表明对于海量的ADS-B数据,利用Mapreduce进行解析并利用Hive进行存储分析的效率明显提升。 展开更多
关键词 ADS-B hadoop MAPREDUCE hive 解析 存储 分桶
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部