期刊文献+
共找到169篇文章
< 1 2 9 >
每页显示 20 50 100
一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法
1
作者 郑灵逸 李擎 《现代计算机》 2021年第36期55-59,共5页
针对大数据时代数据量级随时间不断累积、在大数据环境中查询数据困难且缓慢的问题,提出一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法。本文应用的是Hadoop生态系统中Hive数据库,从Hive数据库里数据量级为Pb的数据当... 针对大数据时代数据量级随时间不断累积、在大数据环境中查询数据困难且缓慢的问题,提出一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法。本文应用的是Hadoop生态系统中Hive数据库,从Hive数据库里数据量级为Pb的数据当中,通过编写SQL语句查询出实验所需要的数据。当在查询数据量级过大、查询指标较多并且SQL查询语句冗长的情况下,都会造成查询时间过长和查询效率低的问题,提出增加SQL任务并行度与建立中间表组合的优化查询方法来解决这一问题。实验结果证明,本文提出的方法将大数据查询时间缩短为原来的25%,并且提高了集群的利用效率。 展开更多
关键词 大数据查询优化 Hive SQL任务并行 建立中间表
下载PDF
Impact of Beekeeping on the Wild Bee Diversity in Northern Ivory Coast(West Africa)
2
作者 Drissa Coulibaly Mouhamadou Koné +2 位作者 Yalamoussa Tuo Kolo Soro Kouakou Hervé Koua 《Research in Ecology》 CAS 2024年第1期6-13,共8页
In Ivory Coast,beekeeping takes an important place among the major economic activities.It contributes to improv-ing the population’s livelihoods thanks to its derived products which are honey,propolis,wax and royal j... In Ivory Coast,beekeeping takes an important place among the major economic activities.It contributes to improv-ing the population’s livelihoods thanks to its derived products which are honey,propolis,wax and royal jelly.How-ever,the installation of honey bee hives could put pressure on wild bee species,which often live solitary.However,these wild bees are excellent pollinators of cultivated and wild plants.The study aimed to assess the effect of honey bee hives on the diversity of wild bees.The methodology approach consisted of capturing bees in three different plots inside the forest fragment of the botanical garden located at the University Peleforo Gon Coulibaly.The first plot was chosen approximately from 10 m to an apiary containing ten hives.The two other plots were chosen to be 200 m and 400 m from the apiary,respectively.Bees were captured once a month for three months using pan traps(UV—blue,yellow and white).A total of 17 bee species belonging to three families(Apidae,Megachilidae and Halictidae)were identified.The furthest plot from the apiary was the most diverse(H’=2.49)and that near the apiary was the least diverse(H’=0.11).Only,two wild bee species,Hypotrigona sp.and Thrinchostoma petersi,persisted inside the plot nearby the apiary where honey bees were most abundant.The furthest plots from the apiary seem to have the highest diversity of wild bees.These findings are very relevant because they can be used for the policies of conservation of wild bees and the management of beekeeping activities. 展开更多
关键词 Honey bee Apiary Hive Conservation Korhogo
下载PDF
基于Hadoop的离线电商数据分析系统的设计与实现
3
作者 潘杰恒 蔡群英 《现代计算机》 2024年第3期112-116,共5页
随着互联网的普及和人们不断增长的消费需求,电子商务平台已成为人们生活不可或缺的一部分,由此产生大量数据。基于Hadoop,设计并实现一个离线电商数据分析系统,从系统架构、数据采集、传输、存储、分析处理和可视化等方面作了介绍,系... 随着互联网的普及和人们不断增长的消费需求,电子商务平台已成为人们生活不可或缺的一部分,由此产生大量数据。基于Hadoop,设计并实现一个离线电商数据分析系统,从系统架构、数据采集、传输、存储、分析处理和可视化等方面作了介绍,系统具有一定的数据分析能力,能将原本无用的数据进行整理利用,发挥数据本身的价值。 展开更多
关键词 电商 离线 分析系统 大数据 HADOOP Hive FLUME Kafka
下载PDF
基于大数据的分拣设备智能分析系统的设计与研究
4
作者 龚亚彬 《电脑知识与技术》 2024年第1期69-72,共4页
物流包裹分拣模式由传统的人工分拣逐步演变为自动化分拣,实现了对分拣全过程、全环节的信息跟踪与监控,提升了作业自动化水平,使得物流行业的整体运营效率大幅提升,运营成本大大降低。与之匹配的大型智能分析系统,采用客户端分布式采... 物流包裹分拣模式由传统的人工分拣逐步演变为自动化分拣,实现了对分拣全过程、全环节的信息跟踪与监控,提升了作业自动化水平,使得物流行业的整体运营效率大幅提升,运营成本大大降低。与之匹配的大型智能分析系统,采用客户端分布式采集、云端集中处理模式,可对分拣过程和设备元器件进行全方位智能诊断和智能决策。对各项指标进行建模,通过模型评估,有效改善设备的分拣流程控制、提高设备的稳定性和准确性、促进设备工艺的优化,从而提升产品的市场竞争力。 展开更多
关键词 自动分拣 数据采集 大数据 HBase/Hive 智能分析
下载PDF
DON'T BE RASH!Dealing with hives
5
作者 DR.CHEN LEI 《城市漫步(上海版、英文)》 2015年第4期89-89,共1页
Hives,medically known as urticaria,is a vascular reaction of the skin characterized by the appearance of red,swollen marks and is associated with severe itching,stinging or pricking sensations.
关键词 SENSATION Hive APPEARANCE
原文传递
基于Zeppelin+Hive的数据分析与可视化
6
作者 张玉叶 孙延坤 《现代计算机》 2023年第14期70-73,共4页
随着大数据时代的到来及大数据产业的迅速发展,快速有效地对海量数据进行分析处理及可视化,成为大数据产业从业人员的必备技能。通过对一组房屋销售数据的分析处理,介绍了如何利用Zeppelin和Hive来快速对海量数据进行分析及可视化,并给... 随着大数据时代的到来及大数据产业的迅速发展,快速有效地对海量数据进行分析处理及可视化,成为大数据产业从业人员的必备技能。通过对一组房屋销售数据的分析处理,介绍了如何利用Zeppelin和Hive来快速对海量数据进行分析及可视化,并给出了具体实现方法和代码。 展开更多
关键词 Zeppelin Hive 数据分析 数据可视化
下载PDF
基于HIVE配置化自助稽核工具研究 被引量:1
7
作者 肖逸枫 董晓勇 +2 位作者 杨名 杜敏 杨莉 《通信与信息技术》 2023年第4期96-98,共3页
提出一种基于Java后台的自助自动化工具,该工具提供的可配置字段模型更多、更丰富,配置轻量化,模型结果更加准确,计算速度也得到提升。在新上线营销活动或存量营销活动重点稽核时,通过可视化操作界面,支持业务编码、受理时间、受理范围... 提出一种基于Java后台的自助自动化工具,该工具提供的可配置字段模型更多、更丰富,配置轻量化,模型结果更加准确,计算速度也得到提升。在新上线营销活动或存量营销活动重点稽核时,通过可视化操作界面,支持业务编码、受理时间、受理范围等条件,配置基础数据字段和个性化扩展字段构建成专属的个性化数据模型,具有操作便捷,灵活应对市场变化的特点,解决了高峰期人员不够,稽核处理不到位的痛点,从而有效提升营销活动专项稽核提数效率。 展开更多
关键词 HIVE配置化自助 AI工业革命 字段数据采集 HDFS采集
下载PDF
利用Insert技术在Hive数据仓库中处理数据的应用研究
8
作者 张艳丽 林昕 +4 位作者 吴淮北 张春梅 张书茂 康彦 缪华 《电脑编程技巧与维护》 2023年第11期110-112,143,共4页
对Hive数据仓库的设计与环境搭建过程进行简单介绍,着重介绍利用Insert技术在Hive数据仓库中对数据进行导入导出的方法。这两种方式在学习Hive数据仓库的技术上和实际生产环境中,都具有重要的意义。
关键词 Insert技术 Hive数据仓库 Hadoop环境 分布式文件系统
下载PDF
基于大数据技术的数据分析处理平台设计与实现
9
作者 杨宇 刘昉 《电脑与电信》 2023年第1期81-85,共5页
针对目前大数据分析处理组件多而乱、平台技术架构复杂等问题,综合应用MapReduce、Hive、Sqoop等大数据技术,结合Scrapy数据采集框架,设计一种数据分析处理平台,利用SpringBoot及Vue技术搭建Web系统,实现处理结果的可视化。应用该平台... 针对目前大数据分析处理组件多而乱、平台技术架构复杂等问题,综合应用MapReduce、Hive、Sqoop等大数据技术,结合Scrapy数据采集框架,设计一种数据分析处理平台,利用SpringBoot及Vue技术搭建Web系统,实现处理结果的可视化。应用该平台对中国蔬菜网上的某一批发市场数据进行分析处理,得出年度蔬菜最高最低差价、年度价格排名前十的蔬菜品种等指标统计结果,分析结果对该批发市场的蔬菜投放及价格调控具有一定的指导意义。 展开更多
关键词 大数据 数据分析 Scrapy Hive HDFS Sqoop Springboot Vule 中国蔬菜网
下载PDF
Hive数据仓库加载数据的技术研究
10
作者 缪华 吴淮北 +1 位作者 张春梅 张艳丽 《电脑编程技巧与维护》 2023年第12期58-61,共4页
Hive数据仓库存储着海量用户数据,如何加载并分析处理这些数据,显得尤为重要。着重介绍了3种技术,即通过查询加载数据、查询语句中创建表并加载数据、import导入Hive表数据加载数据。利用文中技术,可以十分方便地在Hive数据仓库中对数... Hive数据仓库存储着海量用户数据,如何加载并分析处理这些数据,显得尤为重要。着重介绍了3种技术,即通过查询加载数据、查询语句中创建表并加载数据、import导入Hive表数据加载数据。利用文中技术,可以十分方便地在Hive数据仓库中对数据进行加载,进而达到分析处理海量数据的目的。同时,使用Python语言可以编写脚本或者使用调度工具实现自动化操作和批处理任务,这对于Hive数据仓库的维护、数据清洗和报表生成等任务非常有帮助,可以提高工作效率和准确性。 展开更多
关键词 PYTHON语言 Hive数据仓库 Hadoop环境 加载数据
下载PDF
基于TEZ引擎和LLAP技术的Hive数据查询能力研究 被引量:1
11
作者 黄健文 丁奕 +2 位作者 欧阳辉 苏丽裕 匡磊怀 《信息与电脑》 2023年第3期138-140,共3页
分布式计算框架(HadoopMapReduce)解决了大数据分布式计算和并发计算问题,具有良好的扩展性和容错性,非常适合超大规模数据处理和分析。Hive基于HadoopMapReduce构建数据仓库分析系统,提供丰富的结构化查询语言(Structured Query Langua... 分布式计算框架(HadoopMapReduce)解决了大数据分布式计算和并发计算问题,具有良好的扩展性和容错性,非常适合超大规模数据处理和分析。Hive基于HadoopMapReduce构建数据仓库分析系统,提供丰富的结构化查询语言(Structured Query Language,SQL)查询能力,可将SQL语句转变成MapReduce任务执行分析数据。但是,MapReduce本身的特点(Map阶段和Reduce阶段)使得其在多表关联和复杂SQL场景时运行较慢。因此,基于真实场景打造了一套通过TEZ引擎和LLAP(Live Long and Process)技术结合来提升Hive查询能力的系统,面对复杂的多表关联查询、使用频率较高的复杂查询时能够快速高效率执行,缩短了用户等待时间。 展开更多
关键词 大数据 Hive查询 TEZ引擎 LLAP技术
下载PDF
数据仓库Hive搭建与应用——以网站流量统计分析为例
12
作者 杨小英 《信息与电脑》 2023年第21期70-72,共3页
云计算等技术的发展,推动了海量数据存储和处理技术的发展,从海量数据中快速找到有价值的信息是进行数据挖掘的关键。Hive能够使用Hibernate查询语言(Hibernate Query Language,HQL)语句对数据进行查询和分析,帮助决策者从海量数据中挖... 云计算等技术的发展,推动了海量数据存储和处理技术的发展,从海量数据中快速找到有价值的信息是进行数据挖掘的关键。Hive能够使用Hibernate查询语言(Hibernate Query Language,HQL)语句对数据进行查询和分析,帮助决策者从海量数据中挖掘出更高价值的信息。以网站流量统计分析为例,从Hive的环境搭建、数据仓库构建、数据查询等方面介绍了Hive的应用。 展开更多
关键词 Hive 数据仓库 流量统计 Hibernate查询语言(HQL)
下载PDF
Twitter Data Analysis Using Hadoop and‘R’and Emotional Analysis Using Optimized SVNN
13
作者 K.Sailaja Kumar H.K.Manoj D.Evangelin Geetha 《Computer Systems Science & Engineering》 SCIE EI 2023年第1期485-499,共15页
Standalone systems cannot handle the giant traffic loads generated by Twitter due to memory constraints.A parallel computational environment pro-vided by Apache Hadoop can distribute and process the data over differen... Standalone systems cannot handle the giant traffic loads generated by Twitter due to memory constraints.A parallel computational environment pro-vided by Apache Hadoop can distribute and process the data over different desti-nation systems.In this paper,the Hadoop cluster with four nodes integrated with RHadoop,Flume,and Hive is created to analyze the tweets gathered from the Twitter stream.Twitter stream data is collected relevant to an event/topic like IPL-2015,cricket,Royal Challengers Bangalore,Kohli,Modi,from May 24 to 30,2016 using Flume.Hive is used as a data warehouse to store the streamed tweets.Twitter analytics like maximum number of tweets by users,the average number of followers,and maximum number of friends are obtained using Hive.The network graph is constructed with the user’s unique screen name and men-tions using‘R’.A timeline graph of individual users is generated using‘R’.Also,the proposed solution analyses the emotions of cricket fans by classifying their Twitter messages into appropriate emotional categories using the optimized sup-port vector neural network(OSVNN)classification model.To attain better classi-fication accuracy,the performance of SVNN is enhanced using a chimp optimization algorithm(ChOA).Extracting the users’emotions toward an event is beneficial for prediction,but when coupled with visualizations,it becomes more powerful.Bar-chart and wordcloud are generated to visualize the emotional analysis results. 展开更多
关键词 TWITTER apache Hadoop emotional analysis OSVNN ChoA timeline graph flume hive
下载PDF
时空大数据分析在人群聚集统计中的应用
14
作者 郑晓东 郑业爽 宋思琪 《计算机时代》 2023年第4期67-71,85,共6页
分析移动通信时空大数据可以得到城市居民的出行情况和活动规律,从而为城市交通措施优化提供数据支持和科学依据。该模型首先清洗原始通信数据,并对已清洗的数据做必要转换。然后使用kmeans聚集算法和邓恩指数来计算最佳聚类区域,并结... 分析移动通信时空大数据可以得到城市居民的出行情况和活动规律,从而为城市交通措施优化提供数据支持和科学依据。该模型首先清洗原始通信数据,并对已清洗的数据做必要转换。然后使用kmeans聚集算法和邓恩指数来计算最佳聚类区域,并结合实际逻辑判断,标识出人群的驻留或途经状态。最后利用Hadoop中的MapReduce和Hive组件对数据进行分析汇总,针对应用场景得到相应的人群聚集模型并以可视化的方式呈现出来。 展开更多
关键词 人群聚集 时空大数据 kmeans算法 邓恩指数 MAPREDUCE Hive
下载PDF
存算分离架构下S3存储和HDFS存储读写性能对比研究
15
作者 杨慧 程雪平 《现代计算机》 2023年第21期24-29,共6页
在存算分离架构下,存储和计算可以分别进行优化和扩展,从而实现更高效、更可靠、更可扩展的大数据处理。存储层作为存算分离架构的重要组成部分,不仅需要具备高可靠性、高可扩展性、高性能等特点,还需要考虑成本和易用性等因素。目前,S... 在存算分离架构下,存储和计算可以分别进行优化和扩展,从而实现更高效、更可靠、更可扩展的大数据处理。存储层作为存算分离架构的重要组成部分,不仅需要具备高可靠性、高可扩展性、高性能等特点,还需要考虑成本和易用性等因素。目前,S3存储和HDFS存储是两个广泛使用的存储方案,两者各有优缺点,但在存算分离架构下,其性能表现如何,尚未有较为系统和全面的研究。为了研究存算分离架构下S3存储和HDFS存储的读写性能表现,通过性能测试和分析,比较两者的优劣,为存算分离架构下的存储方案选择提供参考。 展开更多
关键词 存储分离 HDFS S3 Hive 数据仓库 数据湖
下载PDF
基于Hadoop的电商大数据可视化设计与实现
16
作者 李威 邱永峰 《现代信息科技》 2023年第17期46-49,共4页
为满足众多电商对电商大数据可视化的迫切需求,基于Hadoop开源大数据处理平台,依托FineBi大数据分析工具设计一款大数据可视化分析系统,该系统可提供数据预处理、存储、分析、可视化等一整套流程。测试结果表明,该系统能够实现电商大数... 为满足众多电商对电商大数据可视化的迫切需求,基于Hadoop开源大数据处理平台,依托FineBi大数据分析工具设计一款大数据可视化分析系统,该系统可提供数据预处理、存储、分析、可视化等一整套流程。测试结果表明,该系统能够实现电商大数据的可视化分析,可为用户提供高效、实用的信息处理,为其未来的业务经营指明方向,提高店铺运营效率。 展开更多
关键词 HADOOP Hive HDFS 可视化分析 电商大数据
下载PDF
基于AI的机房能耗运营管理系统方案研究
17
作者 张永民 胡章元 《通信与信息技术》 2023年第2期80-83,共4页
在多省能耗管控实践基础上,结合大数据、AI控制,总结了通信机房能耗AI智慧运营系统的建设方案。内容包括:机房能耗AI控制、系统网络部署、功能结构、大数据设计等,为运营商能耗智慧系统建设提供建议。推动机房能耗管理实现“管理节能”... 在多省能耗管控实践基础上,结合大数据、AI控制,总结了通信机房能耗AI智慧运营系统的建设方案。内容包括:机房能耗AI控制、系统网络部署、功能结构、大数据设计等,为运营商能耗智慧系统建设提供建议。推动机房能耗管理实现“管理节能”+“技术节能”双轮驱动,助力能耗管理工作由管理为主向“智慧运营”的转变。 展开更多
关键词 AI控制 数据仓库 Hive 管理节能 技术节能
下载PDF
基于Hadoop的SQL查询引擎性能研究 被引量:8
18
作者 吴黎兵 邱鑫 +2 位作者 叶璐瑶 王晓栋 聂雷 《华中师范大学学报(自然科学版)》 CAS 北大核心 2016年第2期174-182,共9页
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各... Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构. 展开更多
关键词 大数据 SQL-on-Hadoop 数据仓库 SPARK SQL IMPALA Hive
下载PDF
基于Hive的电力设备状态信息数据仓库 被引量:40
19
作者 王德文 肖凯 肖磊 《电力系统保护与控制》 EI CSCD 北大核心 2013年第9期125-130,共6页
随着智能变电站的建设及其状态监测系统的发展,电力设备状态信息数据规模逐渐增大。针对现有电力数据仓库在海量状态数据存储查询和分析处理方面的不足,提出基于Hive的电力设备状态信息数据仓库及其多维数据快速查询与分析方法。通过对... 随着智能变电站的建设及其状态监测系统的发展,电力设备状态信息数据规模逐渐增大。针对现有电力数据仓库在海量状态数据存储查询和分析处理方面的不足,提出基于Hive的电力设备状态信息数据仓库及其多维数据快速查询与分析方法。通过对状态监测系统与生产管理系统(PMS)的分析,将电力设备静态信息与状态监测信息存储到Hive数据仓库中。设计了基于Hive的电力设备状态信息数据仓库的系统架构和海量状态数据存储结构,采用Hadoop分布式文件系统(HDFS)对数据进行分布式存储管理,Map Reduce作为海量数据查询分析的计算模式,HiveQL查询语言作为数据仓库的控制工具,并给出了数据仓库的工作过程。建立一个基于Hive的电力设备状态信息数据仓库实验平台,分别利用5个节点和10个节点的Hadoop集群进行测试,结果表明上述方法具有较好的扩展性,能满足大规模多维电力设备状态数据存储查询的需要。 展开更多
关键词 智能变电站 电力设备状态信息 数据仓库 Hive HDFS
下载PDF
基于Hadoop/Hive的web日志分析系统的设计 被引量:24
20
作者 刘永增 张晓景 李先毅 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第A01期314-317,共4页
互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大。如何存储、处理大规模数据就成了新的挑战。云计算技术的出现,为这类问题的解决提供了一种思路。云计算将数据通过网络分布到集群的... 互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大。如何存储、处理大规模数据就成了新的挑战。云计算技术的出现,为这类问题的解决提供了一种思路。云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算。Hadoop是一个用于构建云计算平台的流行的开源框架,广泛应用于海量数据的处理。但利用Hadoop处理数据,用户必须自己开发Map/Reduce程序。这种程序处于比较低的层次,用户不容易掌握,而且难于维护。Hive是一个基于Hadoop的开源数据仓库工具,它能够将文件映射成数据表,并提供类SQL语句,简化了用户的开发。利用Hadoop、Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度。通过与单机实验的对比,证明系统是有效的和有价值的。 展开更多
关键词 WEB日志 云计算 HADOOP Hive
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部