期刊文献+
共找到1,306篇文章
< 1 2 66 >
每页显示 20 50 100
基于MapReduce平台的大数据查询与处理优化算法
1
作者 何健 《电脑编程技巧与维护》 2024年第5期107-109,共3页
基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用... 基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用改进RSJ的分布式缓存表连接算法滤除不满足连接条件的数据。仿真实验表明,运用MapReduce并行计算框架和RSJ表连接算法进行数据处理,可减少Map端输出的数据量,缩短网络数据传输与处理时长,实现海量化大数据查询与处理的优化目标。 展开更多
关键词 mapreduce并行运算处理 表连接算法 大数据查询与处理 优化
下载PDF
MapReduce连接查询的I/O代价研究 被引量:9
2
作者 宋杰 李甜甜 +2 位作者 朱志良 鲍玉斌 于戈 《软件学报》 EI CSCD 北大核心 2015年第6期1438-1456,共19页
数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而Map Reduce是一种用于大规模数据集并行处理的编程模型,研究基于Map Reduce的连接查询代价评估和查询优化,有着学术意义和应用价值.Map Reduce... 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而Map Reduce是一种用于大规模数据集并行处理的编程模型,研究基于Map Reduce的连接查询代价评估和查询优化,有着学术意义和应用价值.Map Reduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于Map Reduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣. 展开更多
关键词 连接查询 mapreduce I/O代价模型 查询优化
下载PDF
基于共享的MapReduce多查询优化技术 被引量:7
3
作者 赵保学 李战怀 +3 位作者 陈群 潘巍 姜涛 金健 《计算机应用研究》 CSCD 北大核心 2013年第5期1405-1409,共5页
为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一... 为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一组查询的整体执行计划。通过与Hive和Pig的对比,验证了该方法能够在保证准确性的情况下有效地减少执行步数,提高查询执行的效率。 展开更多
关键词 查询优化 mapreduce 查询共享 执行计划
下载PDF
MapReduce框架下的优化高维索引与KNN查询 被引量:7
4
作者 梁俊杰 李凤华 +1 位作者 刘琼妮 尹利 《电子学报》 EI CAS CSCD 北大核心 2016年第8期1873-1880,共8页
针对大规模高维数据近似查询效率低下的问题,利用MapReduce编程模型在大规模集群上的数据与任务的并行计算与处理优势,提出MapReduce框架下大规模高维数据索引及KNN查询方法(i PBM),重点突破MapReduce数据块(block)的优化划分与各数据... 针对大规模高维数据近似查询效率低下的问题,利用MapReduce编程模型在大规模集群上的数据与任务的并行计算与处理优势,提出MapReduce框架下大规模高维数据索引及KNN查询方法(i PBM),重点突破MapReduce数据块(block)的优化划分与各数据块对计算的共同贡献两大难题,利用两阶段数据划分策略并依据相关性与并行性原则将数据均匀分配到各数据块中,设计分布式的双层空间索引结构与并行KNN查询算法,检索时利用全局索引、局部索引与二维位码索引实现三层数据过滤,大幅缩小搜索范围并降低高维向量计算代价,实验表明i PBM对大规模高维数据的近似查询具有准确性、高效性和扩展性. 展开更多
关键词 云计算 mapreduce KNN查询 高维索引
下载PDF
基于MapReduce实现空间查询的研究 被引量:15
5
作者 张书彬 韩冀中 +1 位作者 刘志勇 王凯 《高技术通讯》 EI CAS CSCD 北大核心 2010年第7期719-726,共8页
为了解决原有单机空间数据库管理系统在存储能力、计算能力和可扩展能力上的不足,在分布式文件系统的基础上设计并实现了一种基于并行计算框架MapReduce的空间矢量数据管理系统Meadow,并重点讨论了利用MapReduce并行处理空间查询的数据... 为了解决原有单机空间数据库管理系统在存储能力、计算能力和可扩展能力上的不足,在分布式文件系统的基础上设计并实现了一种基于并行计算框架MapReduce的空间矢量数据管理系统Meadow,并重点讨论了利用MapReduce并行处理空间查询的数据分割方法、副本避免方法及关键算法的设计策略,最后给出了定量的分析和论证。实验表明,相对于单机Oracle Spatial,利用MapReduce并行处理空间查询的方法具有良好的性能和近似线性的加速比。实验结果也验证了MapReduce在诸如空间数据管理系统这种基于小规模集群的计算密集型应用中同样具有良好的性能。 展开更多
关键词 空间数据管理系统 mapreduce 空间查询 分布式系统
下载PDF
结合MapReduce和HBase的遥感图像并行分布式查询 被引量:5
6
作者 刘小利 徐攀登 +1 位作者 朱国宾 李雪 《地理与地理信息科学》 CSCD 北大核心 2014年第5期26-28,32,共4页
提出了一种可扩展的遥感图像多维度并行查询模式,即利用MapReduce实现海量图像数据金字塔的并行构建,利用HBase实现图像的分布式检索,设计和实现了单张遥感图像金字塔的并行构建方法和图像索引系统。实验结果表明,随着Hadoop和HBase集... 提出了一种可扩展的遥感图像多维度并行查询模式,即利用MapReduce实现海量图像数据金字塔的并行构建,利用HBase实现图像的分布式检索,设计和实现了单张遥感图像金字塔的并行构建方法和图像索引系统。实验结果表明,随着Hadoop和HBase集群的增长,图像数据的导入和检索速度得到明显提升。 展开更多
关键词 遥感图像 金字塔模型 mapreduce HBASE 并行处理 查询
下载PDF
基于MapReduce的关系型数据仓库并行查询 被引量:9
7
作者 师金钢 鲍玉斌 +1 位作者 冷芳玲 于戈 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第5期626-629,共4页
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索... 针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询. 展开更多
关键词 mapreduce 数据仓库 并行计算 分布式数据库 查询优化
下载PDF
基于MapReduce的连接聚集查询算法研究 被引量:7
8
作者 陈勇旭 陈梦杰 +1 位作者 刘雪冰 宋杰 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期306-311,共6页
数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有... 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有连接算法的基础上总结出4种基于MapReduce的连接聚集查询算法;接着根据应用场景的不同又提出另外两种实现算法;同时提出I/O代价是决定基于MapReduce的连接聚集查询算法性能的主要因素;最后通过大量实验分析这6种算法在不同查询应用下的优劣,总结了它们各自的适用场景,并分析了各个算法的性能与数据特征之间的关系. 展开更多
关键词 海量数据 连接聚集查询 mapreduce I/O代价 算法优化
下载PDF
基于MapReduce的Skyline-join查询算法 被引量:6
9
作者 孙大烈 李建中 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2012年第1期103-106,共4页
Skyline查询是一种非常耗时的操作,而涉及多个表的Skyline查询(Skyline-join查询)则会给数据库系统带来更多的负载,从而影响整个系统的响应时间.为解决这个问题,提出了基于Google设计的MapRe-duce并行处理框架的Skyline-join查询处理算... Skyline查询是一种非常耗时的操作,而涉及多个表的Skyline查询(Skyline-join查询)则会给数据库系统带来更多的负载,从而影响整个系统的响应时间.为解决这个问题,提出了基于Google设计的MapRe-duce并行处理框架的Skyline-join查询处理算法,采用分片剪枝的方法降低复杂度,进而提高查询性能.在Amazon的云计算平台(EC2)上进行的实验表明,该算法可以有效减少冗余操作和网络数据传输,基本不受节点个数以及数据量的影响,具有很好的可扩展性. 展开更多
关键词 SKYLINE查询 mapreduce 分布式算法 云计算
下载PDF
基于MapReduce的增广动态Skyline查询处理方法 被引量:2
10
作者 丁琳琳 崔子强 +2 位作者 尹显坤 王俊陆 宋宝燕 《电子学报》 EI CAS CSCD 北大核心 2018年第5期1062-1070,共9页
Skyline查询能够计算大规模的数据集中满足多个标准的最优解,被广泛应用于多目标决策等领域.动态skyline查询作为skyline查询的一种重要变体,其结果随着查询点的不同而动态改变,为用户在指定查询要求方面提供了更大的灵活性.然而,随着... Skyline查询能够计算大规模的数据集中满足多个标准的最优解,被广泛应用于多目标决策等领域.动态skyline查询作为skyline查询的一种重要变体,其结果随着查询点的不同而动态改变,为用户在指定查询要求方面提供了更大的灵活性.然而,随着数据量的不断增加,动态skyline查询会产生大量的查询结果,忽略了查询点的维度方向性和数据的全局整体性,给用户的选择带来极大困难.因此,需要进一步优化动态skyline查询的结果集,提高全局整体性,过滤冗余数据.针对上述问题,提出一种基于MapReduce的增广动态skyline查询处理方法.该方法将原始数据按照维度信息进行分区,在多个节点并行计算动态skyline,优化传统动态skyline结果集,同时提供全局更优的结果供用户选择.在此基础上,针对用户给出某些维度的容忍度的情况,提出一种引入用户容忍度的增广动态skyline查询处理方法.该方法可以根据用户容忍度缩减增广动态skyline查询的原始数据集,很大程度上减少中间结果的比较次数,并且提高了结果集的准确度.大量实验证明,基于MapReduce的增广动态skyline查询处理方法具有更好的有效性、准确性和可用性. 展开更多
关键词 动态skyline查询 mapreduce 用户容忍度 大数据
下载PDF
一种基于MapReduce的XML查询的优化方法 被引量:1
11
作者 魏永山 张峰 +1 位作者 陈欣 孙忠林 《微电子学与计算机》 CSCD 北大核心 2013年第3期102-105,共4页
基于MapReduce的XML查询逐渐成为研究热点,如何提高XML文档查询的效率是关键问题之一.在保障查询结果正确和XML数据分块一致的前提下,采用XPath投影的方法对XML数据分块预处理,使得XML分块中仅包含与查询有关的数据.实验表明,该方法有... 基于MapReduce的XML查询逐渐成为研究热点,如何提高XML文档查询的效率是关键问题之一.在保障查询结果正确和XML数据分块一致的前提下,采用XPath投影的方法对XML数据分块预处理,使得XML分块中仅包含与查询有关的数据.实验表明,该方法有效缩小了数据分块的规模、缩短了XML数据服务的查询处理时间. 展开更多
关键词 mapreduce XPath投影 XML查询 查询优化
下载PDF
非均匀数据分布下的MapReduce连接查询算法优化 被引量:1
12
作者 张敬伟 尚宏佳 +2 位作者 钱俊彦 周萍 杨青 《计算机科学与探索》 CSCD 北大核心 2017年第5期752-767,共16页
MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接... MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性。 展开更多
关键词 连接查询 mapreduce 数据倾斜
下载PDF
MapReduce框架下k-支配轮廓查询算法 被引量:2
13
作者 余靖 刘盼盼 《燕山大学学报》 CAS 2014年第6期532-537,共6页
随着维度和数据量的不断增长,已有的轮廓查询方法已无法为用户提供更好的查询支持。本文采用并行处理框架Map Reduce结合K-支配轮廓查询算法来解决此类查询问题。在对输入的数据集进行预排序的基础上,提出了基于Map Reduce的单轮扫描算... 随着维度和数据量的不断增长,已有的轮廓查询方法已无法为用户提供更好的查询支持。本文采用并行处理框架Map Reduce结合K-支配轮廓查询算法来解决此类查询问题。在对输入的数据集进行预排序的基础上,提出了基于Map Reduce的单轮扫描算法和双轮扫描算法,通过在不同维度、数据分布、节点个数等方面的实验测试及对比,验证了算法的有效性。 展开更多
关键词 轮廓 k-支配轮廓查询 mapreduce
下载PDF
基于大语言模型的数据查询机器人在医学领域的应用
14
作者 全筱筱 熊文举 +1 位作者 潘军杰 曾华堂 《医学新知》 CAS 2024年第9期1057-1063,共7页
本研究对大语言模型(large language model,LLM)、数据查询机器人(data query robot,DQR)的发展历程和研究现状进行了介绍,同时通过实证分析,探讨了在数字医学领域中,基于LLM的DQR的实际应用效果及其在处理医疗数据查询和分析的复杂任... 本研究对大语言模型(large language model,LLM)、数据查询机器人(data query robot,DQR)的发展历程和研究现状进行了介绍,同时通过实证分析,探讨了在数字医学领域中,基于LLM的DQR的实际应用效果及其在处理医疗数据查询和分析的复杂任务中的作用,证实了基于LLM的DQR能为非技术人员提供一个直观且便捷的工具,显著提升医疗数据的查询效率和分析能力。此外,本文还探讨了LLM和DQR技术在当前应用中的局限性及未来发展潜力,为进一步的研究和应用提供参考。 展开更多
关键词 语言模型 数据查询机器人 数字医学 自然语言处理 深度学习
下载PDF
MapReduce框架下的不确定数据Top-k查询计算 被引量:7
15
作者 卢鑫 陈华辉 +1 位作者 董一鸿 钱江波 《模式识别与人工智能》 EI CSCD 北大核心 2013年第7期695-704,共10页
Top-k查询是不确定性数据管理中普遍采用的一种技术.基于参数化排名函数的Top-k查询语义是近年来提出的各种查询语义的统一.文中针对海量不确定数据,提出一种基于MapReduce框架的Top-k计算的有效方法.通过分析基于参数化排名函数的不确... Top-k查询是不确定性数据管理中普遍采用的一种技术.基于参数化排名函数的Top-k查询语义是近年来提出的各种查询语义的统一.文中针对海量不确定数据,提出一种基于MapReduce框架的Top-k计算的有效方法.通过分析基于参数化排名函数的不确定数据Top-k查询语义,设计一种获得未计算元组的排名函数值上界的算法,避免计算所有元组的排名函数值,解决Top-k计算中的剪枝问题.在MapReduce计算模型中提出两种不同的策略来实现该算法.文中针对单机环境和Hadoop分布式计算平台进行两组不同的对比实验.实验表明在处理海量不确定数据时,该算法在计算时间上有较高的性能提升. 展开更多
关键词 不确定数据 Top—k查询 mapreduce
下载PDF
基于MapReduce的时间序列索引与批量查询技术 被引量:4
16
作者 陈军晓 李中升 +2 位作者 刘逸敏 李秋虹 汪卫 《计算机工程》 CAS CSCD 北大核心 2019年第11期47-53,共7页
针对基于不平衡树的时间序列索引对海量时间序列数据查询性能较差的问题,提出一种基于MapReduce的DB-DSTree索引。利用平衡的时间序列索引DHD作为路由树创建分布式的DSTree,并充分挖掘批量查询中的数据局部性,将相似的查询路由到局部节... 针对基于不平衡树的时间序列索引对海量时间序列数据查询性能较差的问题,提出一种基于MapReduce的DB-DSTree索引。利用平衡的时间序列索引DHD作为路由树创建分布式的DSTree,并充分挖掘批量查询中的数据局部性,将相似的查询路由到局部节点上,以改善DSTree索引的非平衡性。实验结果表明,DB-DSTree索引的平衡性和局部性较好,可减少子树的查询范围和磁盘I/O次数,提高查询效率。 展开更多
关键词 时间序列 相似性查询 下界 mapreduce模型 索引
下载PDF
动态语言实现MapReduce应用
17
作者 高昂 《程序员》 2010年第5期26-26,共1页
并行计算技术的发展和网络带宽的提升,让云存储和云计算一步步走进实际业务应用之中。对于动态语言开发者,如果希望用动态语言借助Hadoop平台实现分治规约应用,并不是一件复杂的事情。Hadoop框架使用Java语言开发,但业务处理不要求必须... 并行计算技术的发展和网络带宽的提升,让云存储和云计算一步步走进实际业务应用之中。对于动态语言开发者,如果希望用动态语言借助Hadoop平台实现分治规约应用,并不是一件复杂的事情。Hadoop框架使用Java语言开发,但业务处理不要求必须使用Java语言,而可以使用Python或C++等其他语言进行编码。 展开更多
关键词 JAVA语言 mapreduce 业务应用 并行计算技术 Python 网络带宽 业务处理 开发者
下载PDF
基于MapReduce的关系数据库关键词查询技术 被引量:1
18
作者 周鹏程 施欢欢 钱钢 《苏州科技大学学报(自然科学版)》 CAS 2017年第3期64-70,共7页
为了解决关系数据库关键词查询算法存在的问题,根据图搜索算法,将关系数据转换成数据图,再将数据图物化成key/value形式存于分布式文件系统中。Map函数对数据图中每个节点计算其可达关键词,Reduce函数判断一个节点是否可达所有查询关键... 为了解决关系数据库关键词查询算法存在的问题,根据图搜索算法,将关系数据转换成数据图,再将数据图物化成key/value形式存于分布式文件系统中。Map函数对数据图中每个节点计算其可达关键词,Reduce函数判断一个节点是否可达所有查询关键词,若满足条件则输出以该节点为根的结果树。在深入研究传统的查询算法基础上,提出了基于MapReduce的分布式并行数据图搜索算法。在用普通PC搭建的Hadoop集群上的实验表明:该方法明显提升了查询结果树生成速度,并且具有较好的可扩展性。 展开更多
关键词 数据图 关键词查询 mapreduce 云计算 分布式计算
下载PDF
MapReduce框架下一种负载均衡的Top-k连接查询算法 被引量:1
19
作者 胡东明 刘旭敏 徐维祥 《计算机测量与控制》 2018年第8期238-242,共5页
针对传统Top-k连接查询算法在处理海量数据时的时效问题,提出一种基于MapReduce框架的负载均衡的并行Top-k连接查询算法(P-TKJ);使用直方图形式来存储数据,有助于提高CPU的利用率;同时融入了提前终止策略和磁盘数据的选择性访问,以便提... 针对传统Top-k连接查询算法在处理海量数据时的时效问题,提出一种基于MapReduce框架的负载均衡的并行Top-k连接查询算法(P-TKJ);使用直方图形式来存储数据,有助于提高CPU的利用率;同时融入了提前终止策略和磁盘数据的选择性访问,以便提高对HDFS数据访问的性能;另外,融入了数据过滤和基于最长处理时间优先(LPT)算法的负载均衡策略来减少和均衡Reduce任务,以此设计出高效的并行Top-k连接算法;一个集群实验结果表明,该方法能够有效缩短算法的执行时间。 展开更多
关键词 Top-k连接查询 mapreduce框架 数据过滤 负载均衡 执行时间
下载PDF
基于结构化查询语言的企业管理系统数据库设计与实现 被引量:1
20
作者 王云英 《信息与电脑》 2024年第7期152-154,共3页
在当今的商业环境中,企业管理系统(Enterprise Management System,EMS)扮演着至关重要的角色,能帮助组织有效地管理其日常运营和长期战略规划。本文全面探讨了基于结构化查询语言(Structured Query Language,SQL)的企业管理系统数据库... 在当今的商业环境中,企业管理系统(Enterprise Management System,EMS)扮演着至关重要的角色,能帮助组织有效地管理其日常运营和长期战略规划。本文全面探讨了基于结构化查询语言(Structured Query Language,SQL)的企业管理系统数据库的设计与实现,详细介绍了数据库模型的设计过程,包括实体-联系(Entity-relationship model,ER)模型的创建、数据库的逻辑设计,以及如何使用SQL语言实现这一设计,为企业管理系统的运行提供保障。 展开更多
关键词 结构化查询语言 企业管理系统 数据库设计 逻辑设计
下载PDF
上一页 1 2 66 下一页 到第
使用帮助 返回顶部