期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于分布式内存数据库快速计算的设计与实现 被引量:7
1
作者 李建林 武小波 《信息通信》 2020年第9期212-214,共3页
文章探索通过使用日趋低廉的PC服务器硬件资源,组建集群环境,搭建基于内存的分布式数据库,充分利用内存快速读取、快速存储的特性,解决当前运营商BOSS系统计算效率低下问题。
关键词 分布式 内存数据 快速计算
下载PDF
基于弹性分布数据集的海量空间数据密度聚类 被引量:5
2
作者 李璐明 蒋新华 廖律超 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期116-124,共9页
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并... 为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能. 展开更多
关键词 空间数据 聚类算法 弹性分布式数据 SPARK
下载PDF
基于RDDs的分布式聚类集成算法 被引量:2
3
作者 王韬 杨燕 +1 位作者 滕飞 冯晨菲 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1434-1439,共6页
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resil... 在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDDs)的分布式聚类集成算法(Dis CE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间. 展开更多
关键词 聚类 分布式计算 弹性分布式数据
下载PDF
基于分布式内存的话单预处理设计与实现
4
作者 李建林 武小波 《现代计算机》 2022年第17期114-116,120,共4页
本文针对运营商系统日益增多的话单文件,探索使用PC服务器硬件资源,利用当前服务器内存大、价格低、可扩展的特性,搭建集群资源环境,部署基于内存的分布式关系型数据库,发挥内存资源快速读取、高效响应的特性。应用关系型数据库易于操... 本文针对运营商系统日益增多的话单文件,探索使用PC服务器硬件资源,利用当前服务器内存大、价格低、可扩展的特性,搭建集群资源环境,部署基于内存的分布式关系型数据库,发挥内存资源快速读取、高效响应的特性。应用关系型数据库易于操作、易于使用的特点,建立内存和话单文件之间的处理机制,解决当前运营商业务支撑系统对批量用户话单预处理慢的问题,将批量话单的预处理效率提高至秒级,从而提升运营商对外服务的能力,提升用户使用感知。 展开更多
关键词 预处理 分布式 内存数据 话单
下载PDF
Spark环境下基于SMT的分布式限界模型检测
5
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据 可满足性模理论求解器 Spark框架
下载PDF
基于RDD的分布式粒子群优化算法 被引量:4
6
作者 程磊生 吴志健 +3 位作者 彭虎 吴双可 邓长寿 王则林 《小型微型计算机系统》 CSCD 北大核心 2016年第11期2542-2546,共5页
在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒... 在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒子群优化算法.该算法采用岛模型将种群分解为若干个岛屿,即子种群,然后使用RDD并行数据结构将整个种群并行化,使得每个岛屿对应RDD中的一个分区,借助RDD的分区并行,实现了粒子群优化算法在分布式平台上的并行.最后,对包括单峰函数和多峰函数在内的11个标准测试函数,将该算法与多种改进的PSO算法进行了比较实验与分析,结果表明该算法求解精度高且加速效果明显. 展开更多
关键词 粒子群优化 弹性分布式数据 岛模型 并行计算
下载PDF
关系型数据库内存化存储模型研究 被引量:18
7
作者 张俊 廖雪花 +1 位作者 余旭玲 雷蒙 《计算机工程与应用》 CSCD 北大核心 2021年第19期123-128,共6页
大数据环境下,磁盘数据库存在高并发I/O瓶颈,磁盘数据内存化是解决传统关系型磁盘数据库I/O瓶颈的有效方案。已有的内存化技术存在数据丢失、配置复杂等问题。基于内存数据库Redis,以典型开源关系型数据库MySQL为例,提出一种解决关系型... 大数据环境下,磁盘数据库存在高并发I/O瓶颈,磁盘数据内存化是解决传统关系型磁盘数据库I/O瓶颈的有效方案。已有的内存化技术存在数据丢失、配置复杂等问题。基于内存数据库Redis,以典型开源关系型数据库MySQL为例,提出一种解决关系型数据库磁盘I/O瓶颈的轻量级内存化解决方案,实现MySQL的内存化存储。同时构建行式键值(RB-KVM)和分段列式键值交叉(PCB-KVCM)存储转换模型,实现异构数据库存储模型的转换和自动化数据迁移。通过分析对比,RB-KVM数据存取效率更高,而PCB-KVCM具有更高的内存利用率且在时间开销上优于RB-KVM。通过实际运行分析,该技术不仅提高了数据库在高并发场景下的吞吐能力,实现了海量热点数据的高效存取,在实际应用中也更加快捷,实施成本更低。 展开更多
关键词 MYSQL数据 分布式Redis 数据迁移 模型转换 数据内存存储技术
下载PDF
大数据处理技术在风电机组齿轮箱故障诊断与预警中的应用 被引量:64
8
作者 张少敏 毛冬 王保义 《电力系统自动化》 EI CSCD 北大核心 2016年第14期129-134,共6页
风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障... 风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障诊断与预警模型。以齿轮箱故障诊断与预警为例阐释该模型,引入了Storm处理状态监测数据流,设计了流数据处理的Topology结构;引入Spark,利用弹性分布式数据集(RDD)编程模型实现了朴素贝叶斯(NB)算法和反向传播(BP)算法对设备状态信息进行故障诊断与预测。实验结果显示,该故障诊断与预测方法在保证精度的前提下具有较好的加速比,也证明了该故障诊断与预警模型的有效性和可行性。 展开更多
关键词 风电机组 故障诊断 故障预警 弹性分布式数据 内存批处理 数据处理
下载PDF
内存计算技术研究综述 被引量:32
9
作者 罗乐 刘轶 钱德沛 《软件学报》 EI CSCD 北大核心 2016年第8期2147-2167,共21页
在大数据时代,如何高效地处理海量数据以满足性能需求,是一个需要解决的重要问题.内存计算充分利用大容量内存进行数据处理,减少甚至避免I/O操作,因而极大地提高了海量数据处理的性能,同时也面临一系列有待解决的问题.首先,在分析内存... 在大数据时代,如何高效地处理海量数据以满足性能需求,是一个需要解决的重要问题.内存计算充分利用大容量内存进行数据处理,减少甚至避免I/O操作,因而极大地提高了海量数据处理的性能,同时也面临一系列有待解决的问题.首先,在分析内存计算技术特点的基础上对其进行了分类,并分别介绍了各类技术及系统的原理、研究现状及热点问题;其次,对内存计算的典型应用进行了分析;最后,从总体层面和应用层面对内存计算面临的挑战予以分析,并且对其发展前景做了展望. 展开更多
关键词 内存计算 新型混合内存 分布式 图计算 数据处理
下载PDF
一种基于内存计算的电力用户聚类分析方法 被引量:7
10
作者 王德文 孙志伟 《智能系统学报》 CSCD 北大核心 2015年第4期569-576,共8页
随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化,... 随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化,减少作业的运行与输入输出操作时间,提高聚类分析的处理能力。对用电测量数据进行预处理构建实验数据集,实验结果表明本方法对电力用户聚类分析的准确率高于单机K-means方法,其处理速度和能力明显优于单机和基于Map Reduce并行计算框架的聚类方法,并对数据的增长具有较好的适应性。 展开更多
关键词 数据 智能用电 弹性分布式数据 内存计算 聚类分析
下载PDF
Sp-IEclat:一种大数据并行关联规则挖掘算法 被引量:20
11
作者 李成严 辛雪 +1 位作者 赵帅 冯世祥 《哈尔滨理工大学学报》 CAS 北大核心 2021年第4期109-118,共10页
针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计... 针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计算的Spark框架,减少磁盘输入输出降低I/O负载,使用位图运算降低交集的时间代价并减少CPU占用,采用前缀划分的剪枝技术减少求交集运算的数据量,降低运算时间。使用mushroom数据集和webdocs数据集在两种大数据平台下实验,结果表明,Sp-IEclat算法的时间效率优于MapReduce框架下的Eclat算法及Spark框架下的FP-Growth算法和Eclat算法。从对集群的性能监控得到的数值表明,同Spark框架下的FP-Growth算法和Eclat算法相比,Sp-IEclat算法的CPU占用和I/O集群负载都较小。 展开更多
关键词 数据 关联规则挖掘 频繁项 Spark弹性分布式数据 MAPREDUCE框架
下载PDF
Spark大数据计算平台 被引量:3
12
作者 姜学军 武枫 黄海新 《电子世界》 2018年第15期82-82,84,共2页
随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程... 随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。 展开更多
关键词 数据 SPARK 弹性分布式数据 Spark生态圈
下载PDF
基于大数据处理技术的AIS应用研究 被引量:7
13
作者 吕荣 《海军工程大学学报》 CAS 北大核心 2017年第4期98-102,112,共6页
为了能够实时处理海量AIS数据并从中提取所需的信息,以供后续的数据挖掘和规律提取,重点研究了两种海量AIS处理技术:利用分布式存储构架结合Matlab软件的MDCS工具箱进行AIS数据的处理和分析;利用弹性数据集构建分布式数据库进行AIS数据... 为了能够实时处理海量AIS数据并从中提取所需的信息,以供后续的数据挖掘和规律提取,重点研究了两种海量AIS处理技术:利用分布式存储构架结合Matlab软件的MDCS工具箱进行AIS数据的处理和分析;利用弹性数据集构建分布式数据库进行AIS数据的实时查询和分析。在此基础上,通过全球AIS数据分析了全球船舶密度情况,并通过军舰AIS信号分析了军舰的行为特征和规律。以上应用的测试结果验证了海量AIS数据处理技术。 展开更多
关键词 AIS数据 数据 分布式存储结构 弹性数据
下载PDF
大数据处理平台比较与分析 被引量:8
14
作者 何海林 皮建勇 《微型机与应用》 2015年第11期7-9,17,共4页
虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念... 虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念与设计思想,然后介绍了Spark的基本概念与思想,并且着重介绍了弹性分布式数据集RDD,并通过实验证明和分析对比了Hadoop与Spark。 展开更多
关键词 HADOOP MAP REDUCE HDFS SPARK 弹性分布式数据
下载PDF
大数据处理技术在风电机组状态监测中的应用 被引量:12
15
作者 梁涛 许琰 +1 位作者 李燕超 杨改文 《水力发电》 北大核心 2019年第8期107-110,125,共5页
随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。... 随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。根据状态监测数据的特点,引入了大数据处理技术中的Spark和Storm。实验结果显示,该状态监测模型有着较好的数据吞吐能力和加速比,也证明了该模型的有效性和可行性。 展开更多
关键词 内存批处理 数据处理 风电机组 状态监测 弹性分布式数据
下载PDF
超大规模栅格数据管理系统的设计与实现
16
作者 张江东 朱江 +2 位作者 苏望发 张玉华 李健 《测绘科学与工程》 2021年第3期60-64,共5页
本文基于HDFS分布式文件系统和Spark分布式分析框架,首先,构建了超大规模栅格敎据管理系统,实现了不切片动态渲染分布式栅格地图服务,并采用移动计算到数据的策略和多级缓存机制,极大提高了动态渲染性能;然后,设计了栅格分布式分析数据... 本文基于HDFS分布式文件系统和Spark分布式分析框架,首先,构建了超大规模栅格敎据管理系统,实现了不切片动态渲染分布式栅格地图服务,并采用移动计算到数据的策略和多级缓存机制,极大提高了动态渲染性能;然后,设计了栅格分布式分析数据模型RasterRDD,并利用Spark框架多节点分布式计算能力,大幅提升了栅格分析效率;最后,通过发布全国D0M和DEM栅格分布式地图服务,进行动态渲染和坡度分析性能验证,能够满足超大规模栅格数据的高效浏览、存储和分析。 展开更多
关键词 HDFS SPARK 弹性分布式数据 动态渲染 分布式栅格分析
下载PDF
Spark平台下关联规则算法的优化实现 被引量:4
17
作者 梁瑷云 袁丁 +1 位作者 严清 刘小久 《计算机工程与设计》 北大核心 2018年第12期3692-3699,共8页
利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法Apriori_MC_SP。... 利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法Apriori_MC_SP。引入矩阵概念减少事务数据库的扫描次数,充分利用Spark内存计算的弹性分布式内存数据集对象,存储事务布尔矩阵以及频繁项集。相较于传统的Apriori算法,该算法减少了事务数据库的访问次数,简化了Apriori算法的"自连接"以及"剪枝"过程。实验结果表明,提出方案在保证输出结果不变的情况下,加快了关联挖掘的执行效率。 展开更多
关键词 Spark平台 APRIORI算法 并行化 布尔矩阵 弹性分布式内存数据集
下载PDF
并行计算框架Spark的自适应缓存管理策略 被引量:18
18
作者 卞琛 于炯 +1 位作者 英昌甜 修位蓉 《电子学报》 EI CAS CSCD 北大核心 2017年第2期278-284,共7页
并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选... 并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用. 展开更多
关键词 并行计算 缓存管理策略 SPARK 弹性分布式数据
下载PDF
SparkDE:一种基于RDD云计算模型的并行差分进化算法 被引量:5
19
作者 谭旭杰 邓长寿 +3 位作者 董小刚 袁斯昊 吴志健 彭虎 《计算机科学》 CSCD 北大核心 2016年第9期116-119,139,共5页
云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集... 云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集(RDD)是一种基于内存的集群计算模型,有效地支持迭代运算,能够克服负载过大的问题。因此提出基于RDD模型的并行差分进化算法SparkDE。SparkDE首先将整个种群划分为若干个独立岛,然后将一个岛对应RDD中的一个分区,每个岛在RDD的一个分区中独立进化指定代数后,利用迁移算子在岛之间交换信息。利用标准测试问题对SparkDE、基于MapReduce模型的MRDE和基本DE进行对比实验研究。实验结果表明SparkDE求解精度高,计算速度快,加速效果明显,可以作为云计算平台的下一代优化器。 展开更多
关键词 并行差分进化算法 岛模型 弹性分布式数据 转换操作 控制操作
下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
20
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 Hadoop分布式文件系统(HDFS) 数据存储 小文件 数据 内存占用率
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部