-
题名一种不依赖访问热度信息的分布式文件放置算法
被引量:2
- 1
-
-
作者
薛弘晔
田治武
罗香玉
冯健
王丹
-
机构
西安科技大学计算机科学与技术学院
-
出处
《科学技术与工程》
北大核心
2018年第2期285-289,共5页
-
基金
西安科技大学博士启动基金(2015QDJ031)
陕西省教育厅专项科学研究计划项目(15JK1468)资助
-
文摘
文件放置问题一直是分布式存储领域的研究热点。分布式文件存储系统HDFS随机选择节点完成文件放置,存在访问负载分布不均衡的缺点。研究人员提出大量基于文件访问热度信息的放置算法;但是,文件的访问热度信息是动态变化的,难以准确预测。提出一种不依赖访问热度信息的分布式文件放置算法;该算法仅使用文件的创建时间信息,利用文件已创建时间与访问热度之间的相关性,首先将时间进行区间划分,然后统计出各节点在不同时间区间内所创建文件的数据量,放置过程中保持同一时间区间的数据量在不同节点间大致相同。实验结果表明,该算法不仅可以使各节点的存储负载达到均衡,还能够提升访问负载的均衡,消除因文件访问热度不均而导致的性能瓶颈。
-
关键词
分布式文件存储系统
文件访问热度
文件放置
负载均衡
-
Keywords
distr ibuted f i le storage system f i le p o pu lar ity f i le placement load balance
-
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向高能物理分级存储的文件访问热度预测
被引量:4
- 2
-
-
作者
程振京
汪璐
程耀东
陈刚
胡庆宝
李海波
-
机构
中国科学院高能物理研究所
中国科学院大学
中国科学院高能物理研究所天府宇宙线研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第2期126-132,共7页
-
基金
国家重点研发计划(2017YFB0203200)
国家自然科学基金(11675201,11805226,11805223)。
-
文摘
高能物理计算是典型的数据密集型计算,其主要采用基于文件的分级存储方案,根据访问热度的不同将数据存储于不同性能的存储设备上,然而当前数据热度预测采用基于人工经验的启发式算法,准确率较低。提出一种借助长短期记忆网络预测文件未来访问热度的方法,包括网络结构设计、训练和预测算法等。该方法通过划分动态时间窗口构造文件访问特征的时序序列,预测不同数据的访问趋势。在LHAASO高能物理实验数据集上的实验结果表明,与SVM、MLP等算法相比,该方法预测准确率提升了30%左右,具有更强的适用性。
-
关键词
分级存储
文件访问特征
时序数据
长短期记忆网络
文件访问热度
-
Keywords
hierarchical storage
file access characteristics
time series data
Long Short-Term Memory(LSTM)network
file access popularity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于竞标模式和访问热度的副本创建策略
- 3
-
-
作者
庞璐璐
曹耀钦
-
机构
第二炮兵工程大学信息工程系
-
出处
《现代计算机(中旬刊)》
2013年第12期3-5,9,共4页
-
基金
国家自然科学基金重点项目(No.61132008)
-
文摘
研究典型数据副本创建策略,提出一种以节点在线率和节点存储能力作为价格的竞标模型副本创建策略。根据对基于访问热度的典型副本创建策略和基于竞标模型的典型副本创建策略的具体分析,改进典型副本创建策略对节点性能考虑的单一性,综合考虑节点的访问热度和负载等性能,实现基于竞标模式和访问热度相结合的副本创建策略。并通过基于网络带宽利用率和系统响应时间的实验,将该副本创建策略与两种典型副本创建策略进行实验对比,验证提出的基于竞标模式和访问热度的副本创建策略具有较好的性能。
-
关键词
副本创建
网络宽带利用率
访问热度
竞标模式
-
Keywords
Replica Creation Strategy
Web Bandwidth Utilization
Visitation Frequency
Bid Pattern
-
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于用户访问特征的云存储副本动态管理节能策略
被引量:2
- 4
-
-
作者
王政英
于炯
英昌甜
鲁亮
班爱琴
-
机构
新疆大学信息科学与工程学院
新疆大学软件学院
-
出处
《计算机应用》
CSCD
北大核心
2014年第8期2256-2259,2290,共5页
-
基金
国家自然科学基金资助项目(60863003
61063042)
新疆维吾尔自治区自然科学基金资助项目(2011211A011)
-
文摘
针对云计算环境下服务器利用率低、能耗浪费严重的问题,提出一种基于用户访问特征的云存储副本动态管理节能策略。通过把用户访问特征的研究转化为计算Block的访问热度,根据节点的整体访问热度,DataNode主动申请休眠从而达到节能的目的。给出了详细的休眠申请、休眠判断算法,以及在DataNode休眠期间出现对已休眠Block进行访问的情况时如何处理的解决方案。实验结果表明,采用该策略后可休眠29%~42%的DataNode,减少能耗31%,且服务器的用户响应时间不受影响。经过性能分析,得出该策略在保证数据可用性的同时可有效地降低能耗。
-
关键词
云计算
存储副本动态管理
节能计算
访问热度
用户访问特征
-
Keywords
cloud computing
storage replica dynamic management
energy-efficient computing
visiting temperature
user visiting characteristic
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于birch聚类的可更新机器学习索引模型
- 5
-
-
作者
曹卫东
金超
-
机构
中国民航大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2023年第11期3328-3334,共7页
-
基金
国家自然科学联合基金项目(U1833114)。
-
文摘
为满足大数据时代下数据库系统高吞吐、低内存占用的索引设计需求,提出一种面向海量数据的基于birch聚类可更新机器学习索引模型。将数据集使用birch聚类进行划分,对分段数据分别使用前馈神经网络进行训练拟合,采用基于日志结构合并树延迟更新思路的异地插入策略,实现索引更新操作。使用真实数据集进行实验,其结果表明,相比传统索引和当前先进机器学习索引结构,该模型在检索速度上有一定提升,在插入性能、内存占用和训练时间上有较大优化。
-
关键词
海量数据
机器学习
索引设计
聚类
日志结构合并树
数据访问热度
动态更新
-
Keywords
massive data
machine learning
index design
clustering
log structure merge tree
data access popularity
dynamic update
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名HDFS动态副本因子的优化研究
被引量:2
- 6
-
-
作者
宗平
梁胜昔
-
机构
南京邮电大学海外教育学院
南京邮电大学计算机学院
-
出处
《计算机技术与发展》
2018年第7期68-72,共5页
-
基金
江苏高校自然科学基础研究项目(06KJB520079)
-
文摘
针对云环境中分布式文件系统(HDFS)静态副本机制存在的不足,提出一种改进的动态副本因子调整策略。该策略包含待调整副本因子文件筛选和文件副本因子动态调整两个部分,首先结合数据访问的时间局部性原理,根据文件访问热度定量描述获得待调整副本因子文件集合,通过设定两个不同长度的决策时间区间,针对不同访问热度以及不同决策时间区间内的文件分别采取不同的副本因子调整措施,做到性能和存储代价的有效折中。通过搭建分布式的实验环境验证动态副本因子调整策略的有效性,实验结果表明,随着文件访问热度的增加,改进策略可以有效降低系统作业平均响应时间,提升云环境下数据服务的性能。
-
关键词
云计算
HDFS
动态副本因子
访问热度
时间局部性
-
Keywords
cloud computing
HDFS
dynamic replica factor
access heat
temporal-local
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种细粒度均衡的新型分布式文件放置算法
被引量:1
- 7
-
-
作者
刘硕
辛刚
-
机构
中国航空工业集团公司西安航空计算技术研究所
-
出处
《电脑与电信》
2018年第1期41-43,共3页
-
文摘
为保证访问负载的均衡分布,分布式存储系统往往依赖访问热度信息进行文件放置。然而,访问热度信息在文件存入系统时刻并不可知,并且随时间不断变化,依赖访问热度信息的放置算法需要不断调整文件的存储位置,产生高昂的迁移成本。本文提出一种细粒度均衡的新型分布式文件放置算法。该算法利用文件访问热度同已创建时间之间的相关性,通过保证各节点所存储数据量在创建时间维度上的细粒度相似性,实现较好的访问负载均衡。该算法仅基于文件的创建时间属性,该属性在文件存入系统时刻属于已知信息并且不随时间变化。实验结果表明,相较于HDFS系统的随机放置算法,本文算法能够更好地实现访问负载的均衡分布,提高访问性能。
-
关键词
放置算法
分布式文件存储系统
文件访问热度
负载均衡
细粒度相似
-
Keywords
placement algorithm
distributed file storage system
file popularity
load balance
fine-grained similarity
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-