题名 Lustre文件系统I/O锁的应用与优化
被引量:9
1
作者
钱迎进
金士尧
肖侬
机构
国防科技大学并行与分布式处理国家重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2011年第3期1-5,26,共6页
基金
国家自然科学基金No.60736013~~
文摘
分布式文件系统需要有一种机制对来自各个客户端的并发访问进行控制,维护文件数据的一致性。锁是实现并发控制最流行的机制。研究了Lustre文件系统的分布式I/O范围锁的模型,并对它的各种应用进行了优化。介绍了Lustre分布式锁的基本概念,对基于锁实现数据客户端写回缓冲以及多写者文件大小的动态获取的算法进行了分析;提出自适应I/O锁策略,基于区间树的范围锁冲突检测优化策略以及客户端锁淘汰策略来增强Lustre锁服务的性能和扩展性。
关键词
并发控制
分布式锁
LUSTRE文件系统
Keywords
concurrency control
distributed lock
Lustre file
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 Lustre分布式锁管理器的分析与改进
被引量:4
2
作者
钱迎进
肖侬
金士尧
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2009年第A01期146-149,共4页
基金
国家自然科学基金资助项目(60736013)
文摘
分布式文件系统一般使用分布式锁管理器技术为系统中的共享资源提供协同访问和一致性视图,并且保证数据并发访问的安全性,避免潜在的数据破坏的危险。本文首先分析了分布式文件系统Lustre分布式锁管理器的基本原理和实现,并针对发生冲突时锁请求的延迟存在的问题提出了改进的方案,它不仅提高了I/O性能,降低访问延迟,而且提高了文件锁服务的可靠性。
关键词
分布式锁管理器
并行文件系统
一致性
租约
LUSTRE
Keywords
distribute lock manager
parallel file system
consistency
lease
Lustre
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 大规模集群中一种自适应可扩展的RPC超时机制
被引量:2
3
作者
钱迎进
肖侬
金士尧
机构
国防科学技术大学计算机学院并行与分布处理国家重点实验室
出处
《软件学报》
EI
CSCD
北大核心
2010年第12期3199-3210,共12页
基金
国家自然科学基金No.60736013~~
文摘
在基于RPC(remote produce call)构建的分布式系统中,超时是一种通用的失效检测手段.在超大规模Lustre存储集群的压力测试中,发现传统的固定超时机制会导致很多不必要的超时而存在缺陷.提出了一种综合考虑了网络条件、服务器负载、扩展性和性能等因素的自适应可扩展的RPC超时机制(Adaptive Scalable RPC Timeout mechanism,简称AST).在其控制下,客户端超时值可以根据网络和服务器的拥塞情况动态地调整设置,而且服务器可以通过额外消息传递通知客户端修改原超时值.经过一系列的模拟和验证,其结果表明,AST是一种更适合的RPC失效检测模型,增强了系统的响应性、可靠性和稳定性,而且对系统的性能没有过大的负面影响.
关键词
远程过程调用
失效检测
超时
大规模
扩展性
响应性
可靠性
Keywords
RPC (remote produce call)
failure detection
timeout
large scale
scalability
responsibility
reliability
分类号
TP316
[自动化与计算机技术—计算机软件与理论]
题名 Lustre文件系统元数据服务恢复机制的改进
被引量:1
4
作者
钱迎进
李永刚
汪毅
周琳琦
机构
中国卫星海上测控部技术部
出处
《计算机科学》
CSCD
北大核心
2015年第9期177-182,共6页
基金
国家973计划资助项目(2009CB723803)
国家自然科学基金资助项目(60873120)资助
文摘
Lustre的重启恢复算法需要集群中所有客户端在指定的恢复时间窗口内与服务器重新建立连接,客户端重传未提交的事务请求,服务器严格按照事务序列号重放所有未提交的事务,要求过于严格。针对Lustre可恢复性不强的缺点,提出了基于版本的恢复和共享时提交算法,它们分别对Lustre现有的元数据更新和恢复机制进行了改进和扩展,根据事务之间的依赖关系,允许客户端在更为宽松的条件下进行恢复并加入到集群而不被驱逐,提高了Lustre文件系统的可用性和可恢复性。最后通过一系列实验对改进后的算法的性能进行了评估。
关键词
LUSTRE
高性能计算
可恢复性
可用性
Keywords
Lustre, HPC, Recoverability, Availability
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
题名 大规模集群文件系统中的I/O拥塞控制机制
5
作者
钱迎进
金士尧
肖侬
机构
并行与分布式处理国家重点实验室(国防科学技术大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第S1期153-160,共8页
基金
国家自然科学基金项目(60736013)
文摘
首先研究了分布式集群存储系统中如何为各个客户端提供公平有效的I/O服务的问题,然后针对大规模集群文件系统提出了一种分布式I/O拥塞控制的策略.在拥塞控制下,当服务器轻载时,可以让单个客户端并行地发出更多的I/O请求给服务器,以达到最大化网络和服务器资源的利用率以及I/O吞吐率的目的;当服务器重载时,通过一种节流控制,限制各个客户端可并行发送的I/O请求的数目,减少服务器缓冲的I/O请求的数目,降低服务器内存压力,控制客户端I/O请求的响应延迟.最后,经过一系列模拟实验,对拥塞控制策略进行了评估和验证.
关键词
大规模
集群文件系统
I?O拥塞控制
响应延迟
服务质量
Keywords
large scale
cluster file system
I/O congestion control
response latency
QoS
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 主动与被动混合调度网络集群服务系统
被引量:2
6
作者
金士尧
钱迎进
章文嵩
王晓川
机构
分布与并行处理国家重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2009年第1期17-19,57,共4页
文摘
本文分别研究了基于IP层的主动自调度集群(ASAS)和被动调度集群(LVS的IPVS)的设计和实现。针对两种调度机制存在的问题,提出了基于IP层的主动与被动混合调度网络集群服务系统的实现方法,并通过具体实例给出了对比结果。
关键词
集群
ASAS
动态负载
负载均衡
动态反馈
IP
Keywords
clustering
ASAS
dynamic balancer
load balancing
dynamic feedback
IP
分类号
TP393
[自动化与计算机技术—计算机应用技术]