一种基于RDMA多播机制的分布式持久性内存文件系统被引量：4

A Distributed Persistent Memory File System Based on RDMA Multicast

下载PDF

导出

摘要持久性内存技术与远程直接内存访问(remote direct memory access,RDMA)技术的发展,为高效分布式系统的设计提供了新的思路.然而,现有的基于RDMA的分布式系统没有充分利用RDMA的多播能力,难以解决1对多传输场景下的多拷贝文件数据传输问题,严重影响了系统性能.针对此问题,提出一种基于RDMA多播机制的分布式持久性内存文件系统(RDMA multicast transmission based distributed persistent memory file system,MTFS),通过低延迟多播通信机制充分利用RDMA多播能力,将数据高效传输到多个数据节点,从而避免了多拷贝传输操作带来的高延迟.为提升传输操作灵活性,MTFS设计了多模式多播远程过程调用(remote procedure call,RPC)机制,实现了RPC请求自适应识别,并通过优化返回机制将部分传输操作移出关键路径,进一步提升传输效率.同时MTFS提供了轻量级一致性保障机制,通过设计故障恢复功能、数据校验系统、重传策略与窗口机制,当节点出现崩溃时进行快速恢复,并在传输出现错误时实现数据精准检测与纠正,保证了数据的可靠性和一致性.实验证明,MTFS在各测试集上相比现有系统GlusterFS吞吐量提升了10.2~219倍.在Redis数据库的工作负载下,MTFS相比于NOVA取得了最高10.7%的性能提升,并在多线程测试中取得了良好的可扩展性. The development of persistent memory and remote direct memory access(RDMA)provides new opportunities for designing efficient distributed systems.However,the existing RDMA-based distributed systems are far from fully exploiting RDMA multicast capabilities,which makes them difficult to solve the problem of multi-copy file data transmission in one-to-many transmission,degrading system performance.In this paper,a distributed persistent memory and RDMA multicast transmission based file system(MTFS)is proposed.It efficiently transmits data to different data nodes by the low-latency multicast transmission mechanism,which makes full use of the RDMA multicast capability,hence avoiding high latency due to multi-copy file data transmission operations.To improve the flexibility of transmission operations,a multi-mode multicast remote procedure call(RPC)mechanism is proposed,which enables the adaptive recognition of RPC requests,and moves transmission operations out of the critical path to further improve transmission efficiency.MTFS also provides a lightweight consistency guarantee mechanism.By designing a crash recovery mechanism,a data verification module and a retransmission scheme,MTFS is able to quickly recover from a crash,and achieves file system reliability and data consistency by error detection and data correction.Experimental results show that MTFS has greatly increased the throughput by 10.2-219 times compared with GlusterFS.MTFS outperforms NOVA by 10.7% on the Redis workload,and achieves good scalability in multi-thread workloads.

作者陈茂棠郑圣安游理通王晶钰闫田屠要峰韩银俊黄林鹏 Chen Maotang;Zheng Sheng'an;You Litong;Wang Jingyu;Yan Tian;Tu Yaofeng;Han Yinjun;Huang Linpeng(Department of Computer Science and Engineering,Shanghai Jiao Tong University,Shanghai 200240;Department of Computer Science and Technology,Tsinghua University,Beijing 100084;ZTE Corporation,Nanjing 210012)

机构地区上海交通大学计算机科学与工程系清华大学计算机科学与技术系中兴通讯股份有限公司

出处《计算机研究与发展》 EI CSCD 北大核心 2021年第2期384-396,共13页 Journal of Computer Research and Development

基金国家重点研发计划项目(2018YFB1003302) 上海交通大学-华为联合实验室项目(FA2018091021-202004)。

关键词持久性内存远程直接内存访问多播分布式文件系统远程过程调用 persistent memory remote direct memory access multicast distributed file system remote procedure call

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张鸿斌,范捷,舒继武,胡庆达.基于相变存储器的存储系统与技术综述[J].计算机研究与发展,2014,51(8):1647-1662. 被引量：21
2舒继武,陆游游,张佳程,郑纬民.基于非易失性存储器的存储系统技术研究进展[J].科技导报,2016,34(14):86-94. 被引量：27

二级参考文献91

1Nahas J, Andre T, Subramanian C, et al. A 4Mb 0.18m 1T1MTJ toggle MRAM memory [C]//Proc of IEEE Int Conf on Solid-State Circuits ( ISSCC 2004 ). Piscataway, NJ : IEEE, 2004: 44-512.
2Lee B C, Ipek E, Mutlu O, et al. Architecting phase change memory as a scalable dram alternative[J]. ACM SIGARCH Computer Architecture News, 2009, 37(3): 2-13.
3Bedesehi F, Resta C, Khouri O, et al. An 8Mb demonstrator for high-density 1.8 V phase-change memories [C]//Proc of IEEE Symp on VLSI Circuits, Digest of Technical Papers. Piseataway, NJ: IEEE, 2004:442-445.
4Burr G W, Kurdi B N, Scott J C, et al. Overview of candidate device technologies for storage class memory [J]. IBM Journal of Research and Development, 2008, 52(4): 449-464.
5Qureshi M K, Gurumurthi S, Rajendran B. Phase change memory: From devices to systems [J]. Synthesis Lectures on Computer Architecture, 2011, 6(4): 1-134.
6Qureshi M K, Srinivasan V, Rivers J A. Scalable high performance main memory system using phase-change memory technology [J]. ACM SIGARCH Computer Architecture News, 2009, 37(3): 24-33.
7Chen S, Gibbons P B, Nath S. Rethinking database algorithms for phase change memory [C/OL] //Proc of the 5th Biennial Conf on Innovative Data Systems Research (CIDR 2011). 2011: 21-31. [2013-03-10]. http://www. cidrdb. org/cidr2011/Papers/CIDR11_Paper3. pdf.
8Lee B C, Ipek E, Mutlu O, et al. Architecting phase change memory as a scalabie dram alternative[J]. ACM SIGARCH Computer Architecture News, 2009, 37(3): 2-13.
9Bheda R A. Energy efficient Phase Change Memory based main memory for future high performance systems [C] //Proc of IEEE on Int Green Computing Conf and Workshops (IGCC 2011). Piseataway, NJ: IEEE, 2011:1-8.
10Lee B C, Ipek E, Mutlu O, et al. Phase change memory architecture and the quest for scalability [J]. Communications of the ACM, 2010, 53(7): 99-106.

共引文献44

1景新月.简谈非易失性存储器存在的问题及解决方法[J].计算机产品与流通,2020,0(5):23-23.
2何炎祥,沈凡凡,张军,江南,李清安,李建华.新型非易失性存储器架构的缓存优化方法综述[J].计算机研究与发展,2015,52(6):1225-1241. 被引量：11
3石伟,汪东升.基于非易失存储器的事务存储系统综述[J].计算机研究与发展,2016,53(2):399-415. 被引量：4
4徐远超,闫俊峰,万虎,孙凤芸,张伟功,李涛.新型非易失存储的安全与隐私问题研究综述[J].计算机研究与发展,2016,53(9):1930-1942. 被引量：6
5陈润瑜.浅谈闪存存储系统的应用[J].科技风,2016(24):6-6.
6李华.相变存储器的存储技术教学研究[J].电脑与电信,2017(3):69-71.
7陈震,刘文洁,张晓,卜海龙.基于磁盘和固态硬盘的混合存储系统研究综述[J].计算机应用,2017,37(5):1217-1222. 被引量：8
8金培权.基于新型存储的大数据存储管理[J].大数据,2017,3(5):70-82. 被引量：3
9关兆雄.面向非结构化的分布式存储系统的性能分析系统研究[J].自动化与仪器仪表,2018,0(2):40-43. 被引量：12
10钱璐,李弋,吴毅坚,赵文耘.异构非易失性内存卷模式实现与应用[J].计算机应用与软件,2018,35(8):43-49. 被引量：1

同被引文献36

1代超,刘强,蒋金虎,张为华.RDMA虚拟化相关技术研究[J].计算机系统应用,2020(10):1-8. 被引量：3
2彭焕峰.基于Lucene的中文分词器的设计与实现[J].微型机与应用,2011,30(18):62-64. 被引量：5
3王泽贤.Lucene中文分析器在书目搜索应用中的比较研究[J].现代情报,2014,34(4):132-136. 被引量：3
4夏军,庞征斌,刘路,张峻,常俊胜.一种基于NIC的RDMA可靠传输协议的设计与实现[J].计算机工程与科学,2014,36(2):216-221. 被引量：3
5姜康,冯钧,唐志贤,王超.基于ElasticSearch的元数据搜索与共享平台[J].计算机与现代化,2015(2):117-121. 被引量：24
6张建中,黄艳飞,熊拥军.基于ElasticSearch的数字图书馆检索系统[J].计算机与现代化,2015(6):69-73. 被引量：12
7李宁.基于一致性Hash算法的分布式缓存数据冗余[J].软件导刊,2016,15(1):47-50. 被引量：5
8林钰杰,吴丽贤.基于Lucene的企业电子文档搜索系统的开发研究[J].电子设计工程,2017,25(17):102-106. 被引量：2
9王建荣,季刚.海量自动气象站分钟数据存储检索系统设计[J].计算机与现代化,2017(9):40-44. 被引量：10
10钱柯.基于模糊匹配的Lucene检索应用[J].电子设计工程,2018,26(1):52-55. 被引量：3

引证文献4

1彭拥军.基于XMLRPC的分布式网络安全管理系统设计[J].信息与电脑,2021,33(20):205-207.
2许贤慧,王淑营,曾文驱.面向工程数据检索的ElasticSearch索引优化策略[J].计算机与现代化,2022(2):79-84. 被引量：8
3梁晨,陈昊,杨舟,曲国远.机载嵌入式超算平台RDMA技术研究及实现[J].航空电子技术,2023,54(4):36-42.
4孙辽东,王超,陈培,王德奎,李世刚,张书博,荆荣讯,王文潇.基于云原生的人工智能训练业务监控系统设计[J].信息技术与信息化,2024(1):188-192.

二级引证文献8

1闫博文,周兆国,文宏武.军事物流数据仓库建设研究[J].军事交通学报,2022(10):22-26.
2李继领.基于GIS的智能农机综合监管服务平台设计与实现[J].信息与电脑,2022,34(19):146-149. 被引量：1
3张英栋,赵军,周圣川,胡振彪,胡海滨.结合倾斜影像的实景三维场景增强显示[J].测绘通报,2023(3):123-127. 被引量：2
4魏培阳,亓祺,杜明松,张少乾.面向中医药典籍的阅读对照系统设计与实现[J].现代电子技术,2023,46(16):85-90. 被引量：1
5魏培阳,史晓雨,周杰三,邢晓方,梁佳豪,刘洋.基于实时同步和全文搜索技术的方剂学多维实训平台[J].现代电子技术,2024,47(2):67-73. 被引量：1
6朱兴广,白丽娟,贾梦帆,王昊,杜彬,王晓安.技术支持视角下医疗设备维修智能管理系统的设计与应用[J].中国医疗设备,2024,39(1):97-101.
7黄必栋.CarbonData在网络安全日志分析场景下的性能评估[J].科学技术创新,2024(5):99-105.
8曹勐琪,于泓涛,梁振.基于Elasticsearch的挂号系统设计与实现[J].中国医学装备,2024,21(2):109-113.

1熊先奎,袁进辉,宋庆春.面向分布式AI的智能网卡低延迟Fabric技术[J].中兴通讯技术,2020,26(5):23-28. 被引量：2
2高银鸿.浅析大数据与人工智能对地震监测预报的影响[J].科学大众（科技创新）,2021(1):66-67.
3吕翔,罗回彬,陈蔓,陈国俊,丘柏俊,宋家豪.基于微信小程序的在线练习系统[J].电脑知识与技术,2021,17(3):122-124. 被引量：4
4晋翠翠(编研).城乡融合发展背景下长三角职教一体化政策及问题之管见[J].温州农业科技与教育,2020(4):45-50.
5彭侃.欧洲影院行业应对流媒体平台挑战的策略研究[J].当代电影,2021(1):135-141. 被引量：2
6张秉森,马吉忠,杨一飞,张敏,毛汉奎,吴丽丽.基于树莓派的自动避障小车的设计与实现[J].南方农机,2021,52(3):23-24. 被引量：11
7李祎,王宏渊,彭金喜.互联网延迟队列解决方案设计[J].福建电脑,2021,37(1):9-12.
8王昕禹,王旭东,吴楠.可见光通信5G-Polar码编码CAP传输方案[J].光通信技术,2020,44(12):20-24.
9高彭彭.基于紧密型医共体的区域影像云建设[J].信息技术与信息化,2020(12):50-52.
10吴莹莹,彭亚雄,陆安江.基于深度学习CNN的图像压缩编码技术研究[J].软件,2020,41(12):18-23. 被引量：2

计算机研究与发展

2021年第2期

浏览历史

内容加载中请稍等...

一种基于RDMA多播机制的分布式持久性内存文件系统被引量：4

参考文献2

二级参考文献91

共引文献44

同被引文献36

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于RDMA多播机制的分布式持久性内存文件系统 被引量：4

参考文献2

二级参考文献91

共引文献44

同被引文献36

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种基于RDMA多播机制的分布式持久性内存文件系统被引量：4