基于用户级融合I/O的Key-Value存储系统优化技术研究被引量：6

Optimization of the Key-Value Storage System Based on Fused User-Level I/O

下载PDF

导出

摘要传统分布式键值存储系统大都基于操作系统提供的套接字与可移植操作系统接口构建,受限于接口语义及内核开销,难以发挥底层新型网络和存储硬件高吞吐与低延迟的性能优势.聚焦键值存储系统的数据通路,面向高速以太网与NVMe(non-volatile memory express)固态存储,于用户态整合网络栈与I O栈,协同设计以优化吞吐性能与延迟稳定性.用户级融合I O栈的控制平面由同一处理器核心于同一上下文中统一管理网卡与固态存储设备的硬件队列,消除了传统分离式设计所导致的多次进出内核态、多次上下文切换以及潜在的核间通信与数据迁移等的弊端,最大限度降低系统软件层面的管控开销.数据平面采用统一的内存池,借助用户级设备驱动,数据于上层键值系统与底层设备之间直接通过DMA传输,没有额外数据拷贝与操作系统干涉.针对大消息访问请求,通过将数据分片并交叠执行网络与存储DMA操作,进一步掩藏了访问延迟.实现了全用户态键值存储系统UKV,支持内存外存2层存储以及广泛应用的Memcache接口.将UKV与由Twitter开源的Fatcache系统进行了测试对比.实验结果表明,涉及外存的SET请求的每秒查询吞吐量提高了14.97%~97.78%,GET操作的每秒查询吞吐量提高了14.60%~51.81%;涉及外存的SET操作的p95延迟降低了26.12%~40.90%,GET操作的p95延迟降低了15.10%~24.36%. The traditional distributed key-value storage systems are commonly designed around the conventional Socket and POSIX I O interfaces.Limited by the interface semantics and OS kernel overhead,it is difficult for such key-value systems to achieve high efficiency on modern high-performance network and storage hardware.In this paper,we propose a fused user-level I O approach to improve the throughput performance and latency consistency for key-value systems based on high-speed Ethernet and NVMe SSDs.The control plane of the proposed I O stack utilizes one single processor core and one single context to cooperatively manage the hardware queues of both the NIC and the SSD devices.The overheads of kernel mode entering,interrupts and context switches and inter-core communications are eliminated.The data plane is driven by a unified memory pool for fused I O access,and the data is directly transferred between the key-value system and the device hardware without extra data copies.For requests with large-size payload,data is sliced and fed into different DMA stages and the latency is further hidden through pipelining and overlapping.We present UKV,an all-in-userland key-value system with support of a two-level DRAM-SSD storage hierarchy and the widely-used Memcache interface.The experimental results indicate that,compared with Fatcache,the QPS of SSD-involved SET requests is increased by 14.97%~97.78%,and the QPS of the GET operation is increased by 14.60%~51.81%.The p95 latency of SSD-involved SET requests is reduced by 26.12%~40.90%,and the p95 latency of GET operations is reduced by 15.10%~24.36%.

作者安仲奇张云尧邢晶霍志刚 An Zhongqi;Zhang Yunyao;Xing Jing;Huo Zhigang(State Key Laboratory of Computer Architecture(Institute of Computing Technology,Chinese Academy of Sciences),Beijing 100190;School of Computer and Control Engineering,University of Chinese Academy of Sciences,Beijing 100049)

机构地区计算机体系结构国家重点实验室(中国科学院计算技术研究所) 中国科学院大学计算机与控制工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2020年第3期649-659,共11页 Journal of Computer Research and Development

基金国家重点研发计划项目(2018YFC0809300) 国家自然科学基金青年科学基金项目(61502454)~~

关键词键值存储系统旁路内核用户级融合I O 高速以太网 NVMe固态硬盘 key-value storage system kernel-bypass user-space fused I O high-speed Ethernet NVMe SSD

分类号 TP316 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1李强,孙凝晖,霍志刚,马捷.T-NBC:透明的MPI非阻塞集合操作[J].计算机学报,2011,34(11):2052-2063. 被引量：3

二级参考文献20

1Abdelrahman T S, Liu O. Overlap of computation and com- munication on shared-memory networks-of-workstations//Proceedings of the Cluster Computing. California, USA, 2001:35-45.
2Calland P-Y, Dongarra J, Robert Y. Tiling on systems with communication/computation overlap. Concurrency Practice and Experience, 1999, 11(3): 139-153.
3Culler D, Karp R, Patterson D, Sahay A, Schauser K E, Santos E, Subramonian R, yon Eicken T. LogP: Towards a realistic model of parallel computation//Proceedings of the Principles Practice of Parallel Programming. San Diego, Canada, 1993: 1-12.
4Hoefler T, Lumsdaine A, Rehm W. Implementation and performance analysis of non-blocking collective operations for MPI//Proceedings of the 2007 International Conference on High Performance Computing, Networking, Storage and Analysis, SC07. Reno, USA, 2007: 52-61.
5Arkady Kanevsky, Anthony Skjellum, Anna Rounbehler. MPI/RT- an emerging standard for high-performance real- time systems//Proceedings of the HICSS. Hawaii, USA, 1998:157-166.
6Hoefler T, Gottschling P, Lumsdaine A, Rehm W. Optimi zing a conjugate gradient solver with non-blocking collective op erations. Elsevier Journal of Parallel Computing (PARCO) 2007, 33(9): 624-633.
7Hoefler T, Kambadur P, Graham R L, Shipman G, Lums daine A. A case for standard non-blocking collective opera tions//Proceedings of the PVM/MPI. Paris, France, 2007 125-134.
8Gropp William, Lusk Ewing, Skiellum Anthony. Using MPI: Portable Parallel Programming with the Message-Pass- ing Interface. Cambridge, MA, USA: MIT Press Scientificand Engineering Computation Series, 1995.
9Gropp William, Lusk Ewing, Skjellum Anthony. Using MPI-2 : Advanced Features of the Message Passing Interface. Cambridge, MA, USA: MIT Press Scientific and Engineering Computation Series, 1999.
10Keleher P, Cox A, Swarkadas S, Zwaenepoel W. Tread- Marks: Distributed shared memory on standard workstations and operating systems//Proceedings of the 1994 Winter USENIX Conference. San Francisco, USA, 1994:115-132.

共引文献2

1孙忠义,金同标,殷进勇.面向单一系统映像的透明MPI编程模型研究与实现[J].计算机应用与软件,2013,30(11):164-167. 被引量：1
2安仲奇,杜昊,李强,霍志刚,马捷.基于高性能I/O技术的Memcached优化研究[J].计算机研究与发展,2018,55(4):864-874. 被引量：8

同被引文献59

1卢万杰,徐青,蓝朝桢,吕亮,施群山.基于SQL/NoSQL的空间目标光学特性数据混合存储策略[J].天文学报,2020,61(1):59-69. 被引量：3
2彭梁锋,崔岗卫,朱祥.基于FANUC数控系统的拖拽式交换台NC-PLC交互式控制的实现[J].机械设计,2021,38(S01):198-201. 被引量：2
3李红梅,刁兴春,曹建军,张磊,冯钦.基于潜在标签挖掘和细粒度偏好的个性化标签推荐[J].计算机应用研究,2020,37(1):34-39. 被引量：3
4刘铭,吴冲,刘远超,孙承杰.基于特征权重量化的相似度计算方法[J].计算机学报,2015,38(7):1420-1433. 被引量：8
5姜思羽,钟晓玲,邱少健,宋恒杰.结合标签相关性和不均衡性的多标签学习模型[J].哈尔滨工业大学学报,2019,51(1):142-149. 被引量：5
6米捷,刘道华.基于语义关联性特征融合的大数据挖掘方法[J].信阳师范学院学报（自然科学版）,2019,32(1):141-145. 被引量：19
7陈游旻,陆游游,罗圣美,舒继武.基于RDMA的分布式存储系统研究综述[J].计算机研究与发展,2019,56(2):227-239. 被引量：15
8牛炳鑫,刘秀龙,谢鑫,李克秋,曹建农.大规模动态RFID系统中针对热门标签类别的TOP-k查询协议[J].计算机学报,2019,42(2):266-281. 被引量：3
9李红梅,刁兴春,曹建军,冯钦,张磊.面向隐式反馈的标签感知推荐方法[J].计算机科学,2019,46(4):36-43. 被引量：3
10潘晓英,赵倩,赵普.时空属性关系标签的频繁轨迹模式挖掘[J].计算机工程与应用,2019,55(10):83-89. 被引量：3

引证文献6

1郑涛,林亮景,邓永强.动态加权聚类算法在多媒体信息融合中的应用[J].现代计算机,2021,27(20):1-7. 被引量：1
2马潇潇,杨帆,王展,元国军,安学军.智能网卡综述[J].计算机研究与发展,2022,59(1):1-21. 被引量：11
3屠要峰,韩银俊,金浩,陈正华,陈兵.UStore:面向新型硬件的统一存储系统[J].计算机研究与发展,2023,60(3):525-538. 被引量：1
4杨阔,李海涛,张雪梅.基于可信云计算的非集中式元数据存储结构优化[J].计算技术与自动化,2023,42(1):183-187. 被引量：1
5杨锋,张旭东,焦彦华,李上群,童胜昌.基于遗传算法的业务标签优先级排序系统[J].电子设计工程,2023,31(11):36-40.
6李可成.基于嵌入式软PLC分布式控制系统设计[J].计算机测量与控制,2023,31(8):110-115. 被引量：1

二级引证文献15

1冯佩.基于服务器多端口智能网卡的数据中心网络设计研究[J].现代信息科技,2021,5(8):64-66.
2张华洪.基于自主安全的云数据中心网络技术探索与解决方案研究[J].电子技术应用,2021,47(12):47-50.
3张昕怡,潘恒,谢高岗.可编程网络数据平面技术进展[J].电信科学,2022,38(6):42-50. 被引量：3
4冯一飞,丁楠,叶钧超,柴志雷.领域专用低延迟高带宽TCP/IP卸载引擎设计与实现[J].计算机工程,2022,48(9):162-170. 被引量：6
5崔钟允,姬利.基于UltraScaleFPGA的高速以太网接口设计与验证[J].电子技术（上海）,2023,52(2):34-36.
6许可,李彦彪,谢高岗,张大方.基于混合计数布隆过滤器的高效数据名查找方法[J].计算机研究与发展,2023,60(5):1136-1150. 被引量：2
7王翰华,李峰.网络计算技术发展情况及应用前景分析[J].信息通信技术与政策,2023,49(6):47-54.
8李亮,陈茹萍,方鲁杰,韩宇峥,姜冰,徐志亮,袁泉.基于PKS体系的国产智能网卡现状研究分析[J].电子技术应用,2023,49(10):148-152.
9杨旭,周维,徐彬,姜瑞峰,辛天鹏.NFV网络云智能网卡关键技术方案及引入策略[J].电信工程技术与标准化,2023,36(10):57-61. 被引量：2
10汪庆,李俊儒,舒继武.在网存储系统研究综述[J].计算机研究与发展,2023,60(11):2681-2695.

1宋谊青.锂电子的荣耀时刻[J].中国品牌,2019,0(11):50-51.
2汤星,范永胜,冯骥,钟贞,孔亚迪.大数据环境下的车牌统计算法的数据分片研究[J].重庆师范大学学报（自然科学版）,2019,36(6):98-103.
3尹青山.一种面向无线体域网的改进SMART算法[J].计算机工程,2019,45(11):121-125. 被引量：2
4范莹晖,任涛.西安外事学院智能视频监控系统融合与创新应用[J].计算机产品与流通,2019,8(11):109-110. 被引量：3
5吴雪松,李志.机载数传设备嵌入式应用软件的内存池设计[J].单片机与嵌入式系统应用,2020,20(3):12-15. 被引量：2
6胡妮.基于4G网络的水情测报系统设计[J].信息周刊,2019,0(46):0476-0476.
7冯丽媛,孙晖,周箭,于潇.CT球管三工位排气控制系统研究与设计[J].工业控制计算机,2020,33(1):4-6.
8徐国庆,赵明瑜,杨苗苗,李晓明.一种地图线要素综合化简递归并行算法[J].测绘科学与工程,2019,39(4):63-68.
9张龙,叶松,张宝国.基于FPGA的伺服电机转速控制系统研究[J].计算机测量与控制,2019,27(11):66-69. 被引量：5
10周强.多核异构系统核间通信概要设计[J].中国集成电路,2020,29(1):59-64. 被引量：1

计算机研究与发展

2020年第3期

浏览历史

内容加载中请稍等...

基于用户级融合I/O的Key-Value存储系统优化技术研究被引量：6

参考文献1

二级参考文献20

共引文献2

同被引文献59

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于用户级融合I/O的Key-Value存储系统优化技术研究 被引量：6

参考文献1

二级参考文献20

共引文献2

同被引文献59

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于用户级融合I/O的Key-Value存储系统优化技术研究被引量：6