领域专用低延迟高带宽TCP/IP卸载引擎设计与实现被引量：7

Design and Implementation of Domain-Specific Low-Latency and High-Bandwidth TCP/IP Offload Engine

下载PDF

导出

摘要针对量化高频交易应用场景对数据传输低延迟高带宽的需求,定制一种领域专用的TCP/IP协议栈,并将其卸载到专用硬件加速模块上。采用模块化设计实现专用硬件逻辑,并与FAST协议硬件加速模块共同构成完整的低延迟高带宽高频交易系统。通过调整最大报文长度,实现64 Byte数据对齐,提升内核与高带宽内存(HBM)间的读写速率,并对内存结构进行优化,实现主机端与HBM间的4通道并行读写管理。对各功能模块进行数据流优化,最终构建全流水线架构。模块间统一使用AXI4-Stream接口连接,并绕过内存进行数据传输,实现传输性能的提升。实验结果表明,TCP/IP卸载引擎在Xilinx Alevo U50数据中心加速卡上可获得38.28 Gb/s的网络吞吐率,基础网络通信穿刺延迟最低为468.4 ns,在叠加FAST解码协议后延迟为677.9 ns,与传统软件处理网络堆栈(Intel i9-9900x+9802BF)的方式相比,TCP/IP引擎的吞吐率提升1倍,延迟降低为1/12,且延迟稳定,波动范围在10 ns左右,在满足量化高频交易场景需要的同时,有效减轻了CPU的负载。 In response to the low-latency and high-bandwidth requirements for data transmission in quantitative highfrequency trading application scenarios,a domain-specific Transmission Control Protocol/Internet Protocol(TCP/IP)protocol stack has been customized and offloaded to a dedicated hardware acceleration module. A modular design is adopted to realize the special hardware logic,and together with the fast protocol hardware acceleration module,a complete high-frequency trading system with low delay and high bandwidth is built.By adjusting the Maximum Segment Size(MSS),64 Byte data alignment is achieved,the read/write speed between the kernel and High Bandwidth Memory(HBM) is improved,and the memory structure is optimized to realize a 4-channel parallel read/write management between the host and the HBM.The data flow of each functional module and the data for verification and calculation are optimized,and finally a full pipeline architecture is built.The AXI4-Stream interface is used to connect the modules,by passing the memory for data transmission and improving the transmission performance. The experimental results show that the TCP/IP offload engine can obtain a network throughput of 38.28 Gb/s on Xilinx Alevo U50 data center accelerator card,with the lowest basic network communication puncturing delay of 468.4 ns,and the delay of 677.9 ns after the fast decoding protocol is superimposed. Compared with the traditional software processing network stack(Intel i9-9900x+9802BF),the throughput of the TCP/IP engine is increased by one time,the delay is reduced to 1/12,and the delay is stable,with a fluctuation range of approximately 10 ns.While meeting the needs of quantifying high-frequency trading scenarios,it effectively reduces the payload on the CPU.

作者冯一飞丁楠叶钧超柴志雷 FENG Yifei;DING Nan;YE Junchao;CHAI Zhilei(School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214122,China;School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi,Jiangsu 214122,China;Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computational Intelligence,Wuxi,Jiangsu 214122,China)

机构地区江南大学物联网工程学院江南大学人工智能与计算机学院江苏省模式识别与计算智能工程实验室

出处《计算机工程》 CAS CSCD 北大核心 2022年第9期162-170,共9页 Computer Engineering

基金国家自然科学基金(61972180)。

关键词领域专用传输控制协议/互联网协议卸载引擎高带宽低延迟可编程逻辑门阵列开放运算语言 domain-specific Transmission Control Protocal/Interner Protocal(TCP/IP)offload engine low-latency and high bandwidth Field Programmable Gate Array(FPGA) Open Computing Language(OpenCL)

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1马潇潇,杨帆,王展,元国军,安学军.智能网卡综述[J].计算机研究与发展,2022,59(1):1-21. 被引量：15

二级参考文献4

1陈游旻,陆游游,罗圣美,舒继武.基于RDMA的分布式存储系统研究综述[J].计算机研究与发展,2019,56(2):227-239. 被引量：15
2安仲奇,张云尧,邢晶,霍志刚.基于用户级融合I/O的Key-Value存储系统优化技术研究[J].计算机研究与发展,2020,57(3):649-659. 被引量：6
3马潇潇,陆钢,付斌章,安仲奇,朱泓睿,邵恩,王展,安学军.非连续数据网络通信实现方法和性能分析[J].计算机学报,2020,43(6):1123-1138. 被引量：10
4杨帆,张鹏,王展,元国军,安学军.基于在网计算加速的拜占庭容错算法[J].计算机研究与发展,2021,58(1):164-177. 被引量：3

共引文献14

1冯佩.基于服务器多端口智能网卡的数据中心网络设计研究[J].现代信息科技,2021,5(8):64-66.
2张华洪.基于自主安全的云数据中心网络技术探索与解决方案研究[J].电子技术应用,2021,47(12):47-50. 被引量：1
3张昕怡,潘恒,谢高岗.可编程网络数据平面技术进展[J].电信科学,2022,38(6):42-50. 被引量：4
4崔钟允,姬利.基于UltraScaleFPGA的高速以太网接口设计与验证[J].电子技术（上海）,2023,52(2):34-36.
5许可,李彦彪,谢高岗,张大方.基于混合计数布隆过滤器的高效数据名查找方法[J].计算机研究与发展,2023,60(5):1136-1150. 被引量：3
6王翰华,李峰.网络计算技术发展情况及应用前景分析[J].信息通信技术与政策,2023,49(6):47-54.
7李亮,陈茹萍,方鲁杰,韩宇峥,姜冰,徐志亮,袁泉.基于PKS体系的国产智能网卡现状研究分析[J].电子技术应用,2023,49(10):148-152.
8杨旭,周维,徐彬,姜瑞峰,辛天鹏.NFV网络云智能网卡关键技术方案及引入策略[J].电信工程技术与标准化,2023,36(10):57-61. 被引量：2
9汪庆,李俊儒,舒继武.在网存储系统研究综述[J].计算机研究与发展,2023,60(11):2681-2695.
10王可,郭志川,常艺伟.多队列MSI-X引擎设计与实现[J].电子设计工程,2024,32(12):21-26.

同被引文献87

1宋连喜,刘波.煤矿主运输智能集中控制系统设计[J].工矿自动化,2021,47(S01):58-63. 被引量：22
2熊雪钧,谭力波,张俊杰,陈天杨,宋英雄.基于FPGA的低延迟TCP协议栈实现[J].电子测量技术,2020(11):43-48. 被引量：2
3于波,栾海鹏,韩玉斌.基于FPGA的以太网视频传输系统[J].电子测量技术,2020(8):138-142. 被引量：11
4张志宏,吴庆波,邵立松,谭郁松,刘刚.基于飞腾平台TOE协议栈的设计与实现[J].计算机技术与发展,2014,24(7):1-4. 被引量：1
5刘源,张刚.可靠UDP协议栈的FPGA实现[J].火力与指挥控制,2017,42(7):139-143. 被引量：16
6薛镭,贺亚龙.基于Offload和FPGA的网络传输设计与实现[J].机电设备,2018,35(4):54-57. 被引量：2
7王文,郑建生.基于FPGA的TCP/IP网络通信系统的设计与实现[J].现代电子技术,2018,41(8):5-9. 被引量：17
8翟玲,沈思,程时星.云计算平台下电子信息资源均衡分配优化仿真[J].计算机仿真,2019,36(7):397-400. 被引量：11
9王永超,刘超,王健,罗晨,刘洪亮,邢玉东,黄大荣.基于FPGA的多角度周转箱图像采集系统设计[J].自动化仪表,2019,40(10):35-38. 被引量：2
10许川佩,刘华颖.通用型芯片级光纤通信接口设计[J].微电子学与计算机,2019,36(11):24-29. 被引量：4

引证文献7

1赵世超,左金印,魏骁,赵哲.基于FPGA的万兆以太网UDP协议通信接口设计[J].电子技术应用,2022,48(10):113-117. 被引量：7
2杨阳,周思远,王舒鹏.基于FPGA的TCP/IP协议卸载引擎设计[J].电子制作,2023,31(1):48-53.
3许旭晗,张俊杰,陈彦昊,裴华明.TOE Hash冲突处理设计与实现[J].工业控制计算机,2023,36(3):79-81. 被引量：1
4李永坤.煤矿选煤厂DCS集散控制输煤技术研究[J].煤化工,2023,51(3):132-136. 被引量：1
5谢跃伟.基于Modbus/TCP的无线通信网络安全加密控制系统设计[J].计算机测量与控制,2023,31(11):187-191. 被引量：2
6王育军.基于MLVDS和USB3.0的大数据高并发传输控制系统设计[J].计算机测量与控制,2024,32(4):81-86.
7赵武清,柏姗姗,李承钊,耿新,李科德.基于深度学习算法的智能网卡数据流卸载模型[J].粘接,2024,51(11):139-142.

二级引证文献11

1赵鹏博.基于FPGA的UDP实时通信转换系统设计与实现[J].电声技术,2022,46(10):114-117.
2殷伟.基于STM32的EtherCAT转UDP通信转换系统设计与实现[J].中国新通信,2023,25(12):10-12.
3王磊,钱宝超,陈琳.仿红黑树拓扑的分布式计算平台框架设计[J].软件,2023,44(8):85-91.
4倪国斌,李永红,李辉,岳凤英,薛磊.基于FPGA和千兆以太网的数据采集系统[J].单片机与嵌入式系统应用,2023,23(12):76-79. 被引量：2
5孟翔麒,汪兴海,薛伟,陈小龙.基于RFSoC的脉冲雷达采集与测量系统设计与实现[J].太赫兹科学与电子信息学报,2024,22(2):114-121.
6赵鹏,德嘎泽仁.电网配电自动化通信网络系统的设计及优化研究[J].通信电源技术,2024,41(3):19-21.
7张兴龙.基于OPC技术的数控设备集成控制网络通信模块设计研究[J].通信电源技术,2024,41(9):4-6.
8毕英建,邱亚峰,柳志鹏.基于FPGA的远程直流电机控制系统研究[J].计算机测量与控制,2024,32(6):118-124.
9吴江海,桂孝美,朱魏峰.基于模式识别技术的无线通信网络安全系统设计[J].通信电源技术,2024,41(12):43-45.
10王博,刘岩,王攀,刘家君,木黑提·吾肯,洪树亮,周天佑,王子斌.集散控制系统教学改革与实践研究[J].科技风,2024(27):123-125.

1袁敏.数字资产会计处理透析——以特斯拉为例[J].新会计,2022(5):27-31. 被引量：1
2高昊晖,樊荣,缪永杰,柴志雷.高速数字喷墨打印领域专用SoC研究与设计[J].微电子学与计算机,2022,39(8):86-96.
3杜茂康,李晓光,刘岽.融合遗传算法的特定领域情感词库构建[J].重庆邮电大学学报（自然科学版）,2022,34(4):576-584. 被引量：2
4曾凌静.FAST TCP协议参数算法优化研究[J].景德镇学院学报,2021,36(6):101-105.
5杨春雨.面向数据交易场景下的区块链数据安全管控机制应用探究[J].科学与信息化,2022(17):196-198.
6于建,范浩阳.低硬件成本256点FFT处理器的IP核设计[J].数据采集与处理,2022,37(4):917-925.
7何大安.企业数字化转型的阶段性及条件配置[J].中国社会科学文摘,2022(8):92-93.
8向瑞.新中国成立以来民族地区语文教材的历史变迁[J].语文教学与研究,2022(15):100-106.
9曹铎耀,郭若琛,蔡玲珑,靳宇晖,胡伟,李军浩.双指数及振荡型操作冲击电压下变压器匝间击穿特性[J].高电压技术,2022,48(6):2265-2275. 被引量：3
10杨东升.统编本初中语文大单元教学之备课策略[J].语文教学与研究,2022(14):117-119.

计算机工程

2022年第9期

浏览历史

内容加载中请稍等...

领域专用低延迟高带宽TCP/IP卸载引擎设计与实现被引量：7

参考文献1

二级参考文献4

共引文献14

同被引文献87

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

领域专用低延迟高带宽TCP/IP卸载引擎设计与实现 被引量：7

参考文献1

二级参考文献4

共引文献14

同被引文献87

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

领域专用低延迟高带宽TCP/IP卸载引擎设计与实现被引量：7