ßFA:一种基于向量指令集的高性能数据处理算法

ßFA:a high-performance data processing algorithm based on vector instruction set

下载PDF

导出

摘要正则表达式匹配技术在数据清洗、解析提取等数据处理任务方面发挥重大作用。然而,由于匹配过程中存在数据强依赖关系和内存访问不可预测等问题,造成匹配性能较低。针对此问题,提出一种基于向量指令集的高性能正则表达式数据处理算法,称之为ßFA:通过向量指令一次性从内存读出若干连续字符,并与最常被访问状态对应的非信任字符集进行向量匹配,利用内置函数定位首个非信任字符的位置,获得可直接跳过的字符数,从而实现匹配性能的加速。实验结果表明,ßFA算法的吞吐率优于原始DFA算法和αFA算法,是原始DFA算法的4.67~60倍以及ɑFA算法的4.37~7.82倍。 Regular expression matching technology plays a significant role in data processing tasks such as data cleaning,pars‐ing,and extraction.However,due to issues such as strong data dependency and unpredictable memory access in the matching pro‐cess,the matching performance is relatively low.In response to this problem,this paper proposes a high-performance regular ex‐pression data processing algorithm based on vector instruction set,which is calledßFA.By using vector instructions to read a se‐quence of consecutive characters at once,and performing vector matching with the non-trusted character set corresponding to the most frequently accessed state,built-in functions can be utilized to find the position of the first non-trusted character,thus obtain‐ing the number of characters that can be skipped directly,thereby accelerating the matching performance.Experimental results show that the throughput of theßFA algorithm is superior to the original DFA algorithm and theαFA algorithm,being 4.67~60 times faster than the original DFA algorithm and 4.37~7.82 times faster than theαFA algorithm.

作者杨嘉佳关健李正于增明姚旺君 Yang Jiajia;Guan Jian;Li Zheng;Yu Zengming;Yao Wangjun(The Sixth Research Institute of China Electronics Corporation,Beijing 100083,China)

机构地区中国电子信息产业集团有限公司第六研究所

出处《电子技术应用》 2024年第11期85-88,共4页 Application of Electronic Technique

关键词正则表达式匹配向量指令集高性能数据处理 regular expression matching vector instruction set high-performance data processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1丁麟轩,黄昆,张大方.基于并行字符索引的多步长正则表达式匹配算法[J].计算机研究与发展,2015,52(3):681-690. 被引量：8
2刘兴奎,邵宗有,刘新春,孙凝晖.面向深度包检测的DFA细粒度并行匹配方法[J].计算机研究与发展,2014,51(5):1061-1070. 被引量：6
3杨嘉佳,关健,于增明,张雷,姚旺君.ɑFA:一种基于非信任字符比较的高性能正则表达式匹配算法[J].电子技术应用,2024,50(6):57-60. 被引量：1
4徐乾,鄂跃鹏,葛敬国,钱华林.深度包检测中一种高效的正则表达式压缩算法[J].软件学报,2009,20(8):2214-2226. 被引量：29
5乔登科,王卿,柳厅文,孙永,郭莉.基于状态分组的高效i-DFA构造技术[J].通信学报,2013,34(8):102-109. 被引量：5

二级参考文献70

1范慧萍,宣蕾,陈曙晖,黄高平.基于正则表达式的应用层协议识别加速[J].计算机研究与发展,2008,45(z1):438-443. 被引量：9
2李伟男,鄂跃鹏,葛敬国,钱华林.多模式匹配算法及硬件实现[J].软件学报,2006,17(12):2403-2415. 被引量：42
3VERN P. Bro: a system for detecting network intruders in real-time[J]. Computer Networks, 1999, 31(23):2435-2463.
4MARTIN R. Snort - lightweight intrusion detection for networks[A]. Proc USENIX LISA[C]. Berkeley, USA. 1999. 229-238.
5XU Y, JIANG J C, SONG Y, et al. i-DFA: a Novel Deterministic Finite Automaton without State Explosionp[R]. Polytechnic Institute of NYU 2010: Technical Report, 2010.
6KUMAR S, DHARMAPURIKAR S, FANG Y, et al. Algorithms to accelerate multiple regular expressions matching for deep packet in- spection[J]. ACM SIGCOMM Computer Communication Review, 2006, 36(4): 339-350.
7FICARA D, PIETRO A D, GIORDANO S, et al. Differential encoding of DFAs for fast regular expression matching[J]. IEEE/ACM Transactions on Networking (TON), 2011, 19(3):683 -694.
8YU F, CHEN Z F, DIAO Y L, et al. Fast and memory-efficient regular expression matching for deep packet inspection[A]. Proc of the ANCS'06[C]. New York: ACM, 2006.93-102.
9BECCHI M, CROWLEY P. A hybrid finite automaton for practical deep packet inspection[A]. Proc of the 2007 ACM CoNEXT Conference[C]. New York: ACM, 2007.
10TANG Y, JIANG J, HU C, et al. Managing DFA history with queue for deflation DFA[J]. Journal of Network and Systems Management, 2012, 20(2):155-180.

共引文献37

1肖武德.一种正则表达式的高效分组算法[J].计算机安全,2010(4):57-59. 被引量：4
2余平,胡玲.深度包检测消息传递技术[J].内江师范学院学报,2010,25(8):41-43. 被引量：1
3张树壮,罗浩,方滨兴,云晓春.一种面向网络安全检测的高性能正则表达式匹配算法[J].计算机学报,2010,33(10):1976-1986. 被引量：27
4王志佳,顾健.一种改进的自动机压缩算法在深度包检测中的应用[J].信息网络安全,2010(10):76-78. 被引量：2
5韩光辉,曾诚.正则表达式方程组的最小解[J].电脑与信息技术,2011,19(5):1-4. 被引量：1
6李鲲鹏,兰巨龙,李印海.基于Bloom filter的高效正则表达式匹配算法[J].计算机应用研究,2012,29(3):950-954. 被引量：4
7张墨华,李戈.基于中间点划分无冲突哈希的高速包处理[J].计算机应用,2012,32(4):999-1002.
8翟丽杰,段海生.基于正则表达式的DFA拆分算法研究[J].计算机与数字工程,2012,40(8):3-4.
9柳厅文,孙永,卜东波,郭莉,方滨兴.正则表达式分组的1/(1-1/k)-近似算法[J].软件学报,2012,23(9):2261-2272. 被引量：12
10魏德志,洪联系,林丽娜,吴旭.一种改进的XFA在深度包检测中的应用[J].计算机工程与应用,2012,48(34):245-248. 被引量：1

1杨长友,付令怡,朱超.基于语音识别的重介浅槽分选机参数匹配优化方法[J].电声技术,2024,48(8):67-69.
2崔焱旭,徐学政,陈莹,杨德亨,王涛.面向RISC-V向量算法库的自动化测试方法[J].智能安全,2023,2(4):14-23.
3陈云,胡伟方,王梦园,商建东.面向FT-M7002的阈值分割算法优化实现[J].计算机应用与软件,2024,41(8):254-258.
4尹莉燕,杨丹.智能电能表检测工作故障特征及处理技术[J].中文科技期刊数据库（文摘版）工程技术,2024(11):096-099.
5吕建强,付才,何帅,江帅,李明,韩兰胜.Xgadget:基于动静结合的二进制Gadget搜索[J].计算机工程与应用,2024,60(9):299-308.
6刘玲.基于光纤传感技术的石油化工仪表泄漏智能检测系统[J].中国科技期刊数据库工业A,2024(11):248-251.
7范晓宇,王俊峰.Pimflo:基于过程解释的恶意函数定位方法[J].四川大学学报（自然科学版）,2024,61(5):60-68.
8方涛.矿山爆破控制技术的发展与应用研究[J].中国金属通报,2024(17):7-9.
9李建锋,孙静岩.油田设备数据采集技术的应用研究[J].中文科技期刊数据库（文摘版）工程技术,2024(11):089-092.
10李兴众.紫外可见光谱在水质COD检测中的应用[J].中文科技期刊数据库（全文版）工程技术,2024(11):236-239.

电子技术应用

2024年第11期

浏览历史

内容加载中请稍等...

ßFA:一种基于向量指令集的高性能数据处理算法

参考文献5

二级参考文献70

共引文献37

相关作者

相关机构

相关主题

浏览历史