抗噪的未知应用层协议报文格式最佳分段方法被引量：16

Noise-Tolerant and Optimal Segmentation of Message Formats for Unknown Application-Layer Protocols

下载PDF

导出

摘要为了自动解析未知应用层协议的报文格式,提出一种未知应用层协议报文格式的最佳分段方法.这种方法不需要关于未知应用层协议的先验知识.它首先建立一种用于最佳分段的隐半马尔可夫模型(HSMM),并利用未知应用层协议在网络会话过程中传输的报文序列样本集来估计该模型的参数;再通过基于HSMM的最大似然概率分段方法,对报文中的各个字段进行最佳划分,同时获取代表各个字段语义的关键词.这种方法并不要求训练集绝对纯净.它能够基于观测序列的似然概率分布,发现混杂在训练集中的其他协议数据(噪声)并进行有效过滤.实验结果表明,该方法能够解析文本和二进制协议的报文格式,依据关键词构建的协议识别特征有很高的准确识别率,并能有效地检测出噪声. In order to automatically parse message formats of unknown application-layer protocols, this paper proposes an approach to optimally segment the message formats without a priori knowledge. A hidden semi-Markov model （HSMM） is established for the segmentation and its parameters are estimated from a set of message sequences collected from application sessions. By using the estimated HSMM in the maximum most likely segmentation, a message can be optimally divided into segments and keywords that provide semantic information about the segments can be extracted. This approach does not require the training set to be absolutely pure. The noise mixed in the training set can be filtered out based on its likelihood fitting to the HSMM. The experiments conducted in this paper show that the approach is suited to both text and binary protocols. The application-layer signatures constructed from the extracted keywords are highly accurate in identifying the protocols, The noise mixed in the training set can be efficiently detected and automatically filtered out.

作者黎敏余顺争

机构地区中山大学电子与通信工程系

出处《软件学报》 EI CSCD 北大核心 2013年第3期604-617,共14页 Journal of Software

基金国家自然科学基金(60970146) 国家自然科学基金-广东联合基金(U0735002) 国家高技术研究发展计划(863)(2007AA01Z449)

关键词应用层协议报文格式分段隐半马尔可夫模型 application-layer protocol message format segmentation hidden semi Markov model

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1赵咏,姚秋林,张志斌,郭莉,方滨兴.TPCAD:一种文本类多协议特征自动发现方法[J].通信学报,2009,30(S1):28-35. 被引量：10
2刘兴彬,杨建华,谢高岗,胡玥.基于Apriori算法的流量识别特征自动提取方法[J].通信学报,2008,29(12):51-59. 被引量：39
3李伟明,张爱芳,刘建财,李之棠.网络协议的自动化模糊测试漏洞挖掘方法[J].计算机学报,2011,34(2):242-255. 被引量：67

二级参考文献31

1刘立芳,霍红卫,王宝树.PHGA-COFFEE:多序列比对问题的并行混合遗传算法求解[J].计算机学报,2006,29(5):727-733. 被引量：11
2金婷,王攀,张顺颐,陆青莲,陈东.基于DPI和会话关联技术的QQ语音业务识别模型和算法[J].重庆邮电学院学报（自然科学版）,2006,18(6):789-792. 被引量：10
3THOMAS K, ANDRE B, NEVIL B. File-sharing in the Intemet: a Characterization of P2P Traffic in the Backbone[R]. UC, Riverside, 2003.
4SUBHABRATA S, OLIVER S, WANG D M. Accurate, scalable in network identification of P2P traffic using application signatures[A]. International World Wide Web Conference[C]. New York,2004.
5KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: multilevel tratfic classification in the dark[A]. Proc of ACM SIGCOMM[C]. Philadelphia, PA, 2005.
6KARAGIANNIS T, BROIDO A, FALOUTSOS M. Transport layer identification of P2P traffic[A]. Proc of ACM SIGCOMM IMC[C]. Taormina, Sicily, Italy, 2004.
7ZANDER S, NGUYENI T, ARMITAGEI G.Self-learning IP traffic classification based on statistical flow characteristics[A]. Proc of PAM[C]. Boston, MA, 2005.
8ZUEV D, MOORE A W. Traffic classification using a statistical approach[A]. Proc of PAM[C]. Boston, 2005.
9HERN E NOBEL A B, SMITH F D. Statistical clustering of intemet communication patterns[A]. Proceedings of the 35th Symposium on the Interface of Computing Science and Statistics, Computing Science and Statistics[C]. 2003.
10MOORE A W, ZUEV D. Discriminators for Use in Flow-Based Classification[R]. Intel Research, Cambridge, 2005.

共引文献103

1董永苹,余翔湛,吴刚.基于决策树的P2P节点识别技术研究[J].通信学报,2013,34(S2):40-46.
2王变琴,余顺争.基于会话的应用特征自适应提取[J].计算机科学,2011,38(2):82-85.
3王变琴,余顺争.识别应用流量的一种新方法[J].小型微型计算机系统,2011,32(5):875-880. 被引量：1
4鲁刚,张宏莉,叶麟.P2P流量识别[J].软件学报,2011,22(6):1281-1298. 被引量：48
5潘璠,吴礼发,杜有翔,洪征.协议逆向工程研究进展[J].计算机应用研究,2011,28(8):2801-2806. 被引量：21
6吴昊,程光.HTTP网络应用特征串的自动提取[J].广西大学学报（自然科学版）,2011,36(A01):61-64. 被引量：5
7张玉冲,蔡皖东,丁要军.一种适用于应用层协议的特征提取算法[J].计算机工程,2012,38(4):266-268. 被引量：2
8邓伟锋,程绍银,蒋凡,吕秀全.应用层负载特征定义及自动提取方法[J].通信技术,2012,45(7):20-23. 被引量：2
9杜有翔,吴礼发,潘璠,洪征.一种基于报文序列分析的半自动协议逆向方法[J].计算机工程,2012,38(19):277-280. 被引量：5
10路林,罗军勇,刘琰,李明涛.协议签名特征自动发现方法[J].信息工程大学学报,2012,13(5):610-614. 被引量：4

同被引文献99

1赵咏,姚秋林,张志斌,郭莉,方滨兴.TPCAD:一种文本类多协议特征自动发现方法[J].通信学报,2009,30(S1):28-35. 被引量：10
2李伟,田野,赵保华,周颢.一种ABNF编码协议消息的通用解析方法[J].计算机工程,2006,32(13):141-143. 被引量：3
3ZUEV D, MOORE A W. Traffic classification using statistical ap- proach[ C]//Proc of the 6th International Workshop on Passive and Active Network Measurement. Berlin: Springer-Verlag, 2005: 321- 324.
4DAS R, EACHEMPATI S, MISHRA A K, et al. Design and evalua- tion of a hierarchical on-chip interconnect for next-generation CMPs [ C ]//Proc of the 15th International Conference on High-performance Computer Architecture. Washington DC: IEEE Computer Society, 2009 : 175-186.
5ESTE A, GRINGOLI F, SALGARELLI L. Support vector machines for TCP traffic classification [ J ]. Computer Networks, 2009, 53 (14) :2476-2490.
6BERNAILLE L, TEIXEIRA R, AKODKENOU L, et al. Traffic clas- sification on the fly[ J]. ACM SIGCOMM Computer Communica- tion Review,2006,36 ( 2 ) : 23- 26.
7YAGI S, WAIZUMI Y, TSUNODA H, et al. A reliable network identification method based on transition pattern of payload length [ C ]//Proe of Global Telecommunications Conference. 2008 : 1- 5.
8NGUYEN T, ARMITAGE G. A survey of techniques for internet traf- fic classification using machine learning [ C ]//Proc of Communica- tions Survey Tutorials. [ S. 1. ] :IEEE Press,2008:56-76.
9HAFFNER P, SEN S, SPATSCHECK O, et al. ACAS: automated construction of application signatures [ C ]//Proc of the 1st Annual ACM SIGCOMM Workshop on Mining Network Data. 2005.
10MA J, LEVCHENKO K, KREIBICH C, et al. Unexpected means of protocol inference [ C ]//Proc of the 6th ACM SIGCOMM Conference on Internet Measurement. 2006.

引证文献16

1黄笑言,陈性元,祝宁,唐慧林.基于状态标注的协议状态机逆向方法[J].计算机应用,2013,33(12):3486-3489. 被引量：8
2黄笑言,陈性元,祝宁,唐慧林.基于字节熵矢量加权指纹的二进制协议识别[J].计算机应用研究,2015,32(2):493-497. 被引量：6
3徐正国,邓月华.未知网络协议逆向分析综述[J].电信技术研究,2015,0(3):47-58.
4李桐,孟凡治,刘渊,张春瑞,岳旸.抗误码的未知协议格式解析方法[J].计算机工程与设计,2016,37(5):1196-1200.
5陈佳莹.基于网络流量分析的二进制协议逆向方法[J].现代计算机,2016,22(9):11-15.
6朱玉娜,韩继红,袁霖,谷文,范钰丹.基于熵估计的安全协议密文域识别方法[J].电子与信息学报,2016,38(8):1865-1871. 被引量：5
7孟凡治,李桐,刘渊,张春瑞.基于概率比对的通信协议格式逆向分析方法[J].计算机工程与设计,2016,37(9):2337-2341. 被引量：3
8洪征,田益凡,张洪泽,吴礼发.基于扩展前缀树的协议格式推断方法[J].计算机工程与应用,2018,54(12):14-20. 被引量：2
9闫小勇,李青.基于最佳路径搜索的二进制协议格式关键词边界确定方法[J].计算机应用,2018,38(6):1726-1731. 被引量：7
10张洪泽,洪征,王辰,冯文博,吴礼发.基于闭合序列模式挖掘的未知协议格式推断方法[J].计算机科学,2019,46(6):80-89. 被引量：4

二级引证文献40

1池亚平,岳梓岩,赵伦.密码算法识别技术研究进展与展望[J].北京电子科技学院学报,2022,30(4):1-14.
2孟凡治,刘渊,张春瑞,李桐.基于状态相关字段识别的未知二进制协议状态机逆向方法[J].电讯技术,2015,55(4):372-378. 被引量：2
3石旺,杨英杰,唐慧林,董丽鹏.基于消息序列图的协议交互过程构建方法[J].计算机应用,2015,35(5):1373-1378.
4吴礼发,王辰,洪征,庄洪林.协议状态机推断技术研究进展[J].计算机应用研究,2015,32(7):1931-1936. 被引量：8
5石旺,杨英杰,唐慧林,董丽鹏.基于协议语义序列的应用层交互行为异常检测[J].计算机应用研究,2015,32(10):3060-3064. 被引量：2
6刘渊,张春瑞,孟凡治,李桐,岳旸.基于网络数据的协议逆向工程研究进展[J].计算机工程与设计,2015,36(11):2915-2920. 被引量：7
7陈佳莹.基于网络流量分析的二进制协议逆向方法[J].现代计算机,2016,22(9):11-15.
8张凤荔,周洪川,张俊娇,刘渊,张春瑞.零知识下的比特流未知协议分类模型[J].计算机科学,2016,43(8):39-44. 被引量：2
9孟博,鲁金钿,王德军,何旭东.安全协议实施安全性分析综述[J].山东大学学报（理学版）,2018,53(1):1-18. 被引量：4
10闫小勇,李青.基于最佳路径搜索的二进制协议格式关键词边界确定方法[J].计算机应用,2018,38(6):1726-1731. 被引量：7

1王涛,吴晓燕,程良伦.无线Mesh网络基于隐半马尔可夫模型的跨层结合异常检测方法[J].计算机科学,2012,39(8):62-66. 被引量：1
2张正道,崔宝同.基于HsMM的系统在线故障预报[J].控制与决策,2010,25(12):1853-1856. 被引量：4
3金志平,刘云龙,刘胜华.基于NetFlow的网络测量[J].网络安全技术与应用,2009(5):43-44.
4李萌.基于用户浏览行为的HTTP Flood检测方法[J].计算机安全,2010(2):61-63. 被引量：1
5王涛,余顺争.无线自组织网络中多层综合的节点行为异常检测方法[J].计算机科学,2009,36(11):75-78. 被引量：1
6原媛,卓东风.隐半马尔可夫模型在剩余寿命预测中的应用[J].计算机技术与发展,2014,24(1):184-187. 被引量：13
7琚春华,章敏.基于隐半马尔可夫模型的用户兴趣特征提取[J].计算机工程与设计,2011,32(12):4206-4209.
8谢柏林,余顺争.基于应用层协议分析的应用层实时主动防御系统[J].计算机学报,2011,34(3):452-463. 被引量：27
9张宗福,汤霖,杨国威.移动网络中恶意节点自动检测研究与仿真[J].计算机仿真,2016,33(7):293-296. 被引量：5
10田建华,张建明,史益斌,周庚涛.基于HSMM的人脸表情识别[J].计算机工程与设计,2007,28(23):5664-5667. 被引量：2

软件学报

2013年第3期

浏览历史

内容加载中请稍等...

抗噪的未知应用层协议报文格式最佳分段方法被引量：16

参考文献3

二级参考文献31

共引文献103

同被引文献99

引证文献16

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

抗噪的未知应用层协议报文格式最佳分段方法 被引量：16

参考文献3

二级参考文献31

共引文献103

同被引文献99

引证文献16

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

抗噪的未知应用层协议报文格式最佳分段方法被引量：16