基于支持向量机的加密流量识别方法被引量：16

Identification method of encrypted traffic based on support vector machine

下载PDF

导出

摘要针对现有的加密流量识别方法难以区分加密流量和非加密压缩文件流量的问题,对互联网中的加密流量、txt流量、doc流量、jpg流量和压缩文件流量进行分析,发现基于信息熵的方法能够有效地将低熵值数据流和高熵值数据流区分开.但该方法不能识别每个字节是随机的而全部流量是伪随机的非加密压缩文件流量,因此采用相对熵特征向量{h_0,h_1,h_2,h_3}区分低熵值数据流和高熵值数据流,采用蒙特卡洛仿真方法估计π值的误差p_(error)来区分局部随机流量和整体随机流量.最终提出基于支持向量机的加密流量和非加密流量的识别方法 SVM-ID,并将特征子空间SVM={h_0,h_1,h_2,h_3,p_(error)}作为SVM-ID方法的输入.将SVM-ID方法和相对熵方法进行对比实验,结果表明,所提方法不仅能够很好地识别加密流量,还能区分加密流量和非加密的压缩文件流量. The existing methods of encrypted traffic classification are difficult to effectively distinguish encrypted traffic and compressed file traffic. Through analyzing the encrypted traffic,txt traffic,doc traffic,jpg traffic,and compressed file traffic,it is found that the methods based on information entropy can effectively separate the low entropy traffic and the high entropy traffic. However,this method cannot distinguish non-encrypted compressed file traffic with byte randomness and full flow pseudo randomness. Therefore,the relative entropy feature vector { h0,h1,h2,h3} is employed to distinguish the low entropy traffic and the high entropy traffic,and the Monte Carlo simulation method is used to estimate the error of π value,p（error）,which can be used to distinguish the local random traffic and the whole random traffic. Finally,a support vector machine（ SVM）-based identification method（ SVM-ID） for encrypted traffic and non encrypted traffic is proposed. And,the SVM-ID method uses the feature space SVM = { h0,h1,h2,h3,p（error）} as the input. The SVM-ID method is compared with the relative entropy method. The experimental results show that the proposed method can not only identify the encrypted traffic well,but also distinguish the encrypted traffic and the non-encrypted compressed file traffic.

作者程光陈玉祥

机构地区东南大学计算机科学与工程学院东南大学教育部计算机网络与信息集成重点实验室

出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2017年第4期655-659,共5页 Journal of Southeast University：Natural Science Edition

基金国家高技术研究发展计划(863计划)资助项目(2015AA015603) 国家自然科学基金资助项目(61602114) 中兴通讯研究基金资助项目软件新技术与产业化协同创新中心资助项目

关键词加密流量识别相对熵蒙特卡洛仿真支持向量机 encrypted traffic identification relative entropy Monte Carlo simulation support vector machine

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1潘吴斌,程光,郭晓军,黄顺翔.网络加密流量识别研究综述及展望[J].通信学报,2016,37(9):154-167. 被引量：68
2赵博,郭虹,刘勤让,邬江兴.基于加权累积和检验的加密流量盲识别算法[J].软件学报,2013,24(6):1334-1345. 被引量：41
3徐峻岭,周毓明,陈林,徐宝文.基于互信息的无监督特征选择[J].计算机研究与发展,2012,49(2):372-382. 被引量：70

二级参考文献120

1刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
2Langley P. Selection of relevant features in machine learning [C] //Proc of the AAAI Fall Symposium on Relevance. Menlo Park, CA: AAAI, 1994:1-5.
3Dash M, Liu H. Feature selection for classification [J]. International Journal of Intelligent Data Analysis, 1997, 1 (3): 131-156.
4Pudil P, Novovicova J. Novel methods for subset selection with respect to problem knowledge[J]. IEEE Intelligent Systems, 1998, 13(2): 66-74.
5Robnik-Sikonja M, Kononenko I. Theoretical and empirical analysis of ReliefF and RReliefF [J]. Machine Learning, 2003, 53(1): 23-69.
6Hall M. Correlation-based feature selection for discrete and numeric class machine learning [C]//Proc of the 7th Int Conf on Machine Learning. San Francisco: Morgan Kaufmann, 2000:359-366.
7Mitra P, Murthy C A, Pal S K. Unsupervised feature selection using feature similarity [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002, 24(3) : 301-312.
8Wei H L, Billings S A. Feature subset selection and ranking for data dimensionality reduction [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 29(1): 162-166.
9Yu L, Liu H. Efficient feature selection via analysis of relevance and redundancy [J]. Journal of Machine Learning Research, 2004, 5(10): 1205-1224.
10Battiti R. Using mutual information for selecting features in supervised neural net learning [J]. IEEE Trans on Neutral Networks, 1994, 5(4): 537-550.

共引文献162

1池亚平,岳梓岩,赵伦.密码算法识别技术研究进展与展望[J].北京电子科技学院学报,2022,30(4):1-14.
2李洋,张慧,肖雪露.基于深度报文检测和机器学习的加密流量识别方法[J].计算机产品与流通,2020(10):285-285. 被引量：5
3栗刚,孙中军,翟江涛,戴跃伟.一种基于条件变分自编码器的加密流量识别方法[J].计算机应用研究,2020,37(S01):301-303. 被引量：1
4张征.基于协议流量精细化多维度检测[J].信息通信,2019,0(12):163-164. 被引量：1
5林莽.林莽散文选[J].岁月,2000(7):27-29.
6秦德龙.流浪儿[J].传奇故事（百家讲堂）,2000(8):73-74.
7刘海峰,苏展,刘守生.一种基于词频信息的改进CHI文本特征选择[J].计算机工程与应用,2013,49(22):110-114. 被引量：24
8彭飞,曾学文,邓浩江,刘磊.基于特征子集的推荐系统托攻击无监督检测[J].计算机工程,2014,40(5):109-114. 被引量：5
9邢萌,王韬,吴杨,李进东.随机性检测方法在加密比特流识别中的应用研究[J].军械工程学院学报,2014,26(3):53-59.
10刘海峰,姚泽清,苏展.基于词频的优化互信息文本特征选择方法[J].计算机工程,2014,40(7):179-182. 被引量：13

同被引文献72

1徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：171
2于强,霍红卫.一组提高存储效率的深度包检测算法[J].软件学报,2011,22(1):149-163. 被引量：14
3陈伟,胡磊,杨龙.基于载荷特征的加密流量快速识别方法[J].计算机工程,2012,38(12):22-25. 被引量：12
4Chen Wei,Yu Le,Yang Geng.Detecting Encrypted Botnet Traffic Using Spatial-Temporal Correlation[J].China Communications,2012,9(10):49-59. 被引量：3
5赵博,郭虹,刘勤让,邬江兴.基于加权累积和检验的加密流量盲识别算法[J].软件学报,2013,24(6):1334-1345. 被引量：41
6单凯,高仲合,禹继国.基于节点及流量行为特征的P2P流量识别[J].济南大学学报（自然科学版）,2014,28(4):265-269. 被引量：3
7陈雪娇,王攀,俞家辉.基于卷积神经网络的加密流量识别方法[J].南京邮电大学学报（自然科学版）,2018,38(6):36-41. 被引量：24
8王炜,程东年.基于M-序列检验的加密流量识别[J].计算机工程与设计,2014,35(11):3712-3716. 被引量：2
9胥攀,刘胜利,兰景宏,肖达.基于多数据流分析的木马检测方法[J].计算机应用研究,2015,32(3):890-894. 被引量：2
10王国卿,黄韬,刘江,陈建亚,刘韵洁.一种基于逗留时间的新型内容中心网络缓存策略[J].计算机学报,2015,38(3):472-482. 被引量：9

引证文献16

1栗刚,孙中军,翟江涛,戴跃伟.一种基于条件变分自编码器的加密流量识别方法[J].计算机应用研究,2020,37(S01):301-303. 被引量：1
2相银堂,郭乔进,温馨,吴其华.加密流量分类识别研究综述[J].信息化研究,2023,49(3):1-12.
3陈良臣,高曙,刘宝旭,卢志刚.网络加密流量识别研究进展及发展趋势[J].信息网络安全,2019(3):19-25. 被引量：28
4李兆斌,韩禹,魏占祯,刘泽一.SDN中基于机器学习的网络流量分类方法研究[J].计算机应用与软件,2019,36(5):75-79. 被引量：9
5杨瑞君,祝可,程燕.基于SVM访问预测机制的Web缓存数据库级替换策略[J].计算机科学,2019,46(6):201-205. 被引量：8
6孙中军,翟江涛.一种面向加密流量的网络应用识别方法[J].计算机工程,2020,46(4):151-156. 被引量：6
7程永新,张德治,廖竣锴,胡华鹏.一种加密流量行为分析系统的设计研究[J].通信技术,2020,53(4):976-980. 被引量：3
8张瑜,刘晓洁,李贝贝.一种针对木马流量的特征选择方法[J].四川大学学报（自然科学版）,2021,58(1):59-67. 被引量：1
9宫光霖,易军凯,张雅聪.Length-Ware限制聚类的Markov加密流量分类研究[J].重庆理工大学学报（自然科学）,2021,35(5):118-126. 被引量：1
10杨峰,马铭.基于负载随机性的互联网络链路流量识别方法[J].计算机仿真,2021,38(11):331-334. 被引量：1

二级引证文献65

1姚俊,蒋赛,万园园,张泽楠.多管齐下,守护公司内网出入口[J].信息网络安全,2020(S02):148-150.
2张辉,游帅,张斌,陈斌.基于主被动分析技术的VPN协议监测研究[J].信息网络安全,2020(S01):86-90. 被引量：1
3刘露,吴珏,杨雷,杨福军.基于谱聚类的Web多级缓存替换策略[J].计算机系统应用,2022,31(11):380-386. 被引量：1
4陈良臣,刘宝旭,高曙.网络攻击检测中流量数据抽样技术研究[J].信息网络安全,2019(8):22-28. 被引量：12
5李巍,邢晓红.基于通信安全的HIS网络系统设计[J].微型电脑应用,2019,35(11):88-91. 被引量：7
6陈良臣,高曙,刘宝旭,陶明峰.网络流量异常检测中的维数约简研究[J].计算机工程,2020,46(2):11-20. 被引量：17
7聂建胜.Web浏览器中数据安全配置的研究[J].电脑编程技巧与维护,2020,0(4):160-161.
8王宣立,张安琳,黄道颖,董帅,刘江豪.SDN环境下不同机器学习算法的网络流量分类分析[J].轻工学报,2020,35(4):96-102.
9陈良臣.高速网络入侵检测中流量数据约简研究[J].现代电子技术,2020,43(16):108-111. 被引量：4
10张继永.一种基于流量特征的信息保障态势察觉方法[J].网络安全技术与应用,2020(8):119-120. 被引量：1

1方乐宏,郝文宁,余晓晗,陈刚.基于用户兴趣度的数据归约效果评估方法[J].计算机工程与应用,2017,53(15):144-148. 被引量：1
2乔雪,彭晨,段贺,张钰尧.基于共享特征相对属性的零样本图像分类[J].电子与信息学报,2017,39(7):1563-1570. 被引量：8
3成都双流警方打掉一新型网络诈骗团伙[J].中国防伪报道,2017,0(7):69-69.

东南大学学报（自然科学版）

2017年第4期

浏览历史

内容加载中请稍等...

基于支持向量机的加密流量识别方法被引量：16

参考文献3

二级参考文献120

共引文献162

同被引文献72

引证文献16

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的加密流量识别方法 被引量：16

参考文献3

二级参考文献120

共引文献162

同被引文献72

引证文献16

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的加密流量识别方法被引量：16