-
题名面向私有二进制协议的报文聚类方法
被引量:1
- 1
-
-
作者
徐旭东
张志祥
张献
-
机构
海军工程大学电子工程学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2020年第6期958-965,共8页
-
文摘
报文聚类是协议逆向工程的主要步骤之一。针对私有二进制协议报文,目前的报文聚类方法存在报文向量化特征冗余的问题,而且传统聚类方法存在聚类中心和聚类簇数难以确定的问题。根据n-gram序列化的思想,构造报文的序列项-位置矩阵,从中挖掘频繁项,构造报文特征向量,有效去除了报文向量化中的序列噪声;采用轮廓系数指导分拆式层次聚类,避免了初始聚类簇数和聚类中心的选择,以实现无监督条件下的私有二进制协议报文的聚类。在AIS、DNS、ICMP、ARP四种协议共七类报文的数据集上测试,通过t-SNE可视化界面观察报文分布情况,特征向量化的方法具有很好的分布和特征表达效果;相较于传统的聚类方法,基于轮廓系数的分拆式层次聚类在纯净度和F1值上具有明显提升。
-
关键词
二进制协议
报文聚类
特征向量生成
分拆式层次聚类
频繁项挖掘
-
Keywords
binary protocol
message clustering
feature vector generation
split hierarchical clustering
frequent item mining
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于粗糙集聚类的报文格式推断方法
- 2
-
-
作者
李毅豪
洪征
林培鸿
冯文博
-
机构
中国人民解放军陆军工程大学
-
出处
《计算机科学》
CSCD
北大核心
2020年第12期319-326,共8页
-
基金
国家重点研发计划基金资助项目(2017YFB0802900)。
-
文摘
报文聚类是报文格式推断的基础,现有的报文聚类方法大多以报文的全局相似性为聚类的标准,这类聚类方法的准确率往往不高,进而影响后续报文格式提取的准确率。针对这一问题,文中提出了一种基于粗糙集聚类的报文格式推断方法,该方法包括预处理、基于粗糙集的聚类、特征词提取和报文格式推断4个阶段。首先,通过数据预处理分离出目标报文中的业务类报文和控制类报文;其次,按照粗糙集理论中基于属性划分样本的方法对报文的统计特征进行聚类,这种聚类方法能够准确获取报文序列的局部特征,能够达到较好的聚类效果;然后,根据长度、频率和位置特征来提取协议特征词;最后,将协议特征词分为必选字段和可选字段,并用它们来描述报文格式。实验结果表明,该方法能够准确地获取协议的报文格式。
-
关键词
协议逆向工程
报文聚类
报文格式推断
粗糙集理论
特征词提取
-
Keywords
Protocol reverse engineering
Message clustering
Messages format inference
Rough set theory
Feature word extraction
-
分类号
TP398.08
[自动化与计算机技术—计算机应用技术]
-