期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于低维二阶马尔可夫矩阵的加密流量分类方法
1
作者 郭昊 陈周国 +3 位作者 刘智 冷涛 郭先超 张岩峰 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期30-37,共8页
网络流量加密在增强了通信安全与隐私保护的同时,也为恶意流量检测带来了新的挑战.近年来随着机器学习在各领域成功应用,其也被应用于加密流量分类中,但传统特征提取方法可能会导致流量中重要信息丢失或无效信息冗余,阻碍了分类精度与... 网络流量加密在增强了通信安全与隐私保护的同时,也为恶意流量检测带来了新的挑战.近年来随着机器学习在各领域成功应用,其也被应用于加密流量分类中,但传统特征提取方法可能会导致流量中重要信息丢失或无效信息冗余,阻碍了分类精度与效率的进一步提升.本文提出一种基于低维二阶马尔可夫矩阵的加密流量分类方法LDSM,用以筛选表征能力强的流量特征,从而优化模型分类效果.首先,提取加密流量中有效负载,根据其十六进制字符空间分布构建二阶马尔可夫矩阵;其次,通过计算状态转移概率矩阵中各特征的基尼增益,迭代删除对模型训练贡献最低的特征,取模型分类准确率最高的特征集合作为低维二阶马尔可夫矩阵特征;最后,通过实验验证低维二阶马尔可夫矩阵特征的模型训练能力.实验中构建了Scikit-learn的实验环境,采用两个公开数据集CTU-13和CIC-IDS2017,实现对加密流量的分类任务,特征降维实验结果表明,LDSM方法将二阶马尔可夫矩阵特征降维至256个特征时分类效果最佳,特征降维后仅为原特征数量的6.25%,保证模型分类精度的同时提升了模型训练效率;与其他方法对比实验结果表明,LDSM方法流量分类的平均准确率达到98.51%,与其他方法相比,分类准确率提高3%以上,所以LDSM方法对于加密流量分类是可行且有效的. 展开更多
关键词 加密流量 机器学习 马尔可夫 基尼增益 特征降维
下载PDF
改进的K-近邻算法及其在学习预警中的应用 被引量:4
2
作者 宗晓萍 陶泽泽 《河北大学学报(自然科学版)》 CAS 北大核心 2020年第2期193-199,共7页
随着大数据在教育中的作用日益凸显,大量的数据被应用到教学研究、教学评估和行为预测.学生的成绩、行为记录、与老师的互动记录等教育数据,都已经开始发挥价值.为了解决课程的低通过率问题,将改进的K-近邻算法应用到学习预警中,首先利... 随着大数据在教育中的作用日益凸显,大量的数据被应用到教学研究、教学评估和行为预测.学生的成绩、行为记录、与老师的互动记录等教育数据,都已经开始发挥价值.为了解决课程的低通过率问题,将改进的K-近邻算法应用到学习预警中,首先利用网格搜索和交叉验证相结合的方法对模型参数进行优选,其次在构建决策树过程中,利用基尼增益确定特征的权重系数并且根据权重系数进行特征选择,在计算距离时引入权重系数,使每个特征收到权重系数的约束.实验表明,在一个公开的数据集和一个真实的数据集上,改进后的K-近邻算法显著优于传统的K-NN. 展开更多
关键词 教育数据挖掘 网格搜索 K-近邻 交叉验证 基尼增益
下载PDF
面向不平衡数据集的应用系统识别方法 被引量:2
3
作者 董燕辉 肖军弼 +2 位作者 张红霞 杨勇进 计志滨 《计算机与现代化》 2021年第5期93-97,111,共6页
针对油田局域网络环境中,传统基于流量的分析方法无法实现应用系统的有效识别问题,本文设计一种面向不平衡数据集的应用系统识别框架WEBCLA,该框架采用基于基尼增益的SMOTE改进算法(GSMOTE)与XGBoost分类算法相结合的方式对基于网页的... 针对油田局域网络环境中,传统基于流量的分析方法无法实现应用系统的有效识别问题,本文设计一种面向不平衡数据集的应用系统识别框架WEBCLA,该框架采用基于基尼增益的SMOTE改进算法(GSMOTE)与XGBoost分类算法相结合的方式对基于网页的应用系统进行有效识别。具体地,本文提出的GSMOTE算法对少数类进行过采样,有效缓解识别样本不平衡问题,并结合XGBoost分类算法进行应用系统的识别。通过在真实数据集上进行实验,结果表明,本文提出的方法在召回率上较传统方法有较明显的提升,比普通集成方法提高约112.8%,比未经过采样处理的方法提升约10.8%,可有效解决油田局域网中的应用系统识别问题。 展开更多
关键词 应用识别 不平衡数据 基尼增益 过采样 分类问题
下载PDF
一种增强的差分隐私数据发布算法 被引量:4
4
作者 孙奎 张志勇 赵长伟 《计算机工程》 CAS CSCD 北大核心 2017年第4期160-165,共6页
为在同等隐私保护强度下提高发布数据的分类准确率,在Diff Gen算法基础上提出一种改进的差分隐私数据发布算法Gini Diff。该算法将原始数据集完全泛化,在每轮迭代中通过指数机制选择特化方案,并以构建决策树的方式将特化后的记录划归到... 为在同等隐私保护强度下提高发布数据的分类准确率,在Diff Gen算法基础上提出一种改进的差分隐私数据发布算法Gini Diff。该算法将原始数据集完全泛化,在每轮迭代中通过指数机制选择特化方案,并以构建决策树的方式将特化后的记录划归到新的等价类,使用拉普拉斯机制为等价类计数添加噪声并生成发布数据集。运用基尼系数增益衡量不同特化方案的可用性,合理分配隐私预算并动态计算其消耗,发布数据集的可用性得到有效提高。实验结果表明,该算法发布的数据在分类准确率方面优于Diff Gen,接近理想水平。 展开更多
关键词 差分隐私 数据发布 决策树 基尼系数增益 指数机制 拉普拉斯机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部