期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
ENN-ADASYN-SVM算法检测P2P僵尸网络的研究 被引量:7
1
作者 康松林 樊晓平 +2 位作者 刘乐 李宏 李明娟 《小型微型计算机系统》 CSCD 北大核心 2016年第2期216-220,共5页
由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率... 由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率.同时,之前的文献并没有考虑到正常的网络流量和僵尸网络流量严重不平衡的问题.为了解决以上两个问题,提出一种基于最近邻规则欠抽样方法(ENN)和ADASYN(Adaptive Synthetic Sampling)结合的不均衡数据SVM分类算法应用于P2P僵尸网络检测.实验结果表明,无论是僵尸网络还是正常的流量,该方法都具有很高的正确率,并能在短时间内达到很好的分类效果;较之其他算法,它更适合处理大规模网络实时环境中大量的原始数据,对统计数据依赖性小,对不均衡数据分类具有较好的鲁棒性.因此,基于不均衡数据ENN-ADASYN-SVM分类算法更适应于复杂多变的网络环境下的P2P僵尸网络检测. 展开更多
关键词 P2P僵尸网络检测 SVM 不均衡数据分类 最近邻规则欠抽样方法(enn) ADASYN
下载PDF
融合过抽样和欠抽样的不平衡数据重抽样方法 被引量:15
2
作者 吴磊 房斌 +2 位作者 刁丽萍 陈静 谢娜娜 《计算机工程与应用》 CSCD 2013年第21期172-176,185,共6页
在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多... 在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多,只探讨利用重抽样方法对不平衡数据进行预处理来提高分类效果的方法。数据抽样算法有很多,但可以归为两大类:过抽样和欠抽样。针对二分类问题提出了四种融合过抽样和欠抽样算法的重抽样方法:BSM+Tomek、BSM+ENN、CBOS+Tomek和CBOS+ENN,并且与另外十种经典的重抽样算法做了大量的对比实验,实验证明提出的四种预处理算法在多种评价指标下提高了不平衡数据的分类效果。 展开更多
关键词 不平衡数据 重抽样 基于聚类的过抽样算法(CBOS) 基于边界值的虚拟少数类向上采样算法(BSM) 可选择最 近邻算法(enn) Tomek LINKS 预处理
下载PDF
基于离散Fréchet距离和剪辑近邻法的低压配电网拓扑结构校验方法 被引量:35
3
作者 耿俊成 张小斐 +1 位作者 郭志民 孙玉宝 《电测与仪表》 北大核心 2017年第5期50-55,共6页
针对低压配电网拓扑结构人工校验成本高、准确性不够、可操作性差的问题,提出了一种基于离散Fréchet距离和剪辑K近邻的配电网拓扑结构校验方法。基于电网GIS平台配变经纬度坐标数据计算校验用户台区变压器与该地区其它变压器之间... 针对低压配电网拓扑结构人工校验成本高、准确性不够、可操作性差的问题,提出了一种基于离散Fréchet距离和剪辑K近邻的配电网拓扑结构校验方法。基于电网GIS平台配变经纬度坐标数据计算校验用户台区变压器与该地区其它变压器之间的距离,搜索该校验用户的邻近台区。通过计算校验用户与所在台区其它用户、邻近台区所有用户之间智能电能表电压曲线离散Fréchet距离,进而运用剪辑近邻法对训练样本集进行修剪生成少量的关键样本集,可有效降低搜索复杂度,进而快速判别校验用户的正确台区类别,有效验证电网GIS平台用户与台区变压器拓扑连接关系的正确性。 展开更多
关键词 配变经纬度坐标 邻近台区 离散Fréchet距离 电压曲线相似性 剪辑K近邻
下载PDF
采用重复剪辑近邻法提高决策树算法的性能 被引量:4
4
作者 叶晨洲 杨杰 +1 位作者 姚莉秀 陈念贻 《控制与决策》 EI CSCD 北大核心 2003年第1期96-98,102,共4页
决策树算法易受训练样本集中噪声和混杂区域的影响。重复剪辑近邻法能消除样本集中符合某些先决条件的噪声 ,清除混杂区域中后验概率较小的类别所包含的样本 ,并在各类样本间形成符合Bayes分类准则的界线。用它对合适的训练样本集进行筛... 决策树算法易受训练样本集中噪声和混杂区域的影响。重复剪辑近邻法能消除样本集中符合某些先决条件的噪声 ,清除混杂区域中后验概率较小的类别所包含的样本 ,并在各类样本间形成符合Bayes分类准则的界线。用它对合适的训练样本集进行筛选 ,可在不损害分类准确率的同时明显地减小决策树的规模 ,有助于增强决策树的可理解性和可用性 ,从而提高决策树的性能。 展开更多
关键词 重复剪辑近邻法 决策树算法 性能 数据挖掘 样本筛选 模式识别
下载PDF
两种提高决策树性能的算法研究 被引量:2
5
作者 李卿 狄文辉 楼新远 《计算机工程与设计》 CSCD 北大核心 2008年第15期3989-3990,4057,共3页
为了克服用重复剪辑近邻法筛选训练样本集产生样本被误剔除进而增大决策树的判决风险和误判概率的问题,提出一种新的方法-引入拒绝阀值的重复剪辑近邻法,并从理论上分析了它降低判决风险和误判概率的原理。通过实验比较这两种方法发现,... 为了克服用重复剪辑近邻法筛选训练样本集产生样本被误剔除进而增大决策树的判决风险和误判概率的问题,提出一种新的方法-引入拒绝阀值的重复剪辑近邻法,并从理论上分析了它降低判决风险和误判概率的原理。通过实验比较这两种方法发现,引入拒绝阀值的重复剪辑近邻法在降低判决风险和误判概率上要优于重复剪辑近邻法;而在决策树的规模和分类错误率上,重复剪辑近邻法的精度要优于引入拒绝阀值的重复剪辑近邻法。 展开更多
关键词 数据挖掘 决策树 引入拒绝阀值的重复剪辑近邻法 重复剪辑近邻法 样本筛选
下载PDF
基于运行序列的软件故障诊断方法 被引量:5
6
作者 王毅刚 朱小冬 甘茂治 《微计算机信息》 北大核心 2006年第07S期178-180,共3页
在软件失效机理分析的基础上,提出了基于运行序列的软件故障诊断方法。该方法根据最近邻思想,采用编辑距离在大量正常运行中搜索故障运行的最近邻,利用故障运行序列与最近邻序列的对比差异生成程序可疑部分报告,并给出了报告的评价函数... 在软件失效机理分析的基础上,提出了基于运行序列的软件故障诊断方法。该方法根据最近邻思想,采用编辑距离在大量正常运行中搜索故障运行的最近邻,利用故障运行序列与最近邻序列的对比差异生成程序可疑部分报告,并给出了报告的评价函数。最后设计试验验证了该方法。 展开更多
关键词 软件运行序列 最近邻 编辑距离 软件故障诊断
下载PDF
基于邻近域的不完备空间数据探测方法 被引量:1
7
作者 李光强 赵地 +1 位作者 邓敏 朱建军 《计算机工程与应用》 CSCD 北大核心 2009年第3期145-147,151,共4页
不完备的空间数据影响了空间决策、分析与推理的结果及其可靠性。传统的不完备数据检测方法仅使用统计学理论,没有考虑空间数据的空间特性,从而不能直接用于检测不完备的空间数据。提出了一种基于邻近域的不完备空间数据检测方法—NNBi... 不完备的空间数据影响了空间决策、分析与推理的结果及其可靠性。传统的不完备数据检测方法仅使用统计学理论,没有考虑空间数据的空间特性,从而不能直接用于检测不完备的空间数据。提出了一种基于邻近域的不完备空间数据检测方法—NNBiSDD算法,NNBiSDD算法在空间实体的k-邻近域内使用"三倍标准差"原则检测不完备的空间数据。最后,通过一个实际算例验证了NNBiSDD算法的有效性和可靠性。 展开更多
关键词 不完备空间数据 空间邻近域 三倍标准差准则
下载PDF
Boosting算法在基因表达谱样本分类中的应用 被引量:2
8
作者 刘全金 李颖新 《计算机工程与应用》 CSCD 北大核心 2008年第14期228-230,238,共4页
基于基因表达谱结构提出一种基因表达谱的样本分类方法。首先用基因的Bhattacharyya距离衡量其所含样本类别的信息,过滤Bhattacharyya距离较小的噪声基因;然后修改重复剪辑近邻算法,剔除噪声样本;再基于Boosting算法构建支持向量机组合... 基于基因表达谱结构提出一种基因表达谱的样本分类方法。首先用基因的Bhattacharyya距离衡量其所含样本类别的信息,过滤Bhattacharyya距离较小的噪声基因;然后修改重复剪辑近邻算法,剔除噪声样本;再基于Boosting算法构建支持向量机组合分类器;最后以结肠癌基因表达谱样本为例,进行了分类实验。实验结果表明该方法简单、有效,对基因表达谱样本的分类问题有强的实用性。 展开更多
关键词 BHATTACHARYYA距离 重复剪辑近邻法 BOOSTING算法
下载PDF
结合半监督聚类和数据剪辑的自训练方法 被引量:6
9
作者 吕佳 黎隽男 《计算机应用》 CSCD 北大核心 2018年第1期110-115,共6页
针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和... 针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本作Naive Bayes分类;然后利用数据剪辑技术来过滤掉聚类隶属度高而被Naive Bayes误分类的无标记样本。该数据剪辑技术能够同时利用有标记样本和无标记样本信息进行噪声过滤,解决了传统数据剪辑技术的性能可能因有标记样本数量匮乏而下降的问题。通过在UCI数据集上的对比实验,证明了所提算法的有效性。 展开更多
关键词 自训练 半监督学习 半监督聚类 数据剪辑 最近邻
下载PDF
采用压缩近邻法的高效入侵检测模型
10
作者 贾伟峰 杜保建 +1 位作者 童彬 张凤荔 《计算机应用研究》 CSCD 北大核心 2010年第6期2341-2343,共3页
针对入侵检测中的实时性问题,提出了一种采用压缩近邻法的高效入侵检测模型。该模型能够用于精简训练集,从而加快入侵检测系统的训练及检测速度,提高了系统的实时性。为了对该模型的训练集精简效果和检测性能进行验证,采用著名的KDDCUP9... 针对入侵检测中的实时性问题,提出了一种采用压缩近邻法的高效入侵检测模型。该模型能够用于精简训练集,从而加快入侵检测系统的训练及检测速度,提高了系统的实时性。为了对该模型的训练集精简效果和检测性能进行验证,采用著名的KDDCUP99公用数据集进行实验,并对比了该方法和其他入侵检测方法的检测效果和检测时间。结果表明,该模型能够在大幅降低训练集大小的情况下,提升入侵检测的实时性,并保持较好的检测效果,是一种高效的入侵检测模型。 展开更多
关键词 压缩近邻法 重复剪辑近邻法 入侵检测 训练集精简 实时性
下载PDF
基于冗余实例对消除算法的实例选择 被引量:2
11
作者 刘璐 高强 +1 位作者 刘衍珩 孙鑫 《计算机工程》 CAS CSCD 2014年第1期177-180,共4页
实例选择能有效移除数据中的噪声和冗余数据,但现有方法难以在提高泛化能力的同时实现约简。针对该问题,提出一种冗余实例对消除算法用于实例选择。给出最近同类实例对的概念,计算数据集中存在的最近同类实例对,并移除满足条件的实例,... 实例选择能有效移除数据中的噪声和冗余数据,但现有方法难以在提高泛化能力的同时实现约简。针对该问题,提出一种冗余实例对消除算法用于实例选择。给出最近同类实例对的概念,计算数据集中存在的最近同类实例对,并移除满足条件的实例,在11个不同数据集上进行的仿真实验结果表明,经过该算法处理后的数据集在分类准确率和存储压缩率上较原始样本集有明显提升。对比剪辑最近邻规则算法,该算法能够在保持分类准确率的同时提高平均存储压缩率35%以上,并完整保留原始样本集的数据分布特征,在分类准确率和存储压缩率上取得折中。 展开更多
关键词 实例选择 最近同类实例对 k最近邻 剪辑最近邻规则算法 数据约简 机器学习
下载PDF
重复剪辑近邻算法在数据分类中的应用 被引量:1
12
作者 伍以文 《电脑开发与应用》 2010年第10期39-39,45,共2页
近邻法是模式识别非参数法中最重要的方法之一,重复剪辑近邻算法是近邻法的一种改进算法。在剪辑近邻法基础上重复执行剪辑运算,消除了样本集中的临界区的噪声样本,形成的决策面与贝叶斯决策面十分接近,因此用其设计的分类器是一种较理... 近邻法是模式识别非参数法中最重要的方法之一,重复剪辑近邻算法是近邻法的一种改进算法。在剪辑近邻法基础上重复执行剪辑运算,消除了样本集中的临界区的噪声样本,形成的决策面与贝叶斯决策面十分接近,因此用其设计的分类器是一种较理想的分离器。在一些样本类别较多和样本数据量较大的数据分类中有着广泛的应用。 展开更多
关键词 重复剪辑近邻算法 样本集 数据分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部