期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
改进边界分类的Borderline-SMOTE过采样方法
1
作者 马贺 宋媚 祝义 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期1003-1012,共10页
针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新... 针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top-Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G-mean,AUC(Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路. 展开更多
关键词 不平衡数据 边界样本 类重叠 borderline-smote 过采样
下载PDF
基于Borderline-SMOTE算法与Stacking集成学习的前列腺肿瘤风险预测研究
2
作者 熊思伟 刘玉琳 《现代肿瘤医学》 CAS 北大核心 2023年第16期3075-3081,共7页
目的:应用数据挖掘方法,建立高准确率的组合模型,对前列腺肿瘤患者的风险进行预测,为前列腺癌(prostate cancer,PCa)的预防和诊断提供参考。方法:选择在临床医学科学数据中心(301医院)进行前列腺穿刺活检的患者682例,运用互信息作为评... 目的:应用数据挖掘方法,建立高准确率的组合模型,对前列腺肿瘤患者的风险进行预测,为前列腺癌(prostate cancer,PCa)的预防和诊断提供参考。方法:选择在临床医学科学数据中心(301医院)进行前列腺穿刺活检的患者682例,运用互信息作为评价标准筛选出与PCa有关的特征属性;针对机器学习的XgBoost、Logistic回归、Adaboost、K近邻和随机森林算法构建单一模型,应用5折交叉验证算法筛选出预测能力较优的3种模型;使用过采样处理,构建基于Borderline-SMOTE的单一模型及构建基于Borderline-SMOTE的Stacking组合模型并探究不同组合方式的影响;最后选择301医院与芜湖弋矶山医院的37例临床病例作为外部验证集对模型进行检验。结果:通过互信息筛选出19个关键特征属性;在单一模型的研究中发现随机森林模型、XgBoost模型以及AdaBoost模型这3种模型表现较优;而基于Borderline-SMOTE的单一模型使得标签属性趋于平衡,AUC值有大幅提升;构建的3种基于Borderline-SMOTE的Stacking组合模型中以XgBoost、随机森林为初级分类器,AdaBoost为次级分类器的组合模型预测能力最好,其准确率为0.9454,召回率为0.9375,精确度为0.9573,F_(1)分数为0.9470,AUC高达0.9823,并且该组合模型在临床验证集上的预测也有较好效果。结论:Borderline-SMOTE过采样处理不平衡数据集十分有效,相较于单一模型的预测,基于多模型融合的Stacking集成学习方式的PCa风险预测方法有着更高的预测精度和良好的推广性能,更有助于PCa的临床诊断。 展开更多
关键词 前列腺肿瘤 互信息 borderline-smote Stacking集成学习
下载PDF
基于改进Borderline-Smote-GBDT的冠心病预测
3
作者 李瑞平 朱俊杰 《中国医学物理学杂志》 CSCD 2023年第10期1278-1284,共7页
针对样本不平衡问题,提出一种基于欧氏距离改进的Borderline-Smote过采样算法。首先根据欧式距离判断少数类样本类别;然后根据边界上的少数类样本的k近邻数据找出线性直线,由同侧近邻数据判别是否为噪音;最后重新判别删除噪音的剩余少... 针对样本不平衡问题,提出一种基于欧氏距离改进的Borderline-Smote过采样算法。首先根据欧式距离判断少数类样本类别;然后根据边界上的少数类样本的k近邻数据找出线性直线,由同侧近邻数据判别是否为噪音;最后重新判别删除噪音的剩余少数类样本的类别,对边界少数类样本和密集的非边界区域的少数类样本过采样合成新样本。等磁场图和二维电流密度图中提取的心磁特征数据集经过改进Borderline-Smote过采样处理,结果表明改进Borderline-SmoteGBDT冠心病预测模型相比Borderline-Smote-GBDT模型准确率提高8.4%,精确率提高2.9%,召回率提高9.1%,AUC提高4.6%。此外,与逻辑回归、随机森林、k近邻、极端随机树模型对比发现,GBDT结果最优,改进Borderline-Smote-GBDT准确率、召回率、精确率、AUC分别为91.7%、91.7%、81.8%、87.1%,验证了该模型的可行性。 展开更多
关键词 冠心病 borderline-smote 梯度提升树
下载PDF
基于Borderline-SMOTE和双Attention的入侵检测方法 被引量:4
4
作者 刘全明 李尹楠 +1 位作者 郭婷 李岩纬 《计算机科学》 CSCD 北大核心 2021年第3期327-332,共6页
随着互联网的发展,网络环境愈加复杂,由此导致的网络安全问题不断出现,因此网络安全的防护成为一项重要研究课题。针对真实网络环境中采集到的流量数据非平衡以及传统机器学习方法提取特征表示不准确等问题,文中提出一种基于Borderline-... 随着互联网的发展,网络环境愈加复杂,由此导致的网络安全问题不断出现,因此网络安全的防护成为一项重要研究课题。针对真实网络环境中采集到的流量数据非平衡以及传统机器学习方法提取特征表示不准确等问题,文中提出一种基于Borderline-SMOTE和双Attention的入侵检测方法。首先对入侵数据进行Borderline-SMOTE过采样处理,解决了数据非平衡问题,并且利用卷积网络在图像特征提取方面的优势,将一维流量数据转化为灰度图像;然后通过双注意力网络分别从通道维度和空间维度对低维特征进行维度更新,得到更精准的特征表示;最后利用Softmax分类器对流量数据进行分类预测。所提方法的仿真实验均已在NSL-KDD数据集上得到验证,其准确率达到99.24%,相比其他常用方法准确率更高。 展开更多
关键词 网络安全 borderline-smote 双Attention 入侵检测 非平衡问题
下载PDF
基于Borderline-Smote算法改进的FastText中文情感极性分析 被引量:1
5
作者 潘正军 赵莲芬 +1 位作者 袁丽娜 王红勤 《计算机应用与软件》 北大核心 2021年第11期295-299,349,共6页
针对单一的FastText模型在不平衡中文语料中的情感极性分析效果不好,以及传统Jieba分词对广领域中文文本适应性不强,数据倾斜导致中文情感极性分析的准确率和召回率产生波动等问题,提出一种基于Borderline-Smote算法改进的FastText中文... 针对单一的FastText模型在不平衡中文语料中的情感极性分析效果不好,以及传统Jieba分词对广领域中文文本适应性不强,数据倾斜导致中文情感极性分析的准确率和召回率产生波动等问题,提出一种基于Borderline-Smote算法改进的FastText中文情感极性分析,通过过采样Borderline-Smote和pkuseg中文分词等预处理方式分别解决分类中数据倾斜、涉及领域广的问题,再与FastText结合进行中文情感极性分析。实验结果表明,该模型在中文情感极性分析中的准确率得到了一定的提高。 展开更多
关键词 机器学习 中文分词 borderline-smote FastText 情感极性分析
下载PDF
LightGBM混合模型在乳腺癌诊断中的应用
6
作者 邢长征 徐佳玉 《计算机工程与应用》 CSCD 北大核心 2024年第6期330-338,共9页
乳腺癌是最常见的癌症种类之一,且患病率每年仍在上升。在不进行手术活检的情况下,通过分析细胞核的各项指标来预测肿块的良性与否,可以有效地为医生提供辅助诊疗并减少患者的痛苦。为此,提出了一种基于LightGBM算法的乳腺癌诊断模型。... 乳腺癌是最常见的癌症种类之一,且患病率每年仍在上升。在不进行手术活检的情况下,通过分析细胞核的各项指标来预测肿块的良性与否,可以有效地为医生提供辅助诊疗并减少患者的痛苦。为此,提出了一种基于LightGBM算法的乳腺癌诊断模型。使用边界-合成少数类过采样算法(borderline-synthetic minority oversampling technique,Borderline-SMOTE)来改善乳腺癌确诊数据不平衡的问题。在麻雀搜索算法(sparrow search algorithm,SSA)中引入PWLCM混沌映射、全新的惯性权重和纵横交叉算法对其进行改进,再运用改进后的SSA算法对Light-GBM的参数进行自动寻优。由于LightGBM对噪点较为敏感,所以提出了一种OVR-Jacobian正则化方法对LightGBM进行降噪处理。使用改进后的LightGBM混合模型对乳腺癌进行诊断。实验结果表明,提出的混合模型在均方误差、决定系数和交叉验证得分这三个指标上均优于常见的模型,显示出其较好的诊断效果。 展开更多
关键词 乳腺癌预测 LightGBM 麻雀搜索算法 borderline-smote算法 机器学习 Jacobian正则化
下载PDF
基于Attention-GRU的SHDoS攻击检测研究
7
作者 江魁 卢橹帆 +1 位作者 苏耀阳 聂伟 《信息网络安全》 CSCD 北大核心 2024年第3期427-437,共11页
针对SHDoS发起变频攻击导致阈值检测方案失效的问题,文章提出一种基于Attention-GRU的深度学习模型。该模型首先利用改进的Borderline-SMOTE进行数据平衡处理,然后引入自注意力机制构建双层GRU分类网络,对预处理后的数据进行学习训练,... 针对SHDoS发起变频攻击导致阈值检测方案失效的问题,文章提出一种基于Attention-GRU的深度学习模型。该模型首先利用改进的Borderline-SMOTE进行数据平衡处理,然后引入自注意力机制构建双层GRU分类网络,对预处理后的数据进行学习训练,最后对SHDoS攻击流量进行检测。在CICIDS2018数据集和SHDo S自制数据集上进行验证,实验结果表明,文章所提模型的精确率分别为98.73%和97.64%,召回率分别为96.57%和96.27%,相较于未采用自注意力机制的模型,在精确率和召回率上有显著提升,相较于以往采用SMOTE或Borderline-SMOTE进行数据预处理的模型,文章所提模型的性能也是最佳的。 展开更多
关键词 SHDoS攻击 borderline-smote过采样算法 自注意力机制 门控循环单元
下载PDF
基于地质大数据的泥石流灾害易发性评价 被引量:16
8
作者 张永宏 葛涛涛 +2 位作者 田伟 夏广浩 何静 《计算机应用》 CSCD 北大核心 2018年第11期3319-3325,共7页
在地质大数据背景下,为了更加精准、客观地评估泥石流易发程度,提出一种基于神经网络的区域泥石流易发性评价模型,并结合使用平均影响值算法(MIV)、遗传算法(GA)、Borderline-SMOTE算法提升模型精度。在预处理阶段使用Borderline-SMOTE... 在地质大数据背景下,为了更加精准、客观地评估泥石流易发程度,提出一种基于神经网络的区域泥石流易发性评价模型,并结合使用平均影响值算法(MIV)、遗传算法(GA)、Borderline-SMOTE算法提升模型精度。在预处理阶段使用Borderline-SMOTE算法处理非平衡数据集的分类问题,之后采用神经网络拟合主要指标与易发程度的非线性关系并结合遗传算法提升拟合速度,最后结合MIV算法定量分析指标与易发程度相关性。选取雅鲁藏布江中上游流域作为研究区域,实验结果显示,模型能够有效降低非平衡数据集的过拟合,优化原始输入维度,同时在拟合速度上有了很大提升。采用AUC指标检验评价结果,测试集的分类精度达到97.95%,说明模型能够在非平衡数据集下为评价研究区域泥石流易发程度提供参考。 展开更多
关键词 地质大数据 泥石流 易发性 平均影响值算法 遗传算法 borderline-smote算法
下载PDF
基于字词融合的高铁道岔多级故障诊断组合模型 被引量:1
9
作者 林海香 赵正祥 +3 位作者 陆人杰 卢冉 白万胜 胡娜娜 《电子测量与仪器学报》 CSCD 北大核心 2022年第10期217-226,共10页
为有效提升高速铁路道岔维护效率和故障定位准确率,面向其故障文本数据,提出了一种基于字词融合的高速铁路道岔多级故障诊断组合模型。首先,建立高速铁路道岔专业词库,将文本表示为字向量与词向量并进行深度融合。其次,考虑到故障文本... 为有效提升高速铁路道岔维护效率和故障定位准确率,面向其故障文本数据,提出了一种基于字词融合的高速铁路道岔多级故障诊断组合模型。首先,建立高速铁路道岔专业词库,将文本表示为字向量与词向量并进行深度融合。其次,考虑到故障文本存在类别不均衡问题,采用Borderline-SMOTE算法对不均衡文本数据进行处理,优化故障文本数据分布。接着使用BiLSTM(Bi-directional long short-term memory)-CNN(convolutional neural network)的组合神经网络提取故障文本深度特征,最后通过分类器实现智能故障诊断。采用我国高速铁路道岔故障文本数据进行模型性能验证,结果显示所提模型的一级故障诊断准确率达到95.62%,二级故障诊断准确率达到93.81%,证明多级故障诊断精度可达到理想效果。 展开更多
关键词 高速铁路道岔 多级故障诊断 字词融合 borderline-smote 组合神经网络
下载PDF
非平衡样本集下公私合作(PPP)可融资性评价——基于改进边界样本自适应算法
10
作者 沈俊鑫 程墙 吴以 《科技管理研究》 CSSCI 北大核心 2021年第16期218-226,共9页
可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价项目的可融资性。通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本的识别能力,针对我国财政部政府和社会资... 可融资性难问题持续制约PPP健康发展,社会资本往往从项目本身和地方政府两个维度评价项目的可融资性。通过综合比较主流样本合成算法在合成样本的精细度以及分类器算法对非平衡样本集少数类样本的识别能力,针对我国财政部政府和社会资本合作中心库中PPP案例样本数据存在非平衡性及高噪声异质性问题,提出Borderline-SMOTE Bagging算法,按照不同领域对其中4组项目进行可融资性评价。结果表明:基于数据挖掘算法对PPP可融资性进行评价具备可行性;Borderline-SMOTE Bagging算法具备良好的样本分类能力和优秀的泛化能力,能有效降低因合成样本形成的噪音所带来的负面影响,且具备良好的少数类样本识别能力。最后结合实证过程遇到的问题,对未来PPP数据化发展,提出政府部门应增强PPP项目数据收集能力并逐步实现数据开放共享,借助大数据技术提升PPP项目管理效率和精准度等建议。 展开更多
关键词 PPP 可融资性 非平衡样本集 borderline-smote BAGGING算法
下载PDF
基于深度学习与不平衡样本集的输电线路故障分类 被引量:28
11
作者 黄景林 彭显刚 +1 位作者 简胜超 袁浩亮 《智慧电力》 北大核心 2021年第2期114-119,共6页
针对输电线路各类型故障样本间的数量不平衡会造成人工智能算法对故障中的少数类样本识别精度不足的问题,提出了一种基于Borderline-SMOTE(BSMOTE)算法与卷积神经网络(CNN)相结合的输电线路故障分类方法。该方法首先利用BSMOTE算法对位... 针对输电线路各类型故障样本间的数量不平衡会造成人工智能算法对故障中的少数类样本识别精度不足的问题,提出了一种基于Borderline-SMOTE(BSMOTE)算法与卷积神经网络(CNN)相结合的输电线路故障分类方法。该方法首先利用BSMOTE算法对位于分类边界上的少数类样本进行过采样合成处理,改善样本间的不平衡度,然后将所提取的一维故障电流信号样本重构成二维灰度图像数据形式,并在Pytorch深度学习框架下搭建了CNN网络模型,利用模型的自主学习能力对灰度图像进行特征自提取与辨识,减少传统人工设计特征提取的工序,完成对输电线路故障类型的分类。实验结果表明该模型能够提高对少数类故障样本的识别能力,准确地判断故障类型,并对噪音具有较强的抗干扰能力。 展开更多
关键词 输电线路 故障分类 不平衡样本集 borderline-smote 深度学习 卷积神经网络
下载PDF
基于深度循环神经网络的入侵检测方法 被引量:4
12
作者 王佳坤 缪祥华 邵建龙 《化工自动化及仪表》 CAS 2021年第6期566-574,645,共10页
在入侵检测中提出一种具有多层堆叠的深度门控循环单元检测模型,并且通过简化深度门控循环单元,在减少计算参数的同时保持学习能力。针对NSL-KDD数据集中少数攻击类型数量较少的问题,提出使用Borderline-SMOTE过采样算法来提高少数攻击... 在入侵检测中提出一种具有多层堆叠的深度门控循环单元检测模型,并且通过简化深度门控循环单元,在减少计算参数的同时保持学习能力。针对NSL-KDD数据集中少数攻击类型数量较少的问题,提出使用Borderline-SMOTE过采样算法来提高少数攻击类型的检测准确率,进而提升入侵检测的能力。通过数据集平衡前后的多项评价标准对比可知,所提方法能够有效提升检测效率,与其他算法相比表现出较高的检测能力。 展开更多
关键词 入侵检测技术 深度门控循环单元 NSL-KDD数据集 少数攻击类型 borderline-smote算法
下载PDF
基于深度信念网络的配变台区跳闸预测 被引量:5
13
作者 魏艳霞 许锐埼 殷豪 《智慧电力》 北大核心 2020年第6期119-124,共6页
针对配电网公变台区在夏季易出现配变跳闸故障,对供电可靠性造成严重影响等问题,提出一种基于深度信念网络(DBN)的配变台区跳闸预测方法。首先,针对配变跳闸为小概率事件,利用Borderline-SMOTE算法对训练样本进行抽样以处理数据不平衡问... 针对配电网公变台区在夏季易出现配变跳闸故障,对供电可靠性造成严重影响等问题,提出一种基于深度信念网络(DBN)的配变台区跳闸预测方法。首先,针对配变跳闸为小概率事件,利用Borderline-SMOTE算法对训练样本进行抽样以处理数据不平衡问题;然后使用新样本训练形成DBN预测模型。由于传统DBN在学习训练过程中易于陷入局部最优,故采用纵横交叉优化算法进行优化;最后,通过算例测试验证了该模型的有效性。 展开更多
关键词 配变台区 跳闸预测 borderline-smote抽样 纵横交叉算法 深度信念网络
下载PDF
一种面向药物-靶点相互作用预测的不平衡数据处理方法 被引量:1
14
作者 叶志威 张晓龙 林晓丽 《武汉科技大学学报》 CAS 北大核心 2022年第1期68-74,共7页
为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法。通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用... 为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法。通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测。实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能。 展开更多
关键词 不平衡数据处理 药物-靶点相互作用 词向量 特征提取 borderline-smote 梯度提升决策树
下载PDF
基于深度学习的癫痫脑电不平衡分类方法 被引量:9
15
作者 费洪磊 袁琦 郑玉叶 《仪器仪表学报》 EI CAS CSCD 北大核心 2021年第3期231-240,共10页
癫痫发作自动检测技术对癫痫患者的诊断和治疗具有重要意义。由于癫痫发作期持续时间较短,发作期与非发作期的脑电数据分布是不平衡的。针对该问题,本文提出了一种不平衡分类与深度学习相结合的癫痫发作自动检测方法。首先,为防止不同... 癫痫发作自动检测技术对癫痫患者的诊断和治疗具有重要意义。由于癫痫发作期持续时间较短,发作期与非发作期的脑电数据分布是不平衡的。针对该问题,本文提出了一种不平衡分类与深度学习相结合的癫痫发作自动检测方法。首先,为防止不同类别数据之间界限模糊,使用Borderline-SMOTE算法对1/3训练集做平衡处理;之后,设计了金字塔型的一维深度卷积神经网络,并利用平衡处理的训练集进行训练。与常见的二维卷积神经网络不同,本文构造的一维卷积神经网络减少了训练参数,提高了训练速率,能够有效地避免由于训练样本较少而造成的过拟合。在长达991小时的长程头皮脑电数据集上的实验表明,经过平衡处理后的检测效果得到明显改善,最佳敏感度达到92.35%,特异性达到99.88%,阳性预测率达到90.68%,阴性预测率达到99.91%。同时,与其他癫痫检测方法的比较表明,本文方法具有更好的检测结果,更加符合临床应用的要求。 展开更多
关键词 癫痫检测 脑电信号 不平衡分类 borderline-smote 一维深度卷积神经网络
下载PDF
基于CatBoost算法的滑坡敏感性模型——以毕节市大方县为例
16
作者 邵健 王霄 +2 位作者 昌文峰 陈曦 张译 《计算机与数字工程》 2022年第6期1365-1370,共6页
对山地地区建立滑坡敏感性模型,从而有效地避免地质灾害带来的风险,对促进地区经济发展和保证人民财产安全具有重要意义。以贵州省毕节市大方县为例,利用Borderline-SMOTE算法解决滑坡数据普遍存在的数据不平衡问题,进而运用CatBoost算... 对山地地区建立滑坡敏感性模型,从而有效地避免地质灾害带来的风险,对促进地区经济发展和保证人民财产安全具有重要意义。以贵州省毕节市大方县为例,利用Borderline-SMOTE算法解决滑坡数据普遍存在的数据不平衡问题,进而运用CatBoost算法构建山体滑坡模型,最终选取查准率、召回率、F1-score和AUC作为模型评估指标进行对比。实验表明,利用经Borderline-SMOTE算法处理后的滑坡数据集构建的CatBoost模型相比较于传统机器学习模型的预测效果更好,尤其在AUC指标上效果提升显著,同时进一步说明了基于CatBoost算法的滑坡敏感性模型有着良好的分类效果。 展开更多
关键词 滑坡灾害 borderline-smote 非平衡数据集 CatBoost
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部