期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
基于灰度熵合成样本块的图像修复算法 被引量:2
1
作者 赵政康 刘宁钟 李伟 《计算机工程》 CAS CSCD 北大核心 2016年第11期267-271,共5页
图像修复时需要利用已知信息修补图像中的缺失部分,同时要求取得较快的修复速度。为此,提出基于平均灰度熵选取样本并通过加权合成最终匹配块的图像修复算法。将待修复图像进行网格划分,以网格为单位区间计算每个网格内图像的平均局部... 图像修复时需要利用已知信息修补图像中的缺失部分,同时要求取得较快的修复速度。为此,提出基于平均灰度熵选取样本并通过加权合成最终匹配块的图像修复算法。将待修复图像进行网格划分,以网格为单位区间计算每个网格内图像的平均局部灰度熵值。使用自适应阈值分割算法将所有网格区域分为2个互斥集合。根据待修复区域所在网格平均灰度熵确定样本块的选取范围,使用最小平方差和准则选择若干样本块,并通过衰减函数得到各个样本块的权值,最终合成样本块。实验结果表明,该算法在取得理想修复效果的同时能够确保得到较快的修复速度。 展开更多
关键词 图像修复 平均灰度熵 掩码图 平方差和距离 合成样本
下载PDF
基于循环一致性对抗网络的地震断层训练样本合成方法研究
2
作者 张永升 李海英 +3 位作者 刘军 张政 严哲 顾汉明 《石油物探》 CSCD 北大核心 2024年第2期417-425,共9页
为了获得真实的地震断层训练样本,提出了基于循环一致性对抗网络的断层训练样本合成方法。使用随机生成的断层标签与实际断层数据作为输入,利用无监督的对抗网络学习断层标签与断层数据之间的联系,生成与断层标签特征相匹配的地震断层样... 为了获得真实的地震断层训练样本,提出了基于循环一致性对抗网络的断层训练样本合成方法。使用随机生成的断层标签与实际断层数据作为输入,利用无监督的对抗网络学习断层标签与断层数据之间的联系,生成与断层标签特征相匹配的地震断层样本,由此得到带有标签的断层训练样本集。该方法是一种获取断层训练样本集的方法,一定程度上解决了深度学习地震断层解释缺少训练数据集的问题。对合成断层样本与真实断层进行平均主频与纹理差异的定量分析,结果表明两者具有较高的相似性。使用合成的断层样本训练神经网络,并将结果应用于实际数据测试并进行对比,结果表明合成的断层训练样本具有真实可靠的特点,所提方法可以针对不同工区生成具有目标导向性的断层,能够灵活有效地应用于不同工区的地震断层智能识别。 展开更多
关键词 地震断层识别 断层智能解释 地震资料解释 断层样本合成 深度学习 无监督学习
下载PDF
基于DGA和改进SMOTE的小样本变压器故障诊断方法
3
作者 邹德旭 徐赫 +6 位作者 权浩 尹建华 周涛 彭庆军 王山 代维菊 洪志湖 《广东电力》 北大核心 2024年第7期118-126,共9页
电力变压器故障诊断方法受样本数量和数据质量问题影响显著,现有小样本学习方法由于合成样本质量不高,往往无法实际应用,进而导致智能诊断算法难以在数据少的情况下实现对变压器的诊断。为了解决传统过采样算法合成样本质量不足导致无... 电力变压器故障诊断方法受样本数量和数据质量问题影响显著,现有小样本学习方法由于合成样本质量不高,往往无法实际应用,进而导致智能诊断算法难以在数据少的情况下实现对变压器的诊断。为了解决传统过采样算法合成样本质量不足导致无法实现准确的故障诊断的问题,提出一种基于改进合成少数过采样技术和深度学习的变压器故障诊断模型。首先,通过合成少数过采样技术(synthetic minority oversampling technique,SMOTE)对训练集进行数据扩充;其次,基于余弦相似度实现合成样本优选,增强合成样本质量;最后,通过卷积神经网络模型对测试集进行分类预测。在某变电站实测数据下进行分析和验证,并与传统的方法进行对比。结果表明,所提方法提高了故障诊断的精度。 展开更多
关键词 变压器 故障诊断 合成样本优选 过采样 深度学习
下载PDF
数字图像盲取证对样本合成修复应用的篡改区域检测算法 被引量:5
4
作者 吴琼 孙韶杰 +3 位作者 朱为 李国辉 涂丹 何朝盛 《自动化学报》 EI CSCD 北大核心 2009年第3期239-243,共5页
提出了一种图像盲取证算法,用于检测利用样本合成修复技术制作的伪造图像.该算法采用零连通特征来描述修复技术导致的图像块之间异常的相似性,然后构建升半梯形隶属函数将该相似性特征转换成块属于篡改块的模糊隶属度,通过截集划分并结... 提出了一种图像盲取证算法,用于检测利用样本合成修复技术制作的伪造图像.该算法采用零连通特征来描述修复技术导致的图像块之间异常的相似性,然后构建升半梯形隶属函数将该相似性特征转换成块属于篡改块的模糊隶属度,通过截集划分并结合高隶属度块的位置信息,进行伪造图像的检测和篡改区域的定位.实验结果表明该算法能够有效区分自然图像和修复伪造图像,并可进一步定位图像的篡改区域. 展开更多
关键词 图像盲取证 图像修复 零连通 模糊隶属度 样本合成
下载PDF
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量:18
5
作者 霍玉丹 谷琼 +1 位作者 蔡之华 袁磊 《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍... 针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 展开更多
关键词 非平衡数据集 分类 少数类样本合成过采样技术 采样倍率 遗传算法
下载PDF
样本驱动的大规模植被分布高效合成
6
作者 林琳 杨刚 +1 位作者 曹卫群 孙汉秋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2018年第12期2203-2212,共10页
针对自然场景中丰富多样的植被分布模式的模拟时,现有的通用拟合算法计算耗时,不能满足大规模分布与实时交互分布的需要.为了解决任意分布模式的快速合成问题,提出一种基于样本分布控制并结合Wang tiles优化的高效点分布合成方法.该方... 针对自然场景中丰富多样的植被分布模式的模拟时,现有的通用拟合算法计算耗时,不能满足大规模分布与实时交互分布的需要.为了解决任意分布模式的快速合成问题,提出一种基于样本分布控制并结合Wang tiles优化的高效点分布合成方法.该方法由离线预计算过程和实时拼接过程组成.在离线预计算过程中,首先通过基于环形点对距离统计的对相关函数特征拟合过程合成多块首尾分布连续,以及与样本分布相似的初始点分布tile,然后通过对初始tile的边界处理得到一组可以非周期性拼接且接缝处分布保持连续的Wang tiles;在此基础上,利用这组Wang tiles进行实时拼接,从而实现以极快的速度和极小的内存占用合成大规模的分布的目的.实验结果表明,该方法适用于随机、均匀、聚集等各种分布特征的数据,是一种对各类样本分布模式通用的分布合成方法;并在大规模分布的合成上比原有的基于样本驱动的分布拟合算法达到3~6个量级的速度提升;可有效地应用于自然场景模拟中大规模植被的分布信息构建,及其他有实时交互分布需求的应用中. 展开更多
关键词 通用模式点分布 对相关函数 WANG tiles 基于样本合成 森林场景模拟
下载PDF
融合簇边界移动与自适应合成的混合采样算法 被引量:4
7
作者 高雷阜 张梦瑶 赵世杰 《电子学报》 EI CAS CSCD 北大核心 2022年第10期2517-2529,共13页
针对伪负采样算法(Pseudo-Negative Sampling,PNS)存在的类内子聚集和类别重叠问题,提出一种融合簇边界负样本移动策略(Cluster Boundary Negative Movement Strategy,CBNMS)与自适应正样本合成技术(Adaptive Pos⁃itive Synthesis Techn... 针对伪负采样算法(Pseudo-Negative Sampling,PNS)存在的类内子聚集和类别重叠问题,提出一种融合簇边界负样本移动策略(Cluster Boundary Negative Movement Strategy,CBNMS)与自适应正样本合成技术(Adaptive Pos⁃itive Synthesis Technology,ADPST)的改进混合采样算法(Improved Cluster Boundary Negative Movement Strategy,ICB⁃NMS),以提升非均衡数据的整体分类性能和正类识别精度.CBNMS策略采用凝聚层次聚类对正负类样本进行划分,并通过各局部样本间相似关系识别潜在负类中且与正类相关性较大的簇边界负样本,提高采样的局部精确性和时效性.为进一步加强CBNMS策略对正样本重叠区域的识别性能,ICBNMS算法在簇边界负样本移动均衡化基础上,引入ADPST技术,利用稀疏度与距离复合因子组合加权以自适应确定最优样本生成区域,从而有效削弱样本的重叠性且丰富样本的多样性.实验结果表明,相比其他采样算法,ICBNMS算法在10个非均衡数据集的多组实验中G-mean和Fmeasure等指标获得最优值,且时间效率比CDSMOTE和PNS算法分别提升了32.27%和27.88%,凸显出更优越的鲁棒性和泛化性. 展开更多
关键词 非均衡数据分类 凝聚层次聚类 簇边界负样本移动 自适应正样本合成 混合采样
下载PDF
基于ResU-Net的三维断层识别方法及应用 被引量:3
8
作者 何涛 刘乃豪 +3 位作者 吴帮玉 李博 朱旭 郑浩 《工程数学学报》 CSCD 北大核心 2023年第1期1-19,共19页
断层刻画了地层的边界位置,地震成像数据中反射层的不连续性可作为断层解释的主要依据。深度神经网络的强非线性性质可作为地震数据中断层不连续特征表达的有力工具,断层识别问题可视作一个像素级别的二分类问题,并使用深度学习方法对... 断层刻画了地层的边界位置,地震成像数据中反射层的不连续性可作为断层解释的主要依据。深度神经网络的强非线性性质可作为地震数据中断层不连续特征表达的有力工具,断层识别问题可视作一个像素级别的二分类问题,并使用深度学习方法对此问题进行建模求解。据此可给出一种端到端的基于深度学习网络的三维断层自动识别方法。首先利用地震子波与反射系数卷积合成多组三维地震数据,建立用于深度网络学习断层特征的样本数据,随后搭建网络进行训练,网络训练完成后应用于实际地震数据。鉴于残差模块可很好地提升网络泛化性能,所提出的将残差网络中的残差块结构引入U-Net中的方法,可用于提升通过合成数据样本训练得到的网络模型在训练数据之外,即实际地震数据上的断层识别性能。所建立网络用于断层解释时,输入为叠后三维地震数据,输出为相同维度的三维数据体,其中每一输出值代表输入三维地震数据相同位置处断层的概率。实际算例对比测试表明,此方法可对三维地震数据中的断层进行有效识别,在合成数据集上训练精度相差不大的前提下,引入残差模块的ResU-Net在实际地震数据上的断层识别泛化性能得到提升。 展开更多
关键词 断层识别 残差模块 ResU-Net 合成训练样本 泛化性能
下载PDF
融合多源异构数据的滑坡变形阶段智能判识方法
9
作者 蒲未来 刘敦龙 +2 位作者 桑学佳 张少杰 陈乔 《灾害学》 CSCD 北大核心 2023年第4期179-186,共8页
针对滑坡体不同变形阶段的监测数据样本不均衡,样本扩充量的限定研究较少以及判识模型准确率较低等现实问题,该文提出了一种少数类样本全局扩充量测算方法以及将分类结果混淆矩阵与GSA相结合的基于遗传的多分类样本合成方法MCGSA,可避... 针对滑坡体不同变形阶段的监测数据样本不均衡,样本扩充量的限定研究较少以及判识模型准确率较低等现实问题,该文提出了一种少数类样本全局扩充量测算方法以及将分类结果混淆矩阵与GSA相结合的基于遗传的多分类样本合成方法MCGSA,可避免产生大量的合成样本,且有效解决了样本不均衡问题;其次借助堆栈泛化思想以及具有较强知识挖掘能力的机器学习模型,结合滑坡体的多源异构监测数据,构建了基于stacking的滑坡变形阶段智能判识模型;最后将该模型应用在多个滑坡隐患点上进行现场实验测试,并进行了对比实验分析,分析结果显示该判识模型的准确率可达89%,F1宏平均值达到了74%。模型的判识结果可为区域内滑坡隐患点的预警信息发布提供辅助决策。 展开更多
关键词 滑坡变形阶段 多源异构 全局扩充量测算 MCGSA样本合成 混淆矩阵
下载PDF
基于人工少数类样本合成过抽样技术算法构建胃癌术后便秘预测模型及护理研究
10
作者 卞海磊 李陵君 +2 位作者 李丹丹 丁佳骏 倪荔 《国际护理学杂志》 2023年第23期4321-4325,共5页
目的分析胃癌患者术后是否发生便秘、其产生原因及相关影响因素, 为构建便秘风险预测模型, 减少术后发生便秘提供参考。方法选取2020年1月至2023年1月同济大学附属东方医院收治的124例胃癌术后患者, 使用单因素比较及Logistic多因素回... 目的分析胃癌患者术后是否发生便秘、其产生原因及相关影响因素, 为构建便秘风险预测模型, 减少术后发生便秘提供参考。方法选取2020年1月至2023年1月同济大学附属东方医院收治的124例胃癌术后患者, 使用单因素比较及Logistic多因素回归分析模型筛选出其中独立影响病情的因素。使用C指数对该模型的准确度进行验证。采用少数类样本合成过抽样技术(SMOTE)算法重构相关影响要素的原始数据, 从而得到通过SMOTE算法下的胃癌术后患者便秘模型, 并在该模型的基础上进行了分析, 得到科学的护理结果。结果 124例中有42例患者术后发生便秘。术前有便秘史、手术方式、饮食习惯等为胃癌术后发生便秘的相关因素(P<0.05)。手术方式、卧床时间、性别是胃癌患者术后发生便秘的独立危险因素(P<0.05), 手术方式为传统开腹手术治疗、卧床时间长、男患者术后易出现便秘。将手术方式、卧床时间、性别纳入预测模型中, 对原始Logistic回归模型1与基于SMOTE重建的Logistic回归模型2进行分析, 采用ROC曲线检验结果显示, Logistic回归模型2的ROC检验效能显著, (AUC模型1=0.795, AUC模型2=0.838)。采用10折交叉法, 将与该模型相对应的数据均分为20份, 每个数据轮流将其中1份作为测试集, 剩余数据均用作训练集检验。其中, 2个预警模型的预测质量, 模型2为0.75, 显著优于原始Logistic回归预警模型0.70(P<0.05)。结论胃癌术后患者便秘发生率较高, 并且术后便秘会持续很长一段时间, 患者出现排便困难及腹胀等并发症, 在临床上应该加大对胃癌患者术后的观察。通过便秘预测风险模型, 可以对便秘风险做出判断, 尽可能尽早采取相应的预防措施, 提高医护工作质量, 从而加快患者病情恢复, 实现最佳预后。 展开更多
关键词 数类样本合成过抽样技术算法 胃癌:术后 便秘 预警模型
原文传递
利用层次模型进行训练学习的线路设备缺陷检测方法 被引量:39
11
作者 付晶 邵瑰玮 +2 位作者 吴亮 刘磊 季铮 《高电压技术》 EI CAS CSCD 北大核心 2017年第1期266-275,共10页
无人机输电线路巡检中的线路部件缺陷自动化检测一直是一个难题,为了解决输电线路中螺母-销钉、防振锤部件缺陷的判别问题,提出了利用层次模型"与或图"对目标进行分解表达,建立部件之间的约束关系,构建多向的判别路径的方法... 无人机输电线路巡检中的线路部件缺陷自动化检测一直是一个难题,为了解决输电线路中螺母-销钉、防振锤部件缺陷的判别问题,提出了利用层次模型"与或图"对目标进行分解表达,建立部件之间的约束关系,构建多向的判别路径的方法。利用基于类Haar特征和级联Ada Boost分类器对目标基元进行识别,通过数据合成扩充数据样本用于训练,以提高分类器的训练性能。实验结果表明,该方法有效综合了识别检测技术,在少量样本的条件下,能有效地实现若干输电线路部件的缺陷判别,为输电线路缺陷检测任务提供了一种参考方法。 展开更多
关键词 线路设备 缺陷检测 层次模型 训练 合成样本
下载PDF
聚类边界过采样不平衡数据分类方法 被引量:31
12
作者 楼晓俊 孙雨轩 刘海涛 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第6期944-950,共7页
针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入"聚类一致性系数"找到少数类样本的边界,利用边界样本的... 针对传统SMOTE过采样方法在生成合成样本的过程中存在的盲目性,以及对噪声敏感且容易出现过拟合现象的问题,提出一种改进的聚类边界样本过采样(CB-SMOTE)方法,通过引入"聚类一致性系数"找到少数类样本的边界,利用边界样本的最近邻密度来剔除噪声点和确定合成样本的数量,对SMOTE方法的新样本合成规则进行了优化.该方法是一种指导性的过采样方法,合成样本更加有利于分类器的学习.通过实验对比6种不同方法在UCI公共数据集上的分类性能,结果表明:CB-SMOTE方法对少数类样本和多数类样本都具有较高的分类准确率,且对过采样倍数的变化具有更高的稳定性. 展开更多
关键词 不平衡数据 过采样 聚类边界 最近邻密度 合成样本
下载PDF
基于改进SMOTE的不平衡数据挖掘方法研究 被引量:31
13
作者 杨智明 乔立岩 彭喜元 《电子学报》 EI CAS CSCD 北大核心 2007年第B12期22-26,共5页
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调... 少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率。 展开更多
关键词 不平衡数据集 少类样本合成过采样技术 自适应SMOTE 合成样本 近邻选择策略
下载PDF
心血管事件患者术后30 d死亡风险决策树模型的构建与评估——基于少数类样本合成过采样技术算法
14
作者 陈永庄 莫小乔 谢天 《中华危重症医学杂志(电子版)》 CAS CSCD 2023年第5期390-398,共9页
目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺... 目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺血性心脏病史和/或充血性心力衰竭史患者),提取患者基本临床信息以及相关基础病和手术相关评分信息。采用SMOTE算法对原始数据集进行重建,并应用全子集回归筛选预测因子,将数据集按7∶3分为训练组和验证组,其中训练组用于建立决策树风险预测模型,验证组用于内部验证。结果:患者术后30 d病死率为3.0%(93/3086),术后24 h ICU入住率为4.5%(140/3086)。全子集回归分析显示年龄>75岁[比值比(OR)=1.033,95%置信区间(CI)(1.024,1.042),P<0.001]、贫血[OR=1.368,95%CI(1.211,1.546),P<0.001]、慢性肾脏病分期>2期[OR=1.381,95%CI(1.277,1.494),P<0.001]、术前输血[OR=4.496,95%CI(3.268,6.185),P<0.001]、急诊手术[OR=3.344,95%CI(2.752,4.064),P<0.001]、红细胞分布宽度>15.7%[OR=2.097,95%CI(1.658,2.652),P<0.001]及美国麻醉医师协会分级>2级[OR=3.362,95%CI(2.734,4.135),P<0.001]是心血管事件患者术后30 d死亡的危险因素。应用以上7个预测因子构建决策树模型。结果显示训练组受试者工作特征曲线下面积为0.853[95%CI(0.837,0.868),P<0.001],敏感度、特异度分别为0.765、0.756;验证组受试者工作特征曲线下面积为0.858[95%CI(0.834,0.882),P<0.001],敏感度、特异度分别为0.938、0.612,总体判别能力良好。结论:心血管事件患者术后30 d死亡事件发生率低,为不平衡数据分类问题,本研究基于处理不平衡数据常用的SMOTE算法,避免了小概率事件建模过程中的过拟合问题。同时决策树模型具有直观、便捷、个性化的特点,为医务工作者提供了方便的临床预测工具。 展开更多
关键词 少数类样本合成过采样技术算法 术后死亡 全子集回归 预测模型 决策树
原文传递
基于少数类样本合成过抽样技术算法2型糖尿病合并周围神经病变风险预警模型构建
15
作者 庄翠侠 杨俊平 +4 位作者 王妍 刘思园 姜莉晴 季学磊 祝腊香 《临床军医杂志》 CAS 2023年第9期952-955,959,共5页
目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。... 目的探讨2型糖尿病合并周围神经病变的危险因素,并基于少数类样本合成过抽样技术(SMOTE)算法构建2型糖尿病合并周围神经病变的风险预警模型。方法选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。根据周围神经病变发生情况将患者分为周围神经病变组(n=70)和无周围神经病变组(n=135)。收集并记录患者的年龄、性别、病程、居住地、婚姻状态、体质量指数、文化程度、饮酒史、吸烟史、糖化血红蛋白、高血压、空腹血糖及合并糖尿病视网膜病变(DR)等资料。采用Logistic回归分析筛选2型糖尿病合并周围神经病变的危险因素,应用SMOTE算法构建2型糖尿病合并周围神经病变的预警模型。采用受试者工作特征(ROC)曲线对预警模型的预测效能进行分析。结果Logistic回归分析结果显示,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素(P<0.05)。原始预警模Logit(P_(1))H-L检验结果(决定系数R^(2)=0.352,P=0.328),提示Logistic回归模型的拟合度良好。基于SMOTE算法的预警模型Logit(P_(2))H-L检验结果(决定系数R^(2)=0.371,P=0.635),提示基于SMOTE算法的预警模型拟合度良好。原始预警模型的ROC曲线下面积为0.809,基于SMOTE算法的预警模型的ROC曲线下面积为0.927。结论年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素,基于SMOTE算法的预警模型能够对2型糖尿病合并周围神经病变进行准确预测,可帮助临床制定周围神经病变的相关防治对策。 展开更多
关键词 2型糖尿病 周围神经病变 少数类样本合成过抽样技术算法 预警模型
下载PDF
不平衡数据集异常检测和分类算法
16
作者 樊芮 陈湘媛 +1 位作者 王冠男 崔艳辉 《电力系统及其自动化学报》 CSCD 北大核心 2023年第9期112-119,共8页
针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对... 针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对“异常”数据进行过采样以构建平衡数据集,最后利用所提最大类间-类内距K-均值聚类进行自动聚类,实现3种异常数据的分类判决。结果表明,所提方法能够获得较高的异常检测和分类性能,并且具有较强的泛化能力。 展开更多
关键词 异常检测及分类 不平衡数据 最大类间-类内距K-均值聚类 少数样本合成技术 过采样
下载PDF
一种利用虚拟数据学习的电力部件识别方法 被引量:4
17
作者 吴亮 谢予星 邹鹏飞 《电子设计工程》 2017年第21期1-5,共5页
针对电力领域高质量标记数据不足的情况,提出了一种虚拟电力场景的搭建及相应的数据和标记的快速生成方法。并且本文通过虚拟数据集,以防振锤作为主要对象,经过3种基于机器学习的目标检测方法的实验比较与理论分析,得出可变部件模型(Def... 针对电力领域高质量标记数据不足的情况,提出了一种虚拟电力场景的搭建及相应的数据和标记的快速生成方法。并且本文通过虚拟数据集,以防振锤作为主要对象,经过3种基于机器学习的目标检测方法的实验比较与理论分析,得出可变部件模型(Deformable Parts Model,DPM)在虚拟数据集上训练后,能够在真实数据集取得了最好结果的结论。通过本文方法,可以快速得到针对电力线路部件的训练样本,并可以得到相对较好的初始分类结果,以进一步扩充样本以获得更精确的检测模型。同时本文的方法还可以方便的应用到其他电力场景与其他电力部件中去。 展开更多
关键词 虚拟影像 合成样本 电力部件 目标识别 机器学习
下载PDF
一种非平衡数据分类的过采样随机森林算法 被引量:11
18
作者 赵锦阳 卢会国 +2 位作者 蒋娟萍 袁培培 柳学丽 《计算机应用与软件》 北大核心 2019年第4期255-261,316,共8页
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法... 在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 少数类 合成样本 分类
下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
19
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数类样本合成过采样技术 支持向量机
下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:24
20
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 分类 遗传算子 少数类样本合成过采样技术(SMOTE) SYNTHETIC MINORITY OVER-SAMPLING technique (SMOTE)
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部