期刊文献+
共找到1,452篇文章
< 1 2 73 >
每页显示 20 50 100
基于ADASYN数据平衡化的PSO-BPNN变压器套管故障诊断 被引量:1
1
作者 杨昊 胡文秀 +3 位作者 张璐 陈晋鹏 周思佳 赵思瑞 《电力工程技术》 北大核心 2024年第2期170-178,共9页
变压器套管作为设备重要的绝缘部件,其绝缘性能直接影响着设备的安全运行。为诊断变压器套管绝缘状态,改善变压器套管油中溶解气体的小样本不平衡数据对变压器套管故障诊断结果的影响,使用粒子群优化结合反向传播神经网络(particle swar... 变压器套管作为设备重要的绝缘部件,其绝缘性能直接影响着设备的安全运行。为诊断变压器套管绝缘状态,改善变压器套管油中溶解气体的小样本不平衡数据对变压器套管故障诊断结果的影响,使用粒子群优化结合反向传播神经网络(particle swarm optimization combined with back propagation neural network,PSO-BPNN)和自适应综合过采样(adaptive synthetic sampling,ADASYN)算法对变压器套管进行故障诊断。首先收集变压器套管的历史故障数据,建立具有明确故障类别的变压器套管油中溶解气体样本集,并通过ADASYN算法对原始数据中的少数类样本进行合成,得到平衡后的故障数据,然后将平衡后的油中溶解气体作为模型输入,故障状态作为标签输出,通过PSO-BPNN模型对变压器套管进行诊断,最后在原始样本集下使用反向传播神经网络(back propagation neural network,BPNN)、遗传结合反向传播神经网络(genetic combined with back propagation neural network,G-BPNN)算法、布谷鸟搜索结合反向传播神经网络(cuckoo search combined with back propagation neural network,CS-BPNN)算法以及PSO-BPNN模型对套管进行诊断。结果表明,针对变压器油纸套管绝缘状态进行故障诊断的多个模型中,基于ADASYN平衡数据后的PSO-BPNN模型和其他模型相比准确度最高,能有效减小小样本不平衡数据对诊断结果的影响,为判断变压器油纸套管绝缘性能提供了有效方法。 展开更多
关键词 变压器套管 故障诊断 油中溶解气体 反向传播神经网络(BPNN) 平衡数据 自适应综合过采样(ADASYN)
下载PDF
基于GAN的数据平衡化问题实验对比分析
2
作者 王志勇 张翠萍 《宁夏大学学报(自然科学版)》 CAS 2023年第2期150-155,162,共7页
数据不平衡指数据集中各类别的样本数量极不均衡,实际应用中这类问题经常出现.研究了传统的数据过采样技术RANDOM、SMOTE、ADASYN以及目前流行的深度学习技术GAN.基于加利福尼亚大学16个非图像机器学习数据集,通过大量实验对传统过采样... 数据不平衡指数据集中各类别的样本数量极不均衡,实际应用中这类问题经常出现.研究了传统的数据过采样技术RANDOM、SMOTE、ADASYN以及目前流行的深度学习技术GAN.基于加利福尼亚大学16个非图像机器学习数据集,通过大量实验对传统过采样技术以及CGAN、WGAN进行评估.通过对比分析发现:在训练样本不充足的情况下,相对于CGAN及传统的过采样技术,WGAN能够产生更好的样本,从而获得更高的测试精度.同时,研究发现训练样本的不平衡率是影响CGAN和WGAN过采样技术运行结果的重要因素. 展开更多
关键词 过采样 平衡数据 数据增强技术
下载PDF
数据平衡与模型融合的用户购买行为预测 被引量:2
3
作者 李伊林 段海龙 林振荣 《计算机应用与软件》 北大核心 2022年第9期50-55,86,共7页
为了提高电子商务中的用户购买行为预测的效果,提出数据平衡与模型融合的方法来对用户购买行为进行预测。在对用户行为数据提取特征时发现数据样本类别存在严重不平衡的情况,针对这一问题运用改进的欠采样平衡方法处理用户行为数据,运... 为了提高电子商务中的用户购买行为预测的效果,提出数据平衡与模型融合的方法来对用户购买行为进行预测。在对用户行为数据提取特征时发现数据样本类别存在严重不平衡的情况,针对这一问题运用改进的欠采样平衡方法处理用户行为数据,运用基于极端梯度提升(XGBoost)算法的融合模型对用户购买行为进行预测。以京东商城的交易数据作为实验数据集,通过与单一预测模型的对比实验证明了在预测精度和泛化能力方面融合模型相较于单一预测模型的表现都更好。 展开更多
关键词 购买预测 数据平衡 极端梯度提升 融合模型
下载PDF
基于数据平衡深度学习的不同成熟度冬枣识别 被引量:14
4
作者 王铁伟 赵瑶 +3 位作者 孙宇馨 杨然兵 韩仲志 李娟 《农业机械学报》 EI CAS CSCD 北大核心 2020年第S01期457-463,492,共8页
为解决不同成熟度冬枣的样本数量相差悬殊导致的识别率低的问题,本文提出了一种基于数据平衡的Faster R-CNN的冬枣识别方法。该方法针对自然环境下不同成熟度的冬枣,首先从不同角度进行了数据平衡的Faster R-CNN冬枣识别方法研究,然后... 为解决不同成熟度冬枣的样本数量相差悬殊导致的识别率低的问题,本文提出了一种基于数据平衡的Faster R-CNN的冬枣识别方法。该方法针对自然环境下不同成熟度的冬枣,首先从不同角度进行了数据平衡的Faster R-CNN冬枣识别方法研究,然后将所提出的方法与基于YOLOv3的识别方法进行了对比试验研究。研究结果表明:所提出的数据平衡的Faster R-CNN方法在样本数量不足和类别不平衡的情况下,增强了模型的泛化效果,对片红冬枣识别的平均精确度达到了98.50%,总损失值小于0.5,其识别平均精确度高于YOLOv3。该研究对解决冬枣自动化和智能化采摘的识别问题具有一定的实际意义和应用价值。 展开更多
关键词 冬枣 深度学习 数据平衡 图像识别 Faster R-CNN
下载PDF
资源一号02D卫星星地数据平衡分析与设计 被引量:2
5
作者 武小栋 王建 +5 位作者 赵妍 张宏宇 王啸虎 魏昕 张景阳 贺捷 《航天器工程》 CSCD 北大核心 2020年第6期51-59,共9页
资源一号02D卫星作为我国首颗民用高光谱业务卫星,搭载两台中分辨率、大幅宽相机,载荷原始数据量高达3.45Gbit/s。针对卫星载荷数据高时效性的传输需求,文章从原始载荷数据率下传需求、图像压缩比选择、对地观测弧段和地面站接收情况... 资源一号02D卫星作为我国首颗民用高光谱业务卫星,搭载两台中分辨率、大幅宽相机,载荷原始数据量高达3.45Gbit/s。针对卫星载荷数据高时效性的传输需求,文章从原始载荷数据率下传需求、图像压缩比选择、对地观测弧段和地面站接收情况以及固存容量使用需求等方面进行分析,设计了卫星数据处理与传输分系统,通过采用灵活的图像压缩比组合、多种工作模式联合、数传天线接力传输等方式,实现卫星星地数据传输平衡,提升了卫星数据传输效能,对后续遥感卫星星地数据平衡设计有一定借鉴意义。 展开更多
关键词 资源一号02D卫星 数据处理与传输 数据平衡
下载PDF
基于数据平衡和深度学习的开心果品质视觉检测方法 被引量:6
6
作者 高霁月 倪建功 +1 位作者 杨昊岩 韩仲志 《农业机械学报》 EI CAS CSCD 北大核心 2021年第7期367-372,共6页
为探究数据集中分类数量的平衡性对开心果品质检测的影响,将开心果图像与深度学习网络相结合,提出一种数据自动平衡的检测方法。根据行业标准将开心果数据集分为开口、闭口和缺陷3类,在此基础上再分为未经数据平衡和经过数据平衡2个数据... 为探究数据集中分类数量的平衡性对开心果品质检测的影响,将开心果图像与深度学习网络相结合,提出一种数据自动平衡的检测方法。根据行业标准将开心果数据集分为开口、闭口和缺陷3类,在此基础上再分为未经数据平衡和经过数据平衡2个数据集,分别使用AlexNet、GoogLeNet、ResNet50、SqueezeNet、ShuffleNet和Xception 6种网络对2类数据集进行分类测试。结果表明,经过数据平衡的数据集网络准确率均得到了提高,6种网络平均测试准确率由96.75%提高到99.26%,SqueezeNet网络的测试集准确率提升最明显,由93.76%提高到99.02%,ResNet50网络的测试准确率最高,为99.96%。本文方法可用于开心果品质视觉检测。 展开更多
关键词 开心果 深度学习 数据平衡 视觉检测
下载PDF
融合拟单层覆盖粗集的集值数据平衡方法研究 被引量:3
7
作者 吴正江 杨天 +2 位作者 郑爱玲 梅秋雨 张亚宁 《计算机工程与应用》 CSCD 北大核心 2022年第19期166-173,共8页
如今不平衡数据存在生活中各个领域,如何有效地对其分类已经成为研究的热点。传统的过采样与欠采样方法虽然能保证数据的平衡性,但无法克服因数据分布和噪声对数据的分类造成的影响。为了降低数据分布与噪声在集值信息系统中对不平衡数... 如今不平衡数据存在生活中各个领域,如何有效地对其分类已经成为研究的热点。传统的过采样与欠采样方法虽然能保证数据的平衡性,但无法克服因数据分布和噪声对数据的分类造成的影响。为了降低数据分布与噪声在集值信息系统中对不平衡数据分类的影响,提出了一种基于拟单层覆盖粗集的过采样与欠采样相结合的模型。通过拟单层覆盖粗集DA0与DE0下近似将数据主要划分为两个部分,将属于下近似集的部分用BorderlineSMOTE进行过采样,将不属于下近似集的部分用ClusterCentroids进行欠采样,最终将二者合并即为最终数据集。拟单层覆盖粗集是适用于集值信息系统的高近似质量、快速计算的模型,高近似质量可以使其保留尽可能多的可靠数据来保证模型的泛化能力。通过混合处理方式,不仅能够降低噪声数据对BorderlineSMOTE的影响,还能通过ClusterCentroids极大程度地保留被过滤数据的信息完整性。通过相关对比实验,采用ExtraTree、DecisionTree、FGCNN等方法,验证了该模型的有效性。 展开更多
关键词 拟单层覆盖粗集 平衡数据 近似集 混合处理 过采样 欠采样
下载PDF
ORACLE数据库中解决数据平衡的方法
8
作者 马崇华 《昆明理工大学学报(理工版)》 1999年第2期64-67,共4页
在帐务数据处理中,对于各种汇总报表,都存在着解决收、支平衡的误差问题.在大型数据库ORACLE中,解决这类问题的关键,是怎样灵活使用该数据库中的函数,并以它作为基础,构造一个强有力的查询模型来解决.本文所介绍的实例。
关键词 ORACLE数据 数据平衡 关系数据
下载PDF
FOXPRO 2.5 在 WINDOWS 环境下一种数据平衡校核通用程序的设计
9
作者 何苇杭 《交通与计算机》 1997年第4期51-54,共4页
数据平衡校核是统计报表填报中经常进行的一项工作,文章提供了一种通用程序设计方法,用一个程序实现不同内容的数据平衡校核,编程的工作量大大减少,实用性比较强。
关键词 统计报表 设计 校核 数据平衡 通用程序
下载PDF
天然气供用数据平衡
10
作者 高本河 陈秀宏 李紫笑 《大沽化工》 2003年第4期27-29,共3页
关键词 天然气 计量管理 质量管理 供用计量 数据平衡
下载PDF
一种基于数据分布的不平衡数据过采样方法
11
作者 陈丽萍 王洪海 何舒平 《安徽大学学报(自然科学版)》 CAS 北大核心 2024年第5期26-36,共11页
针对现有不平衡数据过采样方法生成重叠样本、潜在价值不高样本以及过拟合等问题,提出了一种基于数据分布的过采样方法.该方法首先将少数类样本划分成不同子簇,根据样本的空间分布位置识别噪声样本和少数类边界样本,并删除噪声样本;进... 针对现有不平衡数据过采样方法生成重叠样本、潜在价值不高样本以及过拟合等问题,提出了一种基于数据分布的过采样方法.该方法首先将少数类样本划分成不同子簇,根据样本的空间分布位置识别噪声样本和少数类边界样本,并删除噪声样本;进而将对分类边界决策影响大的少数类边界样本作为种子样本,并结合种子样本所在子簇的稀疏因子及其识别的难易程度确定采样权重;最后在种子样本所在的子簇中生成新样本.为了验证所设计采样方法的有效性,分别使用AdaBoost(adaptive boosting)和SVM(support vector machine)算法对12个数据集进行分类实验,结果表明,与传统的过采样算法相比,所设计的过采样方法在保证了整体分类性能下,提高了不平衡数据中对少数类的分类效果. 展开更多
关键词 平衡数据 数据分布 过采样 稀疏因子 重叠样本
下载PDF
基于ADASYN和WGAN的混合不平衡数据处理方法
12
作者 周万珍 盛媛媛 +1 位作者 张永强 马金龙 《河北工业科技》 CAS 2024年第4期291-298,共8页
为了解决不平衡数据集中少数类样本分类精度较低的问题,提出了一种处理不平衡数据集的ADASYN-WGAN方法。首先,采用ADASYN(adaptive synthetic sampling)算法生成少数类样本,用这些生成样本代替WGAN(wasserstein generative adversarial ... 为了解决不平衡数据集中少数类样本分类精度较低的问题,提出了一种处理不平衡数据集的ADASYN-WGAN方法。首先,采用ADASYN(adaptive synthetic sampling)算法生成少数类样本,用这些生成样本代替WGAN(wasserstein generative adversarial networks)中的随机噪声;其次,利用WGAN算法生成符合原始数据集分布规律的少数类样本,构建平衡数据集;然后,在6个公开数据集上,采用随机森林分类器对所提方法和4种过采样算法得出的处理结果分别与原始数据集进行对比;最后,通过F1-Score,G-mean和AUC等分类评估指标的表现验证所提方法的有效性。结果表明:在对比实验中,经过ADASYN-WGAN方法得到的平衡数据集在随机森林分类器的十折交叉验证中,4个公开数据集中的各项分类评估指标值均达到最优,虽然另2个公开数据集中的AUC值略低,但其F1-Score和G-mean取得了最高值。所提出的ADASYN-WGAN方法可生成高质量的数据样本,并可为解决不平衡数据集中少数类样本的预测偏差问题提供参考。 展开更多
关键词 数据处理 平衡数据 WGAN ADASYN 过采样方法 随机森林
下载PDF
不平衡数据下基于SVM增量学习的指挥信息系统状态监控方法
13
作者 焦志强 易侃 +1 位作者 张杰勇 姚佩阳 《系统工程与电子技术》 EI CSCD 北大核心 2024年第3期992-1003,共12页
针对指挥信息系统历史状态样本有限的特点,基于支持向量机(support vector machines,SVM)设计了一种面向不平衡数据的SVM增量学习方法。针对系统正常/异常状态样本不平衡的情况,首先利用支持向量生成一部分新样本,然后通过分带的思想逐... 针对指挥信息系统历史状态样本有限的特点,基于支持向量机(support vector machines,SVM)设计了一种面向不平衡数据的SVM增量学习方法。针对系统正常/异常状态样本不平衡的情况,首先利用支持向量生成一部分新样本,然后通过分带的思想逐带产生分布更加均匀的新样本以调节原样本集的不平衡比。针对系统监控实时性要求高且在运行过程中会有新样本不断加入的特点,采用增量学习的方式对分类模型进行持续更新,在放松KKT(Karush-Kuhn-Tucker)更新触发条件的基础上,通过定义样本重要度并引入保留率和遗忘率的方式减少了增量学习过程中所需训练的样本数量。为了验证算法的有效性和优越性,实验部分在真实系统中获得的数据集以及UCI数据集中3类6组不平衡数据集中与现有的算法进行了对比。结果表明,所提算法能够有效实现对不平衡数据的增量学习,从而满足指挥信息系统状态监控的需求。 展开更多
关键词 指挥信息系统 系统监控 支持向量机 平衡数据 增量学习
下载PDF
数据不平衡情况下的柴油机故障诊断方法
14
作者 毕凤荣 郭明智 +3 位作者 毕晓阳 汤代杰 沈鹏飞 黄盟 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第8期810-820,共11页
由于强调整体分类的准确率,机器学习方法在数据不平衡情况下的柴油机故障诊断效果不佳.因此,本文提出一种改进合成少数过采样技术(SMOTE)与机器学习技术相结合的故障诊断方法.首先对SMOTE算法进行改进,采用k近邻算法滤除多数类中的噪声... 由于强调整体分类的准确率,机器学习方法在数据不平衡情况下的柴油机故障诊断效果不佳.因此,本文提出一种改进合成少数过采样技术(SMOTE)与机器学习技术相结合的故障诊断方法.首先对SMOTE算法进行改进,采用k近邻算法滤除多数类中的噪声样本,从而减少各种故障类别之间的重叠.同时,使用k-means算法确定少数类稀疏度和采样权重,减轻类内不平衡.然后,使用改进SMOTE算法平衡柴油机故障数据,并利用机器学习方法进行最终故障诊断.在二维数据集上的实验表明,改进SMOTE算法能有效减轻原始数据中存在的类重叠和类内不平衡问题.柴油机故障诊断实验表明,改进SMOTE算法生成的故障样本能更好地模拟原始故障样本,使用改进SMOTE算法能提高故障诊断方法的准确率. 展开更多
关键词 数据平衡 故障诊断 合成少数过采样技术 柴油机 振动信号
下载PDF
不平衡数据集的DC-SMOTE过采样方法
15
作者 冀常鹏 尚佳奇 代巍 《智能系统学报》 CSCD 北大核心 2024年第3期525-533,共9页
针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决... 针对不平衡数据集在分类任务中表现不佳的问题,提出基于局部密度与集中度的过采样算法。针对数据集中所有的少数类样本点,分别利用高斯核函数与局部引力来计算局部密度与集中度;对于局部密度较小的部分有针对性地合成第一类新样本,解决类内不平衡问题。根据集中度的不同,区分出少数类样本的边界,有针对性地合成第二类新样本,达到强化边界的作用;同时,通过自适应生成新样本,有效解决大部分过采样算法没有明确过采样量或者盲目追求样本平衡度相等的问题。最后,在公开的12个不平衡数据集上进行了实验,实验结果表明,本算法在低不平衡数据集与高不平衡数据集上的应用均拥有良好的表现。 展开更多
关键词 平衡数据 过采样 高斯核函数 局部引力 高不平衡数据 合成少数类过采样 平衡 分类
下载PDF
基于知识蒸馏的不平衡数据下入侵检测方法研究
16
作者 董国芳 刘兵 鲁烨堃 《云南民族大学学报(自然科学版)》 CAS 2024年第2期219-224,共6页
基于深度学习的网络入侵检测模型面临模型结构复杂、部署效率低及流量数据类别不平衡的问题.针对这些问题,提出了1种结合知识蒸馏和类别权重焦点损失的网络入侵检测方法.该方法以精度高、参数量较多的入侵检测模型作为教师模型,与小型... 基于深度学习的网络入侵检测模型面临模型结构复杂、部署效率低及流量数据类别不平衡的问题.针对这些问题,提出了1种结合知识蒸馏和类别权重焦点损失的网络入侵检测方法.该方法以精度高、参数量较多的入侵检测模型作为教师模型,与小型学生模型生成蒸馏损失;引入增加类别权重的焦点损失函数作为学生损失;结合蒸馏损失与学生损失生成总的损失函数优化学生模型.实验结果表明,该方法性能相较于非蒸馏模型在各项指标上均有一定提升. 展开更多
关键词 入侵检测 深度学习 知识蒸馏 平衡数据 焦点损失
下载PDF
面向高维不平衡数据的特征选择算法
17
作者 王振飞 袁佩瑶 +1 位作者 曹中亚 张利莹 《小型微型计算机系统》 CSCD 北大核心 2024年第8期1839-1846,共8页
针对传统高维不平衡数据集的分类算法存在偏向多数类、忽视少数类等问题,本文提出一种基于密度聚类和重要性度量的特征选择算法(DBIM).首先通过随机降采样的方法构造出多个平衡子集,使用DBSCAN密度聚类方法作为基分类器生成初始特征子空... 针对传统高维不平衡数据集的分类算法存在偏向多数类、忽视少数类等问题,本文提出一种基于密度聚类和重要性度量的特征选择算法(DBIM).首先通过随机降采样的方法构造出多个平衡子集,使用DBSCAN密度聚类方法作为基分类器生成初始特征子空间.然后按照重要度对特征进行排序选择出较强分类的特征.最后,为了避免特征之间的冗余性,设计基于类分布的权重指标与冗余性评价指标相结合的方法进行计算,生成高质量的特征子集.在8个公开数据集上的实验结果表明,本文提出DBIM算法可以生成高相关度且低冗余度的特征子集,对高维不平衡数据集进行有效降维,提高分类性能. 展开更多
关键词 高维不平衡数据 密度聚类 特征选择 相关性 冗余性
下载PDF
基于改进级联算法的不平衡数据集分类检测算法
18
作者 吕文官 薛峰 《保定学院学报》 2024年第2期98-103,共6页
以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部... 以提升不平衡数据集分类检测为研究目标,提出基于改进级联算法的不平衡数据集分类检测算法.首先,采用卡尔曼滤波法进行数据去噪预处理,利用小波阈值去噪算法二次消除噪声数据,并对去噪结果进行归一化预处理;利用DPC算法提取数据的局部密度特征,利用时间编码挖掘数据的时序性特征,采用Apriori算法的强关联规则提取数据集特征;利用模糊层次聚类算法对支持向量机进行优化,实现数据类型的划分;利用改进的级联算法联合布谷鸟算法实现不平衡数据集分类检测.实验结果表明本方法的分类协方差低于0.15,检测准确率高于95%,检测时间低于2.2 ms,有效提升了不平衡数据集分类检测效果. 展开更多
关键词 卡尔曼滤波 改进级联算法 平衡数据 分类检测
下载PDF
不平衡数据驱动的山区公路货车移动遮断险态跟驰行为识别模型
19
作者 戢晓峰 薛唯 +2 位作者 卢梦媛 覃文文 李太峰 《安全与环境学报》 CAS CSCD 北大核心 2024年第8期3015-3027,共13页
为识别山区双车道公路货车移动遮断下的小客车险态跟驰行为,基于无人机拍摄和视频轨迹提取技术提取车辆轨迹,利用人工少数类过采样法(Synthetic Minority Oversampling Technique,SMOTE)对不平衡轨迹数据过采样,并对驾驶行为聚类分析,... 为识别山区双车道公路货车移动遮断下的小客车险态跟驰行为,基于无人机拍摄和视频轨迹提取技术提取车辆轨迹,利用人工少数类过采样法(Synthetic Minority Oversampling Technique,SMOTE)对不平衡轨迹数据过采样,并对驾驶行为聚类分析,将跟驰行为标定为危险和安全两种类别;依据紧迫跟驰、偏移过大和车速变化大三种险态跟驰行为诱因,确定险态跟驰行为风险测度(Measure of Driving Risk,MOR),包括碰撞时间倒数、相对横向偏移量和速度变异系数,并将MOR和聚类标定标签作为识别模型输入变量;通过轻量梯度提升机(Light Gradient Boosting Machine,LGBM)建立险态跟驰行为识别模型,再通过支持向量机(Support Vector Machines,SVM)、随机森林(Random Forest,RF)和自适应增强(Adaptive Boosting,AdaBoost)算法验证模型的有效性。以云南省某山区双车道公路为例进行试验,共提取543对小客车跟驰货车轨迹数据,数据预处理后筛选出467对有效跟驰数据;经过采样处理和聚类标定,结果表明:小客车跟驰货车时,超三成小客车处于险态跟驰状态;险态跟驰行为直道和弯道识别模型的精确率分别达95.49%和95.48%,其中LGBM表现最稳定,而RF和AdaBoost的稳定性较差且精确率不高。基于LGBM的险态跟驰行为识别模型具有较高的准确率和稳定性,在车路协同和自动驾驶等领域有应用前景。 展开更多
关键词 安全工程 险态跟驰行为识别 轻量梯度提升机(LGBM)算法 山区双车道公路 平衡数据
下载PDF
基于联合熵的非平衡数据边界混合重采样
20
作者 周传华 任太娇 +1 位作者 罗岚 周昊 《计算机与现代化》 2024年第9期95-100,113,共7页
为了克服在数据平衡处理过程中单一重采样方法易生成冗余样本及误删重要样本信息的局限,本文提出一种基于联合熵的非平衡数据边界混合重采样算法。该算法首先通过引入边界因子对边界集和非边界集进行有效的区分,进一步构建一个联合熵指... 为了克服在数据平衡处理过程中单一重采样方法易生成冗余样本及误删重要样本信息的局限,本文提出一种基于联合熵的非平衡数据边界混合重采样算法。该算法首先通过引入边界因子对边界集和非边界集进行有效的区分,进一步构建一个联合熵指标体系以判断出边界集中少数类样本的重要程度,并根据其重要程度对细分后的少数类样本点设置不同的过采样方法和采样数量,最后使用NearMiss-2算法对非边界集中多数类样本点进行筛选并删除,从而实现数据的相对平衡。通过对9组UCI数据集进行对比实验,实验结果表明:该算法在F1-Score、G-mean及AUC这3个指标上均有提升,验证了其有效性,有较好的非平衡数据分类性能表现。 展开更多
关键词 平衡数据分类 边界因子 联合熵 混合采样
下载PDF
上一页 1 2 73 下一页 到第
使用帮助 返回顶部