期刊文献+
共找到108篇文章
< 1 2 6 >
每页显示 20 50 100
结合聚类边界采样的主动学习
1
作者 胡峰 李路正 +1 位作者 代劲 刘群 《智能系统学报》 CSCD 北大核心 2024年第2期482-492,共11页
主动学习是一种机器学习方法,需要选择最有价值的样本进行标注。目前,主动学习在应用时面临着一些挑战,其依赖分类器的先验假设,这容易导致分类器性能意外下降,同时需要一定规模的样本作为启动条件。聚类可以降低问题规模,是主动学习的... 主动学习是一种机器学习方法,需要选择最有价值的样本进行标注。目前,主动学习在应用时面临着一些挑战,其依赖分类器的先验假设,这容易导致分类器性能意外下降,同时需要一定规模的样本作为启动条件。聚类可以降低问题规模,是主动学习的一种有效手段。为此,结合密度聚类边界采样,开展主动学习方法的研究。针对容易产生分类错误的聚类边界区域,通过计算样本密度,提出一种密度峰值聚类边界点采样方法;在此基础上,给出密度熵的定义,并利用密度熵对聚类边界区域进行启发式搜索,提出一种基于聚类边界采样的主动学习方法。试验结果表明,与文献中的5种主动学习算法相比,该算法能够以更少标记量获得同等甚至更高的分类性能,是一种有效的主动学习算法;在标记不足,无标签样本总量20%的情况下,算法在Accuracy、F-score等指标上取得较好的结果。 展开更多
关键词 主动学习 机器学习 边界 密度峰值 几何采样 信息熵 版本空间 主动
下载PDF
VANET随机部署环境下基于改进型共享最近邻密度峰聚类的快速分簇算法
2
作者 陈靖宇 徐志林 《计算机测量与控制》 2023年第9期174-182,共9页
针对车辆高速移动场景下,网络拓扑变化过大导致网络分簇结果不稳定的问题,提出一种基于改进型共享最近邻密度峰聚类的快速成簇算法SNNCA(shared nearest neighbor clustering algorithm);通过综合考虑节点的链路生存周期和移动相似性,... 针对车辆高速移动场景下,网络拓扑变化过大导致网络分簇结果不稳定的问题,提出一种基于改进型共享最近邻密度峰聚类的快速成簇算法SNNCA(shared nearest neighbor clustering algorithm);通过综合考虑节点的链路生存周期和移动相似性,提出一种全新的节点连接稳定程度评估指标,并将该评估指标应用于节点共享最近邻的计算过程,以组织网络节点为划分合理的多跳簇结构;为适应网络环境的动态变化,提出一种簇维护策略,其中每个层级的簇成员承担着维护下一层级簇成员的任务,该策略能够对簇成员进行批量分离或合并,从而实现了算法的分布式快速收敛;根据随机部署场景中进行的仿真实验结果显示,相比其他较新算法,SNNCA算法降低了74%的簇数量,并且簇成员的平均存活时间增加了近1倍,表现出更好的网络稳定性和健壮性。 展开更多
关键词 车载自组织网络 快速分簇算法 共享最近邻 密度 随机部署场景 多跳簇结构
下载PDF
基于高阶一致性学习的聚类集成算法
3
作者 甘舰文 陈艳 +1 位作者 周芃 杜亮 《计算机应用》 CSCD 北大核心 2023年第9期2665-2672,共8页
现有的大部分关于聚类集成的研究主要关注有效的集成算法的设计。为解决由于基聚类器的质量高低不一、低质量的基聚类器对聚类集成性能产生影响的问题,从数据发掘的角度出发,以基聚类器为基础挖掘数据的内在联系,提出一种高阶信息融合... 现有的大部分关于聚类集成的研究主要关注有效的集成算法的设计。为解决由于基聚类器的质量高低不一、低质量的基聚类器对聚类集成性能产生影响的问题,从数据发掘的角度出发,以基聚类器为基础挖掘数据的内在联系,提出一种高阶信息融合算法——基于高阶一致性学习的聚类集成(HCLCE)算法,从不同的维度表示数据之间的联系。首先,将每种高阶信息融合成一个新的结构化的一致性矩阵;然后,再对得到的多个一致性矩阵进行融合;最后,将多种信息融合为一个一致性的结果。实验结果表明,与次优的LWEA(Locally Weighted Evidence Accumulation)算法相比,HCLCE算法的聚类准确率平均提升了7.22%,归一化互信息(NMI)平均提升了9.19%。可见,HCLCE能得到比聚类集成算法和单独使用一种信息更好的聚类结果。 展开更多
关键词 集成 一致性学习 高阶信息 随机约束 结构化 相似性矩阵
下载PDF
基于自适应LTTB与DTW-DBA-Means的动力电池组不一致性评估方法
4
作者 吴凤和 柴海宁 +4 位作者 章正柱 张宁 王正明 蒋展鹏 郭保苏 《计量学报》 CSCD 北大核心 2024年第6期890-898,共9页
针对电动汽车动力电池组不一致性难以通过外部参数有效评估问题,在对电池组电压数据进行分析时,引入轮廓系数作为不一致性评价指标,并融合自适应降采样(LTTB)与时序聚类(DTW-DBA-Means)算法,提出一种新的动力电池组不一致性评估方法。... 针对电动汽车动力电池组不一致性难以通过外部参数有效评估问题,在对电池组电压数据进行分析时,引入轮廓系数作为不一致性评价指标,并融合自适应降采样(LTTB)与时序聚类(DTW-DBA-Means)算法,提出一种新的动力电池组不一致性评估方法。自适应LTTB能够根据电池组电压序列特点自适应分配压缩区间采样点数目并调整压缩比,可提高DTW-DBA-Means运算效率的同时保证聚类效果。通过运行9个月的实车数据进行实验验证,结果表明,自适应LTTB降采样效果优于动态LTTB与LTTB,且DTW-DBA-Means时序聚类效果优于k-Shape,所提方法在保证评估准确性同时可节省约96.7%的运算时间。 展开更多
关键词 电学计量 动力电池组 一致性评估 轮廓系数 采样 时序数据
下载PDF
改进的密度峰值聚类算法的差分隐私保护方案
5
作者 葛丽娜 陈园园 +1 位作者 王捷 王哲 《郑州大学学报(工学版)》 CAS 北大核心 2023年第6期19-24,共6页
针对改进的密度峰值聚类(AdDPC)算法在计算局部密度时产生的隐私泄露问题以及算法的一次分配策略,提出一种改进的密度峰值聚类算法的差分隐私保护方案。该方案在算法计算局部密度的过程中添加Laplace随机噪声,使得即使攻击者拥有最大背... 针对改进的密度峰值聚类(AdDPC)算法在计算局部密度时产生的隐私泄露问题以及算法的一次分配策略,提出一种改进的密度峰值聚类算法的差分隐私保护方案。该方案在算法计算局部密度的过程中添加Laplace随机噪声,使得即使攻击者拥有最大背景知识,也无法通过添加或者删除数据集中的某一点来获取相应的信息,从而利用差分攻击获取目标数据点的信息,达到保护隐私数据的目的,并且在分配非聚类中心点时引入可达定义改进AdDPC算法的分配策略,避免因为一次分配策略导致数据点分配错误的问题。实验对比了DP-rcCFSFDP算法、AdAPC-rDP算法、IDP K-means算法的F-Measure和ARI,结果表明:当隐私预算大于1.5时,所提算法的F-Measure和ARI优于其他算法,所提算法能够在保护敏感数据的同时保证数据的可用性。 展开更多
关键词 密度峰值 差分隐私 随机噪声 算法
下载PDF
基于网格和密度的随机样例的聚类算法 被引量:2
6
作者 孙志伟 赵政 王红梅 《天津大学学报》 EI CAS CSCD 北大核心 2006年第5期621-626,共6页
为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类... 为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类的参考点,并测试其邻域的稀疏状况、与其他聚类的关系以及非空间属性的约束来决定加入、合并聚类或形成新的聚类;最后把参考点映射回数据.把此算法和DBSCAN及DBRS算法进行了理论比较,并使用合成和真实数据集对GDRS和DBSCAN进行了对比.实验表明,GDRS具有密度算法的优点,即可发现各种形状的聚类并能屏蔽噪声点,且执行效率明显优于密度算法. 展开更多
关键词 数据挖掘 算法 密度 网格 参考点 随机样例 约束
下载PDF
基于滑动窗口密度聚类的数据流偏倚采样算法 被引量:2
7
作者 胡志冬 任永功 杨雪 《计算机科学》 CSCD 北大核心 2013年第9期254-256,269,共4页
对于移动计算领域的移动对象轨迹数据流的管理,最普遍采用的技术手段是采样技术,而传统的均匀采样易丢失一些关键的变化数据,造成信息丢失现象。针对这一问题,提出一种基于概率密度聚类的数据流偏倚采样算法。该算法在滑动窗口模型下,... 对于移动计算领域的移动对象轨迹数据流的管理,最普遍采用的技术手段是采样技术,而传统的均匀采样易丢失一些关键的变化数据,造成信息丢失现象。针对这一问题,提出一种基于概率密度聚类的数据流偏倚采样算法。该算法在滑动窗口模型下,充分利用了轨迹数据流自身的分布特性,结合偏倚采样算法思想克服了均匀采样的数据丢失问题。算法首先采用基于数据存在密度的聚类技术将滑动窗口划分为强簇、弱簇和过度簇,然后针对不同的簇给予不同的采样率,进行偏倚采样,进而得到最终的数据流摘要。经过实际数据集的实验检测,证明算法较好地保证了采样质量,并具有较快的数据处理能力。 展开更多
关键词 轨迹数据流 滑动窗口 密度 偏倚采样
下载PDF
一种基于降维密度聚类的船舶异常轨迹识别方法 被引量:1
8
作者 李可欣 郭健 +3 位作者 王宇君 李宗明 缪坤 陈辉 《包装工程》 CAS 北大核心 2023年第11期284-292,共9页
目的有效分析和探索海洋船舶时空轨迹行为模式,提高船舶轨迹聚类的效率与质量,更好地检测真实船舶的异常行为。方法针对当前船舶轨迹数据研究中存在的对多维特征信息利用不足、检测效率不高、检测精度较差等问题,提出一种精确度高、能... 目的有效分析和探索海洋船舶时空轨迹行为模式,提高船舶轨迹聚类的效率与质量,更好地检测真实船舶的异常行为。方法针对当前船舶轨迹数据研究中存在的对多维特征信息利用不足、检测效率不高、检测精度较差等问题,提出一种精确度高、能自主识别分析多维特征的船舶异常轨迹识别方法。首先利用随机森林分类器评估多维特征重要性,构建轨迹特征的最优组合;然后提出一种降维密度聚类方法,将T–分布随机邻域嵌入(T–SNE)和自适应密度聚类(DBSCAN)模型结合,通过构建特征选择层和无监督聚类层实现对数据元素非线性关系的高效提取以及对聚类参数的智能选择;最后根据聚类结果构建类簇特征向量,计算距离阈值判别轨迹相似度,实现轨迹异常检测模型的构建。结果以UCI数据集为例,降维密度聚类方法对4、13、30、64维特征数据集的F1分数能达到0.9048、0.9534、0.8218、0.6627,多个聚类指标均优于DBSCAN、K–Means等常见聚类算法的。结论研究结果表明,降维密度聚类方法能有效提取数据多维特征结构,实现聚类参数自适应,弥补密度聚类中参数难以确定的问题,有效实现对多种类型船舶轨迹异常的识别。 展开更多
关键词 异常检测 时空轨迹 特征降维 密度 参数自适应 T–分布随机邻域嵌入 随机森林
下载PDF
基于随机抽样一致性算法的车辆轮胎点云提取方法 被引量:1
9
作者 赵诚 陈嘉平 +2 位作者 李春晓 陈迎新 贾克斌 《自动化技术与应用》 2023年第1期14-16,25,共4页
针对激光雷达获取的车辆底盘轮廓点云中轮胎的特征提取与分割问题,提出了一种基于随机抽样一致性算法的车辆轮胎点云提取方法。为了提高轮胎提取的准确性,首先采用随机抽样一致性算法对目标车辆点云进行平面提取,然后对提取的平面点云进... 针对激光雷达获取的车辆底盘轮廓点云中轮胎的特征提取与分割问题,提出了一种基于随机抽样一致性算法的车辆轮胎点云提取方法。为了提高轮胎提取的准确性,首先采用随机抽样一致性算法对目标车辆点云进行平面提取,然后对提取的平面点云进行K-means聚类,剔除离群点,分割出实际的连续平面点云;最后通过采用随机抽样一致性算法对剩余点云进行轮胎提取。为了验证提取方法的有效性,通过计算机仿真的方法,生成车辆底盘轮廓点云,对该仿真数据进行轮胎特征的提取与分割。结果表明,本文提出的方法具有良好的分割提取效果。 展开更多
关键词 激光雷达 车辆轮胎特征提取 随机抽样一致性 K-MEANS
下载PDF
基于新型采样技术的非平衡数据分类方法
10
作者 刘子桐 刘振远 +1 位作者 庞娜 马铭 《北华大学学报(自然科学版)》 CAS 2024年第5期694-700,共7页
在一些现实场景中,数据不平衡问题普遍存在,严重影响模型的预测结果。合成少数类过采样技术(Synthetic Minority Over-Sampling Technique,SMOTE)是解决非平衡分类问题的一种方法,但存在局限性。针对数据中的类不平衡问题,提出基于数据... 在一些现实场景中,数据不平衡问题普遍存在,严重影响模型的预测结果。合成少数类过采样技术(Synthetic Minority Over-Sampling Technique,SMOTE)是解决非平衡分类问题的一种方法,但存在局限性。针对数据中的类不平衡问题,提出基于数据分布和聚类加权的改进SMOTE随机森林分类算法(Random Forest Using SMOTE Based on Data Distribution and Cluster Weighting,DCSMOTE-RF)。该算法通过获取样本分布信息,将少数类样本划分到不同簇群,根据簇群信息量为每个区域分配不同合成份额;少数类样本结合自身权重,生成相应规模的目标样本;通过基于随机森林学习评价训练数据。10组非平衡数据集仿真试验结果表明,DCSMOTE-RF算法对非平衡数据具有较好的预测效果。 展开更多
关键词 非平衡分 合成少数采样技术 随机森林
下载PDF
基于多伯努利密度聚类的多平台多目标融合检测跟踪 被引量:1
11
作者 羿昌宇 李旻哲 《数字技术与应用》 2023年第7期1-3,共3页
由于各平台雷达、电子战探测距离的限制,在大规模编队的融合检测跟踪场景下,各个平台节点的视域范围通常并不相同,每个节点观测到的目标也可能并不完全重叠,这会导致多平台多目标一致性融合检测与跟踪变得困难。在此场景下,本项目提出... 由于各平台雷达、电子战探测距离的限制,在大规模编队的融合检测跟踪场景下,各个平台节点的视域范围通常并不相同,每个节点观测到的目标也可能并不完全重叠,这会导致多平台多目标一致性融合检测与跟踪变得困难。在此场景下,本项目提出基于多目标密度聚类的多平台视域划分与一致性融合检测跟踪方法,基于多个平台的无标签强度函数聚类得到对全局视域的划分,进一步在扩展多目标标签下给出基于标签多伯努利滤波器的一致性多目标滤波算法。通过仿真实验验证了本文所提出算法的有效性。 展开更多
关键词 检测跟踪 密度 探测距离 一致性融合 算法的有效性 滤波算法 滤波器 标签
下载PDF
基于密度峰值聚类和局部稀疏度的过采样算法
12
作者 吕佳 郭铭 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第3期483-494,共12页
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部... 现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能. 展开更多
关键词 不平衡数据 密度峰值 采样 局部稀疏度 合成少数过采样
下载PDF
基于密度峰值聚类的自适应欠采样方法 被引量:10
13
作者 崔彩霞 曹付元 梁吉业 《模式识别与人工智能》 EI CSCD 北大核心 2020年第9期811-819,共9页
基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的... 基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优. 展开更多
关键词 不平衡数据 采样 密度峰值 重叠区
下载PDF
基于密度峰值聚类的随机森林室内定位 被引量:6
14
作者 张萌 吕艳 +2 位作者 倪益华 钱小鸿 杨明 《计算机工程与设计》 北大核心 2018年第5期1490-1496,共7页
为提高室内环境定位系统的精度和可靠性,分析传统定位算法在数据样本选取和模型学习过程中的局限性,设计一种基于密度峰值聚类(density peak cluster,DPC)的随机森林(random forest,RF)室内定位系统。以密度峰值聚类中心为依据对接收信... 为提高室内环境定位系统的精度和可靠性,分析传统定位算法在数据样本选取和模型学习过程中的局限性,设计一种基于密度峰值聚类(density peak cluster,DPC)的随机森林(random forest,RF)室内定位系统。以密度峰值聚类中心为依据对接收信号强度(receive signal strength,RSS)数据进行指纹样本选取,通过指纹数据库训练随机森林模型,结合网格搜索和交叉验证技术寻求最优RF定位模型。实验结果表明,DPC算法建立的指纹数据库可靠性高,优化选择得到的RF模型与单分类回归模型相比,定位精度得到了提升。 展开更多
关键词 室内定位 密度峰值 随机森林 机器学习 指纹数据库
下载PDF
基于改进的随机森林和密度聚类的短期负荷频域预测方法 被引量:21
15
作者 张金金 张倩 +1 位作者 马愿 李智 《控制理论与应用》 EI CAS CSCD 北大核心 2020年第10期2257-2265,共9页
精确的负荷预测对于电力系统的有效调度和安全运行至关重要.本文提出基于改进的随机森林(IRF)和密度的聚类(DBSCAN)的频域组合预测方法.首先,采用经验小波变换(EWT)分解负荷,得到不同的固有模态分量(IMFs);其次,根据各分量特征采用合理... 精确的负荷预测对于电力系统的有效调度和安全运行至关重要.本文提出基于改进的随机森林(IRF)和密度的聚类(DBSCAN)的频域组合预测方法.首先,采用经验小波变换(EWT)分解负荷,得到不同的固有模态分量(IMFs);其次,根据各分量特征采用合理的方法进行预测.其中,低频、中频分量采用IRF预测;高频分量使用DBSCAN根据气象因素温度和湿度聚类,再根据每类的样本特性选择处理方法.最后,叠加各分量的预测值,获取负荷预测值.根据某地市现场负荷数据进行实验,预测结果分别与EWT–IRF,EWT–随机森林(RF)、经验模态分解(EMD)–IRF模型的预测结果进行对比.结果表明,提出的模型具有更高的预测精度,反映了实际负荷的随机性. 展开更多
关键词 负荷预测 基于改进的随机森林 基于密度 经验小波变换
下载PDF
基于密度聚类的低压台区归属关系及相位识别方法
16
作者 闫东辉 《南方能源建设》 2023年第5期149-156,共8页
[目的]供电部门记录的正确的拓扑信息有助于工作人员监测电网信息,分析故障,优化电网运行以满足低压配电台区精益化、智能化管理的需要。目前,各式新型用电设备及用户的加入使低压配电网络结构呈现出持续变化的特征,线路维护成本被大大... [目的]供电部门记录的正确的拓扑信息有助于工作人员监测电网信息,分析故障,优化电网运行以满足低压配电台区精益化、智能化管理的需要。目前,各式新型用电设备及用户的加入使低压配电网络结构呈现出持续变化的特征,线路维护成本被大大提高。[方法]为此,提出基于密度聚类的低压台区归属关系识别方法。首先,提取智能电表有效电压数据生成高维时序电压矩阵;其次,采用t分布随机近邻嵌入方法(t-distributed Stochastic Neighbor Embedding,t-SNE)对高维时序电压数据进行特征提取与降维;然后,应用基于数据密度的噪声应用空间聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)对降维后的数据进行聚类分析,实现低压用户台区归属信息的识别;最后,对海南省三亚市某台区实际数据进行分析,并将所提方法与其他主流的拓扑识别算法进行对比。[结果]分析结果表明所提方法能够达到95%以上的台区识别准确率,高于目前其他主流的拓扑信息识别方法。[结论]文章中的方法在解决此类问题上具有有效性与优势性,可以为实际工程应用提供参考,为低压台区拓扑信息识别领域提供不一样的研究思路。 展开更多
关键词 低压台区 电压数据信息 t分布随机近邻嵌入方法 基于数据密度的噪声应用空间方法 台区归属关系识别 相位识别
下载PDF
基于密度聚类和随机森林的地下储气库注采系统风险评估方法研究 被引量:3
17
作者 冀丰偲 王磊 +2 位作者 张早校 仝淑月 高继峰 《化工自动化及仪表》 CAS 2021年第1期34-39,73,共7页
针对储气库注采运行过程中须承受交变载荷作用以及“强采强注”的不稳定工况带来的动态风险因素,提出一种基于密度聚类和随机森林的地下储气库注采系统风险评估方法。采用异常值检测和相关性分析构建特征数据矩阵,用主元分析法进行维度... 针对储气库注采运行过程中须承受交变载荷作用以及“强采强注”的不稳定工况带来的动态风险因素,提出一种基于密度聚类和随机森林的地下储气库注采系统风险评估方法。采用异常值检测和相关性分析构建特征数据矩阵,用主元分析法进行维度约简,基于密度并结合储气库现场生产工况进行聚类分析,以实现对不同聚类簇的划分,最后应用随机森林模型判别风险,设计了离线建模、在线评估的两重架构。采用某地下储气库案例验证了该方法的适用性。 展开更多
关键词 地下储气库注采系统 风险评估 密度 随机森林 天然气
下载PDF
基于密度峰值聚类和径向基函数的过采样算法 被引量:1
18
作者 陆妙芳 杨有龙 《计算机工程与应用》 CSCD 北大核心 2022年第21期67-74,共8页
现有的大多数过采样算法在采样过程中只考虑少数类样本的分布而忽略多数类样本的分布,且数据集除了存在类间不平衡问题之外,还存在类内不平衡问题。针对这些问题,提出一种基于密度峰值聚类和径向基函数的过采样方法。该方法首先利用改... 现有的大多数过采样算法在采样过程中只考虑少数类样本的分布而忽略多数类样本的分布,且数据集除了存在类间不平衡问题之外,还存在类内不平衡问题。针对这些问题,提出一种基于密度峰值聚类和径向基函数的过采样方法。该方法首先利用改进的密度峰值聚类算法自适应地为少数类聚类,获得多个子簇;利用聚类过程计算所得的局部密度为各子簇分配权重,并根据权重确定各子簇的过采样量;用径向基函数计算少数类样本的相互类势,以相互类势为依据对少数类进行过采样。将算法与不同分类器结合进行实验,用不同指标评价分类效果,实验表明,该算法的分类效果较优。 展开更多
关键词 不平衡数据 采样 密度峰值 径向基函数
下载PDF
基于随机游走的密度峰值聚类算法
19
作者 占志文 刘君 《南昌大学学报(工科版)》 CAS 2022年第2期183-191,共9页
密度峰值聚类算法(DPC)是近年来提出的一种新的密度聚类算法,其核心基于局部密度和相对距离。该算法在定义局部密度以及相对距离时直接用欧式距离,导致在一些稀疏差异大及长弧形的类簇聚类效果差,且一步分配策略的鲁棒性不佳。提出基于... 密度峰值聚类算法(DPC)是近年来提出的一种新的密度聚类算法,其核心基于局部密度和相对距离。该算法在定义局部密度以及相对距离时直接用欧式距离,导致在一些稀疏差异大及长弧形的类簇聚类效果差,且一步分配策略的鲁棒性不佳。提出基于随机游走的密度峰值聚类算法(RW-DPC),即引入随机游走首次到达模型来刻画数据点之间的相似性,重新定义数据点的局部密度,且给出一种新的样本分配策略。对比在人工数据集和UCI真实数据集上与其他聚类算法的实验结果,说明对于密度不均匀及弧形类的数据集,本文算法的聚类效果优于密度峰值聚类算法以及其他算法。 展开更多
关键词 密度峰值 随机游走
下载PDF
一种改进密度峰值聚类的欠采样算法
20
作者 李鑫 《现代信息科技》 2022年第18期81-83,88,共4页
不平衡数据越来越多地出现在各个领域,而传统机器学习分类算法往往会忽略少数类样本的分类精度,针对此问题,提出一种基于密度峰值聚类改进的欠采样算法。该算法利用信息熵对密度峰值聚类算法进行优化,获取最优截断距离;选取密度距离较... 不平衡数据越来越多地出现在各个领域,而传统机器学习分类算法往往会忽略少数类样本的分类精度,针对此问题,提出一种基于密度峰值聚类改进的欠采样算法。该算法利用信息熵对密度峰值聚类算法进行优化,获取最优截断距离;选取密度距离较大的点作为聚类中心并选取所有聚类中心代表整个多数类数据集。将该文算法与几种欠采样算法进行对比实验,结果表明,该方法有效提高了不平衡数据集中少数类的预测精度。 展开更多
关键词 数据挖掘 不平衡数据 采样 密度峰值
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部