期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
面向流形数据的加权自然近邻密度峰值聚类算法
1
作者 赵嘉 马清 +3 位作者 陈蔚昌 肖人彬 崔志华 潘正祥 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期652-660,669,共10页
流形数据由一些弧线形类簇组成,其特点是同一类簇的样本间距离较大.密度峰值聚类(DPC)算法具有简单高效的特点,但应对流形数据时表现不佳. DPC算法的两种密度度量标准可能造成不同程度的信息缺失,其分配策略仅参考距离和密度,致使聚类... 流形数据由一些弧线形类簇组成,其特点是同一类簇的样本间距离较大.密度峰值聚类(DPC)算法具有简单高效的特点,但应对流形数据时表现不佳. DPC算法的两种密度度量标准可能造成不同程度的信息缺失,其分配策略仅参考距离和密度,致使聚类精度不高.提出面向流形数据的加权自然近邻DPC(DPC-WNNN)算法,定义样本局部密度时,综合分析样本的局部和全局信息,引入加权的自然近邻以及逆近邻来应对高斯核或截断核的信息缺失问题.设计样本分配策略时通过引入共享近邻和共享逆近邻计算样本相似度,弥补DPC算法空间因素缺失的问题.将DPC-WNNN算法在流形数据集和真实数据集上与7种类似算法进行比较,结果表明该算法能更有效地找到类簇的中心点并准确分配样本,表现出良好的聚类性能. 展开更多
关键词 密度峰值 聚类 流形数据 自然近邻
下载PDF
基于自然近邻的自适应关联融合聚类算法 被引量:3
2
作者 李萍 龚晓峰 雒瑞森 《计算机工程》 CAS CSCD 北大核心 2020年第6期108-114,共7页
为解决传统聚类算法多数需要预先设定聚类参数且无法有效识别异常点和噪声点的问题,提出一种自适应的关联融合聚类算法。采用自然近邻搜索算法计算数据集的密度分布,筛选出具有数据结构信息的代表核点,并排除边界点和噪声点对聚类结果... 为解决传统聚类算法多数需要预先设定聚类参数且无法有效识别异常点和噪声点的问题,提出一种自适应的关联融合聚类算法。采用自然近邻搜索算法计算数据集的密度分布,筛选出具有数据结构信息的代表核点,并排除边界点和噪声点对聚类结果的影响。引入关联度矩阵,通过计算类簇间的关联程度和融合度量,选取最优关联簇进行融合得到最终聚类结果。实验结果表明,该算法无需人工设置聚类参数,并且与基于密度的空间聚类算法和K均值聚类算法相比,其具有更高的聚类准确率和可靠性。 展开更多
关键词 自然近邻 无尺度邻域 代表核点 融合度量 密度层次
下载PDF
基于自然近邻与协同过滤的API推荐方法 被引量:1
3
作者 郑黄河 黄志球 +2 位作者 李伟湋 喻垚慎 王永超 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第3期494-502,共9页
为了解决由于近邻选择不恰当导致的推荐性能下降问题,提出基于自然近邻与协同过滤的API推荐方法——N-APIRec.该方法利用BM25算法将项目转换成向量,以自然近邻算法筛选数据集中的相似项目以减少搜索范围,从相似项目中筛选相似的方法声明... 为了解决由于近邻选择不恰当导致的推荐性能下降问题,提出基于自然近邻与协同过滤的API推荐方法——N-APIRec.该方法利用BM25算法将项目转换成向量,以自然近邻算法筛选数据集中的相似项目以减少搜索范围,从相似项目中筛选相似的方法声明,通过协同过滤的方式推荐API.将N-APIRec在MV、SH数据集上与前沿方法进行实验对比,结果验证了N-APIRec的有效性,在MV、SH数据集上的推荐成功率分别为77.38%、30.00%,优于现有方法. 展开更多
关键词 代码复用 API推荐 自然近邻 BM25 协同过滤
下载PDF
面向密度分布不均数据的混合近邻密度峰值聚类算法
4
作者 吕莉 朱梅子 +1 位作者 康平 韩龙哲 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第10期1821-1830,共10页
密度峰值聚类算法(DPC)的局部密度忽略了密度分布不均数据的疏密差异,易导致类簇中心聚集在密集区域;其分配策略在分配剩余样本时,易将稀疏区域样本错误分配到密集区域,致使聚类效果不佳.为克服上述缺陷,本文提出了面向密度分布不均数... 密度峰值聚类算法(DPC)的局部密度忽略了密度分布不均数据的疏密差异,易导致类簇中心聚集在密集区域;其分配策略在分配剩余样本时,易将稀疏区域样本错误分配到密集区域,致使聚类效果不佳.为克服上述缺陷,本文提出了面向密度分布不均数据的混合近邻密度峰值聚类(MN-DPC)算法.首先,利用自然近邻信息定义样本的局部密度,平衡稀疏区域与密集区域样本之间的密度差异,从而正确找到稀疏区域的类簇中心;其次,利用样本之间的共享及自然近邻信息对样本相似度进行加权处理,加强了同一类簇样本间的相似度,有效的避免稀疏区域样本被错误分配.本文将MN-DPC算法与IDPC-FA,DPC-DBFN,DPCSA,FNDPC,FKNN-DPC,DPC算法进行对比.实验结果表明,MN-DPC算法能有效聚类密度分布不均及UCI数据集. 展开更多
关键词 密度峰值聚类 局部密度 自然近邻 共享近邻 样本相似性
下载PDF
基于样本势和噪声进化的不平衡数据过采样方法
5
作者 冷强奎 孙薛梓 孟祥福 《计算机应用》 CSCD 北大核心 2024年第8期2466-2475,共10页
在处理不平衡数据分类问题中,过采样方法是一种有效的策略。现有方法大多采用K近邻(KNN)技术选取采样种子样本,但KNN参数值的改变会导致多数过采样方法表现出明显的不适定性。径向基过采样(RBO)方法能解决这个问题,但在采样后易出现大... 在处理不平衡数据分类问题中,过采样方法是一种有效的策略。现有方法大多采用K近邻(KNN)技术选取采样种子样本,但KNN参数值的改变会导致多数过采样方法表现出明显的不适定性。径向基过采样(RBO)方法能解决这个问题,但在采样后易出现大量噪声。基于此,提出一种基于样本势和噪声进化的不平衡数据过采样方法,进一步对采样后的数据集迭代进化。首先,使用RBO方法通过计算样本势合成少数类样本,并改善原始数据的不平衡;其次,使用自然近邻(NaN)作为错误检测技术检测过采样后数据集中存在的疑似噪声样本;最后,利用改进的差分进化(DE)方法对检测出的疑似噪声样本迭代进化。相较于传统过采样方法,所提方法能更充分挖掘数据集中的重要边界信息,从而为分类器提供更多辅助以改善其分类性能。在22个基准数据集上,与7种经典采样方法(结合3种不同分类器)进行了大量对比实验。实验结果表明,所提方法具有更高的F1值和G-mean值,并且在噪声处理方面也优于带有后置过滤器的采样方法,可以更有效地解决不平衡数据分类问题。此外,统计分析也表明它的弗里德曼排名更高。 展开更多
关键词 K近邻 径向基过采样 样本势 自然近邻 差分进化 不平衡数据分类
下载PDF
基于NaN-Bicluster SMOTE的非均衡信贷数据分类研究及应用
6
作者 何亮 徐海燕 陈璐 《数据采集与处理》 CSCD 北大核心 2023年第6期1482-1494,共13页
为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaN?Bicluster SMOTE方法以改进SMOTE。首先使... 为了有效评估非均衡信贷数据中的借款人信用风险,基于合成少数过采样技术(Synthetic minority oversampling technique,SMOTE)、自然近邻(Natural neighbor,NaN)和双聚类(Bicluster)构建了NaN?Bicluster SMOTE方法以改进SMOTE。首先使用无参数的自然近邻设定采样样本选取的逻辑规则,规避了r近邻划分样本时产生的不稳定性;其次基于自然近邻稳定结构规定安全范围设定的逻辑规则,避免合成样本成为噪声样本;然后使用双聚类挖掘局部规则,以合成样本继承局部规则的方式改进SMOTE合成公式;最后,在Prosper小额贷款平台的非均衡信贷数据集上将NaN?Bicluster SMOTE与若干采样方法和机器学习模型进行对比分析,并进一步使用统计检验方法验证其性能的优越性。 展开更多
关键词 小额贷款 信用风险 合成少数过采样技术 自然近邻 双聚类
下载PDF
面向超大规模数据的自适应谱聚类算法
7
作者 毕志臻 杨德刚 冯骥 《智能系统学报》 CSCD 北大核心 2023年第2期251-259,共9页
针对超大规模数据聚类过程中人为设定邻域参数及计算量庞大等问题,提出了一种基于近似自然近邻的自适应超大规模谱聚类算法(approximate natural nearest neighbor based self-adaptive ultra-scalable spectral clustering algorithm, ... 针对超大规模数据聚类过程中人为设定邻域参数及计算量庞大等问题,提出了一种基于近似自然近邻的自适应超大规模谱聚类算法(approximate natural nearest neighbor based self-adaptive ultra-scalable spectral clustering algorithm, AN^(3)-SUSC)。该算法首先通过混合代表选取缩小数据规模,在此基础上利用近似自然近邻自适应地确定局部邻域参数并构建相似矩阵,最后运用二部图进行迁移分割将数据空间映射到原超大规模数据空间中并完成谱聚类分析。超大规模数据集实验结果表明,该算法对超大规模数据集聚类效果有所提升,并且降低计算规模同时具有较高的鲁棒性和较强的自适应性。 展开更多
关键词 数据聚类 超大规模 近似自然近邻 谱聚类 自然邻居 二部图 自适应 无参数
下载PDF
基于改进的反距离权重插值的车辆轨迹重构方法 被引量:8
8
作者 赵庶旭 屈睿涛 王婧雯 《公路交通科技》 CAS CSCD 北大核心 2018年第10期133-139,共7页
为解决车辆行驶过程中,时常出现的信息丢失、数据接收障碍等问题,提出了反距离权重插值方法。反距离权重插值算法因其简单,普适性强被广泛用于车辆轨迹重构,但车辆轨迹数据的分布多呈现离散、不均匀状态,当分布点采集不均匀时反距离权... 为解决车辆行驶过程中,时常出现的信息丢失、数据接收障碍等问题,提出了反距离权重插值方法。反距离权重插值算法因其简单,普适性强被广泛用于车辆轨迹重构,但车辆轨迹数据的分布多呈现离散、不均匀状态,当分布点采集不均匀时反距离权重插值方法会严重影响插值精度。针对这一问题,结合自然邻近关系的良好自适应分布特性,提出一种改进的反距离权重插值方法。首先,将车辆轨迹数据与道路路网数据进行匹配后,采用3σ准则法对车辆轨迹数据进行粗差剔除预处理。其次,对轨迹数据构建初始路网,并通过逐点插值法对初始路网进行插值,局部调整得到新的车辆轨迹,以待插点的一阶邻近点作为反距离权重插值参考点,通过建立自适应规则,调整各子区域内的变化参数,使其均匀地分布在待插值点周围,再进行反距离权重插值计算。最后,采用山东省淄博市的出租车轨迹数据对提出改进的反距离权重插值方法进行验证,收到了良好的效果。并在插值精度方面与当下应用较广的插值算法进行对比试验,试验表明,改进的反距离权重插值算法在原有性能的基础上具有更高的插值精度,可以应用于车辆轨迹数据丢失后的修补工作。 展开更多
关键词 交通工程 轨迹重构 反距离权重插值 轨迹数据 自然近邻
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部