期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
一种基于密度偏差抽样的孤立点检测算法 被引量:3
1
作者 余建桥 葛继科 李娅 《计算机科学》 CSCD 北大核心 2004年第10期206-208,共3页
孤立点检测是一项有价值的、重要的知识发现任务。在对大规模数据集中的孤立点数据进行检测时,样本数据集的选择技术至关重要。本文提出了一种新的基于密度的偏差抽样技术作为数据约简的手段,并给出了基于密度偏差抽样的孤立点检测算法... 孤立点检测是一项有价值的、重要的知识发现任务。在对大规模数据集中的孤立点数据进行检测时,样本数据集的选择技术至关重要。本文提出了一种新的基于密度的偏差抽样技术作为数据约简的手段,并给出了基于密度偏差抽样的孤立点检测算法,该算法可以用来识别样本数据集低密度区域中的孤立点数据,并从理论和实验两个方面对其进行分析评估,分析与实践证明该算法是有效的。 展开更多
关键词 孤立点 检测算法 数据约简 大规模数据 知识发现 点检 识别 样本数据 区域 抽样
下载PDF
基于神经网络的大规模数据集离群点检测算法 被引量:7
2
作者 高志宇 宋学坤 +2 位作者 肖俊生 闫培玲 孙新娟 《沈阳工业大学学报》 CAS 北大核心 2022年第4期420-425,共6页
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在... 针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点. 展开更多
关键词 神经网络 大规模数据集 离群点检测 冗余数据 降维处理 误差函数 核主成分分析 中心势值
下载PDF
基于nested-loop的大数据集快速离群点检测算法 被引量:1
3
作者 倪巍伟 陈耿 +1 位作者 陆介平 孙志挥 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第3期463-466,共4页
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.... 针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题. 展开更多
关键词 大数据集 模信息表 向量内积不等式 离群点检测
下载PDF
基于聚类的离群点检测方法研究综述 被引量:28
4
作者 周玉 朱文豪 +1 位作者 房倩 白磊 《计算机工程与应用》 CSCD 北大核心 2021年第12期37-45,共9页
离群点检测在数据处理中具有重要研究意义,其检测方法大致可以分为基于统计、基于距离、基于密度和基于聚类的方法。为了及时掌握当前基于聚类技术的离群点检测方法的研究现状,通过归纳与整理,将具有代表性的基于聚类的离群点检测方法... 离群点检测在数据处理中具有重要研究意义,其检测方法大致可以分为基于统计、基于距离、基于密度和基于聚类的方法。为了及时掌握当前基于聚类技术的离群点检测方法的研究现状,通过归纳与整理,将具有代表性的基于聚类的离群点检测方法进行了介绍和归类,将其主要分为静态数据集中的检测方法、数据流中的检测方法、大规模数据中的检测方法和其他方法等四大类。对每类方法所解决的问题、算法思想、应用场景以及各自的优缺点进行了详细的归纳和分析,指出目前存在的问题以及未来发展方向。 展开更多
关键词 离群点检测 聚类 静态数据集 数据流 大规模数据集
下载PDF
改进地标点采样的加速谱聚类算法
5
作者 徐航帆 刘丛 +1 位作者 唐坚刚 彭敦陆 《电子科技》 2021年第5期47-53,共7页
传统的基于地标点的大规模加速谱聚类算法易受分布不均匀地标点和离群地标点影响。K-means等采样方法在面对大规模数据时,时间空间消耗较大。针对以上问题,文中提出了一种改进地标点采样的加速谱聚类算法。该算法通过地标点间成对相似... 传统的基于地标点的大规模加速谱聚类算法易受分布不均匀地标点和离群地标点影响。K-means等采样方法在面对大规模数据时,时间空间消耗较大。针对以上问题,文中提出了一种改进地标点采样的加速谱聚类算法。该算法通过地标点间成对相似度矩阵的标准差来衡量地标点的分布均匀程度,选取随机的多组地标点集中分布最均匀的一组,去除局部密度较低的离群地标点;利用获得的地标点集与原始数据集构造稀疏相似度矩阵,并对该矩阵奇异值分解得到的前k个右奇异特征向量矩阵进行K-means聚类,得到最终聚类结果。文中从理论上分析了该算法时间复杂度和空间复杂度。验证结果表明该算法在一些数据集上比随机采样方法的准确率高3%~10%,和K-means采样方法相比时间消耗少50%~60%。 展开更多
关键词 谱聚类 大数据 地标点采样 离群点 标准差 稀疏相似度矩阵 局部密度 奇异值分解
下载PDF
基于分类和回归树决策树的网络大数据集离群点动态检测算法 被引量:4
6
作者 傅丽芳 陈卓 敖长林 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第9期2620-2625,共6页
针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使... 针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使用支持向量机建立异常数据样本关联规则矩阵,明确大数据集异常数据范围,并通过动态网格划分策略降低离群点检测计算量;然后,运用CART决策树方法在分支节点采取布尔检测,将待检测数据统一拟作连续数据,升序排列训练数据集,计算数据最高信息增益,剪枝决策树直到没有非叶子节点可被替换,得到离群点动态检测结果。仿真结果证明,本文算法离群点检测准确率高、检测耗时短,具备显著的计算优势,能为大数据集的可靠应用提供积极帮助。 展开更多
关键词 分类和回归树决策树 大数据集 离群点检测 数据预处理 网格划分 基尼系数
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部