期刊文献+
共找到280篇文章
< 1 2 14 >
每页显示 20 50 100
基于局部信息熵的计算机网络高维数据离群点检测系统 被引量:1
1
作者 谭印 苏雯洁 《现代电子技术》 北大核心 2024年第10期91-95,共5页
通过离群点检测可以及时发现计算机网络中的异常,从而为风险预警和控制提供重要线索。为此,设计一种基于局部信息熵的计算机网络高维数据离群点检测系统。在高维数据采集模块中,利用Wireshark工具采集计算机网络原始高维数据包;并在高... 通过离群点检测可以及时发现计算机网络中的异常,从而为风险预警和控制提供重要线索。为此,设计一种基于局部信息熵的计算机网络高维数据离群点检测系统。在高维数据采集模块中,利用Wireshark工具采集计算机网络原始高维数据包;并在高维数据存储模块中建立MySQL数据库、Zooleeper数据库与Redis数据库,用于存储采集的高维数据包。在高维数据离群点检测模块中,通过微聚类划分算法划分存储的高维数据包,得到数个微聚类;然后计算各微聚类的局部信息熵,确定各微聚类内是否存在离群点;再依据偏离度挖掘微聚类内的离群点;最后,利用高维数据可视化模块呈现离群点检测结果。实验证明:所设计系统不仅可以有效采集计算机网络高维数据并划分计算机网络高维数据,还能够有效检测高维数据离群点,且离群点检测效率较快。 展开更多
关键词 计算机网络 高维数据 离群点检测 局部信息熵 Wireshark工具 微聚类划分
下载PDF
基于映射距离比离群因子的离群点检测算法
2
作者 张忠平 姚春辰 +3 位作者 孙光旭 刘硕 张睿博 魏永辉 《计算机集成制造系统》 EI CSCD 北大核心 2024年第5期1719-1732,共14页
针对基于邻近性的离群点检测方法需要花费大量时间过滤正常点,并且在检测全局离群点时难以检测出局部离群点的问题,提出一种基于映射距离比离群因子离群点检测(MDROF)算法。首先,为了减少正常点在检测过程中的时间消耗,给出了差异相似... 针对基于邻近性的离群点检测方法需要花费大量时间过滤正常点,并且在检测全局离群点时难以检测出局部离群点的问题,提出一种基于映射距离比离群因子离群点检测(MDROF)算法。首先,为了减少正常点在检测过程中的时间消耗,给出了差异相似度的概念,通过定义差异相似度剪枝因子过滤掉数据集中的大部分正常点。其次,定义映射k距离,通过映射距离与可达距离的比值刻画数据对象的局部离群程度,通过可达密度刻画数据对象的全局离群程度。最后,结合数据对象相互近邻点的平均排位定义映射距离比离群因子来检测离群点。在人工数据集以及真实数据集上分别对该算法与其他经典的离群点检测算法在精确率、AUC值和离群点发现曲线上进行实验对比分析。实验结果证明MDROF算法在离群点检测的准确性和稳定性上明显优于对比算法。 展开更多
关键词 数据挖掘 离群点检测 差异相似度剪枝 映射k距离 映射距离比
下载PDF
基于CART决策树的分布式数据离群点检测算法
3
作者 朱华 乔勇进 董国钢 《现代电子技术》 北大核心 2024年第16期157-162,共6页
在分布式计算环境中,离群点通常表示数据中的异常情况,例如故障、欺诈、攻击等。通过检测分布式数据的离群点,可以对这些异常数据进行集中处理,保护系统和数据的安全。而进行离群点检测时,不仅要考虑数据的规模和复杂性,还要在分布式环... 在分布式计算环境中,离群点通常表示数据中的异常情况,例如故障、欺诈、攻击等。通过检测分布式数据的离群点,可以对这些异常数据进行集中处理,保护系统和数据的安全。而进行离群点检测时,不仅要考虑数据的规模和复杂性,还要在分布式环境下高效地发现离群点。因此,提出一种基于CART决策树的分布式数据离群点检测算法。在构建CART决策树时,使用类间中心距离作为分裂准则,根据分离类别对训练数据进行分类,从而确定数据的类型。在上述基础上,考虑到离群点的分布模式与其周围数据对象不同,使用空间局部偏离因子(SLDF)对空间内各个数据对象之间的离群程度展开度量,同时在高维空间内展开网格划分,引入SLDF算法检测剩余离群点集,最终实现分布式数据离群点检测。实验结果表明,所提方法的离散点检测错误率在0.010以内,可以更加精准地实现分布式数据离群点检测,具有良好的检测性能。 展开更多
关键词 CART决策树 分布式数据 离群点检测 类间距离 数据分类 空间局部偏离因子
下载PDF
改进DPC聚类算法的离群点检测与解释方法
4
作者 周玉 夏浩 裴泽宣 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第8期68-85,共18页
为解决全局离群点检测方法无法对局部离群点进行检测,以及局部异常因子在面对大量局部离群点时性能下降的问题,利用k近邻(KNN)和核密度估计方法(KDE)提出一种基于改进快速搜索和发现密度峰值聚类算法(KDPC)的离群点检测与解释方法,该方... 为解决全局离群点检测方法无法对局部离群点进行检测,以及局部异常因子在面对大量局部离群点时性能下降的问题,利用k近邻(KNN)和核密度估计方法(KDE)提出一种基于改进快速搜索和发现密度峰值聚类算法(KDPC)的离群点检测与解释方法,该方法能够同时对数据点的全局和局部进行分析。首先,利用k近邻和核密度估计方法计算数据点的局部密度,代替传统DPC算法中根据截断距离计算的局部密度。其次,将数据点的k近邻距离之和作为全局异常值,并通过KDPC聚类算法计算簇密度以及数据点的局部异常值。最后,将数据点的全局与局部异常值进行乘积作为最终异常得分,选取异常得分最高的Top-n作为离群点,通过构建全局-局部异常值决策图对全局和局部离群点进行解释。利用人工数据集和UCI数据集进行实验并与10种常用离群点检测方法进行比较。结果表明,该方法对全局和局部离群点都有着较高的检测精度和检测性能,并且AUC方面受k值影响较小。同时,利用该方法对NBA球员数据进行分析讨论,进一步证明了该方法的实用性和有效性。 展开更多
关键词 离群点检测 聚类 密度峰值 K近邻 核密度估计
下载PDF
基于改进K-means的局部离群点检测方法
5
作者 周玉 夏浩 +1 位作者 岳学震 王培崇 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第4期66-77,共12页
离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改... 离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改进K-means聚类算法,提出了一种名为KLOD(local outlier detection based on improved K-means and least-squares methods)的局部离群点检测方法,以实现对局部离群点的精确检测。首先,利用快速搜索和发现密度峰值方法计算数据点的局部密度和相对距离,并将二者相乘得到γ值。其次,将γ值降序排序,利用肘部法则选择γ值最大的k个数据点作为K-means聚类算法的初始聚类中心。然后,通过K-means聚类算法将数据集聚类成k个簇,计算数据点在每个维度上的目标函数值并进行升序排列。接着,确定数据点的每个维度的离散程度并选择适当的拟合函数和拟合点,通过最小二乘法对升序排列的每个簇的每1维目标函数值进行函数拟合并求导,以获取变化率。最后,结合信息熵,将每个数据点的每个维度目标函数值乘以相应的变化率进行加权,得到最终的异常得分,并将异常值得分较高的top-n个数据点视为离群点。通过人工数据集和UCI数据集,对KLOD、LOF和KNN方法在准确度上进行仿真实验对比。结果表明KLOD方法相较于KNN和LOF方法具有更高的准确度。本文提出的KLOD方法能够有效改善K-means聚类算法的聚类效果,并且在局部离群点检测方面具有较好的精度和性能。 展开更多
关键词 离群点检测 K均值聚类 最小二乘法 密度峰值 目标函数值
下载PDF
基于离群点检测和自适应参数的三支DBSCAN算法
6
作者 李志聪 孙旭阳 《计算机应用研究》 CSCD 北大核心 2024年第7期1999-2004,共6页
针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高... 针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高点对应的参数。最后从离群点角度出发,将三支决策思想与离群点检测LOF算法进行结合。该算法与多种聚类算法进行效果对比分析,结果表明该算法能够全自动化选择全局最优参数,并提高聚类算法的准确性。 展开更多
关键词 DBSCAN算法 三支聚类 自适应参数 离群点检测
下载PDF
基于多元离群点检测的动态目标去除SLAM方法
7
作者 王磊 张茗宇 +2 位作者 潘明然 张永鑫 郝涌汀 《探测与控制学报》 CSCD 北大核心 2024年第5期64-70,共7页
考虑动态环境下的目标移动对同步定位与建图(SLAM)位姿估计精度的影响,提出一种通过稠密光流计算像素运动并经过离群点检测的动态目标SLAM算法。采用稠密光流法计算图像序列的每个像素的运动信息进行动态目标判断,利用离群点检测对动态... 考虑动态环境下的目标移动对同步定位与建图(SLAM)位姿估计精度的影响,提出一种通过稠密光流计算像素运动并经过离群点检测的动态目标SLAM算法。采用稠密光流法计算图像序列的每个像素的运动信息进行动态目标判断,利用离群点检测对动态目标进行提取,通过均值滤波对动态目标进行模糊剔除,消除动态目标对SLAM精度的影响。在TUM数据集与定制数据集上进行实验,在TUM数据集测试中,与基于特征点法的Orb-slam3标杆算法进行对比分析,在动态目标影响条件下,该算法得到的轨迹误差降低43.25%;搭建开放式四旋翼无人机测试系统,在定制数据集中,进行飞行试验,得到的估计轨迹位置误差控制在1 m内,满足使用场景要求,进一步验证了算法的有效性。 展开更多
关键词 同步定位与建图 稠密光流 位姿估计 动态目标 离群点检测
下载PDF
基于邻域平均距离的离群点检测算法
8
作者 史金余 杜晓涵 +1 位作者 孙禹明 李春慧 《计算机与数字工程》 2024年第7期1916-1920,共5页
离群点检测是数据挖掘领域的一个热点问题,离群点检测可以有效地识别出数据集中的离群点,为数据分析提供方便。为提高数据分析精度,有效筛选离群点,提出一种基于邻域平均距离的离群点检测算法。首先计算误差平方和并使用肘部法确定最佳... 离群点检测是数据挖掘领域的一个热点问题,离群点检测可以有效地识别出数据集中的离群点,为数据分析提供方便。为提高数据分析精度,有效筛选离群点,提出一种基于邻域平均距离的离群点检测算法。首先计算误差平方和并使用肘部法确定最佳聚类个数K,然后将K代入K-Means的优化算法二分K-Means中对数据集进行聚类处理,从而得到K个数据簇,最后分别计算每个簇中质心ε邻域的邻域平均距离,将与质心距离大于阈值距离的样本点作为离群点集。实验结果表明,在标准数据集UCI上,该算法的检测率有较好的表现。 展开更多
关键词 离群点检测 二分K-Means 肘部法 平均邻域距离
下载PDF
基于模糊邻域熵的离群点检测方法
9
作者 刘佳莉 陈锦坤 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期511-522,共12页
离群点检测(又称异常点检测)是数据挖掘领域中一个重要的研究方向,其目的是找出显著区别于其他数据的数据点.针对基于传统粗糙集理论的离群点检测方法存在忽略样本的模糊性和邻域关系等问题,利用模糊邻域粗糙集弥补经典粗糙集的不足,并... 离群点检测(又称异常点检测)是数据挖掘领域中一个重要的研究方向,其目的是找出显著区别于其他数据的数据点.针对基于传统粗糙集理论的离群点检测方法存在忽略样本的模糊性和邻域关系等问题,利用模糊邻域粗糙集弥补经典粗糙集的不足,并结合熵的不确定性,提出一种新的基于模糊邻域熵的离群点检测方法.首先,采用模糊邻域半径和混合模糊相似度构造模糊邻域近似空间;然后,定义一种特定的模糊邻域组合熵和相对模糊邻域组合熵来构建模糊邻域离群度,进而定义基于模糊邻域熵的离群因子实现离群点检测,并设计了基于模糊邻域熵的离群点检测算法(FNEOD).最后,将FNEOD算法与主要的离群点检测算法进行比较.实验结果表明,该方法具有较好的有效性和适应性. 展开更多
关键词 数据挖掘 离群点检测 模糊邻域组合熵 相对模糊邻域组合熵
下载PDF
基于混合近邻局部分布差异的离群点检测算法
10
作者 张君 范铭 金举 《计算机与数字工程》 2024年第2期301-306,共6页
离群点检测作为数据挖掘领域的重要任务,其目的是从表示事件或对象行为的数据中找出不一致数据。目前大部分传统的无监督离群点检测算法,如基于距离或密度的方法,识别多维度空间离群数据时都存在因维度诅咒导致检测精度衰退的问题。论... 离群点检测作为数据挖掘领域的重要任务,其目的是从表示事件或对象行为的数据中找出不一致数据。目前大部分传统的无监督离群点检测算法,如基于距离或密度的方法,识别多维度空间离群数据时都存在因维度诅咒导致检测精度衰退的问题。论文提出了基于混合近邻的离群点检测算法,该算法以数据项的混合近邻作为新的局部影响空间,以双向共享近邻和欧式距离重新定义了数据项的相似度计算方式,通过对比数据项与其局部影响空间中样本的平均局部分布差异衡量数据的局部离群程度,从而识别离群点。在合成和真实数据集上和其他同类算法的对比实验结果证明,该算法在离群点检测方面具有一定的提高。 展开更多
关键词 无监督 离群点检测 混合近邻 局部分布差异
下载PDF
IRCGN:用于高效多视图离群点检测的生成式网络
11
作者 郑啸 王权鑫 黄俊 《软件学报》 EI CSCD 北大核心 2024年第11期5163-5178,共16页
由于多视图数据特征复杂,多视图离群检测已经成为离群点检测中一个极具挑战性的研究课题.多视图数据中存在3种类型的离群点,分别为类离群点、属性离群点和类-属性离群点.早期多视图离群点检测方法大多基于聚类假设,当数据中没有聚类结... 由于多视图数据特征复杂,多视图离群检测已经成为离群点检测中一个极具挑战性的研究课题.多视图数据中存在3种类型的离群点,分别为类离群点、属性离群点和类-属性离群点.早期多视图离群点检测方法大多基于聚类假设,当数据中没有聚类结构时很难检测出离群点.近年来,许多多视图离群点检测方法使用多视图一致的近邻假设来代替聚类假设,但仍存在新增数据检测效率低的问题.此外,大多数现有的多视图离群点检测方法都是无监督的,在模型学习过程中会受到离群点的影响,处理高离群率的数据集时效果不佳.为了解决这些问题,提出一种用于高效多视图离群点检测的视图内重建和跨视图生成网络来检测3种类型的离群点,所提方法包含视图内重建和跨视图生成两个模块.通过使用正常数据训练,所提方法可以充分捕捉正常数据中每个视图的特征,并较好地重建和生成相应的视图.此外,还提出一个新的离群值计算方法,为每一个样本计算相应的离群值得分,从而高效地检测新增数据.大量的实验结果表明,所提出的方法明显优于现有的方法.这是将基于生成对抗网络的深度模型应用于多视图离群点检测的工作. 展开更多
关键词 离群点检测 多视图数据 半监督 视图内重建 跨视图生成
下载PDF
基于反向标签传播的多生成器主动学习算法及其在离群点检测中的应用研究
12
作者 邢开颜 陈文 《计算机科学》 CSCD 北大核心 2024年第4期359-365,共7页
当前正负类训练样本分布不均衡的问题已极大地限制了离群检测模型的性能。基于主动学习的离群点检测算法能够通过对样本分布的主动学习,自动合成离群点以平衡训练数据分布。然而,传统的基于主动学习的检测方法缺乏对合成离群点的质量评... 当前正负类训练样本分布不均衡的问题已极大地限制了离群检测模型的性能。基于主动学习的离群点检测算法能够通过对样本分布的主动学习,自动合成离群点以平衡训练数据分布。然而,传统的基于主动学习的检测方法缺乏对合成离群点的质量评估和过滤筛选,导致通过主动学习过程合成的训练样本点中存在样本噪声,并降低了分类模型的性能。针对上述问题,提出了基于反向标签传播的多生成器主动学习算法(Multi-Generator Active Learning Algorithm Based on Reverse Label Propagation,MG-RLP),其包括多个神经网络生成器和一个用于离群点边界检测的鉴别器。MG-RLP通过多个子生成器生成多分布特征的样本数据,以防止单生成器合成的训练样本过于聚集而导致的模式崩塌问题。同时,MG-RLP利用反向标签传播过程对神经网络生成的样本点进行质量评估,以筛选出可信的合成样本。筛选后的样本被保留在训练样本中用于对鉴别器进行迭代训练,以提升对离群点的检测性能。基于5个公共数据集,对比验证了MG-RLP与6种典型的离群点检测算法的性能,结果表明,MG-RLP在AUC和检测精度指标上分别提高了15%和22%,结果验证了MG-RLP的有效性。 展开更多
关键词 离群点检测 主动学习 生成对抗网络 标签传播
下载PDF
基于自适应距离的离群点检测算法
13
作者 曹霞 郑爱宇 郝静 《计算机技术与发展》 2024年第9期138-146,共9页
基于近邻的离群点检测方法根据数据对象周围的邻居来挖掘离群点,但该类方法受阈值参数的影响较大,且大多只在数据分布单一的情况下表现良好。针对数据分布多样的情况下离群点检测困难以及阈值参数的敏感性问题,提出了一种基于自适应距... 基于近邻的离群点检测方法根据数据对象周围的邻居来挖掘离群点,但该类方法受阈值参数的影响较大,且大多只在数据分布单一的情况下表现良好。针对数据分布多样的情况下离群点检测困难以及阈值参数的敏感性问题,提出了一种基于自适应距离的离群点检测算法。首先,通过动态地调整数据属性的贡献因子,使得关键属性在离群点检测中具有更大的影响力,能够准确反映关键属性与离群点之间的关联性;其次,综合考虑属性贡献因子和密度来计算数据对象之间的距离,以便更好地识别数据对象之间的位置关系和密度分布特征;最后,为了降低阈值参数的影响,逐步增大邻居的大小来计算数据对象的自适应距离的变化之和,将其累加作为离群得分。通过在人工合成数据集和公共数据集上进行实验,验证了提出的算法检测精度更高。 展开更多
关键词 数据挖掘 离群点检测 属性贡献因子 密度分布 自适应距离
下载PDF
安全离群点检测管理模式在医用气体智慧化系统的应用
14
作者 石瑀 《中国科技纵横》 2024年第9期49-51,共3页
为分析常规报警检测管理模式与安全离群点检测管理模式在医用气体智慧化系统中的管理效果,选择医用气体智慧化系统使用装置,以管理模式不同将其分为对照组和研究组。对照组采用常规报警检测管理模式,研究组采用安全离群点检测管理模式,... 为分析常规报警检测管理模式与安全离群点检测管理模式在医用气体智慧化系统中的管理效果,选择医用气体智慧化系统使用装置,以管理模式不同将其分为对照组和研究组。对照组采用常规报警检测管理模式,研究组采用安全离群点检测管理模式,比较两种管理模式在安全隐患、系统运行质量、满意度等方面的差异。研究组应用医用气体智慧化系统中的管理制度、设备设施、常规检查、应急处理来评分,其结果显著高于对照组。设备运行效率、报警频次、维修频次以及应急维修时间显著优于对照组;应用满意率显著高于对照组,组间差异具有统计学意义(P<0.05)。因此,将安全离群点检测管理模式应用于医用气体智慧化系统管理中具有较好的效果,可以查找设备管理中存在的问题,优化管理模式,提升医用气体系统的运行质量。 展开更多
关键词 常规报警检测管理模式 安全离群点检测管理模式 医用气体智慧化系统 管理效果
下载PDF
基于KNN离群点检测和随机森林的多层入侵检测方法 被引量:75
15
作者 任家东 刘新倩 +2 位作者 王倩 何海涛 赵小林 《计算机研究与发展》 EI CSCD 北大核心 2019年第3期566-575,共10页
入侵检测系统能够有效地检测网络中异常的攻击行为,对网络安全至关重要.目前,许多入侵检测方法对攻击行为Probe(probing),U2R(user to root),R2L(remote to local)的检测率比较低.基于这一问题,提出一种新的混合多层次入侵检测模型,检... 入侵检测系统能够有效地检测网络中异常的攻击行为,对网络安全至关重要.目前,许多入侵检测方法对攻击行为Probe(probing),U2R(user to root),R2L(remote to local)的检测率比较低.基于这一问题,提出一种新的混合多层次入侵检测模型,检测正常和异常的网络行为.该模型首先应用KNN(K nearest neighbors)离群点检测算法来检测并删除离群数据,从而得到一个小规模和高质量的训练数据集;接下来,结合网络流量的相似性,提出一种类别检测划分方法,该方法避免了异常行为在检测过程中的相互干扰,尤其是对小流量攻击行为的检测;结合这种划分方法,构建多层次的随机森林模型来检测网络异常行为,提高了网络攻击行为的检测效果.流行的数据集KDD(knowledge discovery and data mining) Cup 1999被用来评估所提出的模型.通过与其他算法进行对比,该方法的准确率和检测率要明显优于其他算法,并且能有效地检测Probe,U2R,R2L这3种攻击类型. 展开更多
关键词 网络安全 入侵检测系统 KNN离群点检测 随机森林模型 多层次
下载PDF
BOD:一种高效的分布式离群点检测算法 被引量:29
16
作者 王习特 申德荣 +3 位作者 白梅 聂铁铮 寇月 于戈 《计算机学报》 EI CSCD 北大核心 2016年第1期36-51,共16页
离群点检测是数据管理领域中的热点问题之一,在许多方面都有着广泛应用,如信用卡诈骗、网络入侵检测、环境监测等.目前现有的离群点检测算法大多针对集中式的处理环境.但随着数据规模的不断增长,传统的集中式算法处理效率受限,无法满足... 离群点检测是数据管理领域中的热点问题之一,在许多方面都有着广泛应用,如信用卡诈骗、网络入侵检测、环境监测等.目前现有的离群点检测算法大多针对集中式的处理环境.但随着数据规模的不断增长,传统的集中式算法处理效率受限,无法满足用户日益增长的需求.针对上述问题,文中提出了一种新型的分布式离群点检测算法.首先,在数据存储阶段(即预处理),提出了BDSP(Balance Driven Spatial Partitioning)数据划分算法.该算法可以有效地均衡每个计算节点的工作负载,并实现良好的过滤效果.此外,为划分所得到的每个块设计了一种全新的编码方式,可以快速地确定块与块之间的相邻关系,降低网络开销.基于BDSP算法,提出了BOD(BDSP-based Outlier Detection)分布式离群点检测算法.该算法包括2个步骤:在每个计算节点本地,利用R树索引进行批量过滤,快速地计算离群点并得到本地候选集;利用BDSP中提供的块编码确定需要相互通信的节点,使用少量的网络开销得到最终结果.最后,通过大量实验验证了文中所提出的BDSP和BOD算法的有效性.实验结果表明,相对于现有算法,文中算法可以显著地提高计算效率并大幅降低网络开销. 展开更多
关键词 离群点检测 分布式计算 大数据 数据划分 数据管理 大规模数据
下载PDF
基于高斯核函数改进的电力用户用电数据离群点检测方法 被引量:52
17
作者 孙毅 李世豪 +3 位作者 崔灿 李彬 陈宋宋 崔高颖 《电网技术》 EI CSCD 北大核心 2018年第5期1595-1604,共10页
针对智能配用电大数据背景下用电数据离群点检测方法的适用性以及实际数据集中异常用电样本获取成本较高的问题,提出一种基于高斯核函数改进的电力用户用电数据离群点检测方法。首先通过模糊聚类的方法将用户分类;然后提取每一类用户的... 针对智能配用电大数据背景下用电数据离群点检测方法的适用性以及实际数据集中异常用电样本获取成本较高的问题,提出一种基于高斯核函数改进的电力用户用电数据离群点检测方法。首先通过模糊聚类的方法将用户分类;然后提取每一类用户的用电行为特征量,采用主成分分析法对特征集进行降维;最后利用高斯核函数改进局部离群因子算法,提出高斯核密度局部离群因子(Gaussian kernel densitybased local outlier factor,GKLOF)算法,通过理论推导与仿真实验相结合的方式分析了GKLOF算法的特性。选取了5000个用户真实的用电数据进行实验分析,实验结果表明,该方法具有较高的检测准确率以及较为稳定的判定阈值,并且受局部数据分布的影响较小,更加适用于用户用电行为复杂多样以及实际数据集中所有用户用电行为类型信息未知情况下的离群点检测。 展开更多
关键词 电力大数据 数据挖掘 离群点检测 高斯核密度局部离群因子 用电行为分析
下载PDF
基于粗糙集理论的序列离群点检测 被引量:16
18
作者 江峰 杜军威 +2 位作者 葛艳 眭跃飞 曹存根 《电子学报》 EI CAS CSCD 北大核心 2011年第2期345-350,共6页
作为数据挖掘的一项重要任务,离群点检测已经引起人们的广泛关注.本文基于粗糙集理论来讨论离群点的定义与检测问题,提出了一种新的离群点定义——粗糙序列离群点以及相应的离群点检测算法RSOD.该算法利用粗糙集理论中的知识熵和属性重... 作为数据挖掘的一项重要任务,离群点检测已经引起人们的广泛关注.本文基于粗糙集理论来讨论离群点的定义与检测问题,提出了一种新的离群点定义——粗糙序列离群点以及相应的离群点检测算法RSOD.该算法利用粗糙集理论中的知识熵和属性重要性等概念来构建三种类型的序列,并通过分析序列中元素的变化情况来检测离群点.在UCI标准数据集上,将RSOD算法与现有的离群点检测算法进行了比较分析,实验结果表明,我们所提出的离群点检测方法是有效的. 展开更多
关键词 离群点检测 粗糙集 数据挖掘 序列 知识熵 属性重要性
下载PDF
基于局部信息熵的加权子空间离群点检测算法 被引量:28
19
作者 倪巍伟 陈耿 +2 位作者 陆介平 吴英杰 孙志挥 《计算机研究与发展》 EI CSCD 北大核心 2008年第7期1189-1194,共6页
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象."维度灾殃"现象的存在使得很多已有的离群点检测算法对高维数据不再有效.针对这一问题,提出基于局部信息熵的加权子空间... 离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象."维度灾殃"现象的存在使得很多已有的离群点检测算法对高维数据不再有效.针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD.通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念.采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点.算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的. 展开更多
关键词 高维数据 离群点检测 信息熵 子空间挖掘 权向量
下载PDF
NLOF:一种新的基于密度的局部离群点检测算法 被引量:28
20
作者 王敬华 赵新想 +1 位作者 张国燕 刘建银 《计算机科学》 CSCD 北大核心 2013年第8期181-185,共5页
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知... 基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想。首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集。然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度。在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,対属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离。在真实数据集上对NLOF算法进行了充分的验证。结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。 展开更多
关键词 数据挖掘 离群点检测 信息熵 聚类
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部