期刊文献+
共找到143篇文章
< 1 2 8 >
每页显示 20 50 100
Density-based trajectory outlier detection algorithm 被引量:10
1
作者 Zhipeng Liu Dechang Pi Jinfeng Jiang 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2013年第2期335-340,共6页
With the development of global position system(GPS),wireless technology and location aware services,it is possible to collect a large quantity of trajectory data.In the field of data mining for moving objects,the pr... With the development of global position system(GPS),wireless technology and location aware services,it is possible to collect a large quantity of trajectory data.In the field of data mining for moving objects,the problem of anomaly detection is a hot topic.Based on the development of anomalous trajectory detection of moving objects,this paper introduces the classical trajectory outlier detection(TRAOD) algorithm,and then proposes a density-based trajectory outlier detection(DBTOD) algorithm,which compensates the disadvantages of the TRAOD algorithm that it is unable to detect anomalous defects when the trajectory is local and dense.The results of employing the proposed algorithm to Elk1993 and Deer1995 datasets are also presented,which show the effectiveness of the algorithm. 展开更多
关键词 density-based algorithm trajectory outlier detection(TRAOD) partition-and-detect framework Hausdorff distance
下载PDF
Anomalous Cell Detection with Kernel Density-Based Local Outlier Factor 被引量:2
2
作者 Miao Dandan Qin Xiaowei Wang Weidong 《China Communications》 SCIE CSCD 2015年第9期64-75,共12页
Since data services are penetrating into our daily life rapidly, the mobile network becomes more complicated, and the amount of data transmission is more and more increasing. In this case, the traditional statistical ... Since data services are penetrating into our daily life rapidly, the mobile network becomes more complicated, and the amount of data transmission is more and more increasing. In this case, the traditional statistical methods for anomalous cell detection cannot adapt to the evolution of networks, and data mining becomes the mainstream. In this paper, we propose a novel kernel density-based local outlier factor(KLOF) to assign a degree of being an outlier to each object. Firstly, the notion of KLOF is introduced, which captures exactly the relative degree of isolation. Then, by analyzing its properties, including the tightness of upper and lower bounds, sensitivity of density perturbation, we find that KLOF is much greater than 1 for outliers. Lastly, KLOFis applied on a real-world dataset to detect anomalous cells with abnormal key performance indicators(KPIs) to verify its reliability. The experiment shows that KLOF can find outliers efficiently. It can be a guideline for the operators to perform faster and more efficient trouble shooting. 展开更多
关键词 data mining key performance indicators kernel density-based local outlier factor density perturbation anomalous cell detection
下载PDF
Outlier detection based on multi-dimensional clustering and local density
3
作者 SHOU Zhao-yu LI Meng-ya LI Si-min 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第6期1299-1306,共8页
Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outl... Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outlier. In this work, an effective outlier detection method based on multi-dimensional clustering and local density(ODBMCLD) is proposed. ODBMCLD firstly identifies the center objects by the local density peak of data objects, and clusters the whole dataset based on the center objects. Then, outlier objects belonging to different clusters will be marked as candidates of abnormal data. Finally, the top N points among these abnormal candidates are chosen as final anomaly objects with high outlier factors. The feasibility and effectiveness of the method are verified by experiments. 展开更多
关键词 data MINING outlier detection outlier detection method based on MULTI-DIMENSIONAL CLUSTERING and local density (ODBMCLD) algorithm deviation DEGREE
下载PDF
Implementation of Network Intrusion Detection System Based on Density-based Outliers Mining
4
作者 Huang Guangqiu Peng Xuyou Lv Dingquan 《微计算机信息》 北大核心 2005年第11X期78-81,共4页
The paper puts forward a new method of density-based anomaly data mining, the method is used to design the engine of network intrusion detection system (NIDS), thus a new NIDS is constructed based on the engine. The N... The paper puts forward a new method of density-based anomaly data mining, the method is used to design the engine of network intrusion detection system (NIDS), thus a new NIDS is constructed based on the engine. The NIDS can find new unknown intrusion behaviors, which are used to updated the intrusion rule-base, based on which intrusion detections can be carried out online by the BM pattern match algorithm. Finally all modules of the NIDS are described by formalized language. 展开更多
关键词 计算机网络 网络安全 入侵检测系统 数据采集
下载PDF
An Intelligent Early Warning Method of Press-Assembly Quality Based on Outlier Data Detection and Linear Regression
5
作者 XUE Shanliang LI Chen 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2020年第4期597-606,共10页
Focusing on controlling the press-assembly quality of high-precision servo mechanism,an intelligent early warning method based on outlier data detection and linear regression is proposed.Linear regression is used to d... Focusing on controlling the press-assembly quality of high-precision servo mechanism,an intelligent early warning method based on outlier data detection and linear regression is proposed.Linear regression is used to deal with the relationship between assembly quality and press-assembly process,then the mathematical model of displacement-force in press-assembly process is established and a qualified press-assembly force range is defined for assembly quality control.To preprocess the raw dataset of displacement-force in the press-assembly process,an improved local outlier factor based on area density and P weight(LAOPW)is designed to eliminate the outliers which will result in inaccuracy of the mathematical model.A weighted distance based on information entropy is used to measure distance,and the reachable distance is replaced with P weight.Experiments show that the detection efficiency of the algorithm is improved by 5.6 ms compared with the traditional local outlier factor(LOF)algorithm,and the detection accuracy is improved by about 2%compared with the local outlier factor based on area density(LAOF)algorithm.The application of LAOPW algorithm and the linear regression model shows that it can effectively carry out intelligent early warning of press-assembly quality of high precision servo mechanism. 展开更多
关键词 quality early warning outlier data detection linear regression local outlier factor based on area density and P weight(LAOPW) information entropy P weight
下载PDF
基于深度学习SSD算法的高密度电法智能解译方法技术研究 被引量:1
6
作者 师学明 黄崇钰 +2 位作者 王瑞 李斌才 郑洪 《工程地球物理学报》 2024年第1期1-11,共11页
高密度电法在探测灰岩区地下溶洞病害体方面得到广泛应用,但高密度电法反演结果依赖于初始模型,存在多解性,地质解译容易受专业人员主观因素影响。为此,本文从具有唯一性的视电阻率数据出发,研究了基于深度学习的SSD(Single Shot Multi-... 高密度电法在探测灰岩区地下溶洞病害体方面得到广泛应用,但高密度电法反演结果依赖于初始模型,存在多解性,地质解译容易受专业人员主观因素影响。为此,本文从具有唯一性的视电阻率数据出发,研究了基于深度学习的SSD(Single Shot Multi-box Detector)目标检测算法的视电阻率异常智能解译方法技术。针对岩溶地质病害,设计了不同填充类型、形状、规模、数量的溶洞电性异常模型,利用Res2dmod软件进行视电阻率正演计算,构建了包含1400个样本的高密度电法视电阻率智能解译学习样本库(样本和标签)。基于TensorFlow框架,建立了基于深度学习SSD算法的高密度电法视电阻率异常智能解译方法技术,使用学习样本库训练网络权值,训练结束后对高密电法温纳装置视电阻率异常进行智能解译,单个视电阻率剖面异常智能解译耗时不到1 s,各类目标(填充型溶洞、未填充型溶洞)平均准确率为90.68%。研究结果表明:基于SSD算法的高密度电法视电阻率异常智能解译技术可显著提高高密度电法视电阻率解译效率,避免专业人员主观因素影响。 展开更多
关键词 高密度电法 温纳装置 视电阻率 SSD目标检测算法 智能解译
下载PDF
基于改进K-means的局部离群点检测方法
7
作者 周玉 夏浩 +1 位作者 岳学震 王培崇 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第4期66-77,共12页
离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改... 离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改进K-means聚类算法,提出了一种名为KLOD(local outlier detection based on improved K-means and least-squares methods)的局部离群点检测方法,以实现对局部离群点的精确检测。首先,利用快速搜索和发现密度峰值方法计算数据点的局部密度和相对距离,并将二者相乘得到γ值。其次,将γ值降序排序,利用肘部法则选择γ值最大的k个数据点作为K-means聚类算法的初始聚类中心。然后,通过K-means聚类算法将数据集聚类成k个簇,计算数据点在每个维度上的目标函数值并进行升序排列。接着,确定数据点的每个维度的离散程度并选择适当的拟合函数和拟合点,通过最小二乘法对升序排列的每个簇的每1维目标函数值进行函数拟合并求导,以获取变化率。最后,结合信息熵,将每个数据点的每个维度目标函数值乘以相应的变化率进行加权,得到最终的异常得分,并将异常值得分较高的top-n个数据点视为离群点。通过人工数据集和UCI数据集,对KLOD、LOF和KNN方法在准确度上进行仿真实验对比。结果表明KLOD方法相较于KNN和LOF方法具有更高的准确度。本文提出的KLOD方法能够有效改善K-means聚类算法的聚类效果,并且在局部离群点检测方面具有较好的精度和性能。 展开更多
关键词 离群点检测 K均值聚类 最小二乘法 密度峰值 目标函数值
下载PDF
改进DPC聚类算法的离群点检测与解释方法
8
作者 周玉 夏浩 裴泽宣 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第8期68-85,共18页
为解决全局离群点检测方法无法对局部离群点进行检测,以及局部异常因子在面对大量局部离群点时性能下降的问题,利用k近邻(KNN)和核密度估计方法(KDE)提出一种基于改进快速搜索和发现密度峰值聚类算法(KDPC)的离群点检测与解释方法,该方... 为解决全局离群点检测方法无法对局部离群点进行检测,以及局部异常因子在面对大量局部离群点时性能下降的问题,利用k近邻(KNN)和核密度估计方法(KDE)提出一种基于改进快速搜索和发现密度峰值聚类算法(KDPC)的离群点检测与解释方法,该方法能够同时对数据点的全局和局部进行分析。首先,利用k近邻和核密度估计方法计算数据点的局部密度,代替传统DPC算法中根据截断距离计算的局部密度。其次,将数据点的k近邻距离之和作为全局异常值,并通过KDPC聚类算法计算簇密度以及数据点的局部异常值。最后,将数据点的全局与局部异常值进行乘积作为最终异常得分,选取异常得分最高的Top-n作为离群点,通过构建全局-局部异常值决策图对全局和局部离群点进行解释。利用人工数据集和UCI数据集进行实验并与10种常用离群点检测方法进行比较。结果表明,该方法对全局和局部离群点都有着较高的检测精度和检测性能,并且AUC方面受k值影响较小。同时,利用该方法对NBA球员数据进行分析讨论,进一步证明了该方法的实用性和有效性。 展开更多
关键词 离群点检测 聚类 密度峰值 K近邻 核密度估计
下载PDF
基于核函数的隔离森林算法
9
作者 董东 郝琳琳 《软件导刊》 2024年第11期125-128,共4页
基于随机子采样的隔离森林算法没有考虑到子采样中来自不同区域样本点之间的相对密度,为此提出基于核函数的隔离森林算法K-iForest,根据概率密度函数重新采样来提高隔离森林算法的性能。在离群点检测数据库(ODDS)的Annthyroid、ForestCo... 基于随机子采样的隔离森林算法没有考虑到子采样中来自不同区域样本点之间的相对密度,为此提出基于核函数的隔离森林算法K-iForest,根据概率密度函数重新采样来提高隔离森林算法的性能。在离群点检测数据库(ODDS)的Annthyroid、ForestCover、Mulcross、Shuttle和Http(KDD Cup 1999)、Smtp(KDD Cup 1999)、KDD CUP 99数据集上验证K-iForest算法的有效性和效率,并与iForest算法、EIF算法、RRCF算法、GIF算法以及HIF算法进行比较。实验结果表明,K-iForest算法的AUC值高出其他算法0.1%~100.2%。 展开更多
关键词 核函数 离群点检测 隔离森林算法 概率密度 相对密度
下载PDF
基于异常检测的标签噪声过滤框架 被引量:1
10
作者 许茂龙 姜高霞 王文剑 《计算机科学》 CSCD 北大核心 2024年第2期87-99,共13页
噪声是影响机器学习模型可靠性的重要因素,而标签噪声相比特征噪声对模型训练更具决定性的影响。噪声过滤是处理标签噪声的一种有效方法,它不需要估计噪声率,也不需要依赖任何损失函数,然而目前大多数标签噪声过滤算法都会面临过度清洗... 噪声是影响机器学习模型可靠性的重要因素,而标签噪声相比特征噪声对模型训练更具决定性的影响。噪声过滤是处理标签噪声的一种有效方法,它不需要估计噪声率,也不需要依赖任何损失函数,然而目前大多数标签噪声过滤算法都会面临过度清洗问题。针对此问题,文中提出了基于异常检测的标签噪声过滤框架,并在此框架下给出了一种自适应近邻聚类的标签噪声过滤算法AdNN(Label Noise Filtering via Adaptive Nearest Neighbor Clustering)。该算法分别考虑分类问题中的每一个类别,把标签噪声检测问题转化成离群点检测问题,识别出每一个类别的离群点,然后根据相对密度去除离群点中的非噪声样本,得到噪声备选集,最后通过噪声因子对噪声备选集中的离群点进行噪声识别和过滤。实验结果表明,在合成数据集和公开数据集上,所提噪声过滤方法可以减轻过度清洗现象,同时能够得到很好的噪声过滤效果和分类预测性能。 展开更多
关键词 标签噪声过滤 离群点检测 自适应k近邻 相对密度 噪声因子
下载PDF
基于融合改进K-means聚类算法的数据检测技术 被引量:3
11
作者 郭克难 《电子设计工程》 2024年第5期41-45,共5页
针对现有医疗财务数据分析系统平台老旧,采用传统K-means算法进行数据处理时性能较差的问题,文中设计了一种财务异常数据检测算法。对于传统K-means算法存在的分类效果不佳、运行效率偏低等不足,该算法结合密度峰值法对样本点的局部密... 针对现有医疗财务数据分析系统平台老旧,采用传统K-means算法进行数据处理时性能较差的问题,文中设计了一种财务异常数据检测算法。对于传统K-means算法存在的分类效果不佳、运行效率偏低等不足,该算法结合密度峰值法对样本点的局部密度和高密度距离进行计算,进而优化簇中心的选择。同时融合PCA降维算法减少了数据的冗余信息,进一步提高了运行效率。通过引入LOF离群检测算法对分簇后的数据进行检测,从而得到异常数据结果。实验测试中,所提算法在人工数据集上的平均ARI指标为0.844,真实数据集的准确率则达到了79.2%,在所有对比算法中均为最优,表明该算法具有良好的性能,可以对财务异常数据进行准确地检测。 展开更多
关键词 K-MEANS聚类 密度峰值检测 主成分分析法 离群检测算法 异常数据检测
下载PDF
一种基于加权概率密度的上下文离群检测算法
12
作者 白慧 张继福 《计算机应用与软件》 北大核心 2024年第2期279-285,共7页
采用加权概率密度,提出一种上下文离群数据检测算法。利用高斯混合模型和稀疏度矩阵,确定相关子空间;在相关子空间中,采用加权概率密度局部异常因子公式,计算数据对象的离群因子,可以有效反映和刻画数据对象与其周围数据对象的不一致程... 采用加权概率密度,提出一种上下文离群数据检测算法。利用高斯混合模型和稀疏度矩阵,确定相关子空间;在相关子空间中,采用加权概率密度局部异常因子公式,计算数据对象的离群因子,可以有效反映和刻画数据对象与其周围数据对象的不一致程度;选取离群因子最大的N个数据对象为离群数据,并将离群因子、相关子空间属性取值、局部数据集作为其上下文信息,有效地改善了离群数据的可解释性;采用人工和UCI数据集,实验验证了算法的有效性。 展开更多
关键词 离群检测 相关子空间 加权概率密度 上下文信息
下载PDF
基于MOPSO算法改进的异常点检测方法
13
作者 高勃 柴学科 朱明皓 《计算机集成制造系统》 EI CSCD 北大核心 2024年第7期2319-2327,共9页
挖掘工业大数据的隐含价值是智能制造的一个重要研究方向,针对工业大数据特点开展异常点检测是实现数据分析的前提。首先,介绍了工业大数据异常点检测解决的主要问题,提出相关定义。其次,基于多目标粒子群算法(MOPSO),提出一种工业大数... 挖掘工业大数据的隐含价值是智能制造的一个重要研究方向,针对工业大数据特点开展异常点检测是实现数据分析的前提。首先,介绍了工业大数据异常点检测解决的主要问题,提出相关定义。其次,基于多目标粒子群算法(MOPSO),提出一种工业大数据异常点检测的改进DBSCAN模型,介绍了模型的算法设计思想、算法步骤,完成了算法伪代码的编写,并提出了算法时间复杂度的计算方法。最后,通过某电芯工厂制造数据,进行了模型仿真与实验,经实验验证,所提模型提高了工业大数据异常点检测的准确率,为数据挖掘在工业异常点检测中的应用提供了参考。 展开更多
关键词 工业大数据 异常点检测 多目标粒子群算法 DBSCAN模型
下载PDF
基于自编码标准流的异常点检测
14
作者 钟海鑫 王晖 郭躬德 《计算机系统应用》 2024年第3期34-42,共9页
在大型和高维数据上进行有效检测,在实际应用中具有重要意义.异常点检测是指识别出偏离一般数据分布的数据点,其核心是密度估计.尽管像深度自编码高斯混合模型通过先降低维度,再进行密度估计已经取得了重大进展,但是它对低维潜在空间引... 在大型和高维数据上进行有效检测,在实际应用中具有重要意义.异常点检测是指识别出偏离一般数据分布的数据点,其核心是密度估计.尽管像深度自编码高斯混合模型通过先降低维度,再进行密度估计已经取得了重大进展,但是它对低维潜在空间引入噪声,并且在对密度估计模块优化时存在一些限制,例如需要保证协方差是正定矩阵.为解决这些限制,本文提出一种用于无监督异常检测的深度自编码标准化流(deep autoencoder normalizing flow,DANF).该模型利用深度自编码器为每个输入样本生成低维潜在空间表示和重构误差,进而将其输入标准化流(normalizing flow,NF),最终映射成高斯分布.在多个公开的基准数据集上的实验结果表明,深度自编码标准化流模型显著优于最先进的异常检测技术,在评估指标F1-score上最高提升26.43%. 展开更多
关键词 异常检测 无监督学习 标准化流 可逆变换 密度估计
下载PDF
基于自适应距离的离群点检测算法
15
作者 曹霞 郑爱宇 郝静 《计算机技术与发展》 2024年第9期138-146,共9页
基于近邻的离群点检测方法根据数据对象周围的邻居来挖掘离群点,但该类方法受阈值参数的影响较大,且大多只在数据分布单一的情况下表现良好。针对数据分布多样的情况下离群点检测困难以及阈值参数的敏感性问题,提出了一种基于自适应距... 基于近邻的离群点检测方法根据数据对象周围的邻居来挖掘离群点,但该类方法受阈值参数的影响较大,且大多只在数据分布单一的情况下表现良好。针对数据分布多样的情况下离群点检测困难以及阈值参数的敏感性问题,提出了一种基于自适应距离的离群点检测算法。首先,通过动态地调整数据属性的贡献因子,使得关键属性在离群点检测中具有更大的影响力,能够准确反映关键属性与离群点之间的关联性;其次,综合考虑属性贡献因子和密度来计算数据对象之间的距离,以便更好地识别数据对象之间的位置关系和密度分布特征;最后,为了降低阈值参数的影响,逐步增大邻居的大小来计算数据对象的自适应距离的变化之和,将其累加作为离群得分。通过在人工合成数据集和公共数据集上进行实验,验证了提出的算法检测精度更高。 展开更多
关键词 数据挖掘 离群点检测 属性贡献因子 密度分布 自适应距离
下载PDF
Density Map Guided Region Localization for End-to-End Small Object Detection
16
作者 Bo LI Kai HUANG +1 位作者 Junhui LI Yufu LIAO 《Journal of Systems Science and Information》 CSCD 2023年第6期776-794,共19页
With the advancement of society and science and technology, the demand for detecting small objects in practical scenarios becomes stronger. Such objects are only represented by relatively small coverage of pixels, and... With the advancement of society and science and technology, the demand for detecting small objects in practical scenarios becomes stronger. Such objects are only represented by relatively small coverage of pixels, and the features are degraded severely after being extracted by a deep convolutional neural network, which is detrimental to the detection performance for small objects. Therefore, an intuitive solution is to increase the resolution of small objects by cropping the original image. In this paper, we propose a simple but effective object density map guided region localization module (DMGRL) to locate and crop the regions of interest where small objects may exist. Firstly, the density map of the objects is estimated by object density map estimation network, and then the coordinates of the small object regions are calculated;Secondly, the continuous differentiable affine transformation is utilized to crop these regions so that the detector with DMGRL can be trained end-to-end instead of two-stage training. Finally, the all prediction results of input image and cropped region images are merged together to output the final detection results by non maximum suppression (NMS). Extensive experiments demonstrate the superior performance of the detector incorporated DMGRL. 展开更多
关键词 small object detection density map estimation end-to-end training affine transformation
原文传递
基于数据分布特征的分层无量纲化方法及其均衡性分析
17
作者 易平涛 袁建荣 李伟伟 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第6期889-897,共9页
分层无量纲化方法能够有效去除指标量纲影响的同时解决异常指标造成的数据分布不均衡、区分度低等问题.然而,该方法的使用需要人为指定区间数,使得无量纲化结果受人为因素的干扰,失去客观性.针对该问题,考虑原始数据的分布特征,提出了密... 分层无量纲化方法能够有效去除指标量纲影响的同时解决异常指标造成的数据分布不均衡、区分度低等问题.然而,该方法的使用需要人为指定区间数,使得无量纲化结果受人为因素的干扰,失去客观性.针对该问题,考虑原始数据的分布特征,提出了密度分层无量纲化方法.该方法按照数据分布的疏密程度进行区间划分,客观确定分层级数,同时兼顾分层无量纲化方法的优点,计算相对简单且减少了人为干扰.此外,通过随机模拟发现,该方法对于异常值具有较好的抗干扰性,且无量纲化结果的均衡性受原始数据规模影响. 展开更多
关键词 无量纲化方法 异常值 分层无量纲化方法 数据密度 客观分层
下载PDF
采用离群点检测技术的混合型数据聚类初始化方法 被引量:5
18
作者 杨志勇 江峰 +1 位作者 于旭 杜军威 《智能系统学报》 CSCD 北大核心 2023年第1期56-65,共10页
近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检... 近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density,IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。 展开更多
关键词 聚类初始化 混合型数据 离群点检测 邻域粗糙集 粒度邻域熵 距离离群因子 加权密度 加权距离
下载PDF
两阶段的近邻密度投票模拟离群点检测算法 被引量:1
19
作者 郑忠龙 曾心 刘华文 《郑州大学学报(工学版)》 CAS 北大核心 2023年第6期33-39,共7页
基于近邻的离群点检测算法对近邻选择较为敏感,邻域范围过小会增加模型复杂度,导致过拟合;邻域范围过大会使模型过于简单,忽略大量可用信息。为了降低邻域范围选择对离群点识别的影响,达到更高的精确度,基于近邻关系设计了一种投票决策... 基于近邻的离群点检测算法对近邻选择较为敏感,邻域范围过小会增加模型复杂度,导致过拟合;邻域范围过大会使模型过于简单,忽略大量可用信息。为了降低邻域范围选择对离群点识别的影响,达到更高的精确度,基于近邻关系设计了一种投票决策的算法。该算法包括密度估计和模拟投票2个步骤:密度估计用于加速收敛数据点的密度得到稳态密度,从而根据稳态密度进行不同策略的模拟投票;模拟投票策略是基于社区发现算法改进得到的离群点检测核心算法,同时考虑数据点的重要性与其近邻的相似性进行投票。数据点的重要性与其稳态密度呈正相关,重要性越大的数据点将优先进行主动投票,把自身信息传递给邻域内与其相似度最大的数据点,并累计被投票数据点的投票排名。当每个数据点都进行主动投票后,算法停止迭代,得到各数据点的投票排名,将投票排名越靠后的数据点视为离群点。在11个真实数据集上的实验结果表明:基于近邻的投票模拟检测算法平均精确度为79%,证明了所提算法的有效性。 展开更多
关键词 近邻关系 密度估计 投票 相似性 离群点检测
下载PDF
基于平均密度的孤立点检测研究 被引量:11
20
作者 施化吉 周书勇 +2 位作者 李星毅 唐慧 丁秋林 《电子科技大学学报》 EI CAS CSCD 北大核心 2007年第6期1286-1288,1295,共4页
为了使孤立点检测更为自动化,减少用户对参数选择的困难,提出了平均密度的定义,并给出基于平均密度的孤立点检测方法。该方法提出了孤立点对象的密度要小于数据集的平均密度;非孤立点对象的密度不应因为封闭区间的收缩而减少。采用企鹅... 为了使孤立点检测更为自动化,减少用户对参数选择的困难,提出了平均密度的定义,并给出基于平均密度的孤立点检测方法。该方法提出了孤立点对象的密度要小于数据集的平均密度;非孤立点对象的密度不应因为封闭区间的收缩而减少。采用企鹅图像边缘检测对该方法进行验证,实验结果表明,该方法能够有效地检测出图像边缘孤立点,同时简化了孤立点检测时对用户输入参数的要求。 展开更多
关键词 平均密度 平均距离 对象密度 孤立点检测
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部