期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于谱聚类算法的人力资源数据集离群点快速挖掘方法
1
作者 李春燕 《信息与电脑》 2023年第23期50-52,共3页
当前的数据集离群点挖掘方法一般设置为引导式结构,挖掘效率较低。为此,提出基于谱聚类算法的人力资源数据集离群点快速挖掘方法。先预处理多维人力资源数据集,采用多节点机制提高挖掘的效率,然后构建谱聚类测算离群点快速挖掘模型,采... 当前的数据集离群点挖掘方法一般设置为引导式结构,挖掘效率较低。为此,提出基于谱聚类算法的人力资源数据集离群点快速挖掘方法。先预处理多维人力资源数据集,采用多节点机制提高挖掘的效率,然后构建谱聚类测算离群点快速挖掘模型,采用回归处理实现快速挖掘。测试结果表明,相同的测试周期中,文章提出的方法最多可以挖掘27次,说明在谱聚类算法的辅助下,该算法的挖掘效率更高。 展开更多
关键词 谱聚类算法 人力资源 数据集 离群点 快速挖掘
下载PDF
多尺度点云噪声检测的密度分析法 被引量:31
2
作者 朱俊锋 胡翔云 +1 位作者 张祖勋 熊小东 《测绘学报》 EI CSCD 北大核心 2015年第3期282-291,共10页
当前机载激光雷达数据和影像匹配得到的点云是密集点云数据的两类主要来源,但都不可避免存在着噪声点。本文提出一种新的点云去噪算法,可适用于这两类数据中所包含的噪声点的去除。算法主要包括两步:第1步利用多尺度的密度算法去除孤立... 当前机载激光雷达数据和影像匹配得到的点云是密集点云数据的两类主要来源,但都不可避免存在着噪声点。本文提出一种新的点云去噪算法,可适用于这两类数据中所包含的噪声点的去除。算法主要包括两步:第1步利用多尺度的密度算法去除孤立噪声和小的簇状噪声;第2步利用三角网约束将第1步中误检测为噪声的点重新归为正常点。针对真实数据进行了剔噪试验,结果表明本文提出的基于密度分析的多尺度噪声检测算法对孤立噪声和簇状噪声都有较为效,且对于质量较差的影像匹配点云的检测也能有效处理。本文算法检测率达到97%以上。 展开更多
关键词 噪声检测 点云数据 多尺度 LIDAR 影像匹配
下载PDF
基于k均值分区的数据流离群点检测算法 被引量:20
3
作者 倪巍伟 陆介平 +1 位作者 陈耿 孙志挥 《计算机研究与发展》 EI CSCD 北大核心 2006年第9期1639-1643,共5页
离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类... 离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后在这些均值参考点中,根据离群点的定义找出可能存在的离群点.理论分析和实验结果表明,算法可以有效解决数据流离群点检测问题,算法是有效可行的. 展开更多
关键词 数据挖掘 离群点检测 均值参考点 聚合
下载PDF
时序数据故障点检测方法分析比较及应用 被引量:4
4
作者 贺力克 聂平由 《湖南师范大学自然科学学报》 CAS 北大核心 2012年第2期35-40,共6页
比较了3种不同的时序数据故障点检测算法.基于引力的孤立点检测算法考虑了数据对象周围的密度及数据之间的距离等因素.基于均值变点的检测算法则侧重于考察故障点周围统计量的变化,而非故障点的局部范围内统计量保持未定.第三种基于均... 比较了3种不同的时序数据故障点检测算法.基于引力的孤立点检测算法考虑了数据对象周围的密度及数据之间的距离等因素.基于均值变点的检测算法则侧重于考察故障点周围统计量的变化,而非故障点的局部范围内统计量保持未定.第三种基于均值方差变点估计的检测算法则研究了时序数据中均值和方差两个统计量都存在变点且变点时刻不相同时的变点估计问题.试验表明基于引力的算法比其他两种效果要差,而基于均值变点检测算法的计算效率要比基于均值方差估计检测算法要高. 展开更多
关键词 故障点检测 时序数据 孤立点 均值变点 方差变点
下载PDF
一种基于距离的欺诈风险分析方法 被引量:4
5
作者 柳炳祥 盛昭瀚 《中国管理科学》 CSSCI 2003年第1期38-41,共4页
叙述了欺诈的基本概念,分析了欺诈风险产生的原因,研究了欺诈风险的识别、分析和评价方法,指出了传统的欺诈风险分析模型存在的局限性,提出了一种基于距离的欺诈风险分析方法,并通过一个信用卡欺诈的模拟实验说明了该方法的可行性和有效... 叙述了欺诈的基本概念,分析了欺诈风险产生的原因,研究了欺诈风险的识别、分析和评价方法,指出了传统的欺诈风险分析模型存在的局限性,提出了一种基于距离的欺诈风险分析方法,并通过一个信用卡欺诈的模拟实验说明了该方法的可行性和有效性,为欺诈风险的分析提供了一种新的思路和分析方法。 展开更多
关键词 欺诈风险 分析模型 信用卡欺诈 意外规则 离群数据 距离
下载PDF
基于大数据的水量监测系统有效性分析 被引量:4
6
作者 诸葛燕 方海泉 《浙江海洋大学学报(自然科学版)》 CAS 北大核心 2019年第6期560-566,共7页
加强取用水监测是实施最严格水资源管理制度的重要举措。为了更加有效利用大量取用水在线监测数据,对数据有效性进行了深入分析,首先,从监测数据的总量和时序变化两个方面进行异常值筛选;其次,从监测数据正常的监测点的个数和监测水量... 加强取用水监测是实施最严格水资源管理制度的重要举措。为了更加有效利用大量取用水在线监测数据,对数据有效性进行了深入分析,首先,从监测数据的总量和时序变化两个方面进行异常值筛选;其次,从监测数据正常的监测点的个数和监测水量两个方面对取用水在线监测数据的有效性进行评估;最后,以G市的取用水在线监测数据为例进行实证分析,结果表明提出的异常值分析方法是有效的,并且建立的取用水在线监测数据有效性评估方法是可行的。 展开更多
关键词 取用水 监测数据 异常值 有效性 监测点
下载PDF
城市干线道路交通拥挤态势的监测 被引量:2
7
作者 弓晋丽 彭贤武 《交通运输系统工程与信息》 EI CSCD 北大核心 2013年第5期30-36,55,共8页
以城市干线道路交通拥挤态势监测为目的,设计基于定点检测数据的异常监测系统.获取交通流基础数据(流量、速度、占有率)后,使用模糊C-均值聚类算法将定量数据转化为交通定性状态(拥挤或畅通).以此为基础,系统使用时间序列分形分析法确... 以城市干线道路交通拥挤态势监测为目的,设计基于定点检测数据的异常监测系统.获取交通流基础数据(流量、速度、占有率)后,使用模糊C-均值聚类算法将定量数据转化为交通定性状态(拥挤或畅通).以此为基础,系统使用时间序列分形分析法确定交通拥挤态势指数;以序列模式相似性度量法和凝聚分层聚类法进行常规运行模式的辨识;并使用基于距离的异常模式变点识别法实时监测交通拥挤态势是否偏离常规运行模式,以此确定系统是否存在异常.以上海南北高架东侧11天的定点检测数据为例进行实证分析,监测得到了9月30日异常模式集中分布在中午12:10-13:20、13:40-14:30和下午17:10-17:15时间段内. 展开更多
关键词 交通工程 拥挤态势 时间序列 异常监测 定点检测数据
下载PDF
离群数据挖掘方法在电力负荷预测中的应用 被引量:1
8
作者 史东辉 《计算机工程与应用》 CSCD 北大核心 2010年第21期213-215,共3页
根据负荷预测的理论,通过历史数据为基础进行电力负荷数据预测。由于实际运行过程中,采集数据存在错误,使得获得到的负荷预测曲线包含较大的锯齿状。提出一种新的离群数据挖掘方法,即求二直线的夹角方法寻找尖锐点,离群数据为尖锐点处... 根据负荷预测的理论,通过历史数据为基础进行电力负荷数据预测。由于实际运行过程中,采集数据存在错误,使得获得到的负荷预测曲线包含较大的锯齿状。提出一种新的离群数据挖掘方法,即求二直线的夹角方法寻找尖锐点,离群数据为尖锐点处对应电力负荷有功值,然后使用曲线平滑的方法对这些离群数据进行了处理。实验证明,运用提出的这一新的离群数据挖掘方法处理负荷预测曲线,预测结果明显改进。 展开更多
关键词 离群数据 负荷预测 直线夹角 平滑
下载PDF
一种新的雷达数据剔野方法 被引量:1
9
作者 胡奎 《飞行器测控学报》 2012年第6期71-73,共3页
基于雷达测量数据是一种特殊的时间序列这一特性,提出了一种针对雷达数据的序列剔野方法。先求得序列的边缘点,计算边缘权重因子,再在特征空间中计算异常因子来识别野值。从子列的角度检测雷达测量数据的野值,弥补了单点检测的局限性。... 基于雷达测量数据是一种特殊的时间序列这一特性,提出了一种针对雷达数据的序列剔野方法。先求得序列的边缘点,计算边缘权重因子,再在特征空间中计算异常因子来识别野值。从子列的角度检测雷达测量数据的野值,弥补了单点检测的局限性。采用某型雷达在某次任务中斜距R的一段测量数据进行实验,并将野值识别情况与用传统方法所得结果进行比较,结果表明,这种针对雷达测量数据的序列剔野方法较传统方法更能有效地剔除雷达数据中的野值。 展开更多
关键词 雷达数据 边缘点 特征空间 剔野
下载PDF
一种新的鲁棒三维点云平面拟合方法 被引量:13
10
作者 童子良 余学祥 +2 位作者 汪涛 王虎 苏晓刚 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2020年第12期1684-1688,共5页
针对三维点云中的异常值和粗差点对平面拟合精度产生的影响,文章提出一种将随机采样一致(random sample consensus,RANSAC)算法与主成分分析(principal component analysis,PCA)方法相结合的点云平面拟合新方法。通过RANSAC算法剔除原... 针对三维点云中的异常值和粗差点对平面拟合精度产生的影响,文章提出一种将随机采样一致(random sample consensus,RANSAC)算法与主成分分析(principal component analysis,PCA)方法相结合的点云平面拟合新方法。通过RANSAC算法剔除原始点云数据中的异常值和粗差,保留质量好的点云数据;再利用PCA方法对留下的点云数据进行平面拟合,以获得更为精确的拟合平面参数解。仿真模拟算例与实测数据实验结果表明,相比于传统的拟合算法,该拟合方法可以消除异常值和粗差点的影响,并且能够得到更为准确的拟合参数,是一种具有鲁棒性和适用性的新方法。 展开更多
关键词 点云数据 异常值 平面拟合 随机采样一致(RANSAC)算法 主成分分析(PCA)方法
下载PDF
基于离群数据挖掘的多点电力负荷预测方法 被引量:3
11
作者 胡佳佳 杨洪耕 《计算机仿真》 北大核心 2021年第12期66-69,93,共5页
针对传统多点电力负荷预测方法未进行数据校正问题,提出离群数据挖掘的多点电力负荷预测方法。通过计算离群数据点与其邻近点的距离,进行离群数据的挖掘;依据离散傅里叶转换数据集合,实现离散数据点集合求取;采用储存间距获取数据点与... 针对传统多点电力负荷预测方法未进行数据校正问题,提出离群数据挖掘的多点电力负荷预测方法。通过计算离群数据点与其邻近点的距离,进行离群数据的挖掘;依据离散傅里叶转换数据集合,实现离散数据点集合求取;采用储存间距获取数据点与其邻近点的距离;节点与整体单位设定单层或多层节点,根据整体辅助节点负荷构建多点预测模型;利用信息熵准则选取聚类的代表性点与合并点,通过负荷特征曲线达成数据校正,从而实现多点电力负荷的预测。仿真结果表明,提出的电力负荷预测方法不仅具有精准预测的有效性,噪声去除效果最佳,而且预测效率较高。 展开更多
关键词 离群数据挖掘 多点电力 负荷预测 信息熵 离散傅里叶转换
下载PDF
基于边界混合重采样的非平衡数据分类方法 被引量:20
12
作者 侯贝贝 刘三阳 普事业 《计算机工程与应用》 CSCD 北大核心 2020年第1期46-52,共7页
在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界... 在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界点作为目标样本合成新的点集,同时对多数类中的非边界点采用基于距离的欠采样算法,以此达到类之间的平衡。通过实验结果对比表明了该算法在保证G-mean值较优的前提下,一定程度上提高了少数类的分类精度。 展开更多
关键词 支持k-离群度 重采样 边界点 非平衡数据分类
下载PDF
基于改进ICP算法的三维点云刚体配准方法 被引量:8
13
作者 汪霖 郭佳琛 +3 位作者 张璞 万腾 刘成 杜少毅 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第2期183-190,共8页
针对含有噪声和外点的三维点云刚体配准问题,由于迭代最近点(iterative closest point,ICP)算法的配准精度较低,为此,该文提出了一种基于改进ICP算法的三维点云刚体配准方法。考虑到伪Huber损失函数对噪声和外点不敏感、鲁棒性强,首先,... 针对含有噪声和外点的三维点云刚体配准问题,由于迭代最近点(iterative closest point,ICP)算法的配准精度较低,为此,该文提出了一种基于改进ICP算法的三维点云刚体配准方法。考虑到伪Huber损失函数对噪声和外点不敏感、鲁棒性强,首先,建立了基于伪Huber损失函数的三维点云刚体配准模型。其次,利用RGB-D点云数据中颜色信息辅助建立点云对应关系,以提高改进ICP算法中对应点匹配的准确性。最后,结合奇异值分解(singular value decomposition,SVD)和Levenberg-Marquardt(LM)的优化算法对三维点云刚体配准模型进行优化求解。实验结果表明,该文所提三维点云刚体配准方法的配准精度高,能够有效抑制噪声和外点对配准精度的影响。 展开更多
关键词 三维点云刚体配准 伪Huber损失函数 RGB-D点云数据 噪声和外点
下载PDF
利用LMedS算法与特征值法的点云平面拟合方法 被引量:2
14
作者 苏毅辉 陈志聪 吴丽君 《信息技术与网络安全》 2022年第3期38-43,共6页
针对三维点云数据中存在的异常点会对平面拟合过程产生不利的影响,提出了一种将最小平方中值算法(Least Median of Squares,LMedS)与特征值法相结合的点云平面拟合新方法。首先,通过LMedS算法进行多次迭代确定最佳阈值并剔除点云数据中... 针对三维点云数据中存在的异常点会对平面拟合过程产生不利的影响,提出了一种将最小平方中值算法(Least Median of Squares,LMedS)与特征值法相结合的点云平面拟合新方法。首先,通过LMedS算法进行多次迭代确定最佳阈值并剔除点云数据中的异常点。然后,采用特征值法对剔除完异常点后的点云数据进行平面拟合,以获得更加精确的拟合平面参数解。最后,分别采用最小二乘法、特征值法、RANSAC+主成分分析法与所提出方法对仿真和实测点云数据进行平面拟合计算。实验结果表明,相比于其他方法,该方法的平面拟合精度更高,适用于对含有异常点的点云数据进行平面拟合,具有较高的鲁棒性。 展开更多
关键词 点云数据 异常点 最小平方中值算法 特征值法 平面拟合
下载PDF
IBORA:一种改进的有效的边界点检测
15
作者 吾守尔.斯拉木 李丰军 陶梅 《小型微型计算机系统》 CSCD 北大核心 2008年第10期1845-1848,共4页
针对目前在含有噪声点的数据集中,边界点检测效率低、参数阈值范围不容易确定的问题,利用在边界点的Eps邻域内,边界点同其它对象组成的向量夹角中至少存在一个比较大的角邻域,并且该角邻域内不再含有其它对象的特点,以及在空间中噪声点... 针对目前在含有噪声点的数据集中,边界点检测效率低、参数阈值范围不容易确定的问题,利用在边界点的Eps邻域内,边界点同其它对象组成的向量夹角中至少存在一个比较大的角邻域,并且该角邻域内不再含有其它对象的特点,以及在空间中噪声点分布比较稀疏的特点,提出了一种新的边界点的检测算法IBORA(an Improved BOundaRy points detection basedon Angle),实验结果表明IBORA能在含有噪声点/孤立点的不同形状、大小的数据集上有效地检测出边界点,执行效率高. 展开更多
关键词 数据挖掘 边界点 噪声点 角度
下载PDF
基于离群点检测的不确定数据流聚类算法研究 被引量:13
16
作者 叶福兰 《中国电子科学研究院学报》 北大核心 2019年第10期1094-1099,共6页
应用网络流量、日志管理等数据流过程中,常遭设备精度、噪声等问题影响出现大量不确定性数据流,影响数据流的管理与挖掘。相关研究表明,检测数据流中的离群点能够挖掘网络中被忽视的异常数据。因此,提出基于离群点检测的不确定数据流聚... 应用网络流量、日志管理等数据流过程中,常遭设备精度、噪声等问题影响出现大量不确定性数据流,影响数据流的管理与挖掘。相关研究表明,检测数据流中的离群点能够挖掘网络中被忽视的异常数据。因此,提出基于离群点检测的不确定数据流聚类算法,首先,通过微聚类划分算法将数据集划分成若干个微聚类;然后,根据信息熵的微聚类过滤机制获取全局离群点,在离群点微聚类中使用基于距离的方法挖掘出局部离群点;最后,采用不确定数据流子空间聚类算法完成全局离群点以及局部离群点两种不确定数据流聚类。分析结果表明,在数据量和维度的影响下,采用同类聚类算法聚类时聚类效果较差,而所提算法可有效克服此类问题,且具有较强的伸缩性。 展开更多
关键词 离群点 检测 不确定数据流 聚类 信息熵 过滤
下载PDF
改进Kmeans算法的海洋数据异常检测 被引量:27
17
作者 蒋华 季丰 +2 位作者 王慧娇 王鑫 罗一迪 《计算机工程与设计》 北大核心 2018年第10期3132-3136,共5页
为解决Kmeans算法随机指定初始点聚类和海洋Argo浮标数据异常问题,提出一种改进Kmeans算法的海洋数据异常检测方法。提出一种改进Kmeans算法DMKmeans(density mathematics Kmeans),选取给定邻域范围内最近邻数据点最多的点为初始中心点... 为解决Kmeans算法随机指定初始点聚类和海洋Argo浮标数据异常问题,提出一种改进Kmeans算法的海洋数据异常检测方法。提出一种改进Kmeans算法DMKmeans(density mathematics Kmeans),选取给定邻域范围内最近邻数据点最多的点为初始中心点,迭代聚类,直到准则函数收敛,聚类结束;基于DMKmeans算法对数据集聚类,使用数学模型为准则进行海洋监测数据异常检测。通过海洋监测数据异常检测仿真实验,将DMKmeans算法与传统Kmeans算法及MinMaxKmeans算法做对比分析,其结果表明,提出算法能有效提高聚类准确率和异常检测率。 展开更多
关键词 Kmeans算法 初始聚类中心点 离群点 海洋监测数据 异常检测
下载PDF
一种改进的K-means聚类算法与孤立点检测研究
18
作者 尹敏杰 东春昭 《电脑知识与技术》 2010年第7X期6085-6086,共2页
传统的K-means算法对于孤立点数据是非常敏感的,少量的该类数据就能对聚类结果产生很大影响。该文提出了一种改进的K-means算法来消弱这种敏感性。算法基于孤立点检测LOF算法中计算K距离的思想,将大于K距离的数据点作为伪聚类中心参与... 传统的K-means算法对于孤立点数据是非常敏感的,少量的该类数据就能对聚类结果产生很大影响。该文提出了一种改进的K-means算法来消弱这种敏感性。算法基于孤立点检测LOF算法中计算K距离的思想,将大于K距离的数据点作为伪聚类中心参与聚类划分,通过对聚类结果的评价来判断该数据点是否为孤立点。若为孤立点则去掉该点,进而来提高聚类质量。 展开更多
关键词 K-MEANS K距离 孤立点 伪聚类中心
下载PDF
异常点诊断视角下的大数据杠杆抽样方法 被引量:4
19
作者 贺建风 张莉维 《统计学报》 2022年第3期70-85,共16页
针对普通杠杆抽样倾向于抽取强影响点导致估计精度降低的问题,围绕强影响点的剔除方法和大数据的复杂特性展开分析,提出一种基于异常点诊断的大数据杠杆抽样方法。该方法结合了传统的异常点诊断方法以及DBSCAN聚类,可以准确、快速地识... 针对普通杠杆抽样倾向于抽取强影响点导致估计精度降低的问题,围绕强影响点的剔除方法和大数据的复杂特性展开分析,提出一种基于异常点诊断的大数据杠杆抽样方法。该方法结合了传统的异常点诊断方法以及DBSCAN聚类,可以准确、快速地识别强影响点,进而提高估计精度。数值模拟结果显示,相比于普通杠杆抽样,利用基于异常点诊断的杠杆抽样方法获得的抽样子集在估计中所得的均方误差较小,估计精度也更高。 展开更多
关键词 大数据 杠杆抽样 强影响点 异常点诊断 均方误差
下载PDF
改进地标点采样的加速谱聚类算法
20
作者 徐航帆 刘丛 +1 位作者 唐坚刚 彭敦陆 《电子科技》 2021年第5期47-53,共7页
传统的基于地标点的大规模加速谱聚类算法易受分布不均匀地标点和离群地标点影响。K-means等采样方法在面对大规模数据时,时间空间消耗较大。针对以上问题,文中提出了一种改进地标点采样的加速谱聚类算法。该算法通过地标点间成对相似... 传统的基于地标点的大规模加速谱聚类算法易受分布不均匀地标点和离群地标点影响。K-means等采样方法在面对大规模数据时,时间空间消耗较大。针对以上问题,文中提出了一种改进地标点采样的加速谱聚类算法。该算法通过地标点间成对相似度矩阵的标准差来衡量地标点的分布均匀程度,选取随机的多组地标点集中分布最均匀的一组,去除局部密度较低的离群地标点;利用获得的地标点集与原始数据集构造稀疏相似度矩阵,并对该矩阵奇异值分解得到的前k个右奇异特征向量矩阵进行K-means聚类,得到最终聚类结果。文中从理论上分析了该算法时间复杂度和空间复杂度。验证结果表明该算法在一些数据集上比随机采样方法的准确率高3%~10%,和K-means采样方法相比时间消耗少50%~60%。 展开更多
关键词 谱聚类 大数据 地标点采样 离群点 标准差 稀疏相似度矩阵 局部密度 奇异值分解
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部