期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
CSLE模型应用中不同抽样密度和推算方法的比较 被引量:12
1
作者 邹丛荣 齐斐 +5 位作者 张庆红 刘霞 张荣华 黎家作 董书宝 姚孝友 《中国水土保持科学》 CSCD 北大核心 2016年第3期130-138,共9页
为探讨CSLE模型应用中,不同抽样密度和推算方法对估算县域尺度土壤侵蚀的影响,确定县域尺度既能保证精度,又能减轻外业工作量的适宜抽样密度和土壤侵蚀推算方法。以沂蒙山区蒙阴县为对象,通过对比在1%和4%2种野外调查单元的抽样密度下,... 为探讨CSLE模型应用中,不同抽样密度和推算方法对估算县域尺度土壤侵蚀的影响,确定县域尺度既能保证精度,又能减轻外业工作量的适宜抽样密度和土壤侵蚀推算方法。以沂蒙山区蒙阴县为对象,通过对比在1%和4%2种野外调查单元的抽样密度下,分别采用单元直接外推法、单元插值外推法和栅格计算法估算土壤侵蚀状况,分析其差异性。结果表明:(1)单元直接外推法、单元插值外推法受抽样密度影响较大,在1%和4%抽样密度下,土壤侵蚀面积比相差8.82%和7.96%,相对差异达19.05%和17.43%;而栅格计算法,受抽样密度的影响较小,土壤侵蚀面积比相差3.13%,相对差异9.27%。(2)同一抽样密度下,单元直接外推法和单元插值外推法的估算结果相近,但与栅格计算法的结果差异较大,土壤侵蚀面积比相差11.77%~18.12%,相对差异34.72%~48.93%。因此,在应用CSLE模型开展沂蒙山区县域尺度土壤侵蚀调查工作时,综合考虑精度和工作量,若以高分卫片为基础,宜采用1%抽样密度和栅格计算法;否则,建议采用4%抽样密度基础上的单元插值外推法。 展开更多
关键词 CSLE模型 土壤侵蚀 县域 抽样密度 单元直接外推法 单元插值外推法 栅格计算法
下载PDF
沂蒙山区不同抽样密度对土壤侵蚀因子估算精度的影响 被引量:4
2
作者 齐斐 苏新宇 +5 位作者 黎家作 胡续礼 刘霞 张春强 邢先双 丁鸣鸣 《水土保持通报》 CSCD 北大核心 2019年第2期179-183,191,共6页
[目的]探讨分层系统抽样方法下不同抽样密度对土壤侵蚀因子估算精度的影响,为区域水土流失动态监测抽样方法和抽样密度的选取提供数据支撑。[方法]以沂蒙山泰山国家级重点治理区蒙阴县为对象,基于2013年SPOT5遥感影像和1∶1万地形图,采... [目的]探讨分层系统抽样方法下不同抽样密度对土壤侵蚀因子估算精度的影响,为区域水土流失动态监测抽样方法和抽样密度的选取提供数据支撑。[方法]以沂蒙山泰山国家级重点治理区蒙阴县为对象,基于2013年SPOT5遥感影像和1∶1万地形图,采用人机交互解译、野外调查、统计分析等方法,以全县土壤侵蚀因子为基准值,对1%和4%密度土壤侵蚀因子进行精度评价。[结果]①1%抽样密度下,S,E,K因子相对误差较大,分别为33.48%,23.46%,20.64%,主要受坡度、土地利用和土壤类型影响;L,B,T相对误差均小于11%;六者平均14.44%。②4%抽样密度下,E,K,B相对误差较大,分别为15.07%,13.94%和10.69%,主要受土地利用和土壤类型影响;L,S,T相对误差均小于10%;6者平均7.89%。③以栅格计算法结果为基准值,采用单元插值外推法推算全县水土流失面积,1%密度下水土流失面积比偏高19.73%,4%密度下水土流失面积比偏高11.77%。[结论]蒙阴县1%和4%密度各因子均有不同程度的精度损失,并对水土流失估算结果造成一定影响,在区域水土流失动态监测过程中可根据需求选取合适的抽样密度。 展开更多
关键词 抽样密度 精度损失 相对误差 CSLE模型
下载PDF
基于密度偏差抽样的聚类算法研究 被引量:2
3
作者 纪良浩 《重庆邮电大学学报(自然科学版)》 2007年第6期729-732,共4页
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对... 随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。 展开更多
关键词 密度偏差抽样 随机抽样 聚类 算法 正确率
下载PDF
基于可变网格划分的密度偏差抽样算法 被引量:7
4
作者 盛开元 钱雪忠 吴秦 《计算机应用》 CSCD 北大核心 2013年第9期2419-2422,共4页
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基... 简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高。 展开更多
关键词 密度偏差抽样 可变网格划分 数据挖掘 大规模数据集 聚类
下载PDF
基于密度偏倚抽样的局部距离异常检测方法 被引量:18
5
作者 付培国 胡晓惠 《软件学报》 EI CSCD 北大核心 2017年第10期2625-2639,共15页
异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此,提出一种基于密度... 异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此,提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法,对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.然后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,与已有的算法相比,该算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强. 展开更多
关键词 异常检测 局部异常系数 局部距离 密度偏倚抽样 SLDOF算法
下载PDF
基于不均匀数据的密度偏差抽样改进算法 被引量:2
6
作者 吕丹 龙华 +2 位作者 高杰 邵玉斌 杜庆治 《软件导刊》 2018年第2期77-79,85,共4页
针对不均匀数据集的抽样问题,已有随机抽样算法、基于固定网格划分的单维度算法、基于可变网格划分的单维度算法,但仍无法更好地反映数据分布特征问题。在数据挖掘的实际应用中,数据规模越来越大,数据类型也越来越复杂,存在系统整体开... 针对不均匀数据集的抽样问题,已有随机抽样算法、基于固定网格划分的单维度算法、基于可变网格划分的单维度算法,但仍无法更好地反映数据分布特征问题。在数据挖掘的实际应用中,数据规模越来越大,数据类型也越来越复杂,存在系统整体开销大、时间运行成本高等问题。提出并实现了基于不均匀数据的密度偏差抽样改进算法(IDDS),通过引入网格单元密度和三角函数,从而达到较好的密度偏差抽样效果。实验结果发现,IDDS算法抽样效果更好,提取的样本质量更高,有效保证了不均匀数据的分布特征。与原始的密度偏差抽样算法(DDS)相比,应用IDDS算法的效率更高。 展开更多
关键词 密度偏差抽样算法(DDS) POI信息 数据挖掘 三角函数
下载PDF
密度偏差抽样在近邻传播聚类中的应用
7
作者 潘春燕 张仁崇 杨忠保 《商丘师范学院学报》 CAS 2022年第12期4-8,共5页
AP聚类算法无需人为设定类别和指定类中心,能高效解决数据聚类问题,但无法满足大规模数据的应用需求,因此对数据进行聚类前先约简数据尤为重要.分布均匀的数据利用简单随机抽样可获得质量较高的样本,当数据偏斜较大时,简单随机抽样所获... AP聚类算法无需人为设定类别和指定类中心,能高效解决数据聚类问题,但无法满足大规模数据的应用需求,因此对数据进行聚类前先约简数据尤为重要.分布均匀的数据利用简单随机抽样可获得质量较高的样本,当数据偏斜较大时,简单随机抽样所获得的样本往往会丢失原始数据集的类.针对此问题,首先借助基于网格的密度偏差抽样算法对数据进行约简,其次在样本数据集上执行AP聚类,最后通过数值实验结果表明,对样本数据执行聚类在损失小部分精度代价上,提高聚类算法的效率. 展开更多
关键词 约简 网格 密度偏差抽样 精度
下载PDF
结构可靠性灵敏度分析的方向(重要)抽样法 被引量:9
8
作者 宋述芳 吕震宙 郑春青 《固体力学学报》 CAS CSCD 北大核心 2008年第3期264-271,共8页
方向抽样法是在标准正态空间极坐标系下,通过对矢径的方向进行随机抽样来分析结构可靠度的.但是当极限状态面接近平面时,方向抽样法就没有优势了.为了提高方向抽样法的效率,提出了三种基于方向(重要)抽样法的可靠性灵敏度分析方法.根据... 方向抽样法是在标准正态空间极坐标系下,通过对矢径的方向进行随机抽样来分析结构可靠度的.但是当极限状态面接近平面时,方向抽样法就没有优势了.为了提高方向抽样法的效率,提出了三种基于方向(重要)抽样法的可靠性灵敏度分析方法.根据独立标准正态空间中基本变量的2χ分布特性及矢径与随机变量分布参数的关系,推导失效概率对基本随机变量分布参数的可靠性灵敏度分析的计算公式.该文所提的可靠性及灵敏度计算方法有较高的计算效率和精度,对于高度非线性极限状态方程问题亦有很强的适应性. 展开更多
关键词 方向抽样 控制参数 方向重要抽样密度函数 可靠性及灵敏度
下载PDF
基于遥感与抽样单元调查的县域尺度水土流失推算方法 被引量:2
9
作者 段倩 齐斐 +6 位作者 罗梦琦 刘霞 唐俊 张春强 吴镇宇 李想 姚孝友 《山东农业大学学报(自然科学版)》 北大核心 2020年第6期1063-1068,共6页
为进一步研究基于1%和4%抽样密度,采用不同水土流失推算方法对县域水土流失监测成果的影响,为全国水土流动态监测提供技术支撑,本文以沂蒙山区沂水县为例,采用遥感与抽样单元调查相结合的方法,分析不同抽样密度下直接外推法、插值外推... 为进一步研究基于1%和4%抽样密度,采用不同水土流失推算方法对县域水土流失监测成果的影响,为全国水土流动态监测提供技术支撑,本文以沂蒙山区沂水县为例,采用遥感与抽样单元调查相结合的方法,分析不同抽样密度下直接外推法、插值外推法和全覆盖计算法对水土流失状况的影响,并进行差异性分析。结果表明:(1)在1%、4%抽样密度下,直接外推法、插值外推法水土流失面积比分别相差6.49%和7.69%,相对误差达15.87%和16.22%,而全覆盖计算法水土流失面积比相差0.88%,相对误差1.97%;(2)1%抽样密度下,直接外推法与插值外推法水土流失状况结果相近,但与全覆盖计算法结果有差异;4%抽样密度下,三种推算方法水土流失状况结果接近,但是水土流失空间分布有明显区别。因此,基于抽样单元的直接外推法和插值外推法受抽样密度影响较大,全覆盖计算法受抽样密度影响较小,建议采用1%抽样密度下的全覆盖计算法进行水土流失动态监测。 展开更多
关键词 中国土壤流失方程模型 抽样密度 推算方法 县域尺度 相对误差
下载PDF
系统抽样方法在典型天然阔叶林调查中的应用
10
作者 黄如楚 《山地学报》 CSCD 北大核心 2012年第4期450-453,共4页
以福建省永安市麻岭村9 hm2的典型天然阔叶林为试验研究对象,应用系统抽样方法,分别200 m×100m、100 m×100 m、100 m×50 m和100 m×25 m四种抽样密度,探讨林分主要测树因子的抽样估计精度。结果表明:试验的天然阔叶... 以福建省永安市麻岭村9 hm2的典型天然阔叶林为试验研究对象,应用系统抽样方法,分别200 m×100m、100 m×100 m、100 m×50 m和100 m×25 m四种抽样密度,探讨林分主要测树因子的抽样估计精度。结果表明:试验的天然阔叶林分平均树高、平均胸径、平均密度与平均单位面积蓄积量等主要测树因子的估计精度都分别要求达到70%以上、75%以上、80%以上和85%以上的最小抽样密度分别是100 m×100 m、100 m×50 m、100 m×50 m和10 0m×25 m。试验的天然阔叶林分胸径III组林木蓄积量的估计精度分别要求达到70%以上、75%以上和80%以上的最小抽样密度分别是100 m×50 m、100 m×25 m和100 m×25 m。 展开更多
关键词 天然阔叶林 系统抽样 抽样密度 测树因子
下载PDF
基于核密度估计的K-means聚类优化 被引量:20
11
作者 熊开玲 彭俊杰 +1 位作者 杨晓飞 黄俊 《计算机技术与发展》 2017年第2期1-5,共5页
K-means聚类算法作为一种经典的聚类算法,应用领域十分广泛;但是K-means在处理高维及大数据集的情况下性能较差。核密度估计是一种用来估计未知分布密度函数的非参数估计方法,能够有效地获取数据集的分布情况。抽样是针对大数据集的数... K-means聚类算法作为一种经典的聚类算法,应用领域十分广泛;但是K-means在处理高维及大数据集的情况下性能较差。核密度估计是一种用来估计未知分布密度函数的非参数估计方法,能够有效地获取数据集的分布情况。抽样是针对大数据集的数据挖掘的常用手段。密度偏差抽样是一种针对简单随机抽样在分布不均匀的数据集下容易丢失重要信息问题的改进方法。提出一种利用核密度估计结果的方法,选取数据集中密度分布函数极值点附近的样本点作为K-means初始中心参数,并使用核密度估计的分布结果,对数据集进行密度偏差抽样,然后对抽样的样本集进行K-means聚类。实验结果表明,使用核密度估计进行初始参数选择和密度偏差抽样能够有效加速K-means聚类过程。 展开更多
关键词 K-MEANS聚类 密度偏差抽样 密度估计 数据挖掘
下载PDF
松梢螟空间分布型及抽样技术的初步研究 被引量:4
12
作者 温秀军 李文皋 《林业实用技术》 1989年第1期30-33,共4页
本研究采用扩散系数(C)法、森下正明(1959)的扩散指标(I_(?))法和Iwao 的平均拥挤度(?)与平均数的回归分析法,测定了松梢螟幼虫的空间分布型,并采用负二项分布吻合检验法,验证了负二项分布可以做为松梢螟幼虫在林间分布的模型。同时,也... 本研究采用扩散系数(C)法、森下正明(1959)的扩散指标(I_(?))法和Iwao 的平均拥挤度(?)与平均数的回归分析法,测定了松梢螟幼虫的空间分布型,并采用负二项分布吻合检验法,验证了负二项分布可以做为松梢螟幼虫在林间分布的模型。同时,也探讨了其在序贯抽样中的应用。 展开更多
关键词 松梢螟—种群分布:空间分布—分布型 虫口密度抽样调查—序贯抽样
下载PDF
泡桐金花虫空间分布型及抽样技术的研究
13
作者 林晓安 田光合 +3 位作者 潘武战 高喜荣 刘现周 王艺伟 《林业实用技术》 1989年第1期34-35,共2页
泡桐金花虫成虫、幼虫、蛹的空间分布型属于负二项分市,最适抽样方法为例“V”字型抽样,最小抽样比为成虫与幼虫为50:1,蛹为60:1。可用树冠下层虫口数回归估计整株虫数。
关键词 泡桐金花虫—种群分布:空间分布—分布型 虫口密度抽样调查—倒V字抽样
下载PDF
地学论文审稿中的数据分析 被引量:1
14
作者 姚鲁烽 赵歆 《编辑学报》 CSSCI 北大核心 2002年第1期34-36,共3页
检查与分析各类数据是论文评审的重要步骤。通过分类整理《地理学报》近 3 0 0 0份审稿意见 ,发现审稿中需要检查的数据问题主要包括 :数据的即时程度、时间尺度、空间范围、抽样密度、选取类型、采集与测试的条件和方法等 6方面内容。... 检查与分析各类数据是论文评审的重要步骤。通过分类整理《地理学报》近 3 0 0 0份审稿意见 ,发现审稿中需要检查的数据问题主要包括 :数据的即时程度、时间尺度、空间范围、抽样密度、选取类型、采集与测试的条件和方法等 6方面内容。通过与 10 0多位审稿专家和作者讨论 。 展开更多
关键词 科技论文 《地理学报》 数据分析 审稿要求 数据抽样密度 数据即时程序 数据时间尺度
下载PDF
电压暂降系统指标的监测节点数量选择与评估方法 被引量:5
15
作者 肖先勇 谭亚欧 +1 位作者 胡文曦 汪颖 《电力自动化设备》 EI CSCD 北大核心 2020年第10期8-14,共7页
准确评估电压暂降水平是理解与改善电压暂降问题的前提。虽然IEEE Std 1564—2014标准已为电压暂降系统指标的计算提供了建议,但考虑实际电网无法在所有节点均安装监测装置,如何确定其数量并提出适用于不均匀数据的评估方法是尚未解决... 准确评估电压暂降水平是理解与改善电压暂降问题的前提。虽然IEEE Std 1564—2014标准已为电压暂降系统指标的计算提供了建议,但考虑实际电网无法在所有节点均安装监测装置,如何确定其数量并提出适用于不均匀数据的评估方法是尚未解决的难题。为此,针对监测节点数量与抽样方法的确定展开研究。考虑实际电网监测数据存在分布不均匀的问题,提出一种改进的密度偏差抽样方法。基于误差幅度指标,建立满足不同给定误差要求下的监测节点数量解析式。基于监测节点样本数据,采用均值方法计算得到系统指标的估计值。IEEE 118节点系统的仿真结果表明,所提方法既能够在抽样过程中保留原始监测数据的电压暂降信息,又能基于给定误差得到评估所需监测节点数量的估算值;相比于现有系统指标评估方法,所提评估方法具有更小的估计误差。 展开更多
关键词 电压暂降 系统指标 监测节点数量 密度偏差抽样 评估方法
下载PDF
一种高光谱图像的半监督分类方法 被引量:3
16
作者 李彩虹 赵祎霏 《测绘通报》 CSCD 北大核心 2018年第2期46-49,共4页
基于密度的抽样和动态时间扭曲距离,提出了一种半监督高光谱模糊聚类方法。该方法首先应用基于密度的方法对样本进行抽样,然后采用动态时间扭曲距离计算样本之间的相似度,最后利用半监督模糊C均值算法进行聚类。为了验证所提出方法的有... 基于密度的抽样和动态时间扭曲距离,提出了一种半监督高光谱模糊聚类方法。该方法首先应用基于密度的方法对样本进行抽样,然后采用动态时间扭曲距离计算样本之间的相似度,最后利用半监督模糊C均值算法进行聚类。为了验证所提出方法的有效性,在广泛使用的Indian Pines数据集和Pavia U数据集上进行试验。结果表明,本文提出的方法能够取得理想的分类结果。 展开更多
关键词 高光谱图像 动态时间扭曲距离 半监督模糊聚类 密度抽样
下载PDF
一种基于DBS的聚类算法 被引量:1
17
作者 何苗 《重庆电子工程职业学院学报》 2009年第3期83-85,共3页
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。本文提出了一种基于密度偏差抽样的聚类算法,实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。
关键词 随机抽样 密度偏差抽样 聚类 算法
下载PDF
电子商务卖方数据聚类方法的改进研究
18
作者 蒋建洪 罗玫 《计算机工程与应用》 CSCD 2013年第8期27-31,共5页
针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际... 针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际数据进行分析,以发现不同类别卖方的销售信用特点。 展开更多
关键词 密度偏差抽样 划分聚类 层次聚类 信用
下载PDF
分布参数不确定性重要性分析的高效求积公式法 被引量:1
19
作者 刘俊超 李璐祎 《西北工业大学学报》 EI CAS CSCD 北大核心 2022年第6期1212-1222,共11页
参数重要性分析能够识别对输出性能有重要影响的关键参数,从而为结构系统的优化和设计提供指导。对于具有分布参数不确定性的结构系统,传统方法求解分布参数对输出特征值(如均值和方差)的重要性测度指标需要3层抽样,此过程计算量巨大。... 参数重要性分析能够识别对输出性能有重要影响的关键参数,从而为结构系统的优化和设计提供指导。对于具有分布参数不确定性的结构系统,传统方法求解分布参数对输出特征值(如均值和方差)的重要性测度指标需要3层抽样,此过程计算量巨大。针对这一问题,提出了2种基于代理抽样概率密度函数(SSPDF)的分布参数不确定性重要性分析的高效求积公式方法:基于代理抽样概率密度函数的双层求积公式方法(S-DLCF)和基于代理抽样概率密度函数的单层求积公式方法(S-SLCF)。所提方法利用求积公式有效地提高了分布参数重要性测度指标中嵌套的期望和方差算子求解效率,并通过代理抽样概率密度函数解除了参数不确定性向输出特征值传递过程中计算量依赖于参数维度的问题。S-DLCF充分利用了求积公式在求解输出统计矩时的高效性和准确性,而S-SLCF通过扩展分布参数的维数来减少输出统计矩计算过程中的积分层数。数值算例和工程算例验证了2种新算法在参数重要性分析中的效率和精度。 展开更多
关键词 分布参数不确定性 重要性分析 代理抽样概率密度函数 求积公式 单层蒙特卡洛抽样
下载PDF
面向大型数据集的局部敏感哈希K−means算法 被引量:2
20
作者 魏峰 马龙 《工矿自动化》 CSCD 北大核心 2023年第3期53-62,共10页
大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进... 大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进行优化,提出了数据组构建算法LSH−G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH−G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH−GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K−means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据。实验结果表明:由10个AND操作与8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M−SRS)的K−means算法、基于DBS的K−means算法及基于网格密度偏差抽样(G−DBS)的K−means算法相比,基于LSH−GD的K−means算法在聚类准确性方面的平均提升幅度分别为56.63%、54.59%及25.34%,在聚类高效性方面的平均提升幅度分别为27.26%、16.81%及7.07%;在UCI标准数据集上,基于LSH−GD的K−means聚类算法获得的SSEC与CPU消耗时间(CPU−C)均为最优。 展开更多
关键词 智慧矿山 大型数据集 K−means聚类 局部敏感哈希 噪声点筛选 密度偏差抽样
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部