期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
密度偏差抽样技术在聚类算法中的应用研究 被引量:7
1
作者 余波 朱东华 +1 位作者 刘嵩 郑涛 《计算机科学》 CSCD 北大核心 2009年第2期207-209,264,共4页
针对在大规模数据集上进行聚类困难的问题,分析了抽样技术的优点,研究了数据挖掘领域中的随机抽样的特点,并在此基础上提出了一种基于密度的偏差抽样方法。利用密度偏差抽样所获得的样本数据集能够较准确地反映总体数据集的特征,并且能... 针对在大规模数据集上进行聚类困难的问题,分析了抽样技术的优点,研究了数据挖掘领域中的随机抽样的特点,并在此基础上提出了一种基于密度的偏差抽样方法。利用密度偏差抽样所获得的样本数据集能够较准确地反映总体数据集的特征,并且能够灵活地控制对数据集不同区域的抽样率。实验证明,在大规模数据集上进行聚类时,密度偏差抽样在时间复杂度上要优于随机抽样。 展开更多
关键词 数据挖掘 聚类 偏差抽样 随机抽样
下载PDF
基于密度偏差抽样的聚类算法研究 被引量:2
2
作者 纪良浩 《重庆邮电大学学报(自然科学版)》 2007年第6期729-732,共4页
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对... 随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。 展开更多
关键词 密度偏差抽样 随机抽样 聚类 算法 正确率
下载PDF
基于可变网格划分的密度偏差抽样算法 被引量:7
3
作者 盛开元 钱雪忠 吴秦 《计算机应用》 CSCD 北大核心 2013年第9期2419-2422,共4页
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基... 简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高。 展开更多
关键词 密度偏差抽样 可变网格划分 数据挖掘 大规模数据集 聚类
下载PDF
一种改进的密度偏差抽样算法 被引量:5
4
作者 张建锦 吴渝 刘小霞 《计算机应用》 CSCD 北大核心 2007年第7期1695-1698,共4页
随机抽样技术已经广泛应用于数据挖掘的各类算法中,它在处理分布均匀的数据集时非常有效,但在处理分布比较倾斜的数据集时容易丢失小的聚类。为此提出基于网格的密度偏差抽样算法,仅需要扫描一遍数据集就可以得到近似的密度偏差抽样。... 随机抽样技术已经广泛应用于数据挖掘的各类算法中,它在处理分布均匀的数据集时非常有效,但在处理分布比较倾斜的数据集时容易丢失小的聚类。为此提出基于网格的密度偏差抽样算法,仅需要扫描一遍数据集就可以得到近似的密度偏差抽样。经实验测试分析表明,该算法不仅提高了聚类的正确性,而且抗噪声能力强、效率高,是解决海量数据挖掘的一种有效途径。 展开更多
关键词 数据挖掘 偏差抽样 聚类 数据约简 海量数据
下载PDF
基于不均匀数据的密度偏差抽样改进算法 被引量:2
5
作者 吕丹 龙华 +2 位作者 高杰 邵玉斌 杜庆治 《软件导刊》 2018年第2期77-79,85,共4页
针对不均匀数据集的抽样问题,已有随机抽样算法、基于固定网格划分的单维度算法、基于可变网格划分的单维度算法,但仍无法更好地反映数据分布特征问题。在数据挖掘的实际应用中,数据规模越来越大,数据类型也越来越复杂,存在系统整体开... 针对不均匀数据集的抽样问题,已有随机抽样算法、基于固定网格划分的单维度算法、基于可变网格划分的单维度算法,但仍无法更好地反映数据分布特征问题。在数据挖掘的实际应用中,数据规模越来越大,数据类型也越来越复杂,存在系统整体开销大、时间运行成本高等问题。提出并实现了基于不均匀数据的密度偏差抽样改进算法(IDDS),通过引入网格单元密度和三角函数,从而达到较好的密度偏差抽样效果。实验结果发现,IDDS算法抽样效果更好,提取的样本质量更高,有效保证了不均匀数据的分布特征。与原始的密度偏差抽样算法(DDS)相比,应用IDDS算法的效率更高。 展开更多
关键词 密度偏差抽样算法(DDS) POI信息 数据挖掘 三角函数
下载PDF
密度偏差抽样在近邻传播聚类中的应用
6
作者 潘春燕 张仁崇 杨忠保 《商丘师范学院学报》 CAS 2022年第12期4-8,共5页
AP聚类算法无需人为设定类别和指定类中心,能高效解决数据聚类问题,但无法满足大规模数据的应用需求,因此对数据进行聚类前先约简数据尤为重要.分布均匀的数据利用简单随机抽样可获得质量较高的样本,当数据偏斜较大时,简单随机抽样所获... AP聚类算法无需人为设定类别和指定类中心,能高效解决数据聚类问题,但无法满足大规模数据的应用需求,因此对数据进行聚类前先约简数据尤为重要.分布均匀的数据利用简单随机抽样可获得质量较高的样本,当数据偏斜较大时,简单随机抽样所获得的样本往往会丢失原始数据集的类.针对此问题,首先借助基于网格的密度偏差抽样算法对数据进行约简,其次在样本数据集上执行AP聚类,最后通过数值实验结果表明,对样本数据执行聚类在损失小部分精度代价上,提高聚类算法的效率. 展开更多
关键词 约简 网格 密度偏差抽样 精度
下载PDF
结构可靠性灵敏度分析的低偏差抽样方法 被引量:5
7
作者 戴鸿哲 王伟 《工程力学》 EI CSCD 北大核心 2010年第1期104-108,共5页
由于蒙特卡罗(MC)方法具有程序结构简单,收敛速度与问题维数无关等优点,故其在结构可靠性及可靠性灵敏度分析中得到了广泛应用。但是计算效率低这一主要缺点限制了该方法的应用范围。通过引进单位超立方体中不同的低偏差点集代替伪随机... 由于蒙特卡罗(MC)方法具有程序结构简单,收敛速度与问题维数无关等优点,故其在结构可靠性及可靠性灵敏度分析中得到了广泛应用。但是计算效率低这一主要缺点限制了该方法的应用范围。通过引进单位超立方体中不同的低偏差点集代替伪随机数序列,并结合重要抽样技术建立了结构可靠性灵敏度分析的低偏差抽样方法。该方法不但可以大幅度减少抽样点数目,还能够得到确定性的估计值避免传统MC方法只能得到概率意义下误差的缺陷。通过数值算例可以看出该方法具有较高的计算精度和效率。 展开更多
关键词 结构可靠性 灵敏度 偏差抽样 重要抽样 蒙特卡罗法
原文传递
基于激光雷达的室内机器人路径规划方法研究
8
作者 韩慧妍 韩方正 +2 位作者 韩燮 况立群 曹亚明 《激光与红外》 CAS CSCD 北大核心 2024年第7期1028-1036,共9页
自主移动机器人在室内环境中的导航取得了重大进展,然而地图构建精度较差且路径规划欠佳,限制了这类机器人的实际应用。为了解决这些问题,提出了一种基于引导搜索的路径规划算法,即引力双向快速搜索随机树算法(GBI-RRT),该算法采用目标... 自主移动机器人在室内环境中的导航取得了重大进展,然而地图构建精度较差且路径规划欠佳,限制了这类机器人的实际应用。为了解决这些问题,提出了一种基于引导搜索的路径规划算法,即引力双向快速搜索随机树算法(GBI-RRT),该算法采用目标偏差抽样,有效地引导节点走向目标,减少无效搜索。为了进一步提高导航效率,又提出了一种消除低质量节点,提高路径曲率的路径重组策略,为了验证上述方法的有效性,将其集成到一个基于ROS系统的移动机器人中,并在仿真和真实环境实验中进行了评估。结果表明,GBI-RRT在各种室内环境下的性能均优于现有算法。 展开更多
关键词 自主移动 地图构建 路径规划 偏差抽样
下载PDF
浙江省森林资源连续清查系统抽样防偏试验初报
9
作者 傅宾领 聂祥永 姚顺彬 《浙江林学院学报》 CSCD 北大核心 2007年第1期44-49,共6页
数据的准确性和可靠性是清查成果能否客观、真实地反映森林资源状况的关键要素。森林资源连续清查数据的准确性和可靠性受到抽样方案设计、调查技术方法和实施操作过程等诸多因素的影响。其中,抽样方案设计是影响森林资源调查数据质量... 数据的准确性和可靠性是清查成果能否客观、真实地反映森林资源状况的关键要素。森林资源连续清查数据的准确性和可靠性受到抽样方案设计、调查技术方法和实施操作过程等诸多因素的影响。其中,抽样方案设计是影响森林资源调查数据质量的关键因素。为了优化森林资源连续清查体系,防止系统抽样周期性变动和人为特殊对待等问题对清查成果质量的影响,从1994年开始,浙江省采用固定样地加部分替换样地(临时样地)的抽样设计方案进行防偏技术试验和研究。采用总体平均数的差异性检验和方差分析等方法,对浙江省自1989年以来的3期调查数据进行分组统计分析,3期调查数据的3组样本两两之间均通过了总体平均数差异显著性检验和单因素方差分析,无显著差异。初步试验结果表明,浙江省森林资源连续清查总体样本具有较好的代表性,不存在明显的系统偏差。 展开更多
关键词 森森经理学 森林资源连续清查 抽样方案设计 抽样偏差 人为特殊对待问题 总体平均数差异性检验
下载PDF
非抽样误差问题研究
10
作者 卢宗辉 陈仁恩 《广播电视大学学报(哲学社会科学版)》 2004年第1期71-74,共4页
在考察国内外非抽样误差分类的基础上 ,指出按产生非抽样误差的直接原因分类是比较科学的。非抽样误差可分为 6类 :概率抽样偏差、样本估计偏差、范围偏差、无回答偏差、回答偏差、数据的抄写等偏差。产生这些误差的原因及相应的对策。
关键词 概率抽样偏差 样本估计偏差 范围偏差 无回答偏差 回答偏差
下载PDF
小班抽样技术的研究及其统计学基础 被引量:2
11
作者 洪兆龙 卢梅富 +4 位作者 陆献峰 翁卫松 赵国平 丁良冬 刘安兴 《华东森林经理》 1996年第2期11-18,10,共9页
为了能在较短时间内,完成全省控制到县一级的森林资源调查,根据森林资源抽样调查和小班调查的特点,采用综合技术创造法,组合成小班抽样调查技术。该技术的研究经历了计算机模拟和实地试点,最后在全省推广应用。其调查结果符合县级... 为了能在较短时间内,完成全省控制到县一级的森林资源调查,根据森林资源抽样调查和小班调查的特点,采用综合技术创造法,组合成小班抽样调查技术。该技术的研究经历了计算机模拟和实地试点,最后在全省推广应用。其调查结果符合县级总体控制要求,调查的总蓄积量与连续清查的结果基本吻合。文章简要介绍了小班抽样技术的研究过程及有关的统计学基础。 展开更多
关键词 小班抽样技术 抽样偏差 估计误差 森林资源
下载PDF
面向大型数据集的局部敏感哈希K−means算法 被引量:2
12
作者 魏峰 马龙 《工矿自动化》 CSCD 北大核心 2023年第3期53-62,共10页
大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进... 大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑。针对K−means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K−means聚类算法。基于LSH对抽样过程进行优化,提出了数据组构建算法LSH−G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH−G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH−GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K−means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据。实验结果表明:由10个AND操作与8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M−SRS)的K−means算法、基于DBS的K−means算法及基于网格密度偏差抽样(G−DBS)的K−means算法相比,基于LSH−GD的K−means算法在聚类准确性方面的平均提升幅度分别为56.63%、54.59%及25.34%,在聚类高效性方面的平均提升幅度分别为27.26%、16.81%及7.07%;在UCI标准数据集上,基于LSH−GD的K−means聚类算法获得的SSEC与CPU消耗时间(CPU−C)均为最优。 展开更多
关键词 智慧矿山 大型数据集 K−means聚类 局部敏感哈希 噪声点筛选 密度偏差抽样
下载PDF
电压暂降系统指标的监测节点数量选择与评估方法 被引量:5
13
作者 肖先勇 谭亚欧 +1 位作者 胡文曦 汪颖 《电力自动化设备》 EI CSCD 北大核心 2020年第10期8-14,共7页
准确评估电压暂降水平是理解与改善电压暂降问题的前提。虽然IEEE Std 1564—2014标准已为电压暂降系统指标的计算提供了建议,但考虑实际电网无法在所有节点均安装监测装置,如何确定其数量并提出适用于不均匀数据的评估方法是尚未解决... 准确评估电压暂降水平是理解与改善电压暂降问题的前提。虽然IEEE Std 1564—2014标准已为电压暂降系统指标的计算提供了建议,但考虑实际电网无法在所有节点均安装监测装置,如何确定其数量并提出适用于不均匀数据的评估方法是尚未解决的难题。为此,针对监测节点数量与抽样方法的确定展开研究。考虑实际电网监测数据存在分布不均匀的问题,提出一种改进的密度偏差抽样方法。基于误差幅度指标,建立满足不同给定误差要求下的监测节点数量解析式。基于监测节点样本数据,采用均值方法计算得到系统指标的估计值。IEEE 118节点系统的仿真结果表明,所提方法既能够在抽样过程中保留原始监测数据的电压暂降信息,又能基于给定误差得到评估所需监测节点数量的估算值;相比于现有系统指标评估方法,所提评估方法具有更小的估计误差。 展开更多
关键词 电压暂降 系统指标 监测节点数量 密度偏差抽样 评估方法
下载PDF
锚网喷联合支护隧道稳定可靠度的拟蒙特卡洛分析 被引量:5
14
作者 苏永华 李伟 《公路交通科技》 CAS CSCD 北大核心 2012年第1期109-113,127,共6页
基于地下结构力学围岩与支护相互作用原理及剪切滑移理论,建立了软质围岩隧道在锚网喷联合支护条件下的稳定功能函数。针对该功能函数的隐式特征,研究了基于超立方体中低偏点集和重要抽样方法的拟蒙特卡洛求解方法,并相应给出了明晰的... 基于地下结构力学围岩与支护相互作用原理及剪切滑移理论,建立了软质围岩隧道在锚网喷联合支护条件下的稳定功能函数。针对该功能函数的隐式特征,研究了基于超立方体中低偏点集和重要抽样方法的拟蒙特卡洛求解方法,并相应给出了明晰的分析操作程序,构建出完整的隧道锚喷网联合支护下稳定可靠度拟蒙特卡洛分析方法。避免经典蒙特卡洛求解时的效率低、计算费用高的缺陷。最后通过工程实例对比,表明了所提方法具有较高的精度和效率,展示了其实用性和可行性。 展开更多
关键词 隧道工程 锚喷网联合支护 拟蒙特卡洛法 偏差抽样 可靠度
下载PDF
一种基于DBS的聚类算法 被引量:1
15
作者 何苗 《重庆电子工程职业学院学报》 2009年第3期83-85,共3页
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。本文提出了一种基于密度偏差抽样的聚类算法,实验表明,随着信息量、数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。
关键词 随机抽样 密度偏差抽样 聚类 算法
下载PDF
电子商务卖方数据聚类方法的改进研究
16
作者 蒋建洪 罗玫 《计算机工程与应用》 CSCD 2013年第8期27-31,共5页
针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际... 针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际数据进行分析,以发现不同类别卖方的销售信用特点。 展开更多
关键词 密度偏差抽样 划分聚类 层次聚类 信用
下载PDF
基于核密度估计的K-means聚类优化 被引量:20
17
作者 熊开玲 彭俊杰 +1 位作者 杨晓飞 黄俊 《计算机技术与发展》 2017年第2期1-5,共5页
K-means聚类算法作为一种经典的聚类算法,应用领域十分广泛;但是K-means在处理高维及大数据集的情况下性能较差。核密度估计是一种用来估计未知分布密度函数的非参数估计方法,能够有效地获取数据集的分布情况。抽样是针对大数据集的数... K-means聚类算法作为一种经典的聚类算法,应用领域十分广泛;但是K-means在处理高维及大数据集的情况下性能较差。核密度估计是一种用来估计未知分布密度函数的非参数估计方法,能够有效地获取数据集的分布情况。抽样是针对大数据集的数据挖掘的常用手段。密度偏差抽样是一种针对简单随机抽样在分布不均匀的数据集下容易丢失重要信息问题的改进方法。提出一种利用核密度估计结果的方法,选取数据集中密度分布函数极值点附近的样本点作为K-means初始中心参数,并使用核密度估计的分布结果,对数据集进行密度偏差抽样,然后对抽样的样本集进行K-means聚类。实验结果表明,使用核密度估计进行初始参数选择和密度偏差抽样能够有效加速K-means聚类过程。 展开更多
关键词 K-MEANS聚类 密度偏差抽样 核密度估计 数据挖掘
下载PDF
虚拟物种的基本原理及其在物种分布模型评估中的应用 被引量:3
18
作者 黄敏毅 孔晓泉 +2 位作者 段仁燕 吴甘霖 张中信 《生态学报》 CAS CSCD 北大核心 2016年第9期2460-2470,共11页
物种分布模型是建立在物种出现或缺失数据的基础上,但可获得的真实分布数据存在着各种各样的缺点(如:物种识别错误、坐标错误、抽样偏差、数据缺失等),影响着物种分布模型的预测性能、稳定性及应用,因此使用物种真实分布数据评估物种分... 物种分布模型是建立在物种出现或缺失数据的基础上,但可获得的真实分布数据存在着各种各样的缺点(如:物种识别错误、坐标错误、抽样偏差、数据缺失等),影响着物种分布模型的预测性能、稳定性及应用,因此使用物种真实分布数据评估物种分布模型将带来很大的不确定性。为避免这种不确定性,越来越多的研究使用虚拟物种来评价物种分布模型的性能,评估新方法的优劣。虚拟物种是一种建立在真实(或虚拟)地理信息系统下人工生命,是简化和抽象的物种,它通过模拟物种对环境变量的响应关系,评估物种在不同环境变量下的出现概率,人为地给出虚拟的物种分布数据。虚拟物种具有数据容易获得、数据质量可控、避免过度模拟等优势,目前它被广泛用于评估物种特性、抽样偏差、地理信息、出现/缺失标准等对物种分布模型性能的影响。虚拟物种是大尺度研究中不可或缺的重要工具,有利于解决真实数据未能解决的科学问题。常用的构成算法有求和法、求积法和综合法,但这些方法可能存在补偿效应,扩大了物种的分布范围。考虑到虚拟物种的不足,提出了未来虚拟物种可能的发展方向(避免过度脱离真实,完善虚拟物种的构成算法,构建虚拟的模式生物、群落及生态系统等)。为帮助研究者快速构建虚拟物种,基于R环境开发了一个虚拟物种构成软件包(SDMvspecies)。虚拟物种可以与真实物种相结合,通过改进模型的构成方法,有利于解决一些真实数据未能解决的问题;虚拟物种的应用也将导致一些新理论的产生,有利于更好地理解生态学原理。 展开更多
关键词 物种分布模型 虚拟物种 生境适宜度 抽样偏差 人工生命
下载PDF
一种移动端APM系统框架设计与实现 被引量:1
19
作者 金安 《软件导刊》 2022年第1期205-209,共5页
随着移动应用数据爆发式增长,微服务架构越来越庞大,排查系统故障变得越来越复杂,建立一种能快速定位解决问题的系统势在必行。针对互联网行业特点及存在的相关问题,设计并实现了一种符合企业业务特点的移动端APM系统。对原始数据分析... 随着移动应用数据爆发式增长,微服务架构越来越庞大,排查系统故障变得越来越复杂,建立一种能快速定位解决问题的系统势在必行。针对互联网行业特点及存在的相关问题,设计并实现了一种符合企业业务特点的移动端APM系统。对原始数据分析算法优化、数据存储聚合策略和符号解析系统等关键技术进行了阐述。APM系统的运行数据表明,业务应用崩溃率下降了50%以上。 展开更多
关键词 应用性能管理 拨测 卡顿 可变网格 密度偏差抽样
下载PDF
基于HS样本选择和BvSB反馈的多类图像分类 被引量:1
20
作者 金良 曹永锋 +1 位作者 苏彩霞 任俊英 《贵州师范大学学报(自然科学版)》 CAS 2014年第4期56-61,82,共7页
针对主动学习由于初始阶段随机选择样本而导致的抽样偏差,将Sanjoy Dasgupta等人提出的分层聚类采样(Hierarchical sampling,HS)引入到主动学习方法中,替代初始阶段随机样本选择,然后在基于支持向量机分类器的图像算法中引入最优标号和... 针对主动学习由于初始阶段随机选择样本而导致的抽样偏差,将Sanjoy Dasgupta等人提出的分层聚类采样(Hierarchical sampling,HS)引入到主动学习方法中,替代初始阶段随机样本选择,然后在基于支持向量机分类器的图像算法中引入最优标号和次优标号(Best vs second-best,BvSB)的反馈准则,提出了基于HS和BvSB(HS+BvSB)的多类图像分类方法。分别在两组标准测试数据集上进行分类实验,比较HS+BvSB方法与随机选择样本+BvSB方法的学习性能,结果表明,随着初始选择样本数目的增多,提出的Hs+BvSB方法具有更优的性能。 展开更多
关键词 主动学习 支持向量机 图像分类 抽样偏差 最优标号 次优标号
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部