期刊文献+
共找到1,690篇文章
< 1 2 85 >
每页显示 20 50 100
基于ArcGIS Add-in转化生产生态系统分类数据工具的设计与实现
1
作者 付俊 张宁丽 《测绘标准化》 2024年第1期146-150,共5页
基于已有生态系统分类数据成果的转化生产是快速获取生态系统分类数据的有效手段。为解决当前ArcGIS软件基础功能无法满足快速化和批量化数据转化生产要求的问题,本文在Visual Studio 2012开发环境下,采用C#语言,基于ArcGIS Add-in插件... 基于已有生态系统分类数据成果的转化生产是快速获取生态系统分类数据的有效手段。为解决当前ArcGIS软件基础功能无法满足快速化和批量化数据转化生产要求的问题,本文在Visual Studio 2012开发环境下,采用C#语言,基于ArcGIS Add-in插件式开发技术,设计并实现了生态系统分类数据生产辅助工具。结果表明,该工具在减少作业量的同时,能够保证数据生产的质量,有效提高了项目的生产效率。 展开更多
关键词 ARCGIS ADD-IN C# 生态系统分类数据
下载PDF
基于图结构的分类数据距离度量
2
作者 郑丽苹 邓秀勤 张逸群 《广东工业大学学报》 CAS 2023年第4期109-116,共8页
针对现有的大多数分类数据的度量方法效果不佳的问题,本文提出了一种基于有序属性和标称属性图结构的分类数据距离度量方法(New Distance Metric,New DM)。首先总结了分类数据距离定义的基本框架公式并分析度量该类型数据的挑战,然后利... 针对现有的大多数分类数据的度量方法效果不佳的问题,本文提出了一种基于有序属性和标称属性图结构的分类数据距离度量方法(New Distance Metric,New DM)。首先总结了分类数据距离定义的基本框架公式并分析度量该类型数据的挑战,然后利用不同属性的图结构定义了2个概率分布列距离,紧接着联立权重给出了分类数据的距离度量新方法,最后在6个公开数据集上进行实验,结果表明本文提出的New DM度量性能优于其他度量方法。 展开更多
关键词 分类数据 距离度量 图结构 有序属性
下载PDF
基于属性组权重的分类数据离群检测 被引量:1
3
作者 张凯棋 宋亦静 陈鑫 《计算机技术与发展》 2023年第11期20-27,共8页
属性分组是高维离群检测中的有效手段之一,可以有效缓解“维度灾难”的干扰,但现有的属性分组离群检测方法未能体现属性组之间的差异性,以及属性组的偏离程度,严重影响了高维离群检测的效果与性能。该文采用信息熵累加和刻画与描述属性... 属性分组是高维离群检测中的有效手段之一,可以有效缓解“维度灾难”的干扰,但现有的属性分组离群检测方法未能体现属性组之间的差异性,以及属性组的偏离程度,严重影响了高维离群检测的效果与性能。该文采用信息熵累加和刻画与描述属性组之间的差异性,提出了一种基于属性组权重的分类离群检测方法。首先,根据数据模式频率和编码长度,定义了属性组偏离因子,并将其作为属性组之间的合并依据,有效地刻画了属性组的偏离程度,进一步提高了属性分组过程中的搜索效率;其次,利用信息熵累加和定义了属性组权重,有效地体现了不同属性组之间的差异性;然后,依据属性组权重,重新定义了离群得分函数,并提出了一种基于属性组权重的分类数据离群检测算法;最后,采用UCI,NTU,KEEL和人工合成数据集,实验验证了该离群检测算法不仅具有较高的检测精度和效率,而且也具有良好的可扩展性与伸缩性,可适用于高维海量分类属性数据集的离群检测任务。 展开更多
关键词 离群检测 属性分组 分类数据 属性组权重 偏离因子
下载PDF
一种大规模分类数据聚类算法及其并行实现 被引量:21
4
作者 丁祥武 郭涛 +1 位作者 王梅 金冉 《计算机研究与发展》 EI CSCD 北大核心 2016年第5期1063-1071,共9页
CLOPE算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的p-CLOPE算法对这一缺陷进行改进.在p-CLOPE算法的... CLOPE算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的p-CLOPE算法对这一缺陷进行改进.在p-CLOPE算法的每一轮迭代过程中,对输入数据集等分为p部分再排列生成不同顺序的p!份数据集,对这些数据集分别聚类并选取最优的聚类结果作为下一轮迭代的输入.为了降低上述过程的时间复杂度,提出了一种中间结果复用策略,较大程度地提高了聚类速度.最后,在Hadoop平台上实现了一个包含p-CLOPE相关算法的开源聚类工具.实验表明:p-CLOPE算法比CLOPE算法取得了更优的聚类结果.对蘑菇数据集,当CLOPE算法取得最优聚类结果时,p-CLOPE比CLOPE取得了高35.7%的收益值;在处理大量数据时,并行p-CLOPE比串行p-CLOPE极大地缩短了聚类时间,并在计算资源充足时,取得了接近p!倍的加速比. 展开更多
关键词 分类数据 CLOPE p-CLOPE 并行聚类 MAPREDUCE
下载PDF
基于规则的分类数据离群挖掘方法研究 被引量:22
5
作者 史东辉 蔡庆生 +1 位作者 倪志伟 张春阳 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1094-1100,共7页
离群数据的挖掘 (outlier mining,简称离群挖掘 )是数据挖掘的重要内容 ,现有的离群数据挖掘算法大多对分类数据 (categorical data)缺乏有效的处理 ,提出了基于规则的分类数据离群挖掘方法 ,采用多层最大离群支持度 maxsup,搜索离群规... 离群数据的挖掘 (outlier mining,简称离群挖掘 )是数据挖掘的重要内容 ,现有的离群数据挖掘算法大多对分类数据 (categorical data)缺乏有效的处理 ,提出了基于规则的分类数据离群挖掘方法 ,采用多层最大离群支持度 maxsup,搜索离群规则 ,有效地解决了这一问题 ,用这一方法对医学流行病数据进行了各种实验 ,分析了该方法的适用范围、性能 ,验证了方法正确性 ;另外 ,实验表明 ,经过离散化后 ,基于规则的分类数据离群挖掘算法对连续性属性的数据也是有效的 . 展开更多
关键词 离散数据 离群挖掘 分类数据 流行病数据 医学
下载PDF
有序分类数据回归模型及医学应用 被引量:8
6
作者 李康 郭祖超 +1 位作者 胡琳 徐勇勇 《中国卫生统计》 CSCD 北大核心 1992年第6期52-55,共4页
实际工作中经常遇到这样一类多元数据,反应变量Y是按等级划分的,Y的取值为1,2,…,k,表示k个有序分类,另外有解释变量X~T=(X1,X2,…Xp),它既可能是离散的,也可能是连续或二者混合的。本文所说的“有序”是对反应变量Y而言的。对这类... 实际工作中经常遇到这样一类多元数据,反应变量Y是按等级划分的,Y的取值为1,2,…,k,表示k个有序分类,另外有解释变量X~T=(X1,X2,…Xp),它既可能是离散的,也可能是连续或二者混合的。本文所说的“有序”是对反应变量Y而言的。对这类资料的分析,目前国内主要采用线性模型和多类判别模型。这些模型对资料要求严格。 展开更多
关键词 卫生统计 有序分类数据 回归模型
下载PDF
空间分类数据同位规则挖掘算法 被引量:5
7
作者 王占全 王申康 华成 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2005年第10期2339-2344,共6页
针对空间分类数据的特性,提出一种空间分类数据同位规则挖掘算法.利用空间关系定义数据挖掘中事务的概念,采用多层参与索引搜索空间同位规则,从而实现了对空间分类数据的有效处理.采用文中算法对杭州地区119火灾数据进行实验,并验证了... 针对空间分类数据的特性,提出一种空间分类数据同位规则挖掘算法.利用空间关系定义数据挖掘中事务的概念,采用多层参与索引搜索空间同位规则,从而实现了对空间分类数据的有效处理.采用文中算法对杭州地区119火灾数据进行实验,并验证了该算法的适用范围和性能.实验表明,该算法可以有效地处理经过离散化后的连续数据. 展开更多
关键词 空间同位 邻域 规则 分类数据
下载PDF
面向分类数据的自组织神经网络 被引量:7
8
作者 汪加才 陈奇 俞瑞钊 《计算机工程与应用》 CSCD 北大核心 2003年第5期96-98,101,共4页
作为一种优良的聚类和降维工具,自组织神经网络SOM(SelfOrganizingFeatureMaps)已经得到广泛应用。其不足之处是仅适合于数值数据,这对时常需要处理分类型数据(Categoricalvalueddata)或数值型与分类型混合数据(Mixednumericandcategori... 作为一种优良的聚类和降维工具,自组织神经网络SOM(SelfOrganizingFeatureMaps)已经得到广泛应用。其不足之处是仅适合于数值数据,这对时常需要处理分类型数据(Categoricalvalueddata)或数值型与分类型混合数据(Mixednumericandcategoricalvalueddata)的数据挖掘应用是不够的。该文提出了一种新的基于覆盖(Overlap)的距离函数并将其用于SOM训练。实验结果表明,在不增加时空开销的前提下可取得较好的聚类效果。 展开更多
关键词 分类数据 自组织神经网络 聚类 数据挖掘 数据
下载PDF
基于随机森林模型的分类数据缺失值插补 被引量:27
9
作者 孟杰 李春林 《统计与信息论坛》 CSSCI 2014年第9期86-90,共5页
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中... 缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。 展开更多
关键词 缺失值插补 调查问卷 分类数据 随机森林 数据挖掘
下载PDF
分类数据的多目标模糊中心点聚类算法 被引量:10
10
作者 周治平 朱书伟 张道文 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2594-2606,共13页
针对传统面向分类属性数据的聚类算法大多是对单一指标优化而存在的局限性,将类内和类间信息同时引入到优化过程中,结合多目标优化算法与模糊中心点聚类,提出一种新颖的多目标模糊聚类算法.与传统的基于遗传算法的混合聚类方法不同的是... 针对传统面向分类属性数据的聚类算法大多是对单一指标优化而存在的局限性,将类内和类间信息同时引入到优化过程中,结合多目标优化算法与模糊中心点聚类,提出一种新颖的多目标模糊聚类算法.与传统的基于遗传算法的混合聚类方法不同的是,采用模糊隶属度对染色体进行编码,同时优化2个相对的聚类目标函数获得一组最优解集,并且采用了一种提前终止准则判断算法是否达到稳定状态并停止操作,以减少不必要的计算开销.为了进一步提高算法的效率,通过采样子集计算出相应的模糊中心点作为类的表达,然后以这些模糊中心点计算出全体样本的隶属度矩阵即可获得最终的聚类结果.对10种数据集的实验结果表明:所提方法在聚类精度和稳定性方面优于当前最新的多目标聚类算法,且计算效率也获得较大的提升. 展开更多
关键词 分类数据 聚类 多目标优化 模糊中心点 最优解集
下载PDF
一种分类数据聚类算法及其高效并行实现 被引量:4
11
作者 丁祥武 谭佳 王梅 《计算机应用与软件》 2017年第7期249-256,共8页
针对大规模、高维、稀疏的分类数据聚类,CLOPE算法相比于传统的聚类算法在聚类质量及运行速度上都有很大的提升。然而CLOPE算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子r等问题。为此,提出基于随... 针对大规模、高维、稀疏的分类数据聚类,CLOPE算法相比于传统的聚类算法在聚类质量及运行速度上都有很大的提升。然而CLOPE算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子r等问题。为此,提出基于随机顺序迭代和属性加权的分类数据聚类算法(RW-CLOPE)。该算法利用"洗牌"模型对原始数据进行随机排序以排除数据输入顺序对聚类质量的影响。同时,根据信息熵计算各个属性的权重,以区别每维属性对聚类的贡献度,极大地提升了数据聚类的质量。最后,在高效的集群平台Spark上,实现了RW-CLOPE算法。在三个真实数据集上的实验结果表明:在数据集乱序后的份数相同时,RW-CLOPE算法比p-CLOPE算法取得更好的聚类质量。对蘑菇数据集,当CLOPE算法取得最优聚类结果时,RW-CLOPE比CLOPE取得高68%的收益值,比p-CLOPE取得高25%的收益值;针对大量数据,基于Spark的RW-CLOPE算法比基于Hadoop的p-CLOPE算法执行时间更短;计算资源充足时,随机顺序的数据集份数越多,执行时间的提升越明显。 展开更多
关键词 分类数据 CLOPE p-CLOPE RW-CLOPE SPARK
下载PDF
分类数据的聚类边界检测技术 被引量:5
12
作者 邱保志 王波 《计算机应用》 CSCD 北大核心 2012年第6期1654-1656,1669,共4页
随着分类属性数据集的应用越来越广泛,获取含有分类属性数据集的聚类边界的需求也越来越迫切。为了获取聚类的边界,在定义分类数据的边界度和聚类边界的基础上,提出了一种带分类属性数据的聚类边界检测算法——CBORDER。该算法首先利用... 随着分类属性数据集的应用越来越广泛,获取含有分类属性数据集的聚类边界的需求也越来越迫切。为了获取聚类的边界,在定义分类数据的边界度和聚类边界的基础上,提出了一种带分类属性数据的聚类边界检测算法——CBORDER。该算法首先利用随机分配初始聚类中心和边界度对类进行划分并获取记录边界点的证据,然后运用证据积累的思想多次执行该过程来获取聚类的边界。实验结果表明,CBORDER算法能有效地检测出高维分类属性数据集中聚类的边界。 展开更多
关键词 边界度 证据积累 聚类边界 分类数据
下载PDF
分类数据测量等价性检验方法及其比较:项目阈值(难度)参数的组间差异性检验 被引量:3
13
作者 刘红云 李冲 +1 位作者 张平平 骆方 《心理学报》 CSSCI CSCD 北大核心 2012年第8期1124-1136,共13页
测量工具满足等价性是进行多组比较的前提,测量等价性的检验方法主要有基于CFA的多组比较法和基于IRT的DIF检验两类方法。文章比较了单维测验情境下基于CCFA的DIFFTEST检验方法和基于IRT模型的IRT-LR检验方法,以及多维测验情境下DIFFTES... 测量工具满足等价性是进行多组比较的前提,测量等价性的检验方法主要有基于CFA的多组比较法和基于IRT的DIF检验两类方法。文章比较了单维测验情境下基于CCFA的DIFFTEST检验方法和基于IRT模型的IRT-LR检验方法,以及多维测验情境下DIFFTEST和基于MIRT的卡方检验方法的差异。通过模拟研究的方法,比较了几种方法的检验力和第一类错误,并考虑了样本总量、样本量的组间均衡性、测验长度、阈值差异大小以及维度间相关程度的影响。研究结果表明:(1)在单维测验下,IRT-LR是比DIFFTEST更为严格的检验方法;多维测验下,在测验较长、测验维度之间相关较高时,MIRT-MG比DIFFTEST更容易检验出项目阈值的差异,而在测验长度较短、维度之间相关较小时,DIFFTEST的检验力反而略高于MIRT-MG方法。(2)随着阈值差值增加,DIFFTEST、IRT-LR和MIRT-MG三种方法的检验力均在增加,当阈值差异达到中等或较大时,三种方法都可以有效检验出测验阈值的不等价性。(3)随着样本总量增加,DIFFTEST、IRT-LR和MIRT-MG方法的检验力均在增加;在总样本量不变,两组样本均衡情况下三种方法的检验力均高于不均衡的情况。(4)违背等价性题目个数不变时,测验越长DIFFTEST的检验力会下降,而IRT-LR和MIRT-MG检验力则上升。(5)DIFFTEST方法的一类错误率平均值接近名义值0.05;而IRT-LR和MIRT-MG方法的一类错误率平均值远低于0.05。 展开更多
关键词 分类数据 验证性因素分析 项目功能差异 (多维)项目反应理论 测量等价性
下载PDF
HCLOPE:一种处理分类数据的优化层次聚类算法 被引量:2
14
作者 李晔锋 乐嘉锦 王梅 《计算机应用与软件》 CSCD 2016年第7期60-63,共4页
随着分类数据规模的快速增长,关于分类数据聚类方法的研究日趋重要。在现有的算法中,CLOPE在运行速度、内存开销和聚类结果方面要优于同类算法,但是它的聚类质量并没有达到最优,而且受到输入数据顺序的影响,显现出不稳定性。基于此原因... 随着分类数据规模的快速增长,关于分类数据聚类方法的研究日趋重要。在现有的算法中,CLOPE在运行速度、内存开销和聚类结果方面要优于同类算法,但是它的聚类质量并没有达到最优,而且受到输入数据顺序的影响,显现出不稳定性。基于此原因,提出一种处理分类数据的层次聚类算法HCLOPE,采用自底向上的凝聚法生成稳定的聚类结果。此外,还定义了聚簇间全局最大的收益差值作为聚类的合并准则,并引入无向图的结构优化聚类合并迭代过程。在蘑菇数据集上运行的实验结果显示HCLOPE的聚类质量更优。 展开更多
关键词 HCLOPE 分类数据 层次聚类 稳定性 无向图
下载PDF
基于相关随机子空间的分类数据聚类集成 被引量:2
15
作者 马海峰 刘宇熹 《计算机应用研究》 CSCD 北大核心 2013年第4期1082-1084,共3页
为了提升分类数据聚类集成的效果,提出了一种新的相关随机子空间聚类集成模型。该模型利用粗糙集理论将分类属性分解成相关和不相关子集,在相关属性子集上随机生成多个相关子空间并对分类数据进行聚类,通过集成多个较优且具差异性的聚... 为了提升分类数据聚类集成的效果,提出了一种新的相关随机子空间聚类集成模型。该模型利用粗糙集理论将分类属性分解成相关和不相关子集,在相关属性子集上随机生成多个相关子空间并对分类数据进行聚类,通过集成多个较优且具差异性的聚类结果以获得最终的聚类划分。此外,将粗糙集约简概念应用于相关子空间属性数目的确定,有效地避免了参数对聚类结果的影响。UCI数据集实验表明,新模型的性能优于其他已有模型,说明了其有效性。 展开更多
关键词 分类数据 粗糙集 属性约简 相关子空间 聚类集成
下载PDF
重复测量分类数据的分析 被引量:2
16
作者 熊林平 郭祖超 《中国卫生统计》 CSCD 北大核心 1997年第1期1-3,共3页
重复测量问题常常涉及到分类数据。本文介绍分析重复测量分类数据的一般统计方法,并用临床资料进行实例分析。
关键词 分类数据 重复测量 卫生统计
下载PDF
一种有效的高维分类数据聚类方法研究 被引量:2
17
作者 贾俊芳 李德玉 《微电子学与计算机》 CSCD 北大核心 2011年第6期88-91,共4页
随着数据规模的不断增大,提高K-modes聚类算法或模糊K-modes聚类算法的运行效率成为了一个重要问题.为了提高其算法执行效率,提出了一种基于分治法的高维分类数据聚类方法.该方法并不是一次性对所有的数据进行聚类,而是将分类数据集分... 随着数据规模的不断增大,提高K-modes聚类算法或模糊K-modes聚类算法的运行效率成为了一个重要问题.为了提高其算法执行效率,提出了一种基于分治法的高维分类数据聚类方法.该方法并不是一次性对所有的数据进行聚类,而是将分类数据集分成若干个子集,对每个子集同时进行聚类,最后对聚类结果进行融合以形成最终的聚类结果.实验结果表明大多数情况下较传统的方法在聚类的速度上有显著的提高. 展开更多
关键词 聚类分析 模糊聚类 分治法 分类数据 评价指标
下载PDF
分类数据主成分分析法在多选题分析中的应用 被引量:10
18
作者 张文彤 竺丽明 +1 位作者 鲍培芬 王见义 《中国公共卫生》 CAS CSCD 北大核心 2004年第1期124-125,共2页
关键词 分类数据主成分分析法 多选题 流行病学 记录格式
下载PDF
一种分类数据的聚类算法 被引量:1
19
作者 谢坤武 陈世强 《计算机研究与发展》 EI CSCD 北大核心 2006年第z3期332-337,共6页
现有的针对分类数据的算法需要多次扫描数据库,对于数据开采经常处理的大容量数据,多遍I/O操作是一项沉重的系统开销.CACD(clustering algorithm for categoricaldata)是针对分类属性数据的聚类算法,该算法采用压缩技术缩小需要处理的... 现有的针对分类数据的算法需要多次扫描数据库,对于数据开采经常处理的大容量数据,多遍I/O操作是一项沉重的系统开销.CACD(clustering algorithm for categoricaldata)是针对分类属性数据的聚类算法,该算法采用压缩技术缩小需要处理的数据量以提高效率,同时算法提出了一种新的基于压缩数据结构的标准用于衡量分类数据的相似度.CACD只需扫描数据库一遍,算法理论分析和实验分析都表明该算法比同类针对分类数据的聚类算法效率要高,并且压缩技术对聚类结果的质量影响不大. 展开更多
关键词 数据开采 聚类算法 分类数据
下载PDF
双向有序分类数据的趋势检验 被引量:1
20
作者 丁亚兴 胡东生 《郑州大学学报(医学版)》 CAS 北大核心 2006年第1期160-163,共4页
目的:探讨双向有序分类数据相关的趋势检验方法。方法:根据各种方法的原理及其计算公式,结合实例应用SAS统计软件编程对双向有序分类数据进行趋势检验。结果:给出了双向有序分类数据不同趋势检验方法的SAS程序,并对如何解释输出结果进... 目的:探讨双向有序分类数据相关的趋势检验方法。方法:根据各种方法的原理及其计算公式,结合实例应用SAS统计软件编程对双向有序分类数据进行趋势检验。结果:给出了双向有序分类数据不同趋势检验方法的SAS程序,并对如何解释输出结果进行了说明。结论:在医学科学研究中应推荐使用趋势检验。 展开更多
关键词 双向有序分类数据 趋势检验 SAS程序
下载PDF
上一页 1 2 85 下一页 到第
使用帮助 返回顶部