期刊文献+
共找到159篇文章
< 1 2 8 >
每页显示 20 50 100
属性关联模型下大数据集群查询仿真
1
作者 周敏 曾达 杨祥 《计算机仿真》 2024年第3期524-527,537,共5页
在数据查询过程中,易受冗余数据、服务器异常、虚拟信息等问题的干扰,导致查询时间长、查询稳定性差等现象产生。为了解决上述问题,提出基于属性关联模型的大数据集群查询算法。采用扩展t-SNE算法对大数据集群中的数据节点做降维处理,... 在数据查询过程中,易受冗余数据、服务器异常、虚拟信息等问题的干扰,导致查询时间长、查询稳定性差等现象产生。为了解决上述问题,提出基于属性关联模型的大数据集群查询算法。采用扩展t-SNE算法对大数据集群中的数据节点做降维处理,避免冗余数据对查询过程产生干扰。将降维后的数据输入到属性关联模型中,实现大数据集群的特征提取,并将提取的特征输入到分布式并行架构中,通过查询负载量的计算完成大数据集群的查询。实验结果表明,所提算法的响应时间短,查询开销小于50Mb,且查询稳定性强。 展开更多
关键词 大数据集群降维 特征提取 属性特征 分布式并行架构 负载均衡分配 查询负载量
下载PDF
基于大数据集的动态数据库关联挖掘技术研究 被引量:1
2
作者 张薇 《信息记录材料》 2023年第2期161-163,共3页
针对动态数据库关联挖掘运作时间较长,内存使用量较大的问题,本文提出一种大数据集下的动态数据库关联挖掘方法,分别挖掘动态数据库的历史及新增数据,并将数据合并,完成动态数据库关联挖掘。实践证明,该方法具有提高动态数据库运行速率... 针对动态数据库关联挖掘运作时间较长,内存使用量较大的问题,本文提出一种大数据集下的动态数据库关联挖掘方法,分别挖掘动态数据库的历史及新增数据,并将数据合并,完成动态数据库关联挖掘。实践证明,该方法具有提高动态数据库运行速率,内存占用量低,系统成本更低的优势。 展开更多
关键词 大数据集 动态数据 关联挖掘算法 数据库设计
下载PDF
网络信息属性特征大数据集聚类算法研究
3
作者 鹿艳晶 范其丽 《长江信息通信》 2023年第11期77-78,共2页
为提高数据聚类后的纯度,设计一种针对网络信息属性特征的大数据集合聚类算法。建立网络信息属性特征集合,并设计一个分类目标函数,根据类别划分准则分析不同类别数据之间的差异性,实现对网络信息属性特征的类别划分;引进信息熵衡量不... 为提高数据聚类后的纯度,设计一种针对网络信息属性特征的大数据集合聚类算法。建立网络信息属性特征集合,并设计一个分类目标函数,根据类别划分准则分析不同类别数据之间的差异性,实现对网络信息属性特征的类别划分;引进信息熵衡量不同信息的权重,进行大数据集合属性特征的加权处理;构建大数据集相似关系,对数据集之间的相似性进行度量;采用构建集成模型的方式,进行大数据集的集成聚类,完成聚类算法的设计。实验结果表明:设计的聚类算法实际应用效果良好,该算法可以提高数据聚类结果准确率,提高聚类后属性集合中数据纯度。 展开更多
关键词 网络信息 相似关系 特征加权 聚类算法 大数据集 属性特征
下载PDF
基于格网划分的大数据集DEM三维可视化 被引量:36
4
作者 孙敏 薛勇 马蔼乃 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第6期566-570,共5页
提出基于格网划分的实时 L OD分层方法 ,该方法基于 DEM和影像数据固有的栅格特点 ,使用简单的几何算法即可实现 DEM数据的动态分层 ,计算量小 ,可实现对大数据集
关键词 格网划分 大数据集 DEM 三维可视化 地理信息系统
下载PDF
基于最小包含球的大数据集快速谱聚类算法 被引量:16
5
作者 钱鹏江 王士同 +1 位作者 邓赵红 徐华 《电子学报》 EI CAS CSCD 北大核心 2010年第9期2035-2041,共7页
GRC(Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal E... GRC(Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal Enclosing Ball,CCMEB)理论提出了大数据集快速谱聚类算法CCMEB-CGRC.该算法继承GRC的便捷性和自适应性的同时又具有渐近线性时间复杂度的优点,从而较好地解决了大数据集快速有效谱聚类的问题.仿真实验的结果验证了该算法的有效性和快速性. 展开更多
关键词 谱聚类 大数据集 最小包含球 线性时间复杂度
下载PDF
基于单元的快速的大数据集离群数据挖掘算法 被引量:7
6
作者 王柯柯 崔贯勋 +1 位作者 倪伟 苟光磊 《重庆邮电大学学报(自然科学版)》 北大核心 2010年第5期673-677,共5页
提出基于单元的快速的大数据集离群数据挖掘算法,用聚簇技术对数据进行预处理,然后将数据放入合适的空间单元并对非空单元使用维单元树(cell dimension tree,CD-tree)进行索引,数据集中大部分位于高密度区且与离群数据无关的数据将会被... 提出基于单元的快速的大数据集离群数据挖掘算法,用聚簇技术对数据进行预处理,然后将数据放入合适的空间单元并对非空单元使用维单元树(cell dimension tree,CD-tree)进行索引,数据集中大部分位于高密度区且与离群数据无关的数据将会被过滤掉,从而避免了大量不必要的计算。实验表明,该算法能快速准确地从大数据集中挖掘出离群数据,并提高离群数据的检测速度。 展开更多
关键词 大数据集 离群数据 单元 分块 快速
下载PDF
基于哈希技术和MapReduce的大数据集K-近邻算法 被引量:7
7
作者 翟俊海 张明阳 +1 位作者 王婷婷 郝璞 《计算机科学》 CSCD 北大核心 2017年第7期210-214,共5页
K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据... K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。 展开更多
关键词 K-近邻 哈希技术 分类算法 大数据集
下载PDF
一种基于CSA的混和属性特征大数据集聚类算法 被引量:9
8
作者 李洁 高新波 焦李成 《电子学报》 EI CAS CSCD 北大核心 2004年第3期357-362,共6页
在数据挖掘中 ,我们经常会遇到和分析大量具有数值和类属特征的数据 .然而 ,现有的大多数分类算法只能单独处理数值特征数据或类属特征数据 ,而不能分析具有两种混合属性的数据 .为此 ,本文提出一种基于克隆选择的模糊聚类新算法 ,通过... 在数据挖掘中 ,我们经常会遇到和分析大量具有数值和类属特征的数据 .然而 ,现有的大多数分类算法只能单独处理数值特征数据或类属特征数据 ,而不能分析具有两种混合属性的数据 .为此 ,本文提出一种基于克隆选择的模糊聚类新算法 ,通过改进距离测度函数将数值特征与类属特征相结合 ,从而实现具有混合属性特征数据的聚类分析 ;通过引入克隆选择算法 (CSA)实现目标函数的全局优化 .由于克隆算子能够将进化搜索与随机搜索、全局搜索和局部搜索相结合 ,因而通过对候选解进行克隆算子操作 ,能够快速得到全局最优解 .实验结果表明 。 展开更多
关键词 聚类分析 数值特征 混合属性特征 克隆选择算法 数据挖掘 模糊聚类新算法 大数据集
下载PDF
Hadoop分布式架构下大数据集的并行挖掘 被引量:21
9
作者 吕婉琪 钟诚 +1 位作者 唐印浒 陈志朕 《计算机技术与发展》 2014年第1期22-25,30,共5页
基于Hadoop分布式计算平台,给出一种适用于大数据集的并行挖掘算法。该算法对非结构化的原始大数据集以及中间结果文件进行垂直划分以确保能够获得完整的频繁项集,将各个垂直分块数据分配给不同的Hadoop计算节点进行处理,以减少各个计... 基于Hadoop分布式计算平台,给出一种适用于大数据集的并行挖掘算法。该算法对非结构化的原始大数据集以及中间结果文件进行垂直划分以确保能够获得完整的频繁项集,将各个垂直分块数据分配给不同的Hadoop计算节点进行处理,以减少各个计算节点的存储数据,进而减少各个计算节点执行交集操作的次数,提高并行挖掘效率。实验结果表明,给出的并行挖掘算法解决了大数据集挖掘过程中产生的大量数据通信、中间数据以及执行大量交集操作的问题,算法高效、可扩展。 展开更多
关键词 数据挖掘 大数据集 并行算法 HADOOP
下载PDF
基于分治法的高维大数据集模糊聚类算法 被引量:5
10
作者 王宝文 阎俊梅 +1 位作者 刘文远 石岩 《计算机工程》 CAS CSCD 北大核心 2007年第24期60-62,共3页
将高维的大数据集随机分成若干个子集,对每个子集聚类采用一种基于遗传算法的高维数据模糊聚类方法。该方法引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本随机初始化到二维平面,利用遗传算法迭代优化二维样本... 将高维的大数据集随机分成若干个子集,对每个子集聚类采用一种基于遗传算法的高维数据模糊聚类方法。该方法引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本随机初始化到二维平面,利用遗传算法迭代优化二维样本的坐标值,实现二维样本之间的欧氏距离向样本间的模糊非相似度的趋近。将得到的最优的二维样本用模糊C-均值聚类(FCM)算法聚类,克服了聚类有效性对高维样本空间分布的依赖。实验仿真表明,该算法有较好的聚类效果,且极大地提高了聚类的速度。 展开更多
关键词 模糊聚类 分治法 遗传算法 模糊非相似矩阵 大数据集 高维
下载PDF
基于最小包含球的大数据集域自适应快速算法 被引量:3
11
作者 许敏 王士同 +1 位作者 顾鑫 俞林 《模式识别与人工智能》 EI CSCD 北大核心 2013年第2期159-168,共10页
相同应用领域,不同时间、地点或设备检测到的数据域不一定完整.文中针对如何进行数据域间知识传递问题,提出相同领域的概率分布差异可用两域最小包含球中心点表示且其上限与半径无关的定理.基于上述定理,在原有支持向量域描述算法基础上... 相同应用领域,不同时间、地点或设备检测到的数据域不一定完整.文中针对如何进行数据域间知识传递问题,提出相同领域的概率分布差异可用两域最小包含球中心点表示且其上限与半径无关的定理.基于上述定理,在原有支持向量域描述算法基础上,提出一种数据域中心校正的领域自适应算法,并利用人造数据集和KDD CUP 99入侵检测数据集验证该算法.实验表明,这种领域自适应算法具有较好的性能. 展开更多
关键词 领域自适应 支持向量域描述(SVDD) 最小包含球(MEB) 核心 大数据集
下载PDF
一种基于Java2D的均匀大数据集曲线表达快速算法 被引量:3
12
作者 郑学锋 王志海 +2 位作者 孙鹏 沈钧毅 黄文辉 《微电子学与计算机》 CSCD 北大核心 2006年第4期4-7,共4页
基于网络B/S模式地震波形数据实时浏览,在现代地震研究与数据服务方面具有重要作用并且技术亟待提高。文章解决了基于B/S模式动态调阅服务器端数据库系统中的波形数据并即时显示、编辑的问题,重点研究了Java2D在波形曲线表达方面的局限... 基于网络B/S模式地震波形数据实时浏览,在现代地震研究与数据服务方面具有重要作用并且技术亟待提高。文章解决了基于B/S模式动态调阅服务器端数据库系统中的波形数据并即时显示、编辑的问题,重点研究了Java2D在波形曲线表达方面的局限性,并针对由均匀大数据集构成的曲线表达提出了较为快速的算法,最后给出了该算法在实际中的应用。 展开更多
关键词 JAVA2 均匀大数据集 数据 地震信息系统
下载PDF
面向大数据集的共享近邻聚类研究 被引量:5
13
作者 潘章明 陈尹立 《小型微型计算机系统》 CSCD 北大核心 2014年第1期50-54,共5页
共享近邻(SNN)相似度能有效克服由高维和多密度等因素引起的聚类有效性问题,但计算效率不高.基于分治策略,提出一种改进的共享近邻聚类算法(DC-SNN).采用软划分策略将数据集分割为多个小规模子集,降低了计算SNN相似矩阵时需要搜索的数... 共享近邻(SNN)相似度能有效克服由高维和多密度等因素引起的聚类有效性问题,但计算效率不高.基于分治策略,提出一种改进的共享近邻聚类算法(DC-SNN).采用软划分策略将数据集分割为多个小规模子集,降低了计算SNN相似矩阵时需要搜索的数据点数量,同时,也避免了子集分割边界对数据点K近邻产生的不利影响.根据在子集中定义的核心数据点和扩展数据点,给出了子集中SNN相似矩阵的计算方法和合并策略,从而确保了以子集SNN相似矩阵表示整个数据集SNN相似矩阵的有效性.实验结果表明,DC-SNN算法能够在确保聚类精度不变的情况下,显著提高共享近邻聚类的效率. 展开更多
关键词 共享近邻 分治法 大数据集 聚类分析
下载PDF
大数据集合中冗余特征排除的聚类算法设计 被引量:9
14
作者 侯莉莎 《现代电子技术》 北大核心 2018年第14期48-50,54,共4页
传统microRNA聚类算法对数据的新特征要求较高,未全面分析大数据集内的冗余特征,使得聚类结果均衡性差。因此,提出大数据集合中冗余特征排除的聚类算法,其采用聚类集成算法,在组构造时期通过使用一致的聚类算法抽取各种子集样本,实现大... 传统microRNA聚类算法对数据的新特征要求较高,未全面分析大数据集内的冗余特征,使得聚类结果均衡性差。因此,提出大数据集合中冗余特征排除的聚类算法,其采用聚类集成算法,在组构造时期通过使用一致的聚类算法抽取各种子集样本,实现大数据冗余特征的排除,获取排除冗余特征的大数据集聚类结果。对得到的大数据聚类特征分类能力以及特征关联性实施度量,采用基于特征聚类以及随机子空间的miRNA识别算法,实现大数据集合冗余特征的聚类。实验结果表明,所提算法具有较高的冗余数据排除性能,该算法下的大数据聚类效果优,具有较高的均衡性。 展开更多
关键词 大数据集 冗余特征排除 聚类算法 特征关联性 随机子空间 miRNA识别算法
下载PDF
基于分布式的大数据集聚类分析 被引量:5
15
作者 贾俊芳 张日权 《计算机工程与应用》 CSCD 北大核心 2008年第28期133-135,共3页
为了提高聚类效率提出了一种基于分布式的大数据集聚类算法。该方法并不是一次性对所有的数据进行聚类,而是将大数据集随机分成若干个子集,对每个子集同时进行聚类,最后进行类的合并。实验结果表明大多数情况下该方法和传统的一次性聚... 为了提高聚类效率提出了一种基于分布式的大数据集聚类算法。该方法并不是一次性对所有的数据进行聚类,而是将大数据集随机分成若干个子集,对每个子集同时进行聚类,最后进行类的合并。实验结果表明大多数情况下该方法和传统的一次性聚类的结果一致,而且极大地提高了聚类的速度。 展开更多
关键词 聚类分析 分布式 大数据集
下载PDF
基于nested-loop的大数据集快速离群点检测算法 被引量:1
16
作者 倪巍伟 陈耿 +1 位作者 陆介平 孙志挥 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第3期463-466,共4页
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.... 针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题. 展开更多
关键词 大数据集 模信息表 向量内积不等式 离群点检测
下载PDF
面向大数据集的有效聚类算法 被引量:7
17
作者 古凌岚 《计算机工程与设计》 CSCD 北大核心 2014年第6期2183-2187,共5页
为解决传统模糊C-均值算法无法适应大规模数据集体量大、冗余属性的问题,提出了一种面向大数据集的混合聚类算法。将大数据集划分为多个子集,对各子集进行聚类,通过合并得到最终聚类结果。对于子集采用基于基因表达式编程(GEP)和模糊C-... 为解决传统模糊C-均值算法无法适应大规模数据集体量大、冗余属性的问题,提出了一种面向大数据集的混合聚类算法。将大数据集划分为多个子集,对各子集进行聚类,通过合并得到最终聚类结果。对于子集采用基于基因表达式编程(GEP)和模糊C-均值的混合算法进行聚类,以改善聚类的质量和效率;基于相似性选取初始聚类中心,使用信息熵体现属性重要程度,从而进一步优化聚类性能。实验仿真及分析结果表明,该算法具有较好地全局收敛性,得到的聚类效果也更好。 展开更多
关键词 大数据集 模糊C-均值 基因表达式编程 属性信息熵 聚类
下载PDF
面向大数据集的递增聚类方法研究 被引量:6
18
作者 杨克光 《现代电子技术》 北大核心 2017年第9期176-178,182,共4页
以往提出的面向大数据集的递增聚类方法直接将多维度的大数据集转换成一维大数据集,导致聚类成果不佳,故提出面向大数据集的递增聚类新方法。为取得高聚类效率,在高度保留原始数据维度的情况下,简化了大数据集递增聚类步骤,构建出大数... 以往提出的面向大数据集的递增聚类方法直接将多维度的大数据集转换成一维大数据集,导致聚类成果不佳,故提出面向大数据集的递增聚类新方法。为取得高聚类效率,在高度保留原始数据维度的情况下,简化了大数据集递增聚类步骤,构建出大数据处理集合,对集合中的标志样本进行局部递增聚类,将未能成功聚类的大数据平均分配到局部递增聚类结果中,使用高斯概率密度函数和证据理论检测其中的错误坐标并进行改正,获取最终的递增聚类结果。实验结果证明该方法具有优越的聚类成果和聚类效率。 展开更多
关键词 大数据集 递增聚类方法 高斯概率密度函数 证据理论
下载PDF
一种变基宽径向基神经网络的大数据集分类方法 被引量:2
19
作者 王兵 《微电子学与计算机》 CSCD 北大核心 2015年第6期112-115,共4页
为了提高径向基神经网络模型的分类精度和缩短收敛时间,提出了一种变基宽神经网络模型的构建算法,这种方法是在减聚类算法和K-means算法确定聚类中心的基础上,选择样本与聚类中心距离的最大值作为σ,基宽σ的值随着聚类中心的优化而不... 为了提高径向基神经网络模型的分类精度和缩短收敛时间,提出了一种变基宽神经网络模型的构建算法,这种方法是在减聚类算法和K-means算法确定聚类中心的基础上,选择样本与聚类中心距离的最大值作为σ,基宽σ的值随着聚类中心的优化而不断自适应地更新.采用该方法同多支持向量机的RBF模型聚类算法以及高斯函数RBF神经网络模型中定基宽算法对乳腺癌(breast cancer)、葡萄酒(wine)、元音(vowel)三个大数据集分类,从分类准确度和收敛时间两方面作对比.实验结果表明,该方法能提高大数据样本集的分类精度和收敛速度. 展开更多
关键词 变基宽 径向基神经网络 大数据集 分类
下载PDF
一种面对大数据集的改进基于支持向量机的算法性能分析 被引量:2
20
作者 江志晃 《自动化技术与应用》 2020年第2期27-29,44,共4页
为了提高面对大规模数据集时,支持向量机模型的运算效率,本文构建的新模型SSVM-FCM算法。该算法精度可以达到95%以上,并且不会受到子簇数量的影响。本算法可以达到较高分类精度与良好的鲁棒性,引入吸收规则后还可以获得更高的计算精度。
关键词 支持向量机 大数据集 效率 分类精度
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部