期刊文献+
共找到113篇文章
< 1 2 6 >
每页显示 20 50 100
Scaling up Kernel Grower Clustering Method for Large Data Sets via Core-sets 被引量:2
1
作者 CHANG Liang DENG Xiao-Ming +1 位作者 ZHENG Sui-Wu WANG Yong-Qing 《自动化学报》 EI CSCD 北大核心 2008年第3期376-382,共7页
核栽培者是聚类最近 Camastra 和 Verri 建议的方法的一个新奇的核。它证明为各种各样的数据的好性能关于流行聚类的算法有利地设定并且比较。然而,方法的主要缺点是在处理大数据集合的弱可伸缩能力,它极大地限制它的应用程序。在这... 核栽培者是聚类最近 Camastra 和 Verri 建议的方法的一个新奇的核。它证明为各种各样的数据的好性能关于流行聚类的算法有利地设定并且比较。然而,方法的主要缺点是在处理大数据集合的弱可伸缩能力,它极大地限制它的应用程序。在这份报纸,我们用核心集合建议一个可伸缩起来的核栽培者方法,它是比为聚类的大数据的原来的方法显著地快的。同时,它能处理很大的数据集合。象合成数据集合一样的基准数据集合的数字实验显示出建议方法的效率。方法也被用于真实图象分割说明它的性能。 展开更多
关键词 大型数据集 图象分割 模式识别 磁心配置 核聚类
下载PDF
Clustering method based on data division and partition 被引量:1
2
作者 卢志茂 刘晨 +2 位作者 S.Massinanke 张春祥 王蕾 《Journal of Central South University》 SCIE EI CAS 2014年第1期213-222,共10页
Many classical clustering algorithms do good jobs on their prerequisite but do not scale well when being applied to deal with very large data sets(VLDS).In this work,a novel division and partition clustering method(DP... Many classical clustering algorithms do good jobs on their prerequisite but do not scale well when being applied to deal with very large data sets(VLDS).In this work,a novel division and partition clustering method(DP) was proposed to solve the problem.DP cut the source data set into data blocks,and extracted the eigenvector for each data block to form the local feature set.The local feature set was used in the second round of the characteristics polymerization process for the source data to find the global eigenvector.Ultimately according to the global eigenvector,the data set was assigned by criterion of minimum distance.The experimental results show that it is more robust than the conventional clusterings.Characteristics of not sensitive to data dimensions,distribution and number of nature clustering make it have a wide range of applications in clustering VLDS. 展开更多
关键词 CLUSTERING DIVISION PARTITION very large data sets (VLDS)
下载PDF
基于数据挖掘的大型邮轮船型特征及船型参数分析
3
作者 姚丹丽 《舰船科学技术》 北大核心 2024年第6期173-176,共4页
以确定大型邮轮的最优船型参数,提升邮轮的航行性能为目标,提出基于数据挖掘的大型邮轮船型特征及船型参数分析方法。利用模糊C均值聚类算法,聚类大型邮轮船型数据,挖掘大型邮轮船型特征。基于粗糙集理论,对大型邮轮船型特征挖掘结果约... 以确定大型邮轮的最优船型参数,提升邮轮的航行性能为目标,提出基于数据挖掘的大型邮轮船型特征及船型参数分析方法。利用模糊C均值聚类算法,聚类大型邮轮船型数据,挖掘大型邮轮船型特征。基于粗糙集理论,对大型邮轮船型特征挖掘结果约简处理,约简后船型特征对应的参数,作为船型性能优化的船型参数。利用自由变形方法,构建大型邮轮船型变换模型。依据船型参数变化,调整模型控制体的控制顶点,变化大型邮轮形状。利用回归分析方法,拟合船型变换模型中的船型参数,确定大型邮轮的最佳船型参数。实验结果表明,该方法可以精准挖掘大型邮轮船型特征,确定最佳船型参数。最佳船型参数下的邮轮阻力下降了1.48%,提升了大型邮轮的航行性能。 展开更多
关键词 数据挖掘 大型邮轮 船型特征 粗糙集 回归分析
下载PDF
SVM样本约简算法研究综述 被引量:1
4
作者 张代俐 汪廷华 朱兴淋 《计算机科学》 CSCD 北大核心 2024年第7期59-70,共12页
支持向量机(Support Vector Machine, SVM)是基于统计学习理论和结构风险最小化原则发展起来的一种有监督的机器学习算法,它有效克服了局部最小和维数灾难等问题,具有良好的泛化性能,并被广泛应用于模式识别和人工智能领域。但SVM的学... 支持向量机(Support Vector Machine, SVM)是基于统计学习理论和结构风险最小化原则发展起来的一种有监督的机器学习算法,它有效克服了局部最小和维数灾难等问题,具有良好的泛化性能,并被广泛应用于模式识别和人工智能领域。但SVM的学习效率随着训练样本数量的增加而显著降低,对于大规模训练集,采用标准优化方法的传统SVM面临着内存需求过大、执行速度慢,有时甚至无法执行的问题。为了缓解SVM在大规模训练集上存储需求高、训练时间长等问题,学者们提出了SVM样本约简算法。文中首先介绍了SVM理论基础,然后从基于聚类、几何分析、主动学习、增量学习和随机抽样5个方面系统综述了SVM样本约简算法的研究现状,讨论了各种SVM样本约简算法的优缺点,最后总结全文并展望未来。 展开更多
关键词 支持向量机 大规模数据集 样本约简 机器学习 分类
下载PDF
基于目的地选择的跨城出行分布预测模型
5
作者 李昌铃 李磊 《交通与运输》 2024年第S01期22-26,共5页
为了更加精准地预测跨城出行分布量,利用广东省域手机信令数据和开源统计数据构建了基于大选项集的跨城出行分布选择模型。首先,分析传统出行分布模型在城际出行预测中的不足,指出影响城际出行选择的各项因素,提出基于大选项集的目的地... 为了更加精准地预测跨城出行分布量,利用广东省域手机信令数据和开源统计数据构建了基于大选项集的跨城出行分布选择模型。首先,分析传统出行分布模型在城际出行预测中的不足,指出影响城际出行选择的各项因素,提出基于大选项集的目的地选择模型;其次,以广州和深圳对外出行为例,划分通勤出行、非通勤出行2个出行目的,以出行阻抗、社会经济、产业发展、区位等作为选择变量,分别标定目的地选择模型的系数,得到较好的系数估计结果和模型精度;最后,在街道层面检验广东省跨城出行分布的拟合结果,满足宏观模型应用的精度要求,验证模型的有效性和可行性。 展开更多
关键词 交通模型 手机信令 跨城出行分布 大选项集 目的地选择模型
下载PDF
数据可视化技术的研究与进展 被引量:56
6
作者 任永功 于戈 《计算机科学》 CSCD 北大核心 2004年第12期92-96,共5页
可视化技术对于分析和探究大规模的多维数据集变得越来越重要。本文首先介绍了数据可视化的概念及其发展历程,然后分类、对比分析了已存在的可视化技术,最后对数据可视化技术的未来发展方向进行了探讨。
关键词 数据可视化 多维数据集 大规模 可视化技术 方向 对数 未来发展 概念 分类
下载PDF
基于机器学习的文本分类技术研究进展 被引量:387
7
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
下载PDF
基于格网划分的大数据集DEM三维可视化 被引量:36
8
作者 孙敏 薛勇 马蔼乃 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第6期566-570,共5页
提出基于格网划分的实时 L OD分层方法 ,该方法基于 DEM和影像数据固有的栅格特点 ,使用简单的几何算法即可实现 DEM数据的动态分层 ,计算量小 ,可实现对大数据集
关键词 格网划分 大数据集 DEM 三维可视化 地理信息系统
下载PDF
半监督的仿射传播聚类 被引量:29
9
作者 王开军 李健 +1 位作者 张军英 涂重阳 《计算机工程》 CAS CSCD 北大核心 2007年第23期197-198,201,共3页
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明... 仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。 展开更多
关键词 仿射传播聚类 半监督聚类 大数据集的聚类算法
下载PDF
基于最小包含球的大数据集快速谱聚类算法 被引量:16
10
作者 钱鹏江 王士同 +1 位作者 邓赵红 徐华 《电子学报》 EI CAS CSCD 北大核心 2010年第9期2035-2041,共7页
GRC(Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal E... GRC(Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal Enclosing Ball,CCMEB)理论提出了大数据集快速谱聚类算法CCMEB-CGRC.该算法继承GRC的便捷性和自适应性的同时又具有渐近线性时间复杂度的优点,从而较好地解决了大数据集快速有效谱聚类的问题.仿真实验的结果验证了该算法的有效性和快速性. 展开更多
关键词 谱聚类 大数据集 最小包含球 线性时间复杂度
下载PDF
一种聚簇消减大规模数据的支持向量分类算法 被引量:10
11
作者 陈光喜 徐健 成彦 《计算机科学》 CSCD 北大核心 2009年第3期184-188,共5页
针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删... 针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删除矩阵,通过上述方法消减样本集。证明了这种簇消减算法有较低的时间复杂度,并利用实验说明了保留代表点的有效意义。最后通过随机数据和UCI标准数据库验证了算法在保证分类精度的同时提高了分类速度。 展开更多
关键词 支持向量机 聚簇集 大规模数据集 训练速度
下载PDF
基于瓦片金字塔模型的海量空间数据快速分发方法 被引量:8
12
作者 殷君茹 侯瑞霞 +1 位作者 唐小明 罗鹏 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第6期1269-1274,共6页
针对分布式并行环境下海量空间数据的快速显示和浏览问题,提出一种基于分层、分专题的海量空间数据金字塔模型及基于数据库存储方案的瓦片数据快速分发方法.对比分析了瓦片数据在文件式管理和数据库管理两种模式下的存储机制和响应流程... 针对分布式并行环境下海量空间数据的快速显示和浏览问题,提出一种基于分层、分专题的海量空间数据金字塔模型及基于数据库存储方案的瓦片数据快速分发方法.对比分析了瓦片数据在文件式管理和数据库管理两种模式下的存储机制和响应流程,并以时间跨度59年的沙尘暴观测数据为例,验证了该方法不仅能有效地组织管理海量空间数据,实现高效数据互操作,而且在多用户并发访问时,能快速响应客户端请求. 展开更多
关键词 瓦片金字塔模型 海量空间数据 数据库 分布式并行环境
下载PDF
一种基于密度偏差抽样的孤立点检测算法 被引量:3
13
作者 余建桥 葛继科 李娅 《计算机科学》 CSCD 北大核心 2004年第10期206-208,共3页
孤立点检测是一项有价值的、重要的知识发现任务。在对大规模数据集中的孤立点数据进行检测时,样本数据集的选择技术至关重要。本文提出了一种新的基于密度的偏差抽样技术作为数据约简的手段,并给出了基于密度偏差抽样的孤立点检测算法... 孤立点检测是一项有价值的、重要的知识发现任务。在对大规模数据集中的孤立点数据进行检测时,样本数据集的选择技术至关重要。本文提出了一种新的基于密度的偏差抽样技术作为数据约简的手段,并给出了基于密度偏差抽样的孤立点检测算法,该算法可以用来识别样本数据集低密度区域中的孤立点数据,并从理论和实验两个方面对其进行分析评估,分析与实践证明该算法是有效的。 展开更多
关键词 孤立点 检测算法 数据约简 大规模数据 知识发现 点检 识别 样本数据 区域 抽样
下载PDF
一种解决大规模数据集问题的核主成分分析算法 被引量:21
14
作者 史卫亚 郭跃飞 薛向阳 《软件学报》 EI CSCD 北大核心 2009年第8期2153-2159,共7页
提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知,新形成的矩阵和原先的Gram矩阵具有相同的特征向量.因此,可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,这样,无... 提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知,新形成的矩阵和原先的Gram矩阵具有相同的特征向量.因此,可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,这样,无须使用特征分解即可迭代地计算出核主成分.该算法的空间复杂度只有O(m);在大规模数据集的情况下,时间复杂度也降低为O(pkm).实验结果表明了所提出算法的有效性.更为重要的是,在大规模数据集的情况下,当传统的特征分解技术无法使用时,该方法仍然可以提取非线性特征. 展开更多
关键词 核主成分分析 GRAM矩阵 大规模数据集 协方差无关 特征分解
下载PDF
大规模点云数据的二维与三维混合索引方法 被引量:25
15
作者 王晏民 郭明 《测绘学报》 EI CSCD 北大核心 2012年第4期605-612,共8页
为提高点云查询效率和按需提取数据,提出一种二维与三维混合索引的大规模点云数据管理方法。采用二维四叉树和三维最小外包盒结构管理原始点云,以3D-R树管理多站点云,利用对象关系数据库管理全部点云模型和相关属性数据。利用古建筑大... 为提高点云查询效率和按需提取数据,提出一种二维与三维混合索引的大规模点云数据管理方法。采用二维四叉树和三维最小外包盒结构管理原始点云,以3D-R树管理多站点云,利用对象关系数据库管理全部点云模型和相关属性数据。利用古建筑大规模点云数据在微机上实现了点云模型的数据存储与可视化。结果表明本方法能够管理超过10 GB级的点云模型数据和十亿级有效点,数据可视化效率较高。 展开更多
关键词 地面激光雷达 大规模点云数据 空间索引 细节层次
下载PDF
基于多色集合理论的大型装备IETM数据模块创作技术 被引量:5
16
作者 姜洪权 王金宇 +2 位作者 高智勇 高建民 梁泽明 《计算机集成制造系统》 EI CSCD 北大核心 2015年第6期1536-1545,共10页
为实现多类型数据的高效组织与管理,解决开发交互式电子技术手册的关键问题,提出一种基于产品结构树的层次式多类型数据模块模型构建方法及交互式电子技术手册数据模块创作技术。对大型复杂装备的交互式电子技术手册数据形式及其特点进... 为实现多类型数据的高效组织与管理,解决开发交互式电子技术手册的关键问题,提出一种基于产品结构树的层次式多类型数据模块模型构建方法及交互式电子技术手册数据模块创作技术。对大型复杂装备的交互式电子技术手册数据形式及其特点进行了分析,根据数据模块与产品结构之间的映射关系,构造了一种层次式多类型数据模块模型;利用多色集合理论对其进行数学形式的统一描述,利用多色集合中的布尔矩阵来描述数据模块间、数据模块和产品结构间的相关关系,使之便于计算机的表达和操作,提高了交互式电子技术手册系统的数据模块管理效率和检索率。以典型大型装备压缩机组为例对所提方法进行了说明。 展开更多
关键词 多色集合 数据模块 产品结构树 交互式电子技术手册 大型装备
下载PDF
面向大规模数据的快速并行聚类划分算法研究 被引量:22
17
作者 牛新征 佘堃 《计算机科学》 CSCD 北大核心 2012年第1期134-137,151,共5页
随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式... 随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。 展开更多
关键词 云计算 K-MEANS 大规模数据 MPI HADOOP
下载PDF
大量空间数据可视化的算法 被引量:5
18
作者 冯玉才 刘嘉 《计算机工程》 CAS CSCD 北大核心 2003年第13期79-81,共3页
在大量应用中,空间数据的采集和使用都是通过其空间位置进行的。在大小有限的屏幕上显示大量的空间数据常会因为邻结点的高度重叠而导致较差的视觉效果。该文提出一种可视化大量空间数据的新方法。其主要思想就是用未被使用的像素点巧... 在大量应用中,空间数据的采集和使用都是通过其空间位置进行的。在大小有限的屏幕上显示大量的空间数据常会因为邻结点的高度重叠而导致较差的视觉效果。该文提出一种可视化大量空间数据的新方法。其主要思想就是用未被使用的像素点巧妙地代替重叠的数据点。介绍了两种解决方法:(1) 将重叠的数据点放置在最近的未被占用的像素点上;(2) 将数据点沿着屏幕填充曲线移动。接着,发展了一个更为成熟的方法叫栅格划分算法。最后,提出了一种有待进一步研究的新方法:基于最近邻接方法的聚类方法,并指出了今后研究的方向。 展开更多
关键词 可视化空间数据 可视化大数据集 数据库接口 像素点 数据点
下载PDF
基于图像的大规模数据集交互可视化 被引量:8
19
作者 王弘堃 曹轶 肖丽 《计算机研究与发展》 EI CSCD 北大核心 2017年第4期855-860,共6页
随着计算机性能的不断提高,大规模数值模拟的规模成倍增长.即使在大型可视化服务器上,针对这些模拟结果的大规模数据可视分析也难以进行流畅地交互.提出基于图像的交互分析方法并开发相应系统,可以预先生成多视角的可视化结果图像,基于... 随着计算机性能的不断提高,大规模数值模拟的规模成倍增长.即使在大型可视化服务器上,针对这些模拟结果的大规模数据可视分析也难以进行流畅地交互.提出基于图像的交互分析方法并开发相应系统,可以预先生成多视角的可视化结果图像,基于这些图像可以在普通设备上实现3D可视化结果的交互分析与展示,可以交互改变观察视角,动态展示数值模拟全过程的可视化结果,可以有效提高数值模拟的效率. 展开更多
关键词 可视化 大规模数值模拟 交互式绘制 基于图像 时变数据集
下载PDF
快速核密度估计定理和大规模图论松弛聚类方法 被引量:5
20
作者 钱鹏江 王士同 邓赵红 《自动化学报》 EI CSCD 北大核心 2011年第12期1422-1434,共13页
首先证明了快速核密度估计(Fast kernel density estimate,FKDE)定理:基于抽样子集的高斯核密度估计(KDE)与原数据集的KDE间的误差与抽样容量和核参数相关,而与总样本容量无关.接着本文揭示了基于高斯核形式的图论松弛聚类(Graph-based ... 首先证明了快速核密度估计(Fast kernel density estimate,FKDE)定理:基于抽样子集的高斯核密度估计(KDE)与原数据集的KDE间的误差与抽样容量和核参数相关,而与总样本容量无关.接着本文揭示了基于高斯核形式的图论松弛聚类(Graph-based relaxed clustering,GRC)算法的目标表达式可分解成"Parzen窗加权和+平方熵"的形式,即此时GRC可视作一个核密度估计问题,这样基于KDE近似策略,本文提出了大规模图论松弛聚类方法(Scaling up GRC by KDEapproximation,SUGRC-KDEA).较之先前的工作,这一方法的优势在于为GRC作用于大规模数据集提供了更简单和易于实现的方案. 展开更多
关键词 核密度估计 大规模数据集 聚类 抽样子集
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部