期刊文献+
共找到191篇文章
< 1 2 10 >
每页显示 20 50 100
LeaDen-Stream: A Leader Density-Based Clustering Algorithm over Evolving Data Stream
1
作者 Amineh Amini Teh Ying Wah 《Journal of Computer and Communications》 2013年第5期26-31,共6页
Clustering evolving data streams is important to be performed in a limited time with a reasonable quality. The existing micro clustering based methods do not consider the distribution of data points inside the micro c... Clustering evolving data streams is important to be performed in a limited time with a reasonable quality. The existing micro clustering based methods do not consider the distribution of data points inside the micro cluster. We propose LeaDen-Stream (Leader Density-based clustering algorithm over evolving data Stream), a density-based clustering algorithm using leader clustering. The algorithm is based on a two-phase clustering. The online phase selects the proper mini-micro or micro-cluster leaders based on the distribution of data points in the micro clusters. Then, the leader centers are sent to the offline phase to form final clusters. In LeaDen-Stream, by carefully choosing between two kinds of micro leaders, we decrease time complexity of the clustering while maintaining the cluster quality. A pruning strategy is also used to filter out real data from noise by introducing dense and sparse mini-micro and micro-cluster leaders. Our performance study over a number of real and synthetic data sets demonstrates the effectiveness and efficiency of our method. 展开更多
关键词 EVOLVING data STREAMS Density-based clustering Micro cluster Mini-Micro cluster
下载PDF
Outlier detection based on multi-dimensional clustering and local density
2
作者 SHOU Zhao-yu LI Meng-ya LI Si-min 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第6期1299-1306,共8页
Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outl... Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outlier. In this work, an effective outlier detection method based on multi-dimensional clustering and local density(ODBMCLD) is proposed. ODBMCLD firstly identifies the center objects by the local density peak of data objects, and clusters the whole dataset based on the center objects. Then, outlier objects belonging to different clusters will be marked as candidates of abnormal data. Finally, the top N points among these abnormal candidates are chosen as final anomaly objects with high outlier factors. The feasibility and effectiveness of the method are verified by experiments. 展开更多
关键词 data MINING OUTLIER DETECTION OUTLIER DETECTION method based on MULTI-DIMENSIONAL clusterING and local density (ODBMCLD) algorithm deviation DEGREE
下载PDF
基于Cluster的数据网格请求代理服务器设计 被引量:1
3
作者 黄斌 李春江 +2 位作者 肖侬 刘波 付伟 《计算机应用研究》 CSCD 北大核心 2004年第9期185-187,共3页
数据网格为数据密集型的应用提供了强有力的支持,数据服务是数据网格的核心,因而数据请求代理(DRB)服务器的设计是实现数据服务的关键。一个结构、性能较好的服务器能屏蔽数据的广域分布性和异构性,实现一体化数据访问、存储、传输与管... 数据网格为数据密集型的应用提供了强有力的支持,数据服务是数据网格的核心,因而数据请求代理(DRB)服务器的设计是实现数据服务的关键。一个结构、性能较好的服务器能屏蔽数据的广域分布性和异构性,实现一体化数据访问、存储、传输与管理。基于Cluster实现了一种数据请求代理服务器,这种服务器实现了上述目标,并具有许多优点,特别在具有多Cluster的高性能计算中,可以同时建立多个连接进行数据分块传输,能够获得Cluster-to-Cluster的聚集吞吐率。介绍了基于Cluster的DRB详细设计方案,描述了多个自治域的DRB之间协同服务的过程,并分析了这种设计的优点。 展开更多
关键词 cluster-based 数据网格 数据请求代理服务器 设计
下载PDF
Over-sampling algorithm for imbalanced data classification 被引量:9
4
作者 XU Xiaolong CHEN Wen SUN Yanfei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第6期1182-1191,共10页
For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic... For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic minority over-sampling technique(SMOTE) is specifically designed for learning from imbalanced datasets, generating synthetic minority class examples by interpolating between minority class examples nearby. However, the SMOTE encounters the overgeneralization problem. The densitybased spatial clustering of applications with noise(DBSCAN) is not rigorous when dealing with the samples near the borderline.We optimize the DBSCAN algorithm for this problem to make clustering more reasonable. This paper integrates the optimized DBSCAN and SMOTE, and proposes a density-based synthetic minority over-sampling technique(DSMOTE). First, the optimized DBSCAN is used to divide the samples of the minority class into three groups, including core samples, borderline samples and noise samples, and then the noise samples of minority class is removed to synthesize more effective samples. In order to make full use of the information of core samples and borderline samples,different strategies are used to over-sample core samples and borderline samples. Experiments show that DSMOTE can achieve better results compared with SMOTE and Borderline-SMOTE in terms of precision, recall and F-value. 展开更多
关键词 imbalanced data density-based spatial clustering of applications with noise(DBSCAN) synthetic minority over sampling technique(SMOTE) over-sampling.
下载PDF
REMUDA: A Practical Topology Control and Data Forwarding Mechanism for Wireless Sensor Networks
5
作者 SUN Li-Min YAN Ting-Xin BI Yan-Zhong 《自动化学报》 EI CSCD 北大核心 2006年第6期867-874,共8页
In wireless sensor networks, topology control plays an important role for data forwarding efficiency in the data gathering applications. In this paper, we present a novel topology control and data forwarding mechanism... In wireless sensor networks, topology control plays an important role for data forwarding efficiency in the data gathering applications. In this paper, we present a novel topology control and data forwarding mechanism called REMUDA, which is designed for a practical indoor parking lot management system. REMUDA forms a tree-based hierarchical network topology which brings as many nodes as possible to be leaf nodes and constructs a virtual cluster structure. Meanwhile, it takes the reliability, stability and path length into account in the tree construction process. Through an experiment in a network of 30 real sensor nodes, we evaluate the performance of REMUDA and compare it with LEPS which is also a practical routing protocol in TinyOS. Experiment results show that REMUDA can achieve better performance than LEPS. 展开更多
关键词 data forwarding mechanism tree-based hierarchical topology virtual cluster
下载PDF
A New Integrated Fuzzifier Evaluation and Selection (NIFEs) Algorithm for Fuzzy Clustering
6
作者 Chanpaul Jin Wang Hua Fang +2 位作者 Sun Kim Ann Moormann Honggang Wang 《Journal of Applied Mathematics and Physics》 2015年第7期802-807,共6页
Fuzzy C-means (FCM) is simple and widely used for complex data pattern recognition and image analyses. However, selecting an appropriate fuzzifier (m) is crucial in identifying an optimal number of patterns and achiev... Fuzzy C-means (FCM) is simple and widely used for complex data pattern recognition and image analyses. However, selecting an appropriate fuzzifier (m) is crucial in identifying an optimal number of patterns and achieving higher clustering accuracy, which few studies have investigated. Built upon two existing methods on selecting fuzzifier, we developed an integrated fuzzifier evaluation and selection algorithm and tested it using real datasets. Our findings indicate that the consistent optimal number of clusters can be learnt from testing different fuzzifiers for each dataset and the fuzzifier with the lowest value for this consistency should be selected for clustering. Our evaluation also shows that the fuzzifier impacts the clustering accuracy. For longitudinal data with missing values, m = 2 could be an empirical rule to start fuzzy clustering, and the best clustering accuracy was achieved for tested data, especially using our multiple-imputation based fuzzy clustering. 展开更多
关键词 Fuzzifier FUZZY C-MEANS Multiple Imputation-based FUZZY clusterING (MIFuzzy) MISSING data Longitudinal data
下载PDF
结合软约束的演化数据流模糊聚类算法
7
作者 代少升 边志奇 袁中明 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期287-298,共12页
多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,... 多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,提出了一种结合软约束的实时数据流模糊聚类算法。算法引入2种模糊性软约束来描述微簇距离和密度上的不确定度,通过阈值划分出核心微簇、边界微簇和离群微簇;在类簇边缘使用模糊隶属度,给予微簇分属不同类簇的可能性,保证类簇的完整性并提高聚类效果;使用两阶段的流程结构和2种时间窗口模型,赋予算法具有对可变化数据流的适应能力和更低的时间空间占用率。在多种数据集上的实验表明,该算法相比同类型算法在聚类效果上提升了1%~3%,且平均运行时间缩短5%~20%,在实际硬件平台的测试中也验证了算法的聚类分离性能。 展开更多
关键词 数据流聚类 密度聚类 模糊聚类 概念漂移 局部放电
下载PDF
Knowledge Based Consolidation of UML Diagrams for Creation of Virtual Enterprise
8
作者 Debasis Chanda Dwijesh Dutta Majumder Swapan Bhattacharya 《Intelligent Information Management》 2010年第3期159-177,共19页
In this paper we address the problem related to determination of the most suitable candidates for an M&amp;A (Merger &amp;Acquisition) scenario of Banks/Financial Institutions. During the pre-merger period of ... In this paper we address the problem related to determination of the most suitable candidates for an M&amp;A (Merger &amp;Acquisition) scenario of Banks/Financial Institutions. During the pre-merger period of an M&amp;A, a number of candidates may be available to undergo the Merger/Acquisition, but all of them may not be suitable. The normal practice is to carry out a due diligence exercise to identify the candidates that should lead to optimum increase in shareholder value and customer satisfaction, post-merger. The due diligence ought to be able to determine those candidates that are unsuitable for merger, those candidates that are relatively suitable, and those that are most suitable. Towards achieving the above objective, we propose a Fuzzy Data Mining Framework wherein Fuzzy Cluster Analysis concept is used for advisability of merger of two banks and other Financial Institutions. Subsequently, we propose orchestration/composition of business processes of two banks into consolidated business process during Merger &amp;Acquisition (M&amp;A) scenario. Our paper discusses modeling of individual business process with UML, and the consolidation of the individual business process models by means of our proposed Knowledge Based approach. 展开更多
关键词 Knowledge base PREDICATE CALCULUS Service Oriented Architecture UML Fuzzy data Mining cluster Analysis
下载PDF
On Density-Based Data Streams Clustering Algorithms: A Survey 被引量:10
9
作者 Amineh Amini Teh Ying Wah Hadi Saboohi 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第1期116-141,共26页
Clustering data streams has drawn lots of attention in the last few years due to their ever-growing presence. Data streams put additional challenges on clustering such as limited time and memory and one pass clusterin... Clustering data streams has drawn lots of attention in the last few years due to their ever-growing presence. Data streams put additional challenges on clustering such as limited time and memory and one pass clustering. Furthermore, discovering clusters with arbitrary shapes is very important in data stream applications. Data streams are infinite and evolving over time, and we do not have any knowledge about the number of clusters. In a data stream environment due to various factors, some noise appears occasionally. Density-based method is a remarkable class in clustering data streams, which has the ability to discover arbitrary shape clusters and to detect noise. Furthermore, it does not need the nmnber of clusters in advance. Due to data stream characteristics, the traditional density-based clustering is not applicable. Recently, a lot of density-based clustering algorithms are extended for data streams. The main idea in these algorithms is using density- based methods in the clustering process and at the same time overcoming the constraints, which are put out by data streanFs nature. The purpose of this paper is to shed light on some algorithms in the literature on density-based clustering over data streams. We not only summarize the main density-based clustering algorithms on data streams, discuss their uniqueness and limitations, but also explain how they address the challenges in clustering data streams. Moreover, we investigate the evaluation metrics used in validating cluster quality and measuring algorithms' performance. It is hoped that this survey will serve as a steppingstone for researchers studying data streams clustering, particularly density-based algorithms. 展开更多
关键词 data stream density-based clustering grid-based clustering micro-clustering
原文传递
基于改进DBSCAN和距离共识评估的分段点云去噪方法
10
作者 葛程鹏 赵东 +1 位作者 王蕊 马庆华 《系统仿真学报》 CAS CSCD 北大核心 2024年第8期1800-1809,共10页
针对点云数据中噪声点的剔除问题,提出了一种基于改进DBSCAN(density-based spatial clustering of applications with noise)算法的多尺度点云去噪方法。应用统计滤波对孤立离群点进行预筛选,去除点云中的大尺度噪声;对DBSCAN算法进行... 针对点云数据中噪声点的剔除问题,提出了一种基于改进DBSCAN(density-based spatial clustering of applications with noise)算法的多尺度点云去噪方法。应用统计滤波对孤立离群点进行预筛选,去除点云中的大尺度噪声;对DBSCAN算法进行优化,减少算法时间复杂度和实现参数的自适应调整,以此将点云分为正常簇、疑似簇及异常簇,并立即去除异常簇;利用距离共识评估法对疑似簇进行精细判定,通过计算疑似点与其最近的正常点拟合表面之间的距离,判定其是否为异常,有效保持了数据的关键特征和模型敏感度。利用该方法对两个船体分段点云进行去噪,并与其他去噪算法进行对比,结果表明,该方法在去噪效率和特征保持方面具有优势,精确地保留了点云数据的几何特性。 展开更多
关键词 点云去噪 点云数据 DBSCAN(density-based spatial clustering of applications with noise)聚类 距离共识评估 特征保持
下载PDF
基于机器学习空间聚类的出租车停靠站点布局规划
11
作者 年光跃 黄建云 潘海啸 《交通运输研究》 2024年第1期10-17,27,共9页
针对出租车随意停靠给城市交通带来的负面影响,为规范出租车营运秩序、改善出租车营运环境和居民乘车条件,提出一种将出租车出行空间信息与机器学习算法相结合的出租车停靠站点布局规划方法。首先利用出租车GPS轨迹数据提取出租车出行起... 针对出租车随意停靠给城市交通带来的负面影响,为规范出租车营运秩序、改善出租车营运环境和居民乘车条件,提出一种将出租车出行空间信息与机器学习算法相结合的出租车停靠站点布局规划方法。首先利用出租车GPS轨迹数据提取出租车出行起点,然后采用HDBSCAN聚类算法对起点进行空间密度聚类,形成聚类簇后以其中心点作为出租车停靠站点布局的备选点。最后,为验证所提方法的可行性和有效性,选取重庆市中心城区一土地利用类型丰富、人口密度高的典型区域进行案例分析。结果显示,107个备选点主要分布于商业中心区和居住集中区,与出租车出行高需求区域的空间分布基本吻合;布局的出租车停靠站点在300 m范围内的覆盖率达到76.0%,未覆盖区域主要为城市绿地和水体。研究表明,机器学习算法可实现出租车停靠站点的高效布局规划,但在规划和实施阶段,停靠站点的设置还应结合邻近区域的建成环境特点综合考虑。 展开更多
关键词 城市交通 布局规划 空间聚类 出租车停靠站点 轨迹数据 机器学习算法 HDBSCAN
下载PDF
基于规则库和聚类分析的复句短语字段的自动识别研究 被引量:9
12
作者 胡金柱 俞小娟 +1 位作者 李琼 周毕吉 《华中师范大学学报(自然科学版)》 CAS CSCD 2008年第2期190-194,共5页
复句层次结构与层次关系研究,是一项将中文信息处理由字、词处理阶段提升到句处理阶段的关键性难题.在研究复句层次划分和层次关系之前,首先要确定复句中分句的数量,需要排除其中非完整分句的字段(本文中称之为短语字段).结合语言学的... 复句层次结构与层次关系研究,是一项将中文信息处理由字、词处理阶段提升到句处理阶段的关键性难题.在研究复句层次划分和层次关系之前,首先要确定复句中分句的数量,需要排除其中非完整分句的字段(本文中称之为短语字段).结合语言学的相关理论,首先建立规则库,在此基础上,引入聚类分析法,对短语字段进行分类,最终使短语字段的自动识别率达到92.1%. 展开更多
关键词 短语字段 规则库 聚类分析 变量
下载PDF
一种基于密度的空间数据流在线聚类算法 被引量:28
13
作者 于彦伟 王沁 +1 位作者 邝俊 何杰 《自动化学报》 EI CSCD 北大核心 2012年第6期1051-1059,共9页
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial data stream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点... 为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial data stream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033ms. 展开更多
关键词 空间数据挖掘 聚类数据流 基于密度的聚类 在线算法 噪声处理
下载PDF
基于MapReduce的分治k均值聚类方法 被引量:8
14
作者 臧艳辉 席运江 赵雪章 《计算机工程与设计》 北大核心 2020年第5期1345-1351,共7页
针对原始k均值法在MapReduce建模中执行时间较长和聚类结果欠佳问题,提出一种基于MapReduce的分治k均值聚类方法。采取分治法处理大数据集,将所要处理的整个数据集拆分为较小的块并存储在每台机器的主存储器中;通过可用的机器传播,将数... 针对原始k均值法在MapReduce建模中执行时间较长和聚类结果欠佳问题,提出一种基于MapReduce的分治k均值聚类方法。采取分治法处理大数据集,将所要处理的整个数据集拆分为较小的块并存储在每台机器的主存储器中;通过可用的机器传播,将数据集的每个块由其分配的机器独立地进行聚类;采用最小加权距离确定数据点应该被分配的类簇,判断收敛性。实验结果表明,与传统k均值聚类方法和流式k均值聚类方法相比,所提方法用时更短,结果更优。 展开更多
关键词 数据聚类 基于MapReduce的聚类 分治法 大数据 k均值法
下载PDF
基于密度的计算机兵棋推演数据快速聚类算法 被引量:4
15
作者 石崇林 张茂军 +2 位作者 吴琳 唐宇波 景民 《系统工程与电子技术》 EI CSCD 北大核心 2011年第11期2428-2433,共6页
针对计算机兵棋推演数据的特点,提出了一种基于密度的快速聚类算法—基于密度的快速空间聚类算法(quick density based spatial clustering of applications with noise,QDBSCAN),目的是通过聚类检测孤立点,快速定位地面部队兵力部署上... 针对计算机兵棋推演数据的特点,提出了一种基于密度的快速聚类算法—基于密度的快速空间聚类算法(quick density based spatial clustering of applications with noise,QDBSCAN),目的是通过聚类检测孤立点,快速定位地面部队兵力部署上的缺陷。QDBSCAN算法在基于密度的空间聚类算法(density based spatial cluste-ring of applications with noise,DBSCAN)算法的基础上做了相关改进:在邻近度度量上提出了最短可行路径的概念,使聚类更符合计算机兵棋的规则;动态设置密度参数;采用提出的代表对象选择方法来减少对对象邻域的判断次数;按区域对数据进行分组以缩小聚类规模。实验表明,QDBSCAN算法的性能在数据规模较大的情况下,明显优于DBSCAN算法。 展开更多
关键词 数据挖掘 兵棋推演数据 基于密度的聚类算法 最短可行路径
下载PDF
WSN中基于分簇路由的多维度数据压缩算法研究 被引量:7
16
作者 尹震宇 赵海 +1 位作者 徐久强 王金英 《电子学报》 EI CAS CSCD 北大核心 2009年第5期1109-1114,共6页
本文在不减少基站获取传感信息量的前提下,以最大程度减少传输数据量为目的,提出一种在分簇路由协议支持下的时间、空间多维度的数据压缩算法.结合基于空间维度的数据压缩方式设计了一种改进的分簇路由.通过实例验证与仿真评测,该数据... 本文在不减少基站获取传感信息量的前提下,以最大程度减少传输数据量为目的,提出一种在分簇路由协议支持下的时间、空间多维度的数据压缩算法.结合基于空间维度的数据压缩方式设计了一种改进的分簇路由.通过实例验证与仿真评测,该数据压缩算法以及配合该算法设计的路由协议可以显著的减少整个无线传感器网络中数据发送量,延长网络的生存周期. 展开更多
关键词 数据压缩 分簇路由 路由 无线传感器网络
下载PDF
基于密度-距离图的交互式体数据分类方法 被引量:6
17
作者 周芳芳 高飞 +2 位作者 刘勇刚 梁兴 赵颖 《软件学报》 EI CSCD 北大核心 2016年第5期1061-1073,共13页
体数据分类是体绘制中传递函数设计的核心问题.标量值-梯度模直方图作为表征体数据的一种经典二维特征空间,已被广泛应用于分类体数据.然而,大部分已有方法存在过于依赖分类算法的参数设置、运算效率低、交互复杂度高等问题.以标量值-... 体数据分类是体绘制中传递函数设计的核心问题.标量值-梯度模直方图作为表征体数据的一种经典二维特征空间,已被广泛应用于分类体数据.然而,大部分已有方法存在过于依赖分类算法的参数设置、运算效率低、交互复杂度高等问题.以标量值-梯度模直方图的密度分布为基础,并依据物质中心密度大且物质中心间距离远这一特性,首先快速计算每个数据点的密度及每个数据点到比其密度大的点的最小距离;然后,将所有数据点投影到密度-距离图,并以密度-距离图作为人机接口,使用户能够交互地选择多个密度中心来分类体数据并设置传递函数.通过多组实验验证,所提出的方法无需预设物质类别的数量,分割标量值-梯度模直方图的准确度较高且速度较快,所设计的密度-距离图是一个有效的人机交互接口,可以有效地引导用户完成由粗糙到精细的递进式体数据分类和可视化过程. 展开更多
关键词 体数据 传递函数 体数据分类 基于密度的聚类
下载PDF
基于动态数据流挖掘的案例推理及其应用 被引量:7
18
作者 戴奇波 倪志伟 +1 位作者 王超 姜苗 《计算机工程与应用》 CSCD 北大核心 2011年第19期31-34,共4页
知识的获取、知识库的更新是案例推理技术的应用瓶颈,而许多案例推理系统中的知识库都是静态不变的,满足不了实际问题变化的需要。首先阐述了相关概念,接着提出了一种基于动态数据流挖掘的案例推理模型,其中动态数据流挖掘算法采用改进... 知识的获取、知识库的更新是案例推理技术的应用瓶颈,而许多案例推理系统中的知识库都是静态不变的,满足不了实际问题变化的需要。首先阐述了相关概念,接着提出了一种基于动态数据流挖掘的案例推理模型,其中动态数据流挖掘算法采用改进的数据流聚类算法。通过此模型使用基于动态数据流挖掘的案例推理技术,对数据进行实时挖掘,产生连续、动态的临时案例库,实现知识库的实时更新,从而满足实际问题变化的需要。最后通过该模型在实际中的应用说明其有效性。 展开更多
关键词 数据流 案例推理 聚类
下载PDF
基于加权网格和信息熵的并行密度聚类算法 被引量:10
19
作者 胡健 徐锴滨 毛伊敏 《计算机科学与探索》 CSCD 北大核心 2020年第12期2094-2107,共14页
针对大数据下基于密度的聚类算法中存在的数据网格划分不合理,聚类结果准确度不高以及并行化效率较低等问题,提出了基于MapReduce和加权网格信息熵的DBWGIE-MR算法。首先提出自适应网格划分策略(ADG)来划分网格单元;其次提出邻居网格扩... 针对大数据下基于密度的聚类算法中存在的数据网格划分不合理,聚类结果准确度不高以及并行化效率较低等问题,提出了基于MapReduce和加权网格信息熵的DBWGIE-MR算法。首先提出自适应网格划分策略(ADG)来划分网格单元;其次提出邻居网格扩展策略(NE)用于构建每个数据分区的加权网格,以此提高聚类效果;同时提出加权网格信息熵策略(WGIE)来计算网格密度以及密度聚类算法的ε邻域和核心对象,使密度聚类算法更适用于加权网格;接着结合MapReduce计算模型,提出并行计算局部簇算法(COMCOREMR),从而加快获取局部簇;最后提出了基于并查集的并行合并局部簇算法(MECORE-MR),用于加快合并局部簇的收敛速度,提升了基于密度的聚类算法对局部簇合并的效率。实验结果表明,DBWGIE-MR算法的聚类效果更佳,且在较大规模的数据集下算法的并行化性能更好。 展开更多
关键词 大数据 密度聚类 加权网格 信息熵
下载PDF
基于网络附属对象设备的集群存储体系结构 被引量:6
20
作者 张悠慧 郑纬民 《软件学报》 EI CSCD 北大核心 2003年第2期293-299,共7页
随着Internet的发展,应用的数据存储量与其增长速度都相当高,同时数据具有结构化特点,当前的(分布式)文件系统与数据库系统都无法较好地满足这一类需求.提出了一种网络附属对象存储设备模型,利用自身处理器的能力,提供结构化数据的存储... 随着Internet的发展,应用的数据存储量与其增长速度都相当高,同时数据具有结构化特点,当前的(分布式)文件系统与数据库系统都无法较好地满足这一类需求.提出了一种网络附属对象存储设备模型,利用自身处理器的能力,提供结构化数据的存储/检索接口,消除了传统存储系统的服务器瓶颈问题.同时提出了基于该对象设备的集群存储体系——OStorage.它利用集群网络方式,实现了数据/元数据统一存储与查询式数据访问机制.其在系统的可扩展性、可用性与对结构化数据的支持上,均较符合当前存储应用的特点.实现了该体系的原型系统.测试结果表明,其吞吐率随规模的扩大呈线性增长. 展开更多
关键词 网络附属对象设备 数据存储 INTERNET 集群存储 体系结构
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部