摘要
针对聚类算法DBSCAN中存在的Eps参数问题和处理海量数据集时的效率问题,提出OPDBSCAN算法。OPDBSCAN算法通过交叠分区获取局部Eps以降低全局Eps参数对聚类质量的影响,并结合MapReduce并行框架提高算法效率。实验结果表明,OPDBSCAN算法的效率和聚类质量都高于原DBSCAN算法。
Aimed at solving DBSCAN's problems of the Eps parameters and the efficiency of processing of massive data sets,the article put forward a new algorithm called OPDBSCAN. It uses overlapping partitions to get a local Eps for reducing the effect of global Eps, then uses MapReduee to cluster in parallel to improve the efficiency. At last, the experiment shows that the OPDBSCAN can cluster faster and better.
出处
《计算机科学》
CSCD
北大核心
2015年第B11期396-399,共4页
Computer Science
基金
教育部-中移动基金项目(MCM20130651)
广州市科技和信息化局基金项目(2014Y2-00006)资助