聚类分析是数据挖掘中经常用到的一种分析数据之间关系的方法.它把数据对象集合划分成多个不同的组或簇,每个簇内的数据对象之间的相似性要高于与其他簇内的对象的相似性.密度中心聚类算法是一个最近发表在《Science》上的新型聚类算法...聚类分析是数据挖掘中经常用到的一种分析数据之间关系的方法.它把数据对象集合划分成多个不同的组或簇,每个簇内的数据对象之间的相似性要高于与其他簇内的对象的相似性.密度中心聚类算法是一个最近发表在《Science》上的新型聚类算法,它通过评估每个数据对象的2个属性值(密度值ρ和斥群值δ)来进行聚类.相对于其他传统聚类算法,它的优越性体现在交互性、无迭代性、无数据分布依赖性等方面.但是密度中心聚类算法在计算每个数据对象的密度值和斥群值时,需要O(N^2)复杂度的距离计算,当处理海量高维数据时,该算法的效率会受到很大的影响.为了提高该算法的效率和扩展性,提出一种高效的分布式密度中心聚类算法EDDPC(efficient distributed density peaks clustering),它利用Voronoi分割与合理的数据复制及过滤,避免了大量无用的距离计算开销和数据传输开销.实验结果显示:与简单的MapReduce分布式实现比较,EDDPC可以达到40倍左右的性能提升.展开更多
为满足地理社交网络平台中用户对附近区域内具有相同兴趣的其他用户的查找需求,提出一种新型空间查询——基于K近邻的兴趣组查询(K-Nearest Neighbor Based Interest Group Query,KNNIG)。与基于距离约束的传统空间K近邻查询不同,KNNIG...为满足地理社交网络平台中用户对附近区域内具有相同兴趣的其他用户的查找需求,提出一种新型空间查询——基于K近邻的兴趣组查询(K-Nearest Neighbor Based Interest Group Query,KNNIG)。与基于距离约束的传统空间K近邻查询不同,KNNIG查询还加入了基于查询关键字的兴趣值约束,并在此基础上提出了D-I评价函数。查询结果为分值最高的用户集合。此外,提出了3种查询处理算法:基本KNNIG查询处理算法(KNNIG-G)、KNNIG查询的优化算法(KNNIG-G*)以及基于网格的距离松弛算法(KNNIG-DR)。在KNNIG-G基础上,KNNIG-G*和KNNIG-DR分别通过空间剪枝和距离松弛策略,在可容忍误差范围内有效地减少了计算开销,提高了查询效率。在真实数据集上进行的实验验证了所提算法的可行性与有效性。展开更多
文摘聚类分析是数据挖掘中经常用到的一种分析数据之间关系的方法.它把数据对象集合划分成多个不同的组或簇,每个簇内的数据对象之间的相似性要高于与其他簇内的对象的相似性.密度中心聚类算法是一个最近发表在《Science》上的新型聚类算法,它通过评估每个数据对象的2个属性值(密度值ρ和斥群值δ)来进行聚类.相对于其他传统聚类算法,它的优越性体现在交互性、无迭代性、无数据分布依赖性等方面.但是密度中心聚类算法在计算每个数据对象的密度值和斥群值时,需要O(N^2)复杂度的距离计算,当处理海量高维数据时,该算法的效率会受到很大的影响.为了提高该算法的效率和扩展性,提出一种高效的分布式密度中心聚类算法EDDPC(efficient distributed density peaks clustering),它利用Voronoi分割与合理的数据复制及过滤,避免了大量无用的距离计算开销和数据传输开销.实验结果显示:与简单的MapReduce分布式实现比较,EDDPC可以达到40倍左右的性能提升.
文摘为满足地理社交网络平台中用户对附近区域内具有相同兴趣的其他用户的查找需求,提出一种新型空间查询——基于K近邻的兴趣组查询(K-Nearest Neighbor Based Interest Group Query,KNNIG)。与基于距离约束的传统空间K近邻查询不同,KNNIG查询还加入了基于查询关键字的兴趣值约束,并在此基础上提出了D-I评价函数。查询结果为分值最高的用户集合。此外,提出了3种查询处理算法:基本KNNIG查询处理算法(KNNIG-G)、KNNIG查询的优化算法(KNNIG-G*)以及基于网格的距离松弛算法(KNNIG-DR)。在KNNIG-G基础上,KNNIG-G*和KNNIG-DR分别通过空间剪枝和距离松弛策略,在可容忍误差范围内有效地减少了计算开销,提高了查询效率。在真实数据集上进行的实验验证了所提算法的可行性与有效性。