数据挖掘中一种高效的聚类通用框架研究被引量：2

Research on an Efficient Clustering General Framework in Data Mining

下载PDF

导出

摘要随着传感器和互联网技术高速发展,数据集的规模激增,但系统的存储和处理能力仍然滞后。针对目前的数据聚类算法所需的测量值数目较多、时间开销大的不足,为了高效地解决大型数据集中的数据聚类问题,提出了一种主动式分层聚类通用框架,通过在小型数据集上重复运行离线聚类算法,既保证了算法性能,又降低了测量值计算复杂度和运行时间复杂度。然后,基于谱聚类算法讨论了本文框架,理论分析结果表明,利用O(n lg2n)个相似性数据可以恢复规模为Ω(lgn)的所有聚类,对包含n个对象的数据集,其运行时间为O(n lg3n)。最后,通过全面的仿真实验,证明了所提框架的其他优异性能。 Advances in sensing technologies and the growth of the internet have resuhed in an explosion in the size of datasets, while the storage and processing power continue to lag behind. Aiming at the disadvantages of required the larger number of measurements and spent the more running time at the current data clustering algorithms, in order to efficiently solve problems related to the large datasets, a general framework is proposed for active hierarchical clustering that repeatedly runs an off-the-shelf clustering algorithm on small subsets of the data and comes with guarantees on performance, measurement complexity and runtime complexity. This framework is instantiated with the spectral clustering algorithm and concrete results is provided on its performance. Theoretical analysis results show that, this algorithm recovers all clusters of size Ω（lgn） using O（n lg2n） similarities and runs in O（ n lg3n） time for a dataset of n objects. This framework is practically alluring.

作者高芹陈亚

机构地区湖北理工学院计算机学院武汉大学计算机学院

出处《科学技术与工程》北大核心 2014年第16期112-118,共7页 Science Technology and Engineering

基金湖北理工学院校级科研项目(12xjz41Q)资助

关键词数据集聚类测量值框架运行时间 datasets clustering measurement framework runtime

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1贺玲,蔡益朝,杨征.高维数据聚类方法综述[J].计算机应用研究,2010,27(1):23-26. 被引量：42
2金弟,刘杰,贾正雪,刘大有.基于k最近邻网络的数据聚类算法[J].模式识别与人工智能,2010,23(4):546-551. 被引量：18
3白天,冀进朝,何加亮,周春光.混合属性数据聚类的新方法[J].吉林大学学报（工学版）,2013,43(1):130-134. 被引量：7
4彭宇,罗清华,彭喜元.UIDK-means:多维不确定性测量数据聚类算法[J].仪器仪表学报,2011,32(6):1201-1207. 被引量：18

二级参考文献67

1余仕成.大学物理实验数据处理的几个问题讨论[J].武汉化工学院学报,2005,27(1):94-96. 被引量：9
2ERTOZ L, STEINBACH M, KUMAR V. Finding clusters of different sizes, shapes and densities in noisy high-dimensional data[ R]. Minnesota: Department of Computer Science, University of Minnesota, 2002.
3HAM J H, LEE D D, SAUL L K. Learning high-dimensional correspondences from low dimensional manifolds [ C ]//Proc of ICML Workshop on the Continuum from Labeled to Unlabeled Data in Machine Learning and Data Mining. Washington: [ s. n. ] , 2003:34-41.
4KOHONEN T. Self-organization and associated memory [ M]. [ S. l. ]: Springer-Verlag, 1988.
5KOHONEN T. Self-organizing maps [ M ]. New York: Spinger-Verlag, 2001.
6MINKA T P. Automatic choice of dimensionality for PCA[ C ]//Proc of International Conference on Advances in Neural Information Processing Systems. Cambridge: [ s. n. ] , 2001:598-604.
7GRIFFITHS T L, KALISH M L. A muhidimensional scaling approach to mental multiplication[ J ]. Memory & Cognition, 2002,30 ( 1 ) : 97-106.
8CAMASTRA F, VINCIARELLI A. Estimating the intrinsic dimension of data with a fractal-based method [J].IEEE Trans on Pattern Anal Mach Intell, 2002,24(10) :1404-1407.
9CAMASTRA F. Data dimension estimation methods: a survey[ J]. Pattern Recognition, 2003, 36:2945-2954.
10SCHOLKOPF B, SMOLA A, MULLER K. Nonlinear component analysis as a kernel eigenvalue problem [ J ]. Neural Computation, 1998,10(5) :1299-1319.

共引文献81

1祝琴,高学东,武森,陈华.高维稀疏数据对象——属性空间分割[J].数学的实践与认识,2011,41(7):184-189. 被引量：1
2汪万紫,裘国永,张兵权.基于线性判别分析和二分K均值的高维数据自适应聚类方法[J].郑州轻工业学院学报（自然科学版）,2011,26(2):106-110. 被引量：1
3徐丽,丁世飞.粒度聚类算法研究[J].计算机科学,2011,38(8):25-28. 被引量：11
4武森,叶俞飞,俞晓莉.拓展集合差异度高维数据聚类[J].计算机应用研究,2011,28(9):3253-3255.
5李俊林,符红光.仿分子动理学数据聚类法在基因表达数据上的应用[J].计算机应用,2011,31(10):2774-2777. 被引量：1
6徐丽,丁世飞,郭锋锋.基于改进属性约简的粗核聚类算法[J].广西师范大学学报（自然科学版）,2011,29(3):105-109. 被引量：2
7彭宇,罗清华,王丹,彭喜元.一种基于区间数聚类的RSSI-D估计方法[J].仪器仪表学报,2012,33(3):491-498. 被引量：8
8武森,张文丽,黄慧敏,叶俞飞.FD-CABOSFV区间变量高维数据聚类[J].信息系统学报,2012,6(1):77-87.
9王磊,郭淑霞,张凤玲,冯彬,张建城.微型铣刀外径视觉测量的不确定度[J].光学精密工程,2012,20(4):880-887. 被引量：5
10彭宇,罗清华,王丹,彭喜元.基于区间数聚类的无线传感器网络定位方法[J].自动化学报,2012,38(7):1190-1199. 被引量：14

同被引文献17

1李善青,赵辉,宋立荣.基于大数据挖掘的科技项目查重模型研究[J].图书馆论坛,2014,34(2):78-83. 被引量：27
2朱建生,汪健雄,张军锋.基于NoSQL数据库的大数据查询技术的研究与应用[J].中国铁道科学,2014,35(1):135-141. 被引量：28
3赵蓉英,谭洁,陈晨,董克.基于社会标签共现分析的Web资源聚合流程研究[J].情报理论与实践,2014,37(7):111-115. 被引量：3
4张丽晔,彭健,郑小鹏,赵雯.试验数据统一访问技术研究与实现[J].计算机仿真,2014,31(9):319-322. 被引量：3
5赵雪琴,付媛媛.云计算环境下大规模Web服务故障诊断技术研究[J].计算机测量与控制,2014,22(9):2760-2762. 被引量：3
6尤海浪,钱锋,黄祥为,胡亮亮.基于大数据挖掘构建游戏平台个性化推荐系统的研究与实践[J].电信科学,2014,30(10):27-32. 被引量：19
7宫宇,吕金壮.大数据挖掘分析在电力设备状态评估中的应用[J].南方电网技术,2014,8(6):74-77. 被引量：50
8刘汇丹,诺明花,马龙龙,吴健,贺也平.Web藏文文本资源挖掘与利用研究[J].中文信息学报,2015,29(1):170-177. 被引量：6
9李挥剑.大数据环境下频繁项集挖掘的研究[J].青岛科技大学学报（自然科学版）,2015,36(2):224-231. 被引量：2
10王秀英,张玲,张聪聪.探讨地震前兆观测中的大数据挖掘与应用[J].震灾防御技术,2015,10(1):39-45. 被引量：9

引证文献2

1梅毅,熊婷,罗少彬.复杂属性环境下NoSQL分布式大数据挖掘方法研究[J].科学技术与工程,2017,17(9):239-243. 被引量：15
2邓有林.大型Web网络数据中心资源高效挖掘技术研究[J].现代电子技术,2018,41(3):120-123. 被引量：5

二级引证文献20

1耿德志.分布式集群环境下数据挖掘优化算法研究[J].信息通信,2019,0(12):65-66.
2毛晓菊.基于模糊关联规则的海量数据挖掘方法研究[J].微电子学与计算机,2018,35(2):89-93. 被引量：10
3王莉莉.多维多层数据的无冗余跨层挖掘算法[J].微电子学与计算机,2018,35(2):113-117. 被引量：2
4张凯斐,刘继华,张菊芳.大规模高维数据集中局部异常数据挖掘算法[J].微电子学与计算机,2018,35(3):116-119. 被引量：13
5路玥.基于数据挖掘的英语教师教学能力评价研究[J].现代电子技术,2018,41(11):153-156. 被引量：9
6聂捷楠.大规模数据库中非显著特征动态数据实时挖掘技术[J].科学技术与工程,2018,18(21):252-257. 被引量：3
7李娜.中小型企业数据中心网络的设计[J].系统仿真技术,2018,14(3):164-168.
8金朝.基于Web的网络数字视频监控系统的设计与实现[J].电子设计工程,2018,26(21):170-174. 被引量：7
9魏丽峰,韩俊玉,梁灏.基于大数据分析挖掘技术的电力设备局部放电诊断方法[J].科学技术与工程,2018,18(19):203-208. 被引量：19
10郭德超,张豪,胡昌盛.城市空气粉尘污染空间集聚数据智能挖掘技术研究[J].环境科学与管理,2019,44(4):97-101. 被引量：1

1用途广泛的组合式光栅[J].中国汽车生产,2006(1):38-38.
2李成江.新的k最短路算法[J].山东大学学报（理学版）,2006,41(4):40-43. 被引量：15
3古凌岚,彭利民.基于相对密度和流形上k近邻的聚类算法[J].计算机科学,2016,43(12):213-217. 被引量：2
4张淑芬,董岩岩.基于Hadoop平台的气象数据聚类研究与实现[J].信息系统工程,2016,29(10):123-123.
5蒋加伏,罗晓萍,唐贤瑛.基于混合聚类算法的图像分割[J].计算技术与自动化,2004,23(1):71-73. 被引量：2
6赵梦玲,刘红卫,刘若辰.基于遗传模拟退火算法的矢量量化码书设计[J].数学的实践与认识,2015,45(1):209-218. 被引量：2
7张昕尧,高宏.一种新的属性图重叠聚类挖掘算法[J].智能计算机与应用,2012,2(5):27-30. 被引量：1
8阿晓.VB编程技巧三则[J].电脑知识与技术（过刊）,2003(20):46-46.
9丘威.大规模分布数据的分阶段非线性聚类方法应用研究[J].电脑知识与技术,2013(12):7767-7769.
10贾佩山.自然语言生成技术及其应用实例[J].电脑与信息技术,1997,5(2):7-9. 被引量：5

科学技术与工程

2014年第16期

浏览历史

内容加载中请稍等...

数据挖掘中一种高效的聚类通用框架研究被引量：2

参考文献4

二级参考文献67

共引文献81

同被引文献17

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

数据挖掘中一种高效的聚类通用框架研究 被引量：2

参考文献4

二级参考文献67

共引文献81

同被引文献17

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

数据挖掘中一种高效的聚类通用框架研究被引量：2