一种有效的高属性维稀疏数据聚类算法被引量：6

An Effective High Attribute Dimensional Sparse Clustering

导出

摘要聚类分析是数据挖掘最常见的技术之一.数据的规模、维数和稀疏性都是制约聚类分析的不同方面.本文提出一种有效的高属性维稀疏数据聚类方法.给出稀疏相似度、等价关系的相似度、广义的等价关系的定义.基于对象间的稀疏相似度和等价关系原理形成初始等价类.通过等价关系的相似度修正初始等价关系.使得最终聚类结果更合理.该算法聚类过程不依赖于输入样本的排列顺序.高维稀疏数据的有效压缩提高算法在维数较高时的执行效率.适合于高维稀疏数据的聚类分析. Clustering analysis is one of the most important techniques in data mining with scale, dimension and sparseness of dataset being three key factors that influence accuracy of clustering . An effective clustering algorithm for the high attribute dimension sparse data is proposed in this paper. Definitions are given, such as sparse similarity, similarity between equivalence relations and generalized equivalence relation. Based on these definitions, the theory of equivalence relation is applied to form initial clusters. Initial equivalence relations are modified in terms of the similarity between two equivalence relations in order to obtain more reasonable clustering results. High dimensional sparse data is effectively compressed and expressed as sparse feature vector whose dimension is far lower than that of original data. As a result, the proposed approach can handle an array of high dimensional sparse data with high efficiency, and be independent of sequence of the objects.

作者赵亚琴周献中何新王建宇

机构地区南京理工大学自动化学院南京大学工程管理学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2006年第3期289-294,共6页 Pattern Recognition and Artificial Intelligence

基金江苏省自然科学基金(No.BK2004137)

关键词稀疏相似度等价关系的相似度数据压缩聚类 Sparse Similarity, Similarity between Equivalence Relations, Data Compression, Clustering

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1HanJ KamberM.数据挖掘概念与技术[M].北京:机械工业出版社,2001.185.
2Bradley P S, Fayyad U M, Reina C. Sealing Clustering Algorithms to Large Databases. In: Proc of the 4th International Conference on Knowledge Discovery and Data Mining, Menlo Park, USA, 1998, 9-15
3Hirane S, Tsumoto S, Okuzaki T, Hata Y, A Clustering Method for Nominal and Numerical Data Based on Rough Set Theory, In: Proc of the International Workshop on Rough Set Theory and Granular Computing. Matsue, Japan, 2001, 211-216
4苗夺谦,王珏.粗糙集理论中概念与运算的信息表示[J].软件学报,1999,10(2):113-116. 被引量：250
5周永权,焦李成.高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J].电子学报,2004,32(8):1342-1345. 被引量：3
6安秋生,沈钧毅,王国胤.基于信息粒度与Rough集的聚类方法研究[J].模式识别与人工智能,2003,16(4):412-417. 被引量：18
7Hirano S, Tsumoto S. Dealing with Relatively Proximity by Rough Clustering. ln: Proc of the 22nd International Conference of the North American Fuzzy Information Processing Society. Chicago, USA, 2003,260-265

二级参考文献22

1王珏,袁小红,石纯一,郝继刚.关于知识表示的讨论[J].计算机学报,1995,18(3):212-224. 被引量：54
2王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
3焦李成.神经网络计算[M].西安:电子科技大学出版社,1996..
4苗夺谦.Rough Set理论及其在机器学习中的应用研究（博士学位论文）[M].北京:中国科学院自动化研究所,1997..
5苗夺谦，博士学位论文，1997年
6Zhang T,et al.BIRCH:An efficient data clustering method for very large databases[A].Proc.of the ACM SIGMOD Int'l Conf on Management of Data[C].Montreal:ACM press,1996.73-84.
7Guha S,et al.CURE:An efficient clustering algorithm for large databases[A].Proc.of the ACM SIGMOD Int'l Conf on Management of data[C].Seattle:ACM Press,1998.73-84.
8Guha S,et al.A robust clustering algorithm for categorical attributes[A].Proc.of the 15th IEEE Int'l Conf on data Engineering[C].Sydney,Australia,1999.512-521.
9Ester M,et al.A density-based algorithm for discovering clusters in large spatial database with noise[A].Proc.of 2nd Int'l Conf on KDD'96[C].Portland:AAAI Press,1996.226-231.
10Zhang W,et al.STING:A statistical information grid approach to spatial data mining[A].Proc.of the 23th VLDB Conf[C].Athens:Morgan Kaufmann,1997.186-195.

共引文献280

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：10
2ZHAO Rong-zhen,LIAN Jin.基于邻域粗糙集概念的一种滚动轴承特征提取方法[J].兰州理工大学学报,2019,45(6):34-39. 被引量：2
3杨善林,刘业政,马溪骏.基于β-δ0粗糙集模型的属性约简算法[J].中国管理科学,2003,11(z1):41-45.
4易树鸿,樊林波,唐晔.基于Rough集理论的知识之间影响程度的一种度量[J].遵义师范学院学报,2003,5(3):62-64.
5刘方正,祁建清.网络雷达对抗系统侦察效能指标体系[J].火力与指挥控制,2012,37(S1):49-51. 被引量：4
6刘娟,唐玄.基于粗糙集的计算机文化基础课程成绩分析[J].商丘师范学院学报,2013,29(12):72-74.
7周永权,刘宣会.基于Rough集的牛顿迭代法求方程近似解算法[J].计算机工程与设计,2004,25(3):356-357.
8谢莹,陈琳.16位超前进位加法器的设计[J].合肥工业大学学报（自然科学版）,2004,27(4):450-454. 被引量：8
9张倩生.知识库中知识的信息表示及其上的粗动力系统[J].高校应用数学学报（A辑）,2004,19(3):369-375. 被引量：1
10王瑜,胡运发,张凯.基于粗集理论的知识含量度量研究[J].计算机研究与发展,2004,41(9):1500-1506. 被引量：12

同被引文献73

1Ai-BoSong,Mao-XianZhao,Zuo-PengLiang,Yi-ShengDong,Jun-ZhouLuo.Discovering User Profiles for Web Personalized Recommendation[J].Journal of Computer Science & Technology,2004,19(3):320-328. 被引量：2
2冯凌,林杰,雷星晖.Web日志数据挖掘模型研究[J].计算机集成制造系统,2005,11(8):1073-1075. 被引量：8
3吴萍,宋瀚涛,牛振东,张利萍,张聚礼.基于SS/OSF实现高维稀疏数据对象的聚类[J].北京理工大学学报,2006,26(3):216-220. 被引量：5
4宋江春,沈钧毅.一种新的Web用户群体和URL聚类算法的研究[J].控制与决策,2007,22(3):284-288. 被引量：11
5Han J,Kamber M.Data mining:concepts and techniques[M].New York:Morgan Kaufmann,2001.
6Beyer K S,Goldstein J,Ramakrishnan R,et al.When is nearest neighbor meaningful?[C] ∥Proceedings of the 7th International Conference on Database.Jerusalem:Springer-Verlag,1999:217-235.
7Hirano S,Tsumoto S,Kuzaki T,et al.A clustering method for nomina1 and numerical data based on rough set theory[C] ∥Proc of the International Workshop on Rough Set Theory and Granular Computing.Matsue:Springer,Berlin,2001:211-216.
8Castellano G,Fanelli A M,Mencar C,et al.Similarity-based fuzzy clustering for user profiling[C] ∥IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology-Workshops.Washington D C:IEEE Computer Society,2007:75-78.
9Zadeh L A.Some reflections on soft computing,granular computing and their roles in the conception,design and utilization of information/intelligent systems[J].Soft Computing,1998,2(1):23-25.
10Xie Y,Raghavan V V,Dhatric P,et al.A new fuzzy clustering algorithm for optimally finding granular prototypes[J].International Journal of Approximate Reasoning,2005,40(1/2):109-124.

引证文献6

1赵洁,肖南峰,陈琼.基于知识粒度的高属性维稀疏聚类算法[J].华南理工大学学报（自然科学版）,2010,38(7):20-26. 被引量：2
2赵洁,董振宁,张沙清,肖南峰.一种基于粒度原理的多指标综合Web用户聚类算法[J].计算机应用研究,2011,28(7):2427-2431. 被引量：3
3赵洁,莫赞,刘洪伟,张沙清,董振宁.基于知识粒度的约简在Web使用挖掘中的应用研究[J].现代图书情报技术,2013(2):50-56.
4冷亚军,梁昌勇,丁勇,陆青.协同过滤中一种有效的最近邻选择方法[J].模式识别与人工智能,2013,26(10):968-974. 被引量：15
5陈小玉.动态自适应的混合智能协同推荐算法[J].计算机应用,2014,34(12):3487-3490.
6钱晓捷,张路一.融合评分结构特征与偏好距离的协同过滤推荐算法[J].计算机工程,2017,34(5):185-190. 被引量：5

二级引证文献25

1赵洁,董振宁,张沙清,肖南峰.一种基于粒度原理的多指标综合Web用户聚类算法[J].计算机应用研究,2011,28(7):2427-2431. 被引量：3
2赵洁,莫赞,刘洪伟,张沙清,董振宁.基于知识粒度的约简在Web使用挖掘中的应用研究[J].现代图书情报技术,2013(2):50-56.
3冷亚军,陆青,梁昌勇.协同过滤推荐技术综述[J].模式识别与人工智能,2014,27(8):720-734. 被引量：193
4陈小玉.动态自适应的混合智能协同推荐算法[J].计算机应用,2014,34(12):3487-3490.
5朱彦松,窦桂琴.综合项目权值分配与时间相关的协同过滤模型[J].计算机工程与科学,2014,36(11):2234-2238. 被引量：1
6王伦文,张贤骥,张铃.基于模糊相容关系的聚类粒度分析[J].系统仿真学报,2014,26(7):1492-1496. 被引量：4
7常凯敏,张岩,王洪飞,于孟喜.Web数据聚类算法研究[J].电脑开发与应用,2015,28(1):25-28. 被引量：2
8任看看,钱雪忠.协同过滤算法中的用户相似性度量方法研究[J].计算机工程,2015,41(8):18-22. 被引量：25
9张佳,林耀进,林梦雷,刘景华.基于目标用户近邻修正的协同过滤算法[J].模式识别与人工智能,2015,28(9):802-810. 被引量：8
10王兴茂,张兴明.基于贡献因子的协同过滤推荐算法[J].计算机应用研究,2015,32(12):3551-3554. 被引量：10

1赵洁,董振宁,张沙清,肖南峰.一种基于粒度原理的多指标综合Web用户聚类算法[J].计算机应用研究,2011,28(7):2427-2431. 被引量：3
2赵洁,肖南峰,陈琼.基于知识粒度的高属性维稀疏聚类算法[J].华南理工大学学报（自然科学版）,2010,38(7):20-26. 被引量：2
3闫珍,皮德常,吴文昊.高维稀疏数据频繁项集挖掘算法的研究[J].计算机科学,2011,38(6):183-186. 被引量：5
4崔鹏,张汝波.一种用于处理高维稀疏数据的半监督聚类算法[J].计算机科学,2010,37(7):205-207.
5祝琴,高学东,武森,陈华.高维稀疏数据对象——属性空间分割[J].数学的实践与认识,2011,41(7):184-189. 被引量：1
6汤寒青,王汉军.改进的K-means算法在网络舆情分析中的应用[J].计算机系统应用,2011,20(3):165-168. 被引量：7
7赵亚琴,邹红艳.基于信息粒度的文本聚类算法[J].计算机工程与设计,2009,30(22):5171-5174. 被引量：2
8林哲,闫敬文,袁野.基于稀疏表示和PCNN的多模态图像融合[J].山东大学学报（工学版）,2013,43(4):13-17. 被引量：2
9宋晓宁,徐勇.稀疏相似性度量的模糊鉴别分析方法[J].模式识别与人工智能,2014,27(3):199-205. 被引量：2
10邵慧萌,舒红平,郑皎凌,许源平,文立玉.基于分片的高维稀疏数据存储模式优化研究[J].计算机工程与应用,2013,49(18):99-104.

模式识别与人工智能

2006年第3期

浏览历史

内容加载中请稍等...

一种有效的高属性维稀疏数据聚类算法被引量：6

参考文献7

二级参考文献22

共引文献280

同被引文献73

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

一种有效的高属性维稀疏数据聚类算法 被引量：6

参考文献7

二级参考文献22

共引文献280

同被引文献73

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

一种有效的高属性维稀疏数据聚类算法被引量：6