不确定树数据库中的动态聚类算法被引量：4

Dynamic Clustering Algorithm in Uncertain Tree Database

下载PDF

导出

摘要针对现有的树聚类算法不能适应数据的动态变化和不确定性等问题,研究不确定数据的聚类问题,提出一种在不确定树数据库中的动态聚类算法,有效地解决了因数据的动态变化而导致的无法聚类的问题.首先,提出转变树集、相似分组和树类集等概念来描述一个不确定树数据库的聚类模型.其次,为了更加准确的度量子树之间的相似性,考虑到子树即具有结点语义特征,又具有结构化特性,提出了一种语义相似度计算方法与结构相似度计算方法,同时对两者赋予一定比例的权值并求和得到最终的相似度.再次,设计了一个动态聚类过程,采用自适应获取聚类阈值,较大程度上减少了人为干扰导致聚类结果不准确的影响,使得具有相似结构的子树聚集在同一个相似分组中,不同分组之间的子树相似度达到最小化,同时对每个相似分组,定义一个提取代表性子树的公式,将其作为树类组成树的类集.最后,通过模拟数据和真实环境两部分实验可以表明,算法有效可行,聚类结果较准确且具有较好的运行效率. Considering the dis - applicability to dynamic variation, uncertainty and other problems of present tree clustering algorithm, the research on uncertain data clustering and proposal of a dynamic algorithm in uncertain tree database have effectively investigated the clustering problems result from dynamic database. First, the cluster mode of an uncertain tree database is described by introduction of conceptions of tree set change, similar group and tree class set. Second, in order to do accurate measurement on the similarities a- mong subtrees, the calculation method of semantic similarity and structural similarity are proposed for subtree＇s node semantic charac- teristic and structured characteristic. In addition, proper weight is distributed to both similarities and accumulated to evaluate the final similarities. Third, a dynamic clustering process is designed in which threshold can be captured self - adaptively so that greatly reduce the jamming impact to the result accuracy. This process can cluster subtrees of similar structure within similar groups , which can minimize the similarity of subtree groups, and define a formula to single out the representatives in groups and qualify the representa- fives as tree classes which can be combined as tree class set. In the end, through experiment by analog data and reality, it turns out that the algorithm is effective and feasible. The clustering result is accurate and can run efficiently.

作者郭鑫颜一鸣徐洪智董坚峰

机构地区吉首大学软件服务外包学院武汉大学信息资源研究中心

出处《小型微型计算机系统》 CSCD 北大核心 2013年第6期1339-1343,共5页 Journal of Chinese Computer Systems

基金湖南省教育厅科学研究项目(12CD291 11C1051)资助吉首大学校级科研计划项目(11JD051)资助

关键词数据挖掘有序树频繁子树相似度不确定树聚类 data mining ordered tree frequent subtree similarity uncertain tree cluster

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1刘文军,游兴中.一种改进的凝聚层次聚类法[J].吉首大学学报（自然科学版）,2011,32(4):11-14. 被引量：10
2郭鑫,李云,黄云,周清平.最小闭树特征集的聚类与分类方法[J].计算机应用,2010,30(2):423-426. 被引量：5
3周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16. 被引量：185
4吴扬扬,雷庆,陈锻生,YOKOTA Harou.一种从XML数据中发现关系信息的方法[J].软件学报,2008,19(6):1422-1427. 被引量：10
5邹兆年,李建中,高宏,张硕.从不确定图中挖掘频繁子图模式[J].软件学报,2009,20(11):2965-2976. 被引量：32
6王志瑞,闫彩良.图像特征提取方法的综述[J].吉首大学学报（自然科学版）,2011,32(5):43-47. 被引量：40
7卓月明.基于聚类技术的XML文件代表性结构获取[J].吉首大学学报（自然科学版）,2011,32(6):55-58. 被引量：4

二级参考文献154

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2朱永泰,王晨,洪铭胜,汪卫,施伯乐.ESPM——频繁子树挖掘算法[J].计算机研究与发展,2004,41(10):1720-1727. 被引量：18
3谷峪,于戈,张天成.RFID复杂事件处理技术[J].计算机科学与探索,2007,1(3):255-267. 被引量：54
4赵传申,孙志挥,张净.基于投影分支的快速频繁子树挖掘算法[J].计算机研究与发展,2006,43(3):456-462. 被引量：14
5杜世宏,秦其明,王桥.空间关系及其应用[J].地学前缘,2006,13(3):69-80. 被引量：24
6钱晓东.数据挖掘中分类方法综述[J].图书情报工作,2007,51(3):68-71. 被引量：28
7Deshpande A, Guestrin C, Madden S, Hellerstein J M, Hong W. Model-driven data acquisition in sensor networks// Proceedings of the 30th International Conference on Very Large Data Bases. Toronto, 2004:588-599
8Madhavan J, Cohen S, Xin D, Halevy A, Jeffery S, Ko D, Yu C. Web-scale data integration: You can afford to pay as you go//Proceedings of the 33rd Biennial Conference on Innovative Data Systems Research. Asilomar, 2007:342-350
9Liu Ling. From data privacy to location privacy: Models and algorithms (tutorial)//Proceedings of the 33rd International Conference on Very Large Data bases. Vienna, 2007: 1429- 1430
10Samarati P, Sweeney L. Generalizing data to provide anonymity when disclosing information (abstract)//Proeeedings of the 17th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Seattle, 1998:188

共引文献267

1刘维,陈崚.复杂网络中的链接预测[J].信息与控制,2020,49(1):1-23. 被引量：2
2雷庆,吴扬扬,缑锦.从复杂XML文档中抽取目标关系片段的方法[J].郑州大学学报（理学版）,2009,41(1):40-43.
3刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012,49(S1):26-31. 被引量：170
4刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
5何明,李薇.基于概率信息抽取模型的Top-k查询[J].计算机研究与发展,2011,48(S3):224-231.
6杜凌霞,李翠平,陈红,张应龙.概率图上的对象相似度计算[J].计算机研究与发展,2011,48(S3):326-333. 被引量：1
7叶杰敏,刘国华,貟慧,石丹妮,吴云龙,费凡.Attribute-or模型下不确定关系的无损分解算法[J].计算机研究与发展,2013,50(S1):117-124. 被引量：1
8于洋,赵志滨,鲍玉斌,于戈.面向属性级不确定数据的U-Topk查询优化算法的研究[J].计算机研究与发展,2013,50(S1):125-132.
9胡海洋,刘占晨,胡华.科学工作流中面向不确定数据源图的受限可达查询[J].计算机研究与发展,2013,50(S1):133-144.
10梁俊杰,熊亚军.以固态硬盘为缓存的存储技术研究[J].微电子学与计算机,2015,32(1):40-44. 被引量：2

同被引文献131

1何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
2陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
3凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005,24(6):684-689. 被引量：12
4李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12
5朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
6潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
7潘有能,丁楠.基于标记树的XML文档自动分类研究[J].情报学报,2007,26(3):350-355. 被引量：5
8鲁远,万常选.XML信息检索中结构相似度计算[J].情报杂志,2007,26(11):109-111. 被引量：3
9马军,陈竹敏,赵嫣,雷景生.基于部分-整体匹配的文档结构相似度计算[J].模式识别与人工智能,2007,20(5):630-635. 被引量：2
10Huang C, Yin J, Han D. An improved text retrieval algorithm based on suffix tree similarity measure [ C ]// Communications in Computer and Information Science ( Vol. 106). Berlin : Springer, 2010 : 150-157.

引证文献4

1胡德敏,余星.一种不确定数据流子空间聚类算法[J].计算机应用研究,2014,31(9):2606-2608. 被引量：1
2李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
3郭晋秦,韩焱.大型数据库聚类中伪装危险数据识别方法研究[J].计算机仿真,2015,32(11):433-436. 被引量：4
4陈凤娟.基于概率模型的概率频繁项集挖掘方法[J].安阳师范学院学报,2017(2):57-60.

二级引证文献5

1史斌.大型数据库分区表研究[J].中国新通信,2016,0(11):116-117. 被引量：1
2韩东红,王坤,邵崇雷,马畅.一种面向不确定数据流的聚类算法[J].东北大学学报（自然科学版）,2016,37(12):1677-1682. 被引量：1
3明章强,李文华.实验室信息管理系统数据库优化方法研究[J].电脑编程技巧与维护,2017(14):58-60.
4史斌.大型数据库Oracle脱机备份研究与应用[J].中国新通信,2016,18(19):107-108.
5刘久彪.空间数据库反向最近邻聚类方法[J].吉林大学学报（理学版）,2019,57(2):387-392. 被引量：40

1顾军,吴长彬.常用空间索引技术的分析[J].微型电脑应用,2001,17(12):40-42. 被引量：39
2陈小辉,文佳,邢海波,王凌飞.一种基于候选树分割的分布式并行Apriori算法[J].计算机应用,2006,26(S2):147-148. 被引量：2
3深圳中电签订新加坡丰树集团上海闵行项目系统订单[J].电气应用,2016,35(13):2-2.
4丁定浩.以最小割集为基础是网络可用度分析的最佳途径[J].电子产品可靠性与环境试验,2001(6):7-9. 被引量：2
5ZHAO Chuanshen,WANG Xianyong,SUN Zhihui,LI Yuetian.Mining Compressed Frequent Subtrees Set[J].Wuhan University Journal of Natural Sciences,2009,14(1):29-34.
6刘涌,李海潮,赵鞭.一种基于二叉树的测控设备故障诊断方法[J].电讯技术,2016,56(8):928-933. 被引量：4
7徐德智,黄利辉,陈建二.一种新的基于树分割的本体映射算法[J].小型微型计算机系统,2009,30(11):2238-2242.
8余金山.PROLOG数据库组织的一种有效结构[J].计算机工程与应用,1996,32(1):11-15.
9曹震.基于回调机制和约束编程的数据结构的扩张[J].计算机与信息技术,2007(9):73-76.
10郭鑫,黄云,颜一鸣,周清平.一种新的频繁子树增量式更新方法[J].计算机应用,2010,30(5):1300-1303.

小型微型计算机系统

2013年第6期

浏览历史

内容加载中请稍等...

不确定树数据库中的动态聚类算法被引量：4

参考文献7

二级参考文献154

共引文献267

同被引文献131

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

不确定树数据库中的动态聚类算法 被引量：4

参考文献7

二级参考文献154

共引文献267

同被引文献131

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

不确定树数据库中的动态聚类算法被引量：4