-
题名基于簇核心的XML结构聚类方法
被引量:4
- 1
-
-
作者
张翀
唐九阳
肖卫东
汤大权
-
机构
国防科学技术大学信息系统工程重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第11期2161-2176,共16页
-
基金
国家自然科学基金项目(60172012)
-
文摘
随着XML技术的不断应用和推广,XML结构聚类技术在XML管理与挖掘中扮演着重要角色.针对目前XML结构聚类算法聚类不准确、效率低、对数据输入次序敏感的不足,提出簇核心的概念,并指出在动态环境下,对簇核心加以正确维护可以支持增量式聚类.在此基础上设计了一套有效的XML结构聚类算法COXClustering,该算法涵盖静态聚类和增量式聚类,静态聚类提取子树作为特征合理反映XML结构之间的相似性,并利用簇核心快速分类的特点提高聚类效率,利用簇核心正交的特点降低对数据输入次序的敏感性;增量式聚类根据当前增加的XML文档动态调整簇核心,从而自适应地指导增量式聚类.理论分析和实验表明该算法静态聚类效率高、聚类质量好、能够有效屏蔽输入次序的敏感性,增量式聚类将聚类速度大幅度提升,聚类质量接近静态聚类质量.
-
关键词
XML结构聚类
簇核心
特征关联度
输入次序敏感性
增量式聚类
-
Keywords
XML structural clustering
cluster-core
feature association degree
sensitivity of inputorder
incremental clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-