-
题名半结构化数据相似搜索的索引技术研究
被引量:11
- 1
-
-
作者
杨建武
陈晓鸥
-
机构
北京大学计算机研究所文字信息处理技术国家重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2002年第11期1219-1226,共8页
-
文摘
为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树——CSS-树以及基于CSS-树的相似搜索与动态更新的算法.CSS-树借鉴SS+-树基于聚类进行节点组织与分裂的基本思想,避免了根据坐标维进行分裂时所要求的维不相关性,同时在节点组织、分裂算法和搜索算法等方面进行了改进,提出了新的搜索剪枝策略.实验表明,该结构及算法对海量半结构化数据相似搜索的效率明显优于传统算法.
-
关键词
半结构化数据
相似搜索
索引
相似索引
聚类
数据挖掘
数据库
多路平衡树
-
Keywords
similarity indexing, similarity search, semi-structured document, cluster, XML
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-