摘要
提出一种基于编码的双距离树(EDD-tree)高维索引结构.对于高维空间中的数据点,首先通过k平均聚类算法将其聚成若干类,然后分别计算每个点对应的始点和质心距离,并对其进行编码得到对应的统一化索引键值,最后用基于分片的B+树建立索引.这样,高维空间的查询就转变成对一维空间的检索.实验证明该方法能更有效地缩小搜索空间,减少距离计算的代价.理论分析和实验都表明,EDD-tree索引在查询效率方面要明显优于其他的索引方法,尤其适合海量高维数据的查询.
出处
《中国科学(E辑)》
CSCD
北大核心
2007年第12期1491-1503,共13页
Science in China(Series E)
基金
国家自然科学基金重点项目(批准号:60533090)
国家杰出青年基金(批准号:60525108)
国家自然科学基金(批准号:60272031)
高等学校中英文图书数字化国际合作项目资助