半结构化数据相似搜索的索引技术研究被引量：11

An Index Structure of Semi-Structure Data Set for Similarity Search

下载PDF

导出

摘要为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树——CSS-树以及基于CSS-树的相似搜索与动态更新的算法.CSS-树借鉴SS+-树基于聚类进行节点组织与分裂的基本思想,避免了根据坐标维进行分裂时所要求的维不相关性,同时在节点组织、分裂算法和搜索算法等方面进行了改进,提出了新的搜索剪枝策略.实验表明,该结构及算法对海量半结构化数据相似搜索的效率明显优于传统算法. A new index, called CSS-tree, is proposed to organize and search dynamic high-dimension vast semi-structure data set. The CSS-tree is a multi-way balance tree, which is combining the benefit of R-tree and SS-tree to deal with high-dimension vast data sets, and the benefit of M-tree to deal with 'metric space' data sets. This paper details the structure of CSS-tree, whose each inner node is composed of a group of index elements including cover center and cover radius of child tree and every leaf is in same level and all data indices is in leaves. The paper give algorithms for similarity search based CSS-tree both range search and k-NN search, and dynamic update algorithms of the CSS-tree. It describes the simply split policy which reference to CF-tree's split policy of BIRTH, and reorganizing algorithms which using clustering technique to keep the index elements that the similar elements are neighbor in the index tree, and avoid the need of independent between feather values. It also describes how to keep minimum cover space and overlap space. Using simulation data sets and using part of 'Chinese Encyclopedia Database' as data set, which is on XML document set, experiments show that the CSS-tree is close to SS+-tree and M-tree in building tree, but CSS-tree outperforms both SS+-tree and M-tree in similarity search in semi-structured data sets.

作者杨建武陈晓鸥

机构地区北京大学计算机研究所文字信息处理技术国家重点实验室

出处《计算机学报》 EI CSCD 北大核心 2002年第11期1219-1226,共8页 Chinese Journal of Computers

关键词半结构化数据相似搜索索引相似索引聚类数据挖掘数据库多路平衡树 similarity indexing, similarity search, semi-structured document, cluster, XML

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1白雪生,徐光祐,史元春.相似索引等距包络参数计算的改进算法[J].清华大学学报（自然科学版）,1999,39(9):95-98. 被引量：2

二级参考文献1

1Lin K I，VLDB J，1994年，3卷，4期，517页

共引文献1

1叶伟明,梁伟建,刘刚.基于台标特征的图像内容识别技术[J].电视技术,2007,31(B08):157-160. 被引量：1

同被引文献86

1吴兵,华明国,雷柏伟,倪英杰.矿山应急救援系统[J].辽宁工程技术大学学报（自然科学版）,2013,32(8):1015-1021. 被引量：15
2戴颖,计奎.生成正态分布随机数的一种新方法—基于Windows时间函数[J].地矿测绘,2004,20(2):7-8. 被引量：5
3叶航军,徐光祐.基于矢量量化的快速图像检索[J].软件学报,2004,15(5):712-719. 被引量：11
4王静,孟小峰,王珊.基于区域划分的XML结构连接[J].软件学报,2004,15(5):720-729. 被引量：35
5阎超德,赵学胜.GIS空间索引方法述评[J].地理与地理信息科学,2004,20(4):23-26. 被引量：43
6周项敏,王国仁.基于关键维的高维空间划分策略[J].软件学报,2004,15(9):1361-1374. 被引量：16
7严志民,刘仁义,刘南.基于群集技术的多服务器地理空间数据管理[J].浙江大学学报（理学版）,2004,31(6):690-695. 被引量：6
8万常选,刘云生,徐升华,刘喜平,林大海.基于区间编码的XML索引结构的有效结构连接[J].计算机学报,2005,28(1):113-127. 被引量：38
9张明波,陆锋,申排伟,程昌秀.R树家族的演变和发展[J].计算机学报,2005,28(3):289-300. 被引量：95
10郑坤,刘修国,杨慧.3维GIS中LOD_-OR树空间索引结构的研究[J].测绘通报,2005(5):27-29. 被引量：7

引证文献11

1杨梦,周恩波.基于专家系统的煤矿事故现场处置方案自动生成系统研究[J].煤炭工程,2019,51(11):138-142. 被引量：13
2杨建武,陈晓鸥.基于倒排索引的文本相似搜索[J].计算机工程,2005,31(5):1-3. 被引量：4
3易平,胡运安,陈福生,张世永.基于PATRICIA-TRIES的XML路径索引设计[J].小型微型计算机系统,2006,27(3):474-480. 被引量：2
4刘灿,张德贤.KNN查询处理算法性能研究[J].苏州科技学院学报（自然科学版）,2006,23(3):73-77. 被引量：1
5龚成清.PATRICIA-TRIES结构的XML数据索引技术[J].宁波职业技术学院学报,2008,12(2):60-64. 被引量：1
6李欢,汤晓安,孙茂印.基于动态索引和缓冲池的空间数据服务优化技术[J].系统仿真学报,2008,20(20):5593-5595.
7张翀,唐九阳,戴长华,肖卫东.一种适用于点和区间混合型维度数据集的多维索引[J].国防科技大学学报,2009,31(3):104-109. 被引量：1
8吴纯青,任沛阁,王小峰.基于语义的网络大数据组织与搜索[J].计算机学报,2015,38(1):1-17. 被引量：29
9时亚南,张太红,陈燕红,郭斌.大规模非结构化数据的索引技术研究[J].计算机技术与发展,2014,24(12):109-113. 被引量：2
10周国华.XML层次信息搜索空间效率的改进研究[J].信息技术,2017,41(2):43-46. 被引量：1

二级引证文献63

1霍建军,杨景惠,孙波.综采辅巷多通道回撤工艺通风系统管理研究[J].煤炭科学技术,2022,50(S01):142-146. 被引量：4
2颜端武,成晓,甘利人.基于领域本体和概念向量的中文文本相似性测度研究[J].中国图书馆学报,2007,33(6):51-57. 被引量：5
3魏东平,宗德君,孙华国.基于DTD的XML索引查询技术[J].计算机工程,2009,35(18):51-53. 被引量：2
4廉捷,刘云.网络舆情中的信息预处理与自动摘要算法[J].北京交通大学学报,2010,34(5):94-99. 被引量：8
5刘先涛,朱林,何沙.石油天然气行业科研创新与产出的关系研究[J].科技管理研究,2016,36(6):129-134. 被引量：3
6王大玲,于戈,冯时,张一飞,鲍玉斌.面向社会媒体搜索的实体关系建模研究综述[J].计算机学报,2016,39(4):657-674. 被引量：6
7胡颖.基于四叉树的移动终端地图搜索算法研究与实现[J].地理空间信息,2016,14(5):89-91. 被引量：1
8张晓琳,郭丹丹,韩雨童,郝琨,谭跃生.RLPI索引:一种处理连续不确定XML索引[J].计算机应用与软件,2016,33(4):25-29.
9张喜征,刘水林,张人龙,邹一凡.基于概念格的产品创新知识配置研究——以浏览器产品开发为例[J].科技进步与对策,2016,33(9):129-135.
10任艳.微信息大数据粗糙集的近似约简[J].沈阳工业大学学报,2016,38(3):309-313. 被引量：4

1张志珂,蒋泽军,蔡小斌,彭成章.相似索引:适用于重复数据删除的二级索引[J].计算机应用研究,2013,30(12):3614-3617. 被引量：1
2余一清,汪宏斌,周洞汝.基于内容的视频检索研究[J].计算机系统应用,2003,12(7):30-32. 被引量：1
3原野,李晨,田丽华.面向微博的PageRank算法的改进与应用[J].计算机应用与软件,2017,34(3):31-37. 被引量：3
4白雪生,徐光祐,史元春.相似索引等距包络参数计算的改进算法[J].清华大学学报（自然科学版）,1999,39(9):95-98. 被引量：2
5吴晓军,陈霁,房佩,郭海亮.基于子树间快捷连接的非结构化P2P资源搜索方法[J].计算机应用,2012,32(7):1799-1803.
6陈婷,卢建朱,江俊晖.一种具有强匿名性的无线传感器网络访问控制方案[J].计算机工程,2015,41(1):126-129. 被引量：3
7李小庆.基于Java Beans的Web数据库开发[J].中国金融电脑,2002(9):69-71.
8尚久庆,徐秋亮,蒋瀚.基于离散对数公钥的(t,n)环签名的分析[J].小型微型计算机系统,2006,27(5):802-804.
9胡国华,赵青杉.ID3算法的改进和优化[J].福建电脑,2010,26(7):12-13.
10鲁为,王枞.决策树算法的优化与比较[J].计算机工程,2007,33(16):189-190. 被引量：19

计算机学报

2002年第11期

浏览历史

内容加载中请稍等...

半结构化数据相似搜索的索引技术研究被引量：11

参考文献1

二级参考文献1

共引文献1

同被引文献86

引证文献11

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

半结构化数据相似搜索的索引技术研究 被引量：11

参考文献1

二级参考文献1

共引文献1

同被引文献86

引证文献11

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

半结构化数据相似搜索的索引技术研究被引量：11