期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于概率SLCA的XML过滤 被引量:2
1
作者 张晨静 王晓玲 周傲英 《计算机学报》 EI CSCD 北大核心 2014年第9期1959-1971,共13页
不确定数据管理逐渐成为一个重要的研究方向.作为网络交换重要标准的XML数据的不确定管理也成为一个研究热点.基于关键字的概率XML检索是其中一个重要的分支.目前对于概率XML关键字检索的研究,都只考察了结点之间的独立(IND)关系和互斥(... 不确定数据管理逐渐成为一个重要的研究方向.作为网络交换重要标准的XML数据的不确定管理也成为一个研究热点.基于关键字的概率XML检索是其中一个重要的分支.目前对于概率XML关键字检索的研究,都只考察了结点之间的独立(IND)关系和互斥(MUX)关系.由于更普遍的结点依赖关系在表述和计算上的复杂性,较少有工作讨论.文中讨论概率XML模型PrXML^({exp,ind,mux})中基于SLCA语义的关键字过滤.这种模型中通过EXP结点描述更普遍的结点依赖关系.文中在定义了子树中关键字概率分布表tab及其相关的运算后,分别给出了模型中不同类型结点关键字概率分布表的计算方法,并给出了不需要构造可能世界直接求解SLCA结点概率的算法.文章通过实验评估了算法的特性和性能. 展开更多
关键词 不确定数据 概率XML 关键字过滤 slca 关键字概率分布表
下载PDF
Fast Smallest Lowest Common Ancestor Computation Based on Stable Match
2
作者 周军锋 蓝国翔 +1 位作者 陈子阳 汤显 《Journal of Computer Science & Technology》 SCIE EI CSCD 2013年第2期366-381,共16页
In this paper, we focus on efficient processing of XML keyword queries based on smallest lowest common ancestor (SLCA) semantics. For a given query Q with m keywords, we propose to use stable matches as the basis fo... In this paper, we focus on efficient processing of XML keyword queries based on smallest lowest common ancestor (SLCA) semantics. For a given query Q with m keywords, we propose to use stable matches as the basis for SLCA computation, where each stable match M consists of m nodes that belong to the m distinct keyword inverted lists of Q. M satisfies that no other lowest common ancestor (LCA) node of Q can be found to be located after the first node of M and be a descendant of the LCA of M, based on which the operation of locating a stable match can skip more useless nodes. We propose two stable match based algorithms for SLCA computation, i.e., BSLCA and HSLCA. BSLCA processes two keyword inverted lists each time from the shortest to the longest, while HSLCA processes all keyword inverted lists in a holistic way to avoid the problem of redundant computation invoked by BSLCA. Our extensive experimental results verify the performance advantages of our methods according to various evaluation metrics. 展开更多
关键词 XML keyword search smallest lowest common ancestor
原文传递
XML数据的查询技术 被引量:72
3
作者 孔令波 唐世渭 +2 位作者 杨冬青 王腾蛟 高军 《软件学报》 EI CSCD 北大核心 2007年第6期1400-1418,共19页
XML规范已成为当前网络应用(包括数字图书馆、Web服务以及电子商务)中事实上的数据表达、交换的标准.针对XML数据的查询在当前XML数据管理研究中占有重要的地位,也是当前XML数据处理研究领域的热点方向,相关的研究文献有很多.根据查询... XML规范已成为当前网络应用(包括数字图书馆、Web服务以及电子商务)中事实上的数据表达、交换的标准.针对XML数据的查询在当前XML数据管理研究中占有重要的地位,也是当前XML数据处理研究领域的热点方向,相关的研究文献有很多.根据查询模式描述的不同,将当前XML查询技术归入两大类:XML Query方式和XML IR方式.后者又进而可分以为3个子类:XML IR/keyword方式、XML IR/fragment和XMLIR/query方式,并从中挑选出3个研究者关注的问题进行了简述,它们是:Twig查询模式的处理、SLCA(smallest lowest common ancestor)节点的获取以及对所获取的XML片段相似性的度量.以方便普通用户使用为准则探讨了相关XML查询技术的优、缺点,将如下4个问题作为需要进一步关注的研究内容:结构化关键字查询及相应的结构相似性度量方法,如何消除XML Query查询处理模式(包含XML IR/query)和XML IR/keyword查询处理模式间数据冗余的问题,XML Query查询方式的理论探讨及其实现以及针对特定应用的XML数据的有效管理. 展开更多
关键词 XML查询 XML IR查询 XPATH XQUERY XML关键字查询 XQUERY FT Twig查询模式 结构连接 slca节点 DEWEY编码 相似性度量 树编辑距离 向量空间模型 TF^*IDF
下载PDF
XML信息检索中最小子树根节点问题的分层算法 被引量:23
4
作者 孔令波 唐世渭 +2 位作者 杨冬青 王腾蛟 高军 《软件学报》 EI CSCD 北大核心 2007年第4期919-932,共14页
最小子树根节点问题(smallest lowest common ancestor,简称SLCA)是实现XML信息检索研究中关键字查询的一个基本问题,其主旨就是求解所有包含给定关键字的紧致子树的根节点.XU等人给出了3种算法—基于索引的搜索算法(indexed lookup eag... 最小子树根节点问题(smallest lowest common ancestor,简称SLCA)是实现XML信息检索研究中关键字查询的一个基本问题,其主旨就是求解所有包含给定关键字的紧致子树的根节点.XU等人给出了3种算法—基于索引的搜索算法(indexed lookup eager,简称ILE)、基于堆栈的算法以及基于扫描的算法(scan eager,简称SE),并通过实验证明ILE算法具有最好的表现.与基于B+树索引结构的ILE算法不同,所给出的新算法,称为LISA(layered intersection scan algorithm)方法.该方法基于SLCA节点按“层”分布的规律,采取了逐层求解SLCA节点的思路,即在获取了包含关键字的节点的Dewey码集合后,通过计算对应于不同关键字、不同层次的Dewey码前缀集合的交集,可以得到对应不同层的SLCA节点.与ILE相比,LISA除了只需对应于关键字的节点集合信息以外,不再需要其他复杂的辅助数据结构——全部的信息只是对应不同关键字的Dewey码集合以及排序操作.同时,给出了两种实际的算法:LISAI和LISAII,二者的区别在于是否采用Dewey编码到整数的转换.其中,LISAII更具有满意的性能. 展开更多
关键词 XML索引 DEWEY编码 XML信息检索 关键字查询 slca ILE
下载PDF
概率XML关键字检索排序算法 被引量:1
5
作者 赵越 袁野 王国仁 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第8期1095-1099,共5页
探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,... 探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性. 展开更多
关键词 检索 概率XML数据 slca 排序
下载PDF
基于路径内容索引相关关键节点的XML关键字查询算法 被引量:1
6
作者 姚全珠 王丹 蒋鹏飞 《计算机应用》 CSCD 北大核心 2016年第A01期210-212,216,共4页
基于最小最低公共祖先和可扩展最低公共祖先主流查询语义的XML关键字查询方法中,路径内容索引方案减小了索引空间和降低了检索时间,但是其无法增加有效的信息来解决节点编码重复存储。针对路径内容索引方案所存在的问题,提出一种新的改... 基于最小最低公共祖先和可扩展最低公共祖先主流查询语义的XML关键字查询方法中,路径内容索引方案减小了索引空间和降低了检索时间,但是其无法增加有效的信息来解决节点编码重复存储。针对路径内容索引方案所存在的问题,提出一种新的改进算法——路径内容索引相关关键节点(PCRK)算法。该算法利用路径内容索引方案可以减少索引空间和时间的优点,并结合相关关键字节点能够获得准确的查询结果并且能去除冗余节点的特性,从而克服路径内容索引方案在节点编码重复存储上存在的缺陷。实验结果表明该算法在减少索引空间的同时也缩短了查询时间,并且提高了查询结果的准确性。 展开更多
关键词 可扩展标记语言 关键字查询 最小最低公共祖先 可扩展最低公共祖先 相关关键字节点
下载PDF
TDTMS:一种面向XML数据的结果子树构建算法
7
作者 周军锋 王博 +2 位作者 田姗姗 陈子阳 郭景峰 《计算机学报》 EI CSCD 北大核心 2013年第8期1714-1728,共15页
构建结果子树是XML关键字查询得以完成的关键步骤之一.针对已有方法求解子树效率低的问题,文中提出一种自顶向下的子树构建算法——TDTMS.TDTMS以自顶向下、深度优先的方式求解满足条件的子树根结点,避免了已有方法求解SLCA结点时存在... 构建结果子树是XML关键字查询得以完成的关键步骤之一.针对已有方法求解子树效率低的问题,文中提出一种自顶向下的子树构建算法——TDTMS.TDTMS以自顶向下、深度优先的方式求解满足条件的子树根结点,避免了已有方法求解SLCA结点时存在的公共祖先重复处理问题.对于给定的子树根结点,TDTMS以自顶向下、广度优先的方式构建子树,可以在建树过程中快速裁剪无用结点,从而获得了最小的时间和空间复杂度.最后通过实验验证了TDTMS在时间和空间两方面的性能优势. 展开更多
关键词 可扩展标记语言 关键字查询 结果子树 自顶向下处理策略 最低最小公共祖先
下载PDF
基于Nearest Pair的XML关键词检索算法 被引量:4
8
作者 吉聪睿 邓志鸿 唐世渭 《软件学报》 EI CSCD 北大核心 2009年第4期910-917,共8页
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML关键词检索中核心概念SLCA(smallest lowest common ancestor)的两个重要性质,并在其基础... 随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML关键词检索中核心概念SLCA(smallest lowest common ancestor)的两个重要性质,并在其基础上提出了Nearest Pair算法.该算法采用二分迭代查找技术寻找最邻近点,将求解中间结果的次数降低了一个量级.实验结果表明,该算法的性能在绝大多数情况下优于现有主流算法. 展开更多
关键词 XML 关键词检索 最小公共祖先集合
下载PDF
综合文档语义与用户查询语义的XML关键字检索 被引量:2
9
作者 黎军 熊海灵 《计算机应用》 CSCD 北大核心 2010年第11期2945-2948,共4页
为了解决XML关键字查询中语义信息丢失的问题,提出了一种语义相关的关键字检索方法。利用文档的半结构化特点提取文档隐含的语义,利用查询语法捕获用户查询意图,然后根据用户意图查询满足条件的元素,并结合文档语义,由最小最近公共祖先... 为了解决XML关键字查询中语义信息丢失的问题,提出了一种语义相关的关键字检索方法。利用文档的半结构化特点提取文档隐含的语义,利用查询语法捕获用户查询意图,然后根据用户意图查询满足条件的元素,并结合文档语义,由最小最近公共祖先改进为语义相关实体子树集来表达查询结果。实验结果表明,该方法能够有效提高关键字检索结果的查准率。 展开更多
关键词 最小最近公共祖先 查询 语义相关 实体子树集 查准率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部