UML规范描述的公共祖先LCA(The least common ancestor)查找算法采用的是递归试探法,而递归操作在UML状态机的多重嵌套环境下,运算效率较低.针对这个问题,提出了一种快速搜索LCA的算法.该算法首先根据状态树构造UML状态机的拓扑码,然后...UML规范描述的公共祖先LCA(The least common ancestor)查找算法采用的是递归试探法,而递归操作在UML状态机的多重嵌套环境下,运算效率较低.针对这个问题,提出了一种快速搜索LCA的算法.该算法首先根据状态树构造UML状态机的拓扑码,然后通过源状态和目的状态的拓扑信息计算嵌套层次,查找LCA时,只须按照嵌套层次数目退出,便可快速回溯到LCA.实验结果表明,快速查找算法降低了运算的时间复杂度,在UML状态机的多重状态嵌套应用场合下,提高了LCA查找的运算效率.展开更多
随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML关键词检索中核心概念SLCA(smallest lowest common ancestor)的两个重要性质,并在其基础...随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML关键词检索中核心概念SLCA(smallest lowest common ancestor)的两个重要性质,并在其基础上提出了Nearest Pair算法.该算法采用二分迭代查找技术寻找最邻近点,将求解中间结果的次数降低了一个量级.实验结果表明,该算法的性能在绝大多数情况下优于现有主流算法.展开更多
现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性,将网页分割为具有类似特征的数据记录与数据区域然后进行抽取。但是存有大学科研人员信息的网页大多是人工编写填入内容,结构特征并不严谨。针对这类网页的弱结构...现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性,将网页分割为具有类似特征的数据记录与数据区域然后进行抽取。但是存有大学科研人员信息的网页大多是人工编写填入内容,结构特征并不严谨。针对这类网页的弱结构性,提出了一种基于最近公共祖先(lowest common ancestor,LCA)分块算法的人员信息抽取方法,将LCA和语义相关度强弱的联系引入网页分块中,并提出了基本语义块与有效语义块的概念。在将网页转换成文档对象模型(document object model,DOM)树并进行预处理后,首先通过向上寻找LCA节点的方法将页面划分为基本语义块,接着结合人员信息的特征将基本语义块合并为存有完整人员信息的有效语义块,最后根据有效语义块的对齐获取当前页面所有关系映射的人员信息。实验结果表明,该方法在大量真实的大学人员网页的分块与抽取中,与MDR(mining data records)算法相比仍能保持较高的准确率与召回率。展开更多
文摘UML规范描述的公共祖先LCA(The least common ancestor)查找算法采用的是递归试探法,而递归操作在UML状态机的多重嵌套环境下,运算效率较低.针对这个问题,提出了一种快速搜索LCA的算法.该算法首先根据状态树构造UML状态机的拓扑码,然后通过源状态和目的状态的拓扑信息计算嵌套层次,查找LCA时,只须按照嵌套层次数目退出,便可快速回溯到LCA.实验结果表明,快速查找算法降低了运算的时间复杂度,在UML状态机的多重状态嵌套应用场合下,提高了LCA查找的运算效率.
文摘随着大量数据以XML格式保存,针对XML文档的关键词检索技术已经成为信息检索和数据库等相关领域的研究热点.以树的杜威编码为基础,分析并证明了XML关键词检索中核心概念SLCA(smallest lowest common ancestor)的两个重要性质,并在其基础上提出了Nearest Pair算法.该算法采用二分迭代查找技术寻找最邻近点,将求解中间结果的次数降低了一个量级.实验结果表明,该算法的性能在绝大多数情况下优于现有主流算法.
文摘现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性,将网页分割为具有类似特征的数据记录与数据区域然后进行抽取。但是存有大学科研人员信息的网页大多是人工编写填入内容,结构特征并不严谨。针对这类网页的弱结构性,提出了一种基于最近公共祖先(lowest common ancestor,LCA)分块算法的人员信息抽取方法,将LCA和语义相关度强弱的联系引入网页分块中,并提出了基本语义块与有效语义块的概念。在将网页转换成文档对象模型(document object model,DOM)树并进行预处理后,首先通过向上寻找LCA节点的方法将页面划分为基本语义块,接着结合人员信息的特征将基本语义块合并为存有完整人员信息的有效语义块,最后根据有效语义块的对齐获取当前页面所有关系映射的人员信息。实验结果表明,该方法在大量真实的大学人员网页的分块与抽取中,与MDR(mining data records)算法相比仍能保持较高的准确率与召回率。