期刊文献+
共找到140篇文章
< 1 2 7 >
每页显示 20 50 100
Document Clustering Based on Constructing Density Tree
1
作者 戴维迪 王文俊 +2 位作者 侯越先 王英 张璐 《Transactions of Tianjin University》 EI CAS 2008年第1期21-26,共6页
This paper focuses on document clustering by clustering algorithm based on a DEnsityTree (CABDET) to improve the accuracy of clustering. The CABDET method constructs a density-based treestructure for every potential c... This paper focuses on document clustering by clustering algorithm based on a DEnsityTree (CABDET) to improve the accuracy of clustering. The CABDET method constructs a density-based treestructure for every potential cluster by dynamically adjusting the radius of neighborhood according to local density. It avoids density-based spatial clustering of applications with noise (DBSCAN) ′s global density parameters and reduces input parameters to one. The results of experiment on real document show that CABDET achieves better accuracy of clustering than DBSCAN method. The CABDET algorithm obtains the max F-measure value 0.347 with the root node's radius of neighborhood 0.80, which is higher than 0.332 of DBSCAN with the radius of neighborhood 0.65 and the minimum number of objects 6. 展开更多
关键词 文档处理 树形结构 向量空间 计算机技术
下载PDF
富文本协同编辑中基于树型结构地址空间转换的一致性维护
2
作者 刘亚 韩建功 +1 位作者 高丽萍 曲博 《小型微型计算机系统》 CSCD 北大核心 2024年第2期367-373,共7页
协同编辑通过多用户远程实时编辑,最大程度的支持团队之间的协作和交流.撤销操作作为协同编辑的一个重要特性,通过错误恢复简化协作编辑过程中产生的错误或者意外操作的处理过程.富文本编辑采用树型结构来进行文档管理,从而产生了较线... 协同编辑通过多用户远程实时编辑,最大程度的支持团队之间的协作和交流.撤销操作作为协同编辑的一个重要特性,通过错误恢复简化协作编辑过程中产生的错误或者意外操作的处理过程.富文本编辑采用树型结构来进行文档管理,从而产生了较线性文档更为复杂的并发操作环境和冲突消解场景.为了解决富文本文档中的并发操作环境与撤销操作冲突问题,本文提出了一种新颖的基于树型结构的地址空间转换方法,采用基于位置的节点寻址方案和节点属性值计数器策略,能更方便地支持撤销操作与更改操作.此外,本文还给出了树型结构地址空间的结果一致性的正确性证明及详细的案例分析,并开发了Web平台下实时协同富文本编辑原型系统AST-RichText,进一步验证了该方法的可行性. 展开更多
关键词 计算机支持的协同工作 实时协同编辑 地址空间转换 一致性模型 UNDO 树型文档
下载PDF
Tree Automata for Extracting Consensus from Partial Replicas of a Structured Document
3
作者 Maurice Tchoupé Tchendji Milliam M. Zekeng Ndadji 《Journal of Software Engineering and Applications》 2017年第5期432-456,共25页
In an asynchronous cooperative editing workflow of a structured document, each of the co-authors receives in the different phases of the editing process, a copy of the document to insert its contribution. For confiden... In an asynchronous cooperative editing workflow of a structured document, each of the co-authors receives in the different phases of the editing process, a copy of the document to insert its contribution. For confidentiality reasons, this copy may be only a partial replica containing only parts of the (global) document which are of demonstrated interest for the considered co-author. Note that some parts may be a demonstrated interest over a co-author;they will therefore be accessible concurrently. When it’s synchronization time (e.g. at the end of an asynchronous editing phase of the process), we want to merge all contributions of all authors in a single document. Due to the asynchronism of edition and to the potential existence of the document parts offering concurrent access, conflicts may arise and make partial replicas unmergeable in their entirety: they are inconsistent, meaning that they contain conflictual parts. The purpose of this paper is to propose a merging approach said by consensus of such partial replicas using tree automata. Specifically, from the partial replicas updates, we build a tree automaton that accepts exactly the consensus documents. These documents are the maximum prefixes containing no conflict of partial replicas merged. 展开更多
关键词 Structured documentS Workflow of Cooperative Edition MERGING PARTIAL Replicas CONFLICT CONSENSUS tree AUTOMATA AUTOMATA Product Lazy Evaluation
下载PDF
Optimized XML Storage in NXD Based on Tree-Structure Disassemble
4
作者 LIU Yun-sheng WANG Yi ZHONG Hao 《Wuhan University Journal of Natural Sciences》 EI CAS 2006年第1期93-99,共7页
Independent XML storage based on XSD (XML Schema Document) is adopted in NXD(Native XML Data base), XMI. storage structure based on tree-structure disassemble and the algorithm used in dynamically updating XML doc... Independent XML storage based on XSD (XML Schema Document) is adopted in NXD(Native XML Data base), XMI. storage structure based on tree-structure disassemble and the algorithm used in dynamically updating XML document are provided in this paper. The main idea is that in term of data model of XML document, XML document is parsed to Document Structure-Tree with Hierarchical Model and Leaf-Data with Relation Model for storage. Simultaneously Proxy node is imported in order to solve the problem that XML data store in cross-blocks. And with XSD model information, sparse index is constructed to save storage space. It is proved that this storage structure could improve efficiency of XML document operation. 展开更多
关键词 XML storage storage model NXD (native XML database) document trees regular expression
下载PDF
Using AdaBoost Meta-Learning Algorithm for Medical News Multi-Document Summarization 被引量:1
5
作者 Mahdi Gholami Mehr 《Intelligent Information Management》 2013年第6期182-190,共9页
Automatic text summarization involves reducing a text document or a larger corpus of multiple documents to a short set of sentences or paragraphs that convey the main meaning of the text. In this paper, we discuss abo... Automatic text summarization involves reducing a text document or a larger corpus of multiple documents to a short set of sentences or paragraphs that convey the main meaning of the text. In this paper, we discuss about multi-document summarization that differs from the single one in which the issues of compression, speed, redundancy and passage selection are critical in the formation of useful summaries. Since the number and variety of online medical news make them difficult for experts in the medical field to read all of the medical news, an automatic multi-document summarization can be useful for easy study of information on the web. Hence we propose a new approach based on machine learning meta-learner algorithm called AdaBoost that is used for summarization. We treat a document as a set of sentences, and the learning algorithm must learn to classify as positive or negative examples of sentences based on the score of the sentences. For this learning task, we apply AdaBoost meta-learning algorithm where a C4.5 decision tree has been chosen as the base learner. In our experiment, we use 450 pieces of news that are downloaded from different medical websites. Then we compare our results with some existing approaches. 展开更多
关键词 MULTI-document SUMMARIZATION Machine Learning Decision trees ADABOOST C4.5 MEDICAL document SUMMARIZATION
下载PDF
A Tree Pattern Matching Algorithm for XML Queries with Structural Preferences
6
作者 Maurice Tchoupé Tchendji Lionel Tadonfouet Thomas Tébougang Tchendji 《Journal of Computer and Communications》 2019年第1期61-83,共23页
In the XML community, exact queries allow users to specify exactly what they want to check and/or retrieve in an XML document. When they are applied to a semi-structured document or to a document with an overly comple... In the XML community, exact queries allow users to specify exactly what they want to check and/or retrieve in an XML document. When they are applied to a semi-structured document or to a document with an overly complex model, the lack or the ignorance of the explicit document model (DTD—Document Type Definition, Schema, etc.) increases the risk of obtaining an empty result set when the query is too specific, or, too large result set when it is too vague (e.g. it contains wildcards such as “*”). The reason is that in both cases, users write queries according to the document model they have in mind;this can be very far from the one that can actually be extracted from the document. Opposed to exact queries, preference queries are more flexible and can be relaxed to expand the search space during their evaluations. Indeed, during their evaluation, certain constraints (the preferences they contain) can be relaxed if necessary to avoid precisely empty results;moreover, the returned answers can be filtered to retain only the best ones. This paper presents an algorithm for evaluating such queries inspired by the TreeMatch algorithm proposed by Yao et al. for exact queries. In the proposed algorithm, the best answers are obtained by using an adaptation of the Skyline operator (defined in relational databases) in the context of documents (trees) to incrementally filter into the partial solutions set, those which satisfy the maximum of preferential constraints. The only restriction imposed on documents is No-Self-Containment. 展开更多
关键词 SEMI-STRUCTURED documents Preference QUERIES tree Pattern Matching treeMatch Algorithm XML The SKYLINE Operator
下载PDF
基于Transformer模型的手写数学公式语法树解码器
7
作者 周伯瀚 曹健 王源 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第6期909-914,共6页
目前对数学公式进行树结构解码的方法大多基于循环神经网络的结构,训练效率低,训练过程复杂,基于此问题,提出一种基于Transformer结构的手写数学公式识别模型,可以直接对公式的语法树进行解码。在手写公式识别任务多个数据集上的实验结... 目前对数学公式进行树结构解码的方法大多基于循环神经网络的结构,训练效率低,训练过程复杂,基于此问题,提出一种基于Transformer结构的手写数学公式识别模型,可以直接对公式的语法树进行解码。在手写公式识别任务多个数据集上的实验结果表明,所提出的Transformer树解码方法都取得超越Trans-former序列解码方法的性能,并展现出超越循环神经网络树解码方法的潜力。 展开更多
关键词 手写数学公式识别 TRANSFORMER 树解码器 图表理解
下载PDF
XML文档存取控制研究 被引量:9
8
作者 王德强 许峰 +1 位作者 茅兵 谢立 《计算机研究与发展》 EI CSCD 北大核心 2004年第3期426-435,共10页
提出了一种基于授权树的XML存取控制标记算法 ,通过①避免在每个XML结点上进行授权匹配 ;②避免在每个结点上进行授权冲突解决 ;③避免标记每个结点 ,有效地改善了处理性能 另外 ,提出了一种灵活的、用户可配置的授权冲突解决模式 。
关键词 XML XMI文档树 存取控制 授权冲突解决模式 授权树
下载PDF
网络化制造中XML文档结构模型与应用研究 被引量:12
9
作者 于庆梅 尹朝万 刘志刚 《计算机集成制造系统-CIMS》 EI CSCD 北大核心 2003年第7期601-607,共7页
针对网络化制造系统中分布式异构环境下产品协同设计制造数据结构化和非结构化的特点,提出了网络化制造中产品设计制造信息资源的XML统一描述,以及XML文档树结构的定义与模型,并将该模型应用于Web结构的产品异地协同设计制造系统,给出了... 针对网络化制造系统中分布式异构环境下产品协同设计制造数据结构化和非结构化的特点,提出了网络化制造中产品设计制造信息资源的XML统一描述,以及XML文档树结构的定义与模型,并将该模型应用于Web结构的产品异地协同设计制造系统,给出了XML样式化接口和映射接口的实现机制。以机加件类零件为例,给出产品文档树型结构模型的模板与映射接口的实例化,不仅实现了Web环境下的产品异地协同设计中信息资源的浏览与交互处理,而且通过数据映射接口,为远程机加件的在线加工后处理提供了有效的数据。 展开更多
关键词 XML 文档树模型 文档模式 网络化制造
下载PDF
一种基于特征符号的网页主题信息抽取方法 被引量:4
10
作者 王舒 朱敏 +2 位作者 张明 牛颢 赵瑜 《计算机应用研究》 CSCD 北大核心 2009年第12期4539-4541,共3页
随着Internet网络的日益普及,W eb上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足W eb挖掘方法的通用性。通过对W eb网页结构进行研究,对网页生成树模型进行了改进,找到网... 随着Internet网络的日益普及,W eb上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足W eb挖掘方法的通用性。通过对W eb网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(contentextraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。 展开更多
关键词 生成树模型 特征符号 相关度 主题提取
下载PDF
基于元数据与领域概念树的文本相似度计算 被引量:7
11
作者 张佩云 陈恩红 +2 位作者 谢荣见 宫秀文 黄波 《系统工程与电子技术》 EI CSCD 北大核心 2014年第3期591-597,共7页
随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及... 随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及文本语义相似度难以度量的问题。提出一种改进的文本相似度计算方法,从大量的特征空间中选择出具有代表性的元数据特征向量元素,以降低向量空间的维度;构建领域概念树并设计基于领域概念树的文本相似度算法,对领域概念中广泛存在的同义词进行处理,以提高文本之间语义相似度度量的性能。实验结果表明:通过降维和概念相似度计算可提高文本相似度计算的性能。 展开更多
关键词 文本元数据 领域概念树 元数据特征向量 文本相似度
下载PDF
机床协同设计中产品信息XML描述模型的研究 被引量:6
12
作者 陈桦 张鹏伟 陈景霞 《组合机床与自动化加工技术》 2005年第2期13-15,18,共4页
文章在分析机床产品特征结构的基础上提出了XML描述的产品设计信息文档模型以及XML文档信息交互处理的方法 ,实现了设计资源的浏览与交互处理的统一描述。采用传输XML表达的设计语义而不是三维实体造型的数据交换方法 ,在减轻网络负荷... 文章在分析机床产品特征结构的基础上提出了XML描述的产品设计信息文档模型以及XML文档信息交互处理的方法 ,实现了设计资源的浏览与交互处理的统一描述。采用传输XML表达的设计语义而不是三维实体造型的数据交换方法 ,在减轻网络负荷的同时 ,满足了协同设计中实时。 展开更多
关键词 XNL 协同设计 机床 文档模式
下载PDF
基于文档目录树的WWW文档协同写作机制 被引量:4
13
作者 杨文清 黄宜华 +2 位作者 冯坚 卢坚 张福炎 《计算机研究与发展》 EI CSCD 北大核心 1999年第9期1051-1056,共6页
协同写作是 C S C W 的一个重要研究领域.文中针对 W W W 文档的协同写作提出了一种文档目录树技术,不仅为 W W W 文档扩充了表示其全局结构的层次式目录结构,还为文档的分工协作写作提供了良好的数据组织结构.文中... 协同写作是 C S C W 的一个重要研究领域.文中针对 W W W 文档的协同写作提出了一种文档目录树技术,不仅为 W W W 文档扩充了表示其全局结构的层次式目录结构,还为文档的分工协作写作提供了良好的数据组织结构.文中详细讨论了基于文档目录树结构对一个 W W W 文档进行协同写作时的协同机制,研究了多用户界面设计、协作方式、以及使用“目录路径锁定法” 展开更多
关键词 CSCW 协同写作 文档目录树 WWW
下载PDF
BTCS:基于二叉遍历的XML文档编码模式 被引量:7
14
作者 肖厚新 唐常杰 +2 位作者 张婷 金朋纬 乔少杰 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第3期532-537,共6页
XML文档数据的编码模式与索引技术决定了基于纯XML数据库的XML查询效率,在正则路径表达式实现方面有重要意义.基于树遍历的XML文档编码在更新与结构关系判断方面存在不足.为了解决此类问题,作者作了如下工作:(1)提出一种新的基于二叉树... XML文档数据的编码模式与索引技术决定了基于纯XML数据库的XML查询效率,在正则路径表达式实现方面有重要意义.基于树遍历的XML文档编码在更新与结构关系判断方面存在不足.为了解决此类问题,作者作了如下工作:(1)提出一种新的基于二叉树遍历的XML文档编码模式BTCS(Binary Traveling Coding Scheme);(2)实现了BTCS编码算法,支持XML文档更新,提高了编码更新效率;(3)在常数复杂度的时间内快速准确判断XML文档结构树中任意两个结点之间的父子以及祖孙关系,并能计算它们的辈数差(Distance of Genera-tions);(4)通过详细实验证明了BTCS编码模式的良好性能. 展开更多
关键词 XML XML文档结构树 XML编码模式 正则路径表达式 XML查询
下载PDF
针对XML流数据的复杂Twig Pattern查询处理 被引量:9
15
作者 杨卫东 王清明 施伯乐 《软件学报》 EI CSCD 北大核心 2007年第4期893-904,共12页
XML流数据处理在研究领域引起了研究者的广泛兴趣.针对XML流数据的、具有嵌套AND/OR谓词的复杂Twig Pattern查询处理,提出一种新方法.为了提高查询处理性能,将所有Twig Pattern合并为一个共享前缀的查询树,其中,AND/OR谓词被表示为单独... XML流数据处理在研究领域引起了研究者的广泛兴趣.针对XML流数据的、具有嵌套AND/OR谓词的复杂Twig Pattern查询处理,提出一种新方法.为了提高查询处理性能,将所有Twig Pattern合并为一个共享前缀的查询树,其中,AND/OR谓词被表示为单独的抽象语法树,因而能够以文档顺序、单遍地处理复杂Twig Pattern的匹配,并避免了YFilter中对嵌套谓词进行后置处理所产生的中间结果.实验结果表明,该方法能够有效改善Twig Pattern的处理性能,尤其是在处理大文档的情况下.基于已有的研究工作,讨论如何利用DTD(document type definition)的结构和约束信息优化Twig Pattern,即这种优化是在系统运行前进行的预处理. 展开更多
关键词 XML文档流 xPam TWIG PATTERN 查询树 DTD(document type definition)
下载PDF
文档管理系统中小粒度授权机制的研究 被引量:2
16
作者 刘强 张胜辉 邓光利 《计算机应用研究》 CSCD 北大核心 2005年第2期79-81,共3页
提出了操作权限分类的方法和标准,结合文档管理的业务特点,进行了基于文档结构树的授权业务建模;为求解权限管理的基本问题公式,建立了资源可拓展的、分级授权的授权机制,定义了授权机制的粗规则和业务逻辑接口,实现了树型资源等复杂资... 提出了操作权限分类的方法和标准,结合文档管理的业务特点,进行了基于文档结构树的授权业务建模;为求解权限管理的基本问题公式,建立了资源可拓展的、分级授权的授权机制,定义了授权机制的粗规则和业务逻辑接口,实现了树型资源等复杂资源系统的权限分配方式。 展开更多
关键词 文档结构树 粒度 规则
下载PDF
不完全信息环境下存在XML强多值依赖的XML文档规范化研究 被引量:8
17
作者 殷丽凤 郝忠孝 《计算机研究与发展》 EI CSCD 北大核心 2009年第7期1226-1233,共8页
不完全信息环境下XML文档中的数据存在多值依赖时,为了避免在没有约束条件下XML文档数据出现冗余及更新异常,引入XML强多值依赖的概念和理论对XML文档的规范化进行了系统研究.基于节点信息等价、节点信息相容的概念给出了XML强多值依赖... 不完全信息环境下XML文档中的数据存在多值依赖时,为了避免在没有约束条件下XML文档数据出现冗余及更新异常,引入XML强多值依赖的概念和理论对XML文档的规范化进行了系统研究.基于节点信息等价、节点信息相容的概念给出了XML强多值依赖的定义;基于层次化的XML强多值依赖,提出了不完全XML文档树满足XML强多值依赖范式的条件;给出了满足该条件的不完全XML文档树无数据冗余的判定定理;提出了不完全XML文档树的规范化算法,对其时间复杂性进行了分析.理论研究和实例分析表明:研究成果较好地解决了在不完全信息环境下XML文档中存在层次化的XML强多值依赖引起的数据冗余问题. 展开更多
关键词 不完全XML文档树 节点信息等价 节点信息相容 XML强多值依赖 XML强多值依赖范式
下载PDF
概率XML文件树结点概率的查询算法 被引量:4
18
作者 王建卫 郝忠孝 《计算机研究与发展》 EI CSCD 北大核心 2012年第4期785-794,共10页
概率XML文件是概率数据的网络数据交换和表示标准,元素取值及其概率的查询与计算是概率XML文件的重要研究内容.概率XML文件树是一种有效的概率XML文件的数据模型,定义了概率XML文件树的基本路径和扩展路径,提出了根据可能世界原理将概率... 概率XML文件是概率数据的网络数据交换和表示标准,元素取值及其概率的查询与计算是概率XML文件的重要研究内容.概率XML文件树是一种有效的概率XML文件的数据模型,定义了概率XML文件树的基本路径和扩展路径,提出了根据可能世界原理将概率XML文件树分解为普通子XML树的集合的算法,根据路径分析原理将概率XML文件树分解为子概率XML树的集合的算法和相应的查询与计算结点及结点集合概率的算法,并通过实验进行了比较分析.实验结果表明:这两种方法是有效的;与前一种方法比较,后一种方法适合较大的概率XML文件树、结点及结点集合的概率的查询,计算过程较简单. 展开更多
关键词 概率XML文件树 基本路径 扩展路径 结点概率 查询
下载PDF
基于树结构的Web信息抽取 被引量:3
19
作者 周登 戴玉刚 付涛 《计算机技术与发展》 2009年第9期38-41,共4页
信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析。文中提出了一种先将HTML转化为XML形式,再提取信息的方法。XML是用于描述在Internet网上用于数据交换的数据文档的格式的一种语言... 信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析。文中提出了一种先将HTML转化为XML形式,再提取信息的方法。XML是用于描述在Internet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离。数据可被XML唯一标识,从而有利于用户对数据的组织和检索。这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度。 展开更多
关键词 WEB 信息提取 XML数据文档 树结构
下载PDF
证书吊销的线索二叉排序Hash树解决方案 被引量:14
20
作者 王尚平 张亚玲 王育民 《软件学报》 EI CSCD 北大核心 2001年第9期1343-1350,共8页
提出了公钥基础设施 (public key infrastructure,简称 PKI)中证书吊销问题的一个新的解决方案——线索二叉排序 Hash树 (certificate revocation threaded binary sorted hash tree,简称 CRTBSHT)解决方案 .目前关于证书吊销问题的主... 提出了公钥基础设施 (public key infrastructure,简称 PKI)中证书吊销问题的一个新的解决方案——线索二叉排序 Hash树 (certificate revocation threaded binary sorted hash tree,简称 CRTBSHT)解决方案 .目前关于证书吊销问题的主要解决方案有 X.5 0 9证书系统的证书吊销列表 (certificate revocation list,简称 CRL)、Micali的证书吊销系统 (certificate revocation system,简称 CRS)、Kocher的证书吊销树 (certificate revocation tree,简称CRT)及 Naor- Nissm的 2 - 3证书吊销树 (2 - 3CRT) ,这些方案均不完善 .在 CRT系统思想的基础上 ,利用线索化二叉排序树及 Hash树给出的新方案 ,既继承了 CRT证明一个证书的状态 (是否被吊销 )不需要整个线索二叉树 ,而只与其中部分相关路径有关的优点 ,又克服了 CRT在更新时几乎需要对整个树重新构造的缺点 ,新方案在更新时仅需计算相关部分路径的数值 .新方案对工程实现具有一定的参考价值 . 展开更多
关键词 公钥基础设施 证书权威 证书吊销 数字签名 二叉树 数据结构 排序
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部