-
题名基于实体的文本数据与XML文档的匹配技术研究
- 1
-
-
作者
刘木强
杨卫东
-
机构
复旦大学计算机科学技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2015年第11期2473-2478,共6页
-
基金
上海市高新技术产业化重点项目(11-43)资助
国家行业专项(CHIN-ARE2015-04-07)资助
-
文摘
目前飞机企业等单位的大量数据采用XML格式存储,且与其它业务文本数据之间缺乏联系.在异构数据集成领域,文本数据与XML文档的模式匹配还较少有人关注.提出文本数据与XML文档的匹配方法,该匹配方法采用两阶段的算法,首先使用基于条件随机场的实体抽取算法从文本文档中提取实体信息,然后通过基于实体的最近语义片段(ECSF)检索算法在XM L树中查询覆盖所有实体及实例的最近语义片段作为匹配对象.ECSF检索算法中基于实体的最近语义片段含义是XM L树上的覆盖所有实体及实例信息的最小子树,且实例所对应的实体必须是该实例的祖先节点.最后通过实验验证了本文提出方法的可行性和有效性,且具有较好的匹配效果,包括召回率和准确率.
-
关键词
XML
匹配技术
实体抽取
基于实体的最近语义片段
ECSF
-
Keywords
XML
matching technique
entity extraction
entity-based closest semantic fragment
ECSF
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名综合文档语义与用户查询语义的XML关键字检索
被引量:2
- 2
-
-
作者
黎军
熊海灵
-
机构
西南大学计算机与信息科学学院
-
出处
《计算机应用》
CSCD
北大核心
2010年第11期2945-2948,共4页
-
基金
国家自然科学基金资助项目(40740420660)
西南大学博士基金资助项目(SWUB2008073)
-
文摘
为了解决XML关键字查询中语义信息丢失的问题,提出了一种语义相关的关键字检索方法。利用文档的半结构化特点提取文档隐含的语义,利用查询语法捕获用户查询意图,然后根据用户意图查询满足条件的元素,并结合文档语义,由最小最近公共祖先改进为语义相关实体子树集来表达查询结果。实验结果表明,该方法能够有效提高关键字检索结果的查准率。
-
关键词
最小最近公共祖先
查询
语义相关
实体子树集
查准率
-
Keywords
retrieval method of semantic relevant was proposed to deal with the loss of semantics information in XML keywords retrieval. The implied semantics in document were fetched by using the semi-structured feature of XML document
the user inquiry intents were also captured by analyzing the inquiry syntax. And then
the elements satisfying the demands were retrieved according to user inquiry intent. Finally
in combination with semantics of the document
the expressions of inquiry results were improved by using the semantic relevant entity sub-tree set
instead of the traditional Smallest Lowest Common Ancestor (SLCA). The experimental results indicate that the precision ratio of keywords retrieval can be improved by using this method. Key words: Smallest Lowest Common Ancestor (SLCA)
keywords retrieval
semantic relevant
entity sub-tree set
precision ratio
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-