-
题名基于结点权重模型的XML片段检索策略
被引量:5
- 1
-
-
作者
刘德喜
万常选
刘喜平
钟敏娟
江腾蛟
-
机构
江西财经大学信息管理学院
江西财经大学数据与知识工程江西省高校重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2013年第8期1729-1744,共16页
-
基金
国家自然科学基金(60803105
61173146)
+2 种基金
国家社会科学基金(12CTQ042)
江西省高等学校科技落地计划项目(KJLD12022)
江西省教育厅科学技术研究项目(赣教技字11731号)资助~~
-
文摘
当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的片段,用户可以通过该片段判断片段所在的XML文档或结点与查询的真实相关性,以决定是否有必要进一步阅读,从而有效地提高从XML文档中获取信息的效率.该文提出了基于结点权重模型的XML片段检索策略.该策略先利用结点权重模型ATG(平均主题概括强度)对XML文档集中的标签或路径设置权重,再将该权重用于BM25模型,得到BM25NW检索模型.在利用BM25NW检索出XML结点后,对结点中定长窗口进行评分,考察其是否适合作为片段内容.最后在保证信息冗余较小的条件下,选择得分较高的窗口内容组成片段返回给用户.INEX 2011片段检索任务上的评测结果显示,基于结点权重模型ATG的XML片段检索策略具有很强的竞争力,性能明显优于其它参赛系统.
-
关键词
XML片段检索
结点权重模型
平均主题概括强度
窗口
-
Keywords
XML snippet retrieval
element weighting model
average topic generalization
window
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名XML检索中的标签权重设置模型
被引量:1
- 2
-
-
作者
刘德喜
万常选
刘喜平
焦贤沛
-
机构
江西财经大学信息管理学院
江西财经大学江西省数据与知识工程重点实验室
-
出处
《计算机科学与探索》
CSCD
2010年第8期723-730,共8页
-
基金
国家自然科学基金No.60803105
60763001
江西省教育厅科技项目No.GJJ08508~~
-
文摘
XML检索时,考虑关键词在文档中的位置有助于改善检索效果,一种常用的方法是为文档中不同的标签赋予不同的权重,并根据关键词所在结点的标签合理地设置权重。然而,目前为标签赋予权重的方法大都是人工设置,这种方法工作量大且主观性强。提出了用主题概括强度衡量XML标签权重的方法,实验结果显示,该方法能有效提高XML检索的质量。
-
关键词
XML检索
标签权重
主题概括强度
-
Keywords
XML retrieval
tag weight
topic generalization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-