基于结点权重模型的XML片段检索策略被引量：5

A Snippet Retrieval Strategy Based on Element Weighting Model

下载PDF

导出

摘要当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的片段,用户可以通过该片段判断片段所在的XML文档或结点与查询的真实相关性,以决定是否有必要进一步阅读,从而有效地提高从XML文档中获取信息的效率.该文提出了基于结点权重模型的XML片段检索策略.该策略先利用结点权重模型ATG(平均主题概括强度)对XML文档集中的标签或路径设置权重,再将该权重用于BM25模型,得到BM25NW检索模型.在利用BM25NW检索出XML结点后,对结点中定长窗口进行评分,考察其是否适合作为片段内容.最后在保证信息冗余较小的条件下,选择得分较高的窗口内容组成片段返回给用户.INEX 2011片段检索任务上的评测结果显示,基于结点权重模型ATG的XML片段检索策略具有很强的竞争力,性能明显优于其它参赛系统. In XML information retrieval,queries on XML search engines usually return far more results than the user expects and in which there lay lots of irrelevant results.As to a document-centric XML collection,the goal of XML snippet retrieval is to generate a snippet containing only hundreds of characters for each result returned by the XML search engine.Such snippet can provide sufficient information to allow the users to determine the relevance of its underlying document,instead of reading the document itself,which can help the users find what they want quickly.In this paper,a snippet retrieval strategy based on an element weighting model is proposed.In this strategy,all elements in an XML document are weighted automatically by Average Topic Generalization（ATG） model.Then the BM25EW model,which is obtained by applying element weights on BM25 model,is employed to retrieve and rank the relevant elements in an XML document collection.To extract a suitable snippet,all retrieved elements are split into some windows with the same length,which are then assessed.The windows with higher scores are extracted as snippets with the consideration that the redundancy is as little as possible.The experimental results on INEX 2011 Snippet Retrieval Track show that snippet retrieval strategy based on element weighting model ATG is competitive,and performs better than other participants.

作者刘德喜万常选刘喜平钟敏娟江腾蛟

机构地区江西财经大学信息管理学院江西财经大学数据与知识工程江西省高校重点实验室

出处《计算机学报》 EI CSCD 北大核心 2013年第8期1729-1744,共16页 Chinese Journal of Computers

基金国家自然科学基金(60803105 61173146) 国家社会科学基金(12CTQ042) 江西省高等学校科技落地计划项目(KJLD12022) 江西省教育厅科学技术研究项目(赣教技字11731号)资助~~

关键词 XML片段检索结点权重模型平均主题概括强度窗口 XML snippet retrieval element weighting model average topic generalization window

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献39

1万常选,鲁远.基于权重查询词的XML结构查询扩展[J].软件学报,2008,19(10):2611-2619. 被引量：21
2Chowdhury M, Thomo A, Wadge W. Preferential infinitesi- mals for information retrieval//Proceedings of the 5th IFIP Conference on Artificial Intelligence Applications and Innova- tions. Thessaloniki, Greece, 2009 : 113-125.
3刘德喜,万常选,刘喜平,焦贤沛.XML检索中的标签权重设置模型[J].计算机科学与探索,2010,4(8):723-730. 被引量：1
4Liu D, Wan Ch, Chen L, Liu X. Automatically weighting tags in XML collection//Proceedings of the 19th ACM International Conferences on Information and Knowledge Management. Toronto, Canada, 2010:1289-1292.
5万常选,刘喜平.XML数据库技术.第2版.北京:清华大学出版社,2005.
6Singhal A, Choi J, Hindle D, et al. ATb-T at TREC 7// Proceedings of the 7th Text REtrieval Conference, Gaithersburg, Maryland, USA, 1999: 239-252.
7Husbands P, Simon H, Ding C. On the use of the singular value decomposition for text retrieval//Berry M. Computa- tional Information Retrieval. USA: Society for Industrial and Applied Mathematics Philadelphia, 2001:145-156.
8Robertson S, Walker S, Hancock-Beaulieu M. Okapi at TREC-7: Automatic ad hoc, filtering, VLC and interactive tracks//Proceedings of the 7th Text REtrieval Conference, Gaithersburg, Maryland, USA, 1999:253-264.
9Trappett M, Geva S, Trotman A, et al. Overview of the INEX 2011 snippet retrieval track//Proceedings of the 10th International Workshop of the Initiative for the Evaluation of XML Retrieval. Dagstuhl, Germany, 2011: 228-237.
10Leal L, Scholer F, Thorn J. RMIT at INEX 2011 snippet retrieval track//Proceedings of the 10th International Work shop of the Initiative for the Evaluation of XML Retrieval. Dagstuhl, Germany, 2011:240-243.

二级参考文献30

1解(亻刍),汪小帆.复杂网络中的社团结构分析算法研究综述[J].复杂系统与复杂性科学,2005,2(3):1-12. 被引量：86
2宋玲丽,成颖.相关反馈技术中的检索词排序算法[J].现代图书情报技术,2004(8):44-47. 被引量：2
3霍华,冯博琴,赵深深.基于多查询数据融合和正相关反馈的检索算法[J].西安交通大学学报,2005,39(8):820-823. 被引量：4
4李剑波,李小华.基于XML的反馈式信息检索系统研究[J].情报杂志,2005,24(10):72-74. 被引量：4
5曹华梁,朱星,俞勇.适用于P2P的系统查询扩展优化方法[J].上海交通大学学报,2005,39(10):1706-1710. 被引量：5
6李小华.一种带反馈的XML信息检索系统设计与研究[J].厦门理工学院学报,2006,14(1):33-36. 被引量：3
7吕碧波,赵军.基于相关文档池建模的查询扩展[J].中文信息学报,2006,20(3):78-83. 被引量：7
8丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：44
9岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,18(7):1926-1929. 被引量：10
10孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72

共引文献22

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2黄子越,万常选.XML检索中基于聚类的查询词扩展[J].电子科技大学学报,2009,38(S1):29-33. 被引量：1
3曾婧娜,余丹,李先军,马世龙.基于语义的组件组合方法研究[J].计算机应用,2010,30(2):406-410. 被引量：1
4王昭龙,李霞,许瑞芳.多关键字查询中LCA剪枝概念树的查询扩展技术研究[J].计算机科学,2010,37(4):132-135. 被引量：4
5刘喜平,万常选,刘德喜.有效的XML模糊内容与结构检索和计分[J].计算机研究与发展,2010,47(6):1070-1078. 被引量：5
6李元韬,曹志宇,李敬文.基于权重编辑距离的XML查询[J].兰州交通大学学报,2010,29(3):108-111. 被引量：1
7刘德喜,万常选,刘喜平,焦贤沛.XML检索中的标签权重设置模型[J].计算机科学与探索,2010,4(8):723-730. 被引量：1
8钟敏娟,万常选,焦贤沛.基于聚类和词组抽取的XML查询扩展[J].情报学报,2010,29(4):597-604. 被引量：2
9李霞,李战怀,陈群,王鹏,娄颖.XML关键字检索中推断用户需求信息对象的方法XObject[J].西北工业大学学报,2010,28(4):602-608. 被引量：2
10张志强,孟庆海,谢晓芹.个性化的社会标签查询扩展技术研究[J].计算机科学与探索,2010,4(9):812-829. 被引量：8

同被引文献58

1郭克君,高航,赵国安.基于PowerTOSSIM的WSN能耗仿真研究[J].数据采集与处理,2012,27(S2):350-354. 被引量：1
2付林林,廖湖声,高红雨,陈荣鑫.采用流水线方式的XML整体小枝查询方案[J].计算机研究与发展,2011,48(S3):105-113. 被引量：1
3Jiadong Ren Xiaopeng Yin Xiaodan Guo.A Dynamic Labeling Scheme for XML Document[J].通讯和计算机（中英文版）,2006,3(5):61-65. 被引量：5
4俞海,张维勇,冯琳,钱军.无线传感器网络MAC协议的节能机制研究[J].合肥工业大学学报（自然科学版）,2006,29(12):1516-1519. 被引量：3
5孙发军,吴昊.一个基于TOSSIM的异构传感器网络仿真方案[J].计算机仿真,2007,24(10):126-130. 被引量：6
6Robertson S’Zaragoza H,Taylor ML Simple BM25 Extension toMultiple Weighted Fields [C] // Proceedings of the 13th ACMCIKM. Washington DC, USA,2004 :42-49.
7Lu W,Robertson S, MacFarlane A. Field-Weighted XML Re-trieval Based on BM25[C]//Proceedings of the 5th Workshop ofINEX. Germany, 2006 : 161-171.
8Ogilvie P,Callan J. Hierarchical language models for XML com-ponent retrieval[C] //Proceedings of the 4th Workshop of IN-EX. Germany, 2005 : 224-237.
9Ogilvie P, Callan J. Combining document representations forknown-item search[C] // Proceedings of the 26th ACM SIGIR.T oronto, Canada,2003 : 143-150.
10Kim J, Xue X,Croft W B. A Probabilistic Retrieval Model forSemistructured Data[C] // Proceedings of the 31th ECIR. Tou-louse ,France, 2009 : 228-239.

引证文献5

1雷梁,李刚,谢美英.支持数据动态更新的XML编码研究[J].信阳师范学院学报（自然科学版）,2015,28(2):283-287.
2刘彤,倪维健.一种面向领域文档的结构化检索模型及其在农技处方检索中的应用[J].计算机科学,2015,42(10):275-280.
3史玉珍,单冬红.基于子主题选择与三级分层结构的Web文本挖掘方法[J].电信科学,2016,32(5):96-104. 被引量：1
4杜永文,练云翔,冯珂.基于TinyOS2.x的WSN图形化仿真平台设计与实现[J].工业仪表与自动化装置,2018(1):30-34. 被引量：2
5王春雨,蒋祖华,王福华,吉永军,江辉.面向工业软件开发的半结构化知识语义检索方法[J].计算机集成制造系统,2021,27(8):2371-2381. 被引量：7

二级引证文献10

1彭梅.大数据环境下的文本信息挖掘方法[J].现代电子技术,2017,40(23):123-126. 被引量：1
2李鸿鸽.基于层次分析法的计算机软件开发安全检测方法[J].信息与电脑,2022,34(4):16-18. 被引量：2
3郑惠泽,丁克勤,孙振山,赵利强.基于多域并发的时间窗数据采集方法与应用[J].电子测量技术,2022,45(11):90-98. 被引量：4
4郑兴华.基于改进非对称加密的工业互联网数据安全传输方法[J].工业信息安全,2023(3):34-40. 被引量：3
5田茂琴.探讨分层技术在计算机软件开发中的应用[J].中国新通信,2023,25(13):89-91. 被引量：5
6张宇,于合龙,郭文忠,林森,文朝武,龙洁花.基于知识图谱的番茄种植管理可视化查询[J].农机化研究,2024,46(3):8-13.
7张静鑫.基于深度神经网络的软件机器人语义识别方法[J].微型电脑应用,2024,40(2):180-183.
8练云翔.基于TinyOS的农业信息监测终端系统设计[J].信息与电脑,2023,35(23):119-121.
9刘源,张少逸,肖茹,刘磊.改进的航空制造领域知识本体构建方法[J].内燃机与配件,2024(12):150-152.
10王丽,蒋明,王伟,涂冰花,周明.电力信息通信客服机器人特定语义数据检索优化[J].电子设计工程,2024,32(20):168-171.

1何静,周鲜成,李桂梅.一种新形式的微粒群优化算法[J].微电子学与计算机,2010,27(10):117-119. 被引量：2
2汪伟.PLM:从概念走向应用[J].CAD/CAM与制造业信息化,2009(1):46-47.
3张乃静,鞠洪波,纪平.基于本体的林业领域文档特征权重模型[J].计算机工程与应用,2013,49(18):20-23. 被引量：3
4汪厚祥,李卉,刘霞.网际访问控制研究[J].舰船电子工程,2005,25(2):62-65. 被引量：2
5自己.怎一个惨字了得空白页的“另类”被改[J].网友世界,2004(9):33-33.
6陈桂鑫.分身有术一个图标当八个用[J].电脑迷,2006,0(15):78-78.
7长歌当哭.玩转Flash·在 PowerPoint中插入Flash动画[J].计算机应用文摘,2004(9).
8花之神明.发掘桌面图标的使用潜力[J].网友世界,2010(17):24-25.
9张树忠.我的文档有三巧[J].电脑迷,2007,0(13):15-15.
10胡旷达.基于神经网络的个性化信息检索模型研究[J].现代计算机（中旬刊）,2016(4):18-23. 被引量：2

计算机学报

2013年第8期

浏览历史

内容加载中请稍等...

基于结点权重模型的XML片段检索策略被引量：5

参考文献39

二级参考文献30

共引文献22

同被引文献58

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于结点权重模型的XML片段检索策略 被引量：5

参考文献39

二级参考文献30

共引文献22

同被引文献58

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于结点权重模型的XML片段检索策略被引量：5