XML文档语义检索方法研究被引量：4

Research on XML semantic retrieval

下载PDF

导出

摘要由于半结构文档如XML越来越广泛的应用,在数据库和信息检索领域,对半结构XML数据相似度的研究也变得尤为重要。给定XML文档集D和用户查询q,XML检索即是从D中查找出符合q的XML文档。为了有效地进行XML信息检索,提出了一种新的计算用户查询与XML文档之间相似度的算法。该算法分为三步:基于WordNet对用户查询q进行同义词扩展得到q';将q'和D中的每一篇XML文档都进行数字签名,并通过签名之间的匹配对D进行有效过滤,除去大量不符合用户查询的文档,得到一个文档子集D',D'í D;对q'与D'中的文档进行精确匹配得到检索结果。 With more and more application of semi-structure data, the research of XML document similarity becomes essential in the database and information retrieval communities. Given set of XML documents D and the user query q, XML retrieval is to find out the XML documents from the D which satisfies q. In order to search efficiently, a new approach is presented to calculate similarity between two XML documents. The approach is divided into three steps. The user＇s query q is expanded to q＇ by includ- ing the synonyms of q based on WordNet. q＇ and each XML document in D are allocated to digital signatures. After eliminating the irrelevant documents in D according to the signatures matching, a subset D＇ of D is got. Precise matching between q and D＇ is presented and final results are got.

作者莫正波宋玲吕强邓薇

机构地区青岛理工大学理学院山东建筑大学计算机科学与技术学院国网技术学院电网检修培训部山东科技大学基础课部

出处《计算机工程与应用》 CSCD 2013年第11期121-125,共5页 Computer Engineering and Applications

基金国家自然科学基金(No.61170052) 山东省高等教育学会"十二五"高等教育科学研究课题(No.YBKT2011063) 济南科技发展计划(No.200906004)

关键词可扩展标示语言(XML) 半结构文档相似度 Extensive Makeup Language （XML） semi-structure data similarity

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献23

1XPath:XML path language(XPath)2.0.[EB/OL].[2011-12-18]. http ://www.w3 .org/TR/xpath20/.
2XQuery 1.0:an XML query language(Second Edition)[EB/OL]. [2011-12-18].http://www.w3.org/TR/xquery/.
3孔令波,唐世渭,杨冬青,王腾蛟,高军.XML信息检索中最小子树根节点问题的分层算法[J].软件学报,2007,18(4):919-932. 被引量：23
4万常选,鲁远.基于权重查询词的XML结构查询扩展[J].软件学报,2008,19(10):2611-2619. 被引量：21
5刘喜平,万常选,刘德喜.有效的XML模糊内容与结构检索和计分[J].计算机研究与发展,2010,47(6):1070-1078. 被引量：5
6向永清邓志鸿于航等.面向XML文档的二级索引技术及其在XML关键词检索中的应用研究[J].计算机研究与发展,2009,46:373-380.
7Tekli J,Chbeir R,Y6tongnon K.An overview on XML simi- larity: background, current trends and future directions[J]. Computer Science Review, 2009,3 (3) : 151-173.
8Shasha D, Zhang K.Approximate tree pattern matching[M]// Pattern matching in strings, trees and arrays.IS.1.]: Oxford University Press, 1995.
9Zhang K, Shasha D.Simple fast algorithms for the editing distance between trees and related problems[J].SIAM Jour- nal of Computing, 1989,18(6) : 1245-1262.
10Chawathe S, Rajaraman A, Garcia-Molina H, et al.Change detection in hierarchically structured information[C]//Pro- ceedings ACM SIGMOD,Canada, 1996:26-37.

二级参考文献28

1宋玲丽,成颖.相关反馈技术中的检索词排序算法[J].现代图书情报技术,2004(8):44-47. 被引量：2
2孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
3霍华,冯博琴,赵深深.基于多查询数据融合和正相关反馈的检索算法[J].西安交通大学学报,2005,39(8):820-823. 被引量：4
4李剑波,李小华.基于XML的反馈式信息检索系统研究[J].情报杂志,2005,24(10):72-74. 被引量：4
5曹华梁,朱星,俞勇.适用于P2P的系统查询扩展优化方法[J].上海交通大学学报,2005,39(10):1706-1710. 被引量：5
6李小华.一种带反馈的XML信息检索系统设计与研究[J].厦门理工学院学报,2006,14(1):33-36. 被引量：3
7吕碧波,赵军.基于相关文档池建模的查询扩展[J].中文信息学报,2006,20(3):78-83. 被引量：7
8丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：44
9岳文,陈治平,林亚平.基于查询扩展和分类的信息检索算法[J].系统仿真学报,2006,18(7):1926-1929. 被引量：10
10Govert N, Kazai G. Overview of the initiative for the evaluation of XML retrieval (INEX) 2002 [C] //Proc of the 1st Workshop of the Initiative for the Evaluation of XML Retrieval (INEX). Schloss Dagstuhl, Germany: European Research Consortium for Informatics and Mathematics, 2002: 1-17.

共引文献45

1黄子越,万常选.XML检索中基于聚类的查询词扩展[J].电子科技大学学报,2009,38(S1):29-33. 被引量：1
2闫秋艳,夏士雄.一种基于自然语言生成的XML关键字查询技术[J].计算机工程与应用,2008,44(26):150-153. 被引量：2
3郭红,沈煌.一种复杂XML Twig查询处理算法[J].小型微型计算机系统,2008,29(11):2012-2015. 被引量：3
4李应勇,汪文彬,宋武.XML信息查询优化研究[J].琼州学院学报,2009,16(2):22-24.
5刘杰.一种基于并查集的SLCA求解算法[J].山东省农业管理干部学院学报,2009,25(6):150-152. 被引量：1
6曾婧娜,余丹,李先军,马世龙.基于语义的组件组合方法研究[J].计算机应用,2010,30(2):406-410. 被引量：1
7王昭龙,李霞,许瑞芳.多关键字查询中LCA剪枝概念树的查询扩展技术研究[J].计算机科学,2010,37(4):132-135. 被引量：4
8柯于义,夏士雄,汪楚娇.XML加密数据查询方法的研究与设计[J].计算机应用,2010,30(4):1099-1102. 被引量：4
9郑弘晖,郭红.基于有效最低公共祖先的XML关键字查询算法[J].计算机应用,2010,30(3):825-830. 被引量：4
10刘喜平,万常选,刘德喜.有效的XML模糊内容与结构检索和计分[J].计算机研究与发展,2010,47(6):1070-1078. 被引量：5

同被引文献41

1韩立,尹爱军.基于组态技术的测控软件开发及测试[J].中国测试,2010,36(4):66-69. 被引量：3
2何志学,廖湖声.一种基于语义信息的XML Twig查询处理方法[J].微电子学与计算机,2015,32(5):95-98. 被引量：2
3顾世哲,武君胜.ARINC429测试系统设计与总线数据描述方法研究[J].航空计算技术,2006,36(3):22-24. 被引量：12
4张光宇,杜承烈.通用航空总线接口控制文档设计[J].测控技术,2007,26(7):48-49. 被引量：9
5魏超,苗克坚,杨成果.基于CPCI的ARINC429总线通信卡的WDM驱动程序开发[J].计算机工程与科学,2008,30(10):156-158. 被引量：2
6肖前远,张育平.基于ARINC429总线数据仿真测试方法的研究与应用[J].航空电子技术,2010,41(1):27-31. 被引量：2
7赵宇翔,樊晓光,王徐华.基于总线ICD测试方法研究[J].现代电子技术,2010,33(8):87-89. 被引量：9
8孟祥福,严丽,张文博,马宗民.基于文档属性单元松弛的XML近似查询方法[J].计算机研究与发展,2010,47(11):1936-1946. 被引量：5
9白效贤,杨廷梧,袁炳南.航空飞行试验遥测技术发展趋势与对策[J].测控技术,2010,29(11):6-9. 被引量：40
10孟祥福,严丽,马宗民,张富,王星.基于语义相似度的数据库自适应查询松弛方法[J].计算机学报,2011,34(5):812-824. 被引量：17

引证文献4

1贾雨,覃杨森,齐禅颖,王爽.组件式自主实时监控平台设计技术研究[J].电子设计工程,2017,25(17):41-45.
2贾雨,王爽,覃杨森,齐禅颖.基于组态的试飞实时监控技术[J].计算机技术与发展,2017,27(9):145-149. 被引量：1
3王大伟,崔婉秋,覃飙.基于XML搜索的相关技术及发展[J].小型微型计算机系统,2018,39(7):1390-1397. 被引量：7
4樊智勇,魏士皓,崔海青.基于树形结构的ARINC429解码库设计方法研究[J].计算机工程与科学,2022,44(6):1056-1062.

二级引证文献8

1朱飞鸿,柴旭超,王文青,郭啟倩,张晓曈.模拟地震图纸数字化存储信息录入的设计与实现[J].地震学报,2020(1):101-108. 被引量：5
2李琳,吴建军,甄彤.基于XML Schema的粮食仓储系统数据接口设计[J].求知导刊,2018,0(27):76-76.
3王寅.XML文档加权层次子树模型的建立[J].数字技术与应用,2019,37(4):208-209. 被引量：1
4史明伟,任磊.针对通信测试的试飞监控与回放系统设计[J].现代导航,2019,10(3):191-194.
5魏东平,罗丹.一种基于区间预留编码的XML关键字查询算法[J].计算机与现代化,2019,0(10):17-20. 被引量：1
6王宏明,林卫永,王泉荣,温业中.基于QT的XML文件自动转换方法[J].铁路通信信号工程技术,2021,18(2):88-92. 被引量：2
7曲艺.轻量级物联网数据三维空间安全交换方法仿真[J].计算机仿真,2021,38(6):273-277. 被引量：1
8郑志建,俞发仁,魏晓微,赵泳,胡长生.基于Python的职位网站爬取设计与实现[J].计算机与网络,2024,50(1):24-27.

1宋玲,马军,郭家义.支持XML信息检索的索引技术[J].计算机应用研究,2005,22(3):31-33. 被引量：5
2王志刚,常兴磊,张骏芝.基于DALI的软件体系结构重构方法[J].现代计算机,2014,20(22):3-6.
3朱艳红,何东彬.基于XML文档检索的存储研究与实现[J].计算机系统应用,2007,16(5):49-52. 被引量：3
4李胜,胡和平.一种桌面无结构文档的实体识别方法[J].计算机工程与科学,2009,31(10):154-158.
5郑轶媛,李治柱.XML应用于信息检索的研究[J].计算机应用与软件,2006,23(12):90-91. 被引量：1
6蒋一峰,王华,张玉红,黄少林.基于Lucene的语义检索系统的设计和实现[J].计算机工程与设计,2008,29(20):5336-5337. 被引量：7
7覃遵跃,蔡国民,颜一鸣.XML文档集的结构连接算法研究[J].佛山科学技术学院学报（自然科学版）,2009,27(2):40-42. 被引量：1
8张丙奇,白硕,赵章界.XML数据相似度研究[J].计算机工程,2005,31(11):25-27. 被引量：6
9张少宏,李继巧,罗嘉怡,谢冬青,王婧.基于信息融合的网页文本聚类距离选择方法[J].广州大学学报（自然科学版）,2016,15(1):80-89.
10孙喜来,王欣,葛昂,郑家民,邓宏斌.面向相似度的多维异构数据比对模型研究[J].信息安全与技术,2011,2(9):71-76.

计算机工程与应用

2013年第11期

浏览历史

内容加载中请稍等...

XML文档语义检索方法研究被引量：4

参考文献23

二级参考文献28

共引文献45

同被引文献41

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

XML文档语义检索方法研究 被引量：4

参考文献23

二级参考文献28

共引文献45

同被引文献41

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

XML文档语义检索方法研究被引量：4