一种通过内容和结构查询文档数据库的方法(英文) 被引量：9

A Method to Query Document Database by Content and Structure

下载PDF

导出

摘要文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与系统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效. Structured documents are made up of a few logical components,such as title,sections,subsections and paragraphs.The components in each structured document can be represented by an ordered tree model,which can also be viewed as a hierarchical concept relationship.To meet the user抯 requirements for more precise and concentrated search results,the retrieval techniques should allow the user to retrieve document components with varying granularity.This paper presents a method to query document database by content and structure.The key idea is to construct a more comprehensive similarity function by taking advantage of the inherent hierarchical structure in documents.This work combines Information Retrieval techniques,semi-structured data query and proximate search for document documents.The proposed method is evaluated on the Encarta encyclopedia document set and the experimental results show that is can provice more accurate and focused answers than traditional document retrieval methods.

作者王晓玲文继荣栾金锋马维英董逸生

机构地区东南大学计算机科学与工程系微软亚洲研究院

出处《软件学报》 EI CSCD 北大核心 2003年第5期976-983,共8页 Journal of Software

基金 This work was performed while the first author was a visiting student at Microsoft Research Asia.

关键词文档数据库结构查询结构化文档计算相似度 document database information retrieval passage retrieval structured document

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1[1]Extensible Markup Language (XML) http://www.w3c.org/XML/.
2[2]Kaszkiel M, Zobel J, Sacks-Davis R. Efficient passage ranking for document databases. ACM Transactions on Information System, 1999,17(4):406～439.
3[3]Clarke CLA, Cormack GV. Shortest-Substring retrieval and ranking. ACM Transactions on Information System, 2000,18(1):44～78.
4[4]Cooper RJ, Rijger SM. A simple question answering system. In: Proceedings of the TREC-9. NIST Special Publication, 2000. http ://www. doc. ic. ac .uk/～srueger/index .html
5[5]McHugh J, Widom J. Query optimization for XML. In: Proceedings of the 25th International Conference on Very large Data Bases Edinburgh, Scotland, 1999. 315～326.
6[6]Goldman R, McHugh J, Widom J. From semistructured data to XML: Migrating the lore data model and query language. In: Proceedings of the 2nd International Workshop on the Web and Databases(WebDB'99). Philadelphia, 1999.25～30.
7[7]XML query. http://www.w3c.org/XML/Query.
8[8]Wang XL, Wen JR, Liu WY, Dong YS. Enhancive index for structured document retrieval. In: Proceedings of thel 2th International Workshop on Research Issues on Data Engineering: Engineering ECommerce/E-Business Systems (RIDE-2EC 2002, Workshop of ICDE 02). San Jose, California: IEEE, 2002. 34～38.

同被引文献109

1王静,孟小峰,王珊.基于区域划分的XML结构连接[J].软件学报,2004,15(5):720-729. 被引量：35
2唐宇,陈荦,何凯涛,景宁.空间信息栅格SIG框架体系与关键技术研究[J].遥感学报,2004,8(5):425-433. 被引量：16
3孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
4李波,赵文娟,李震.基于扩充关系模型的MDBMS研究[J].武警工程学院学报,2004,20(4):58-62. 被引量：1
5万常选,刘云生,徐升华,刘喜平,林大海.基于区间编码的XML索引结构的有效结构连接[J].计算机学报,2005,28(1):113-127. 被引量：38
6宋玲,马军,郭家义.支持XML信息检索的索引技术[J].计算机应用研究,2005,22(3):31-33. 被引量：5
7阚忠良.基于结构的文本信息检索技术的设计与实现[J].黑龙江大学自然科学学报,2005,22(3):393-396. 被引量：2
8阚忠良,李建中,杨艳.数字图书馆中文本信息检索技术的研究与实现[J].哈尔滨工业大学学报,2005,37(7):1007-1010. 被引量：3
9文继军,王珊.SEEKER:基于关键词的关系数据库信息检索[J].软件学报,2005,16(7):1270-1281. 被引量：45
10孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据索引技术[J].软件学报,2005,16(12):2063-2079. 被引量：55

引证文献9

1陈荦,吴秋云,景宁,唐宇.基于尺度选择性的空间数据源选择与预取策略[J].国防科技大学学报,2005,27(3):81-85.
2沙莎,罗巍,罗三定.基于重心向量分类算法的概念特征提取方法[J].计算机工程,2005,31(14):170-171.
3廖述梅,万常选,徐升华.XML信息检索探究[J].情报学报,2007,26(2):229-234. 被引量：6
4马军,陈竹敏,赵嫣,雷景生.基于部分-整体匹配的文档结构相似度计算[J].模式识别与人工智能,2007,20(5):630-635. 被引量：2
5李军.基于XML文档数据库的信息检索系统研究[J].江西图书馆学刊,2009,39(1):112-113.
6邓小善,陈海军.校园网多媒体数据库的设计与实现[J].计算机与数字工程,2009,37(5):153-156. 被引量：2
7刘彦瑜,李军.一种改进的基于LI-MOON编码的XML索引研究[J].世界科技研究与发展,2009,31(6):1060-1062.
8华晨彦,邹艳珍,朱子骁,谢冰.基于代码模式的软件问答文档检索优化方法[J].计算机科学与探索,2017,11(10):1591-1598. 被引量：1
9陈亮,徐大程,刘大磊,蒋睿,刘磊.基于数据库的巴基斯坦拉合尔橙线综合联调联试文档管理[J].现代城市轨道交通,2021(2):85-89.

二级引证文献11

1姜科,陆伟,姜捷璞,刘丹.XML检索系统及其比较研究[J].现代图书情报技术,2007(10):66-70. 被引量：4
2刘德喜,吴世汉,万常选.XML文本自动文摘研究综述[J].计算机应用研究,2009,26(11):4014-4018.
3王春秀.信息检索研究进展[J].农业图书情报学刊,2010,22(8):115-117. 被引量：2
4刘娅.基于对象关系的校园网多媒体数据存储管理探讨[J].长江大学学报（自科版）（上旬）,2010,7(3):587-588.
5党杨阳.XML信息检索技术综述[J].甘肃科技,2011,27(19):40-42.
6康琪,马军.有向标记根树之间的语义编辑距离[J].模式识别与人工智能,2011,24(6):816-824.
7钟金琴,辜丽川.基于XML的农作物病虫草害数据检索系统的研究[J].合肥工业大学学报（自然科学版）,2013,36(8):943-947.
8曾宪文.网络多样性环境下校园网发展浅议[J].新课程（教育学术）,2014(4):128-129.
9陈洁.主观操作题的XML形式化表达及自动评阅[J].计算机系统应用,2014,23(7):170-174.
10李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.

1范轶彦,朱利群,郭国强.一种基于内容权值的结构化文档检索方法[J].辽宁工学院学报,2004,24(6):18-21.
2陈闻杰.面向软件学院的“计算机网络”教学[J].计算机教育,2012(5):88-90.
3王忠民.金融科技发展的内在逻辑[J].金融电子化,2017(2):8-10. 被引量：1
4微软悄悄关闭ENCARTA百科[J].电脑爱好者,2009(9):60-61.
5许丞,彭瀚,马龙,李双峰.AskTheWeb——一个基于Web的问题回答原型系统[J].华南理工大学学报（自然科学版）,2004,32(z1):11-17. 被引量：1
6朱斐.一种结构化文件的访问控制模型的设计和实现[J].微机发展,2005,15(4):132-134. 被引量：6
7网络时代的悲哀:微软关停大百科全书Encarta[J].计算机与网络,2009,35(8):6-6.
8Jim Seymour.追求永无止境[J].个人电脑,2000,6(11):70-70.
9MSN上练英语学百科[J].科技展望（幻想大王）,2006(22):20-20.
10八通天.微软最新百科全书系列Encarta 2001[J].广东电脑与电讯,2001(4):82-83.

软件学报

2003年第5期

浏览历史

内容加载中请稍等...

一种通过内容和结构查询文档数据库的方法(英文) 被引量：9

参考文献8

同被引文献109

引证文献9

二级引证文献11

相关作者

相关机构

相关主题

浏览历史