期刊文献+

基于特征码的大规模XML文档去重研究 被引量:1

下载PDF
导出
摘要 本文总结了目前基于XML文档的一些信息检索技术,并通过一种特征码技术,将海量的XML文档中内容重复的文档检索出来。利用可以将XML文档映射到关系数据库中的X-RESTORE技术管理、存储、查找XML文档,并利用它的解析器快速定位特征码。将特征码通过高效的B+树来索引,大大提高系统的处理效率。
出处 《中国管理信息化(综合版)》 2006年第7期75-77,共3页 China Management Informationization
基金 国家自然科学基金项目(60473042)
  • 相关文献

参考文献2

二级参考文献5

  • 1胡盈盈.单汉字标引与检索技术综析[M].南京大学信息管理系,..
  • 2张政保.全文数据库研究[M].中山大学,1995..
  • 3杨沛.全文数据库索引机制的比较研究[M].中国科技信息研究所,1995..
  • 4Lucene 1.2-RC4 API.http://jakarta.apache.org/lucene/docs/api/index.html, 2002.
  • 5java offical web site.http://java.sun.com/,2002.

共引文献23

同被引文献21

引证文献1

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部